Vous êtes sur la page 1sur 79

1

Analyse Statistique Multivariée

1M-ING
Année académique 2018-2019

Titulaire : Céline Azizieh

Syllabus – partie 1
2
3

Table des matières

Chapitre 0: Introduction ....................................................................................................................... 7


Chapitre 1: Rappels en statistique élémentaire .................................................................................. 10
1.1 Vocabulaire et définitions de base .......................................................................................... 10
1.2 La collecte des données ........................................................................................................... 12
1.3 Statistique descriptive – tableaux et graphiques ..................................................................... 13
1.4 Statistique descriptive: Les indicateurs statistiques ................................................................ 28
1.4.1 Paramètres (ou mesures) de position................................................................................... 28
1.4.2 Paramètres (ou mesures) de dispersion ............................................................................... 39
1.4.3 Règle empirique .................................................................................................................. 43
1.4.4 Paramètres de forme : coefficients de dissymétrie et d’aplatissement ................................ 45
1.4.5 Remarques sur les indicateurs statistiques .......................................................................... 46
1.4.6 Boîte à moustaches (BM) .................................................................................................... 48
1.4.7 Utilisation du tableur MS Excel .......................................................................................... 49
Chapitre 2: Statistique bivariée .......................................................................................................... 52
2.1 Moyennes, variances et écart-types marginaux....................................................................... 52
2.2 La covariance .......................................................................................................................... 54
2.3 Coefficient de corrélation ........................................................................................................ 57
2.4 Corrélation et causalité ............................................................................................................ 60
2.5 Régressions linéaires simples – méthode des moindres carrés ............................................... 63
2.5.1 Applications et exemples .................................................................................................... 67
Appendice : Quelques outils ................................................................................................................... 74
Symbole de sommation ....................................................................................................................... 74
Fonction exponentielle ........................................................................................................................ 75
Fonction logarithme............................................................................................................................. 76
Dérivée et intégrale d’une fonction ..................................................................................................... 76
Alphabet grec....................................................................................................................................... 77
4

Contrat didactique

Activité d’enseignement : Analyse statistique multivariée


Heures : 30

Prérequis et articulation avec le cursus


Connaissances élémentaires en analyse mathématique : notion de dérivation et d’intégration.
Connaissance des fonctions élémentaires tels polynômes, logarithmes et exponentielles (règles de
calcul, pouvoir dessiner le graphes de telles fonctions).
Algèbre élémentaire : pouvoir résoudre une équation algébrique d’ordre 1 et 2.
Algèbre linéaire : éléments de calcul matriciel (opérations élémentaires sur les matrices, recherche des
valeurs propres d’une matrice, matrice d’une application linéaire).
Connaissances élémentaires en statistique univariée et en calcul des probabilités : moyenne, variance,
fonction de répartition, distributions usuelles.

Compétences de formation développées


Les compétences sont à placer dans le contexte général de l’appropriation de la notion de modèle
mathématique et de son utilisation pratique en gestion, ce qui implique :
 L’appropriation du contenu des modèles statistiques de façon à les utiliser de manière optimale
en gestion, en toute connaissance de leur contenu et de leurs hypothèses implicites.
 L’acquisition d’une certaine indépendance visant à chercher éventuellement d’autres modèles
plus appropriés

Objectifs de l’activité d’enseignement


Le but est d’amener l’étudiant à poser un problème de gestion de bases de données et à mettre en place
différentes techniques de représentation de ces données, et également d’en estimer une paramétrisation
interprétable et utilisable concrètement.

L’étudiant doit donc être capable de réaliser une analyse descriptive d’une série statistique bivariée ou
multivariée, d’estimer ses paramètres statistiques et pouvoir les interpréter dans un cadre de gestion.

Contenu du cours
 Rappels en statistique élémentaire : représentation de séries statistiques et indicateurs
statistiques
 Analyse de séries statistiques bivariées – régressions linéaires simples
 Méthodes de régression linéaires (LSS), exponentielles et logarithmiques conduisant à
l’estimation et interprétation des paramètres d’un modèle statistique
 Régressions linéaires multiples
 Analyse en composantes principales et applications
 Chapitres optionnels: Régression paramétrique, Introduction à la régression robuste
5

Organisation des séances de cours


Les séances de cours seront divisées en deux parties : les cours magistraux (±50%) et les séances
d’exercice (±50%). Les étudiants sont tenus d’arriver à l’heure ; un étudiant en retard doit attendre
l’heure suivante pour entrer dans la salle de cours. Le silence est exigé en classe, et les téléphones
doivent être éteints. Les ordinateurs portables sont tolérés si et seulement si ils sont utilisés pour des
raisons directement liées au cours (prise de notes, lecture du syllabus, etc.) ; il est donc interdit de
consulter des sites n’ayant aucun rapport avec le cours pendant celui-ci. Il est interdit de manger/boire
dans la classe.

Modalités et critères d’évaluation :


La matière d’examen correspond à tout ce qui a été couvert au cours, noté au tableau ou pas.

L’évaluation prendra la forme d’un examen écrit composé des éléments suivants :
1. un ensemble de questions théoriques évaluant le niveau de savoir acquis par l’étudiant ;
2. un ensemble de questions pratiques évaluant la compétence des étudiants à appliquer des
techniques de calcul et à critiquer les ordres de grandeur des résultats obtenus ;
3. des questions d’interprétation portant sur des résultats d’analyse effectués sur des données

ainsi que d’un ou plusieurs travail(aux) pratique(s).

Toutes les réponses doivent être justifiées, une réponse par oui ou par non est insuffisante. Ne
proposez pas un calcul sans expliquer votre motivation. Commentez tous vos résultats. Et montrez
toutes les étapes des calculs : un résultat, même correct, non justifié n’est pas accepté. Il faut éviter les
ambiguïtés dans vos explications et calculs. Il faut aussi éviter les incohérences.

La durée de l’examen sera indiquée sur les feuilles ; elle ne correspond pas à la durée de réservation de
la salle dans laquelle l’examen se déroule.

Le matériel autorisé le jour de l’examen est le suivant, à l’exclusion de quoi que ce soit d’autres :
1. une carte d’étudiant ou une carte d’identité ;
2. de quoi écrire (mais pas de trousse) ;
3. une calculatrice (l’utilisation de la calculatrice des téléphones est bien entendu interdite), ainsi
qu’une pile de rechange ou une deuxième calculatrice de rechange (le prêt de calculatrice entre
étudiants est interdit) ; la mémoire des calculatrices programmables sera effacée par un
surveillant au début de l’examen ;
4. une collation raisonnable.

Les couvre-chefs (chapeaux, casquettes, etc) sont interdits le jour de l’examen, y compris les casques
antibruit. Il en va de même pour les écouteurs et les bouchons anti-bruit.

Support(s) de cours et bibliographie :


Pour suivre le cours l’étudiant doit être muni d’une calculatrice, des syllabus de théorie et d’exercices,
et de ses notes de cours.

Bibliographie :
 La statistique par l’analyse - Daniel Justens – Editions du Céfal, 2004
 Statistiques de la gestion - Léonard J. Kazmier - Série Schaum
6

 Eléments de statistique, J.-J. Droesbeke – Editions de l’Université Libre de Bruxelles, 2001


7

Chapitre 0: Introduction
La statistique a envahi de nombreux domaines : la science, l'économie, la politique, la pédagogie, la
psychologie, la médecine, les assurances, les sciences sociales, la gestion des finances de l’Etat, etc.

Le monde qui nous entoure est rempli d’incertitudes. Pour mieux le comprendre et gérer ces
incertitudes, de nombreuses données sont recueillies. La statistique vise notamment à départager
l’information du bruit qu’on y retrouve.

Presque tous les problèmes d’ordre social et de gestion sont « quantifiés » par le biais de statistiques et
tant les fonctionnaires de l’administration que les travailleurs du secteur privé conseillant les décideurs
– en particulier dans le domaine de la banque et de l’assurance – doivent être capables de comprendre
une étude statistique et d’en interpréter les résultats.

Les sociétés modernes sont submergées de statistiques, et il serait difficile de bien fonctionner sans
elles. Il nous faut des résumés quantitatifs – donc, des statistiques – pour comprendre le monde et
prendre des décisions éclairées. Depuis des siècles cependant, l'homme a souvent tenu une
comptabilité des personnes et des choses avec l'espoir d'utiliser les données du passé pour la résolution
e
des problèmes du présent et la prévision des événements futurs. Ce n'est qu'à la fin du XIX siècle que
se sont développées des méthodes statistiques rigoureuses, permettant en particulier une bonne
interprétation des données recueillies.

L’outil statistique est cependant souvent mal utilisé, en particulier par les journalistes (ex. dans leurs
sondages, choix d’échantillons trop restreints ou mauvaise interprétation des intervalles de confiance /
marges d’erreur) et les financiers (erreurs délibérées dans certains graphiques ou analyses afin d’inciter
les investisseurs à investir dans certains fonds). Par ailleurs, certains logiciels biaisent les résultats et
induisent en erreur l’utilisateur. Une bonne connaissance des concepts et des hypothèses sous-jacentes
à l’établissement des résultats obtenus lors d’études statistiques est donc impérative pour tout
utilisateur de l’outil statistique.

Qu’est-ce que la statistique ?

Les statisticiens eux-mêmes ne sont pas tous d’accord sur une définition universelle de la statistique,
comme le montrent ces quelques exemples :
 Trésor de la langue française : « Branche des mathématiques ayant pour objet l’analyse
(généralement non exhaustive) et l’interprétation de données quantifiables» ;
 Stuart et Ord (1991) : « Branche de la méthode scientifique qui s’occupe des données obtenues
en comptant ou en mesurant les propriétés de populations » ;
 Rice (1995) : « Principalement composée de procédures d’analyse de données, et plus
particulièrement de données qui, dans un vague sens au moins, ont un caractère aléatoire » ;
 Freund et Walpole (1987) : « Science du développement d’inférences sur base de données
observées et du problème de la prise de décision face à l’incertitude» ;
 Mood, Graybill, et Boes (1974) « Technologie de la méthode scientifique qui possède deux
buts : premièrement, élaborer des expériences et des investigations ; deuxièmement, établir des
inférences ».

Sans prétendre donner une définition qui réconcilie toutes celles-là, contentons-nous d’en relever les
éléments qui y reviennent le plus couramment. On peut ainsi dire qu’il s’agit d’une discipline des
8

mathématiques dont le principe est l’analyse d’un ensemble de données réelles, raison pour laquelle on
la qualifie parfois de théorie de l’information.

On pourrait résumer la statistique comme la science qui collecte, analyse et interprète des
observations relatives à un même phénomène ; elle étudie méthodiquement un ensemble de données
numériques, ce qui permet de faire un état de la situation présente et passée, de présenter ces données
d'une manière intelligible et synthétique, et surtout de servir de base à la prévision.

Il en résulte qu’une étude statistique se découpera généralement en trois phases :

 La collecte des informations est la phase préparatoire et probablement la plus délicate : elle
consiste à définir la population étudiée, choisir le caractère étudié, vérifier si l’échantillon
choisi est représentatif de la population. C’est de la qualité de cette collecte que dépendra la
validité des résultats trouvés.
 L’analyse des informations recueillies consiste à déterminer un certain nombre de
caractéristiques mathématiques/statistiques relatives à la série statistique étudiée.
 L’interprétation des résultats obtenus lors de l’analyse permet au statisticien de tirer un
certain nombre de conclusions et de suggérer les décisions à prendre.

Qu’est-ce que l’analyse statistique multivariée ?

L’objectif de l’analyse statistique multivariée est d’étudier les interrelations entre plusieurs variables
statistiques figurant dans une base de données, et, si possible, d’en généraliser les conclusions par
« inférence statistique ».

L’analyse multivariée a pris de plus en plus d’importance au cours de ces 20 dernières années avec
l’avènement des nouvelles technologies, impliquant des sources de données de plus en plus
nombreuses et complexes. La plupart des méthodes de cette discipline sont nées avant la seconde
guerre mondiale, mais leur application posait de multiples problèmes pratiques : calculs longs et
fastidieux, en l’absence d’ordinateur…

Qu’appelle-t-on données statistiques ? Lorsqu'on note chaque semaine pour une entreprise le chiffre
d'affaire, le nombre de commandes, le nombre de nouveaux clients, etc... , il s'agit de statistiques.

Afin d’étudier les risques cardio-vasculaires de ses patients, un médecin peut remplir pour chacun
d'eux une fiche notant un certain nombre de caractéristiques. Il s'agit ici aussi de statistiques (ou de
données statistiques), c'est-à-dire un ensemble de mesures ou d'observations concernant l'état ou
l'évolution d'un certain phénomène.

Dans une compagnie d’assurance, les montants des sinistres enregistrés chaque année pour les
différents contrats d’assurance, mais aussi les caractéristiques des clients ou des risques assurés de ces
contrats, constituent des statistiques.

Statistique descriptive versus inférentielle

La statistique est composée de 2 disciplines : la statistique descriptive et la statistique inférientielle

La statistique descriptive désigne l’ensemble des méthodes qui permettent de représenter les données
sous une certaine forme et de les résumer à l’aide de valeurs caractéristiques, afin de rendre ces
données immédiatement exploitables.
9

La statistique inférentielle désigne l’ensemble des méthodes qui permettent d’étendre à une
population les propriétés d’un échantillon sélectionné au sein de celle-ci, et de valider ou d’infirmer
des hypothèses formulées a priori à son propos. Elle permet donc de prédire, avec un certain risque
d’erreur, les paramètres inconnus de la population à partir des caractéristiques d’un échantillon extrait
de cette même
population.

Une autre discipline des mathématiques joue un grand rôle dans l’étude de la statistique : la théorie
des probabilités, avec laquelle elle forme les sciences de l’aléatoire. D’une part, les phénomènes
observés et décrits par la statistique descriptive peuvent être représentés par des modèles ou par des
lois dont la définition repose sur des notions définies dans la théorie des probabilités. D’autre part, les
méthodes de la statistique inférentielle reposent sur des résultats issus de cette théorie. Ces deux
disciplines ne sont pas fondamentalement opposées (comme on le lit trop souvent), mais se complètent
l’une l’autre.

La statistique à l’époque des « big data »

Des milliards d’euros sont dépensés chaque année par les industries et les gouvernements de tous les
pays du monde pour collecter des données, que ce soit via des expériences, des sondages ou d’autres
procédures. Ces montants gigantesques sont dépensés dans l’unique but d’obtenir des informations à
propos des phénomènes mesurables dans tous les domaines (dans les sphères économiques,
scientifiques, etc.), et donc de mieux les comprendre.

Depuis les années 2000, ce fait est encore plus vrai : les ensembles de données disponibles se
multiplient, et avec eux les efforts déployés pour récolter celles-ci. Les décideurs, depuis les
entrepreneurs de PME jusqu’aux membres des gouvernements, font face à des quantités formidables
d’informations, qu’il s’agit de comprendre et d’utiliser.

Les contributions de la statistique sont donc plus que jamais cruciales, et ce à tous les niveaux de notre
société.

Sources :

Ce syllabus a été construit principalement sur base de l’ouvrage La statistique par l’analyse, de Daniel
Justens (Editions du Céfal, 2004), professeur honoraire à la Haute Ecole Francisco Ferrer.
10

Chapitre 1: Rappels en statistique élémentaire

1.1 Vocabulaire et définitions de base


Une population est un ensemble soumis à une étude statistique. Plus précisément, la grande collection
d’objets, d’individus, d’éléments, etc. sur laquelle se porte notre intérêt est appelée la population. Elle
peut être réelle et finie (par exemple l’ensemble des Belges) ou infinie et virtuelle (par exemple, toutes
les pièces d’un certain type qui seront produites par une usine donnée dans le futur).

Les éléments de celle-ci sont parfois appelés unités de population ou unités statistiques ou encore
individus. La population correspond donc à l’ensemble de tous les individus.

Les individus sélectionnés et étudiés dans le cadre d’une étude statistique constituent l’échantillon.
C’est donc un sous-ensemble de la population.

Ce processus est illustré à la figure ci-dessous.

 Exemples de population : l’ensemble des assurés de plus de 50 ans d’une compagnie


d’assurance, l’ensemble des hommes belges ayant exercé la profession d’enseignant dans une
haute école ou à l’université, l’ensemble des femmes belges habitant dans la région de
Bruxelles-Capitale…

La sélection d’un échantillon adéquat est un problème complexe et fait l’objet de plusieurs méthodes
que nous n’aborderons pas dans ce cours, si ce n’est que très brièvement dans la section suivante.

Une série statistique est un ensemble de valeurs collectées portées sur une liste comme, par exemple,
la taille des élèves d'une classe, le nombre de voix obtenues par l'ensemble des personnes sur une liste,
etc.

Une variable statistique (ou un caractère statistique) est une propriété étudiée sur les individus
d’une population donnée.

Les variables statistiques seront notées par des majuscules (X; Y; Z), les valeurs observées pour cette
variable par des minuscules (x; y; z).
11

On distingue deux types de variables : qualitative et quantitative.

 Une variable statistique est qualitative si elle décrit des qualités, càd des valeurs qui ne
peuvent pas s’additionner, qui ne s’exprime pas comme la mesure de quelque chose, comme
par exemple, la couleur des yeux, la marque d'une voiture, l'activité professionnelle, la
nationalité etc.

 Une variable est quantitative décrit des quantités. Concrètement, on peut lui attribuer une
valeur numérique (un nombre), et on peut les traiter mathématiquement par des opérations
comme l’addition, la soustraction, etc. On a par exemple l'âge, le poids, le revenu annuel, l’âge
au moment du décès, le montant d’un sinistre, la température d’un malade, le résultat obtenu
dans le lancer d’un dé etc.

Une variable quantitative peut être discrète ou continue.

 Une variable quantitative discrète peut être représentée par un nombre fini ou infini
dénombrable de valeurs.
o Ce sera, par exemple, le nombre d’enfants par famille, le nombre d’hospitalisations par
patient, le résultat obtenu lors du lancer d’un dé, le nombre de pétales dans une fleur,
etc.

 Une variable quantitative continue peut prendre toutes les valeurs possibles dans un
intervalle donné [a, b] de la droite réelle (càd un ensemble infini non dénombrable de valeurs).
o Par exemple, le poids, la taille, l’âge, la concentration en ozone ou en calcium, la
température d’un malade sont des variables qualitatives continues. En effet, si je dis que
je pèse 67 kg, c’est une approximation : je pèse, en réalité entre 66.5 et 67.5 kg ou entre
66.6 et 67.4 kg ou ... concrètement, toutes les valeurs possibles entre 0 et (disons) 350
sont admissibles. On dit qu’on a un « continuum » de valeurs possibles.

Autres exemples :
 Si l’on s’intéresse au nombre d’accidents de voiture provoqués par une population d’assurés
d’une compagnie d’assurance. Cette variable est clairement discrète car les valeurs observées
sont des nombres naturels (généralement inférieurs ou égaux à 6). Le nombre d’assurés d’une
compagnie d’assurance est en général suffisamment grand pour que l’on puisse observer toutes
les valeurs possibles un nombre suffisant de fois. On va traiter ces variable comme des
variables discrètes.
 On s’intéresse au solde des comptes en banque des clients d’une banque à la fin du mois. La
banque ne comporte que 3000 clients, avec des soldes variant de -2500 à 2500 euros, et avec
utilisation de seulement 2 décimales. Ces soldes possibles sont donc en nombre fini.
Cependant, il est très lourd de traiter chaque valeur observable possible (elles sont au nombre
de 500 000 si l’on travaille au cent près). Un traitement continu sera alors mis en œuvre : on
travaillera sur l’intervalle [-2500, 2500] et on travaillera avec des classes (voir plus loin dans ce
chapitre).

Dans ce qui suit, nous nous limiterons à l’étude de séries statistiques quantitatives.

Remarque : Quelle que soit la nature de la variable il faut toujours s'assurer qu'elle est définie pour
chaque individu sans ambiguïté : pour chaque individu et chaque variable il doit y avoir une et une
seule valeur.

Une statistique est une quantité calculée à partir des valeurs d’un échantillon. Par exemple, la
consommation moyenne de lait des ménages belges est une statistique calculée à partir d’un
échantillon de ménages belges prélevé au hasard au sein de la population belge totale.
12

1.2 La collecte des données


Les enquêtes par sondage ont été développées à partir des années 1930 avec l’américain Gallup,
fondateur de l’institut qui porte son nom. La technique du sondage s’applique aux sciences sociales et
politiques, mais aussi dans le domaine de l’économie et de la gestion.

Le sondage consiste à estimer la proportion d’une population dotée d’un certain caractère en mesurant
cette proportion sur une partie seulement de la population, que l’on appelle l’échantillon.

Le choix d’un échantillon n’est pas simple. Il faut décider de sa taille (le nombre d’individus) et du
choix des individus. Afin que le sondage soit utile, il faut que la valeur estimée de la variable
statistique à l’aide du sondage (relative à l’échantillon, donc) soit « suffisamment proche » de la
« vraie » valeur, inconnue (c’est justement celle que l’on cherche en faisant le sondage) de la
population totale. L’échantillon doit être assez petit pour que le sondage soit concrètement réalisable et
économiquement viable, mais pas trop petit, car il faut qu’il puisse vraiment représenter la population
par rapport au caractère statistique étudié.

Un exemple extrême : supposons que l’on veuille étudier la proportion de femmes parmi les clients
d’un magasin. Si l’on cherche à estimer cette proportion en considérant un échantillon composé d’un
seul individu, il sera constitué soit de 100% d’hommes, soit de 100% de femmes. On arrive alors à une
estimation très loin de la vraie valeur (qui n’est pas connue, mais que l’on sait différente de 100% de
clients du même sexe). Combien de clients faut-il donc prendre pour avoir un bon échantillon ?

Le choix de l’échantillon peut se faire à l’aide de deux techniques différentes : soit par la méthode des
quotas, soit par la méthode probabiliste, aussi appelée méthode aléatoire.

Selon la méthode des quotas, il faut que l’échantillon présente les mêmes proportions de certains
caractères de la population qu’il représente (on vise ici les caractères relevants pour le problème
étudié…). Par exemple, la même répartition par âge (dans le cas où la variable statistique qui nous
intéresse est a priori liée à l’âge).

Dans la méthode probabiliste ou aléatoire, le choix de l’échantillon se fait au hasard : on sélectionne


au hasard dans la population totale les éléments de l’échantillon. De cette façon, chaque membre de la
population a une chance égale de figurer dans l’échantillon.

Les avantages de la méthode des quotas sont l’économie, la rapidité et la souplesse d’utilisation,
notamment pour les enquêtes délicates. Les inconvénients dont les risques d’erreur systématique due à
la sélection dont les enquêteurs sont consciemment ou inconsciemment responsables. La méthode
probabiliste est moins souple et de coût plus élevé (notamment car il faut sélectionner davantage de
membres dans l’échantillon), mais le risque d’erreur peut être contrôlé et mesuré grâce à la théorie des
probabilités. Elle est par exemple davantage appliquée pour des sondages réalisés en entreprise (ou en
groupe d’individus réduit de manière générale). Un nouveau problème se pose cependant : celui de
pouvoir reproduire le hasard artificiellement.

On peut aussi combiner les avantages de la méthode probabiliste et de la méthode des quotas.

Quelle que soit la méthode choisie, souvent il faut redresser l’échantillon pour résoudre des problèmes
survenus lors du sondage proprement dit. Par exemple, si plusieurs personnes n’ont pas répondu à un
sondage par téléphone, il faut décider si l’effectif sera maintenu ou pas : il faut décider si des individus
13

devront être ajoutés à l’échantillon initialement prévu pour prendre la place de ceux qui n’ont pas
répondu.

Le nombre d'individus étant généralement grand, voire très grand, une série brute est difficilement
lisible et interprétable. Il est indispensable de la résumer.

Pour cela, on commence par un tri à plat, on fait un décompte des modalités ou valeurs obtenues de la
série, qui nous servira de base à la construction de tableaux et de graphiques.

Nous allons voir les choses de plus près sur des exemples dans les sections qui suivent.

1.3 Statistique descriptive – tableaux et graphiques


Nous allons étudier comment établir des tableaux résumant l’information contenue dans une série
statistique. Nous traiterons chaque cas à travers d’abord d’exemples.

1.3.1 Variables quantitatives discrètes – Tableaux


Exemple 1 :
On suppose que dans un sac se trouvent différentes boules numérotées de 1 à 4.
On effectue 20 tirages successifs en remettant à chaque fois la boule tirée dans le sac. Voici les boules
tirées lors de ces 20 tirages:
1, 3, 2, 4, 3, 2, 2, 3, 4, 2, 1, 3, 1, 2, 4, 1, 3, 2, 2, 3.

La même série ordonnée s’écrit :


1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4.

On peut organiser ces données. Nous constatons que le caractère observé, c’est-à-dire, la boule tirée,
prend des valeurs entre 1 et 4. Ce sont les valeurs prises par la série ou modalités xi.

La différence entre les deux valeurs extrêmes (la plus grande et la plus petite) s'appelle l'étendue de la
série. Dans notre exemple : 4 – 1 = 3. On a donc x1 = 1 ; x2 =2 ; x3=3, x4=4.

Certaines valeurs de xi reviennent plusieurs fois lors des 20 tirages: le nombre de fois que la valeur xi
se rencontre est nommé effectif ou fréquence absolue de cette valeur. On le note ni.

L'ensemble des couples (xi, ni) est la table des effectifs, que l’on peut ranger dans un tableau :

xi ni
1 4
2 7
3 6
4 3

La première colonne de ce tableau contient donc les modalités de la série, et la seconde les effectifs
(ou fréquences absolues) de chaque modalité.

L'effectif total N est le nombre d'éléments de la population:


14

𝑁 = 𝑛1 + 𝑛2 + 𝑛3 + 𝑛4 = ∑ 𝑛𝑖
𝑖=1

Dans l’exemple présent : N = 4+7+6+3 = 20.

La fréquence relative d’une valeur est le rapport de son effectif à l'effectif total. On la note 𝑓𝑖 :
𝑛𝑖
𝑓𝑖 =
𝑁

Par exemple, si l’on veut calculer la fréquence relative de la boule 2 :


𝑛2 7
𝑓2 = = = 0,35 = 35%
𝑁 20
Cela veut dire que 35% des tirages ont donné des boules numérotées avec le numéro 2.

En notant dans un tableau les modalités, les effectifs et les fréquences (relatives), on tient un tableau de
fréquence :

Fréquences
Modalités Effectifs relatives
(xi) (ni) (fi)
1 4 0,2
2 7 0,35
3 6 0,3
4 3 0,15

Question : Combien de fois a-t-on tiré des boules numérotées avec un numéro inférieur ou égal à 3 ? Il
s’agit donc des cas où la boule était numérotée avec 1, 2, ou 3. La réponse s’écrit :

𝑛1 + 𝑛2 + 𝑛3 = 4 + 7 + 6 = 17.
L'effectif cumulé de xi est la somme des effectifs de toutes les valeurs inférieures ou égales à xi. On le
note Ni et on a :
𝑖

𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 = ∑ 𝑛𝑗
𝑗=1
Il représente le nombre de fois que l'on rencontre une valeur au plus égale à xi.

L'ensemble des couples (xi, Ni) rangé dans un tableau nous donne la table des effectifs cumulés.

xi Ni
1 4
2 11
3 17
4 20

La fréquence cumulée de la valeur xi est le rapport de l'effectif cumulé à l'effectif total ; elle est
notée :
𝑁𝑖
𝐹𝑖 =
𝑁
15

𝑁3 17
Par exemple, on a : 𝐹3 = = 20 = 0,85, ce qui signifie que 85% des boules tirées étaient des boules
𝑁
numérotées 1, 2 ou 3.

Remarque : La convention de notation que l’on a adoptée ici est l’usage d’une minuscule pour les
effectifs ou les fréquences non cumulés, et d’une majuscule pour les effectifs ou les fréquences
cumulés.

Complétons la table des effectifs construite plus haut avec les effectifs cumulés, les fréquences
relatives non cumulées et cumulées:

Effectifs Fréquences Fréquences


Modalités Effectifs relatives cumulées
cumulés relatives
(xi) (ni)
(Ni) (fi) (Fi)
1 4 4 0,2 0,2
2 7 11 0,35 0,55
3 6 17 0,3 0,85
4 3 20 0,15 1

Le tableau ainsi obtenu est ce qu’on appelle un tableau recensé.

Un tableau recensé est le tableau obtenu en classant les valeurs de la variable (ou modalités) par ordre
croissant. De plus, il doit indiquer les effectifs, les fréquences relatives, les effectifs cumulés et les
fréquences cumulées de chaque valeur (ou de chaque classe).

On laisse parfois une ligne supplémentaire (comme dans le tableau ci-dessus), pour y noter les sommes
des valeurs de la colonne. Un conseil : n’additionner les valeurs qu’en cas de besoin. Donc, dans la
colonne des effectifs, la dernière ligne (la ligne où on note les sommes), représente la somme des
effectifs, c’est-à-dire, l’effectif total. Dans la colonne des fréquences (et pas des fréquences cumulées
!), à la dernière ligne (celle des sommes), on trouvera toujours « 1 ». Souvenez-vous, les fréquences
représentent des pourcentages des effectifs. La somme doit être l’unité, car 100% = 1, c’est-à-dire tout
l’effectif. Effectuer ces sommes peut donc être utile à titre de vérification…

Il est possible que, à cause des arrondis lors des calculs des fréquences, la somme de celles-ci ne soit
pas égale à 1 exactement, mais celle-ci doit toujours être très proche de 1. Si lors d’un
exercice/question d’examen, vous trouvez une valeur différente de 1, ajoutez une petite phrase pour
expliquer cela. Ces justifications sont très importantes pour votre évaluation car elles montrent que
vous avez bien compris le problème.

1.3.2 Variables quantitatives discrètes - Représentations graphiques


Une série statistique peut être représentée par de nombreux graphiques et diagrammes : il suffit
d’ouvrir un tableur et de voir tout ce que l’on propose à l’utilisateur. Voici quelques exemples
construits sur base de l’exemple 1 de la section précédente:
16

On peut aussi construire les diagrammes des fréquences et des fréquences cumulées. On en reparlera avec
les histogrammes (voir plus loin).

1.3.3 Variables quantitatives discrètes – Tableaux avec regroupement en


classes
Exemple 2 :
48 élèves participent à un examen noté sur 40. L’ensemble des notes obtenues constitue une série
statistique quantitative discrète.

Voici les différents résultats (les notes des 48 élèves):

24, 24, 14, 16, 24, 22, 19, 27, 8, 24, 23, 21, 22, 20, 16, 15, 20, 18, 23, 22, 22, 23, 31, 34,
19, 26, 36, 29, 19, 26, 28, 22, 20, 17, 13, 13, 21, 19, 31, 22, 33, 31, 24, 17, 30, 20, 22, 23.

Procédons comme dans l’exemple précédent et transformons ce tableau brut en un début de tableau
recensé. On voit déjà que 8 est la note minimale, et 39 la note maximale.

xi ni Ni xi ni Ni xi ni Ni
8 1 1 18 1 10 28 1 40
9 0 1 19 4 14 29 1 41
10 0 1 20 4 18 30 1 42
11 0 1 21 2 20 31 3 45
17

12 0 1 22 7 27 32 0 45
13 2 3 23 4 31 33 1 46
14 1 4 24 5 36 34 1 47
15 1 5 25 0 36 35 0 47
16 2 7 26 2 38 36 1 48
17 2 9 27 1 39

Ce tableau volumineux ne nous donne pas une idée précise de la distribution des données. Nous allons
plutôt les grouper en classes afin d’avoir une information plus synthétique (et donc plus parlante).
re
Au lieu de travailler avec les notes en première colonne, on va y mettre les différentes classe. La 1
colonne sera donc la liste des différentes classes avec leurs limites (supérieure et inférieure). Le choix
de cet intervalle dépend de l'étendue du tableau et du nombre d'éléments. Créons par exemple des
intervalles de cinq unités comme suit:

[7,5 ; 12,5], ]12,5 ; 17,5], ]17,5 ; 22,5], ]22,5 ; 27,5], ]27,5 ; 32,5], ]32,5; 37,5].

Remarques :
 les classes ont été choisies de sorte que toutes les valeurs du tableau, c’est-à-dire, toutes les
variables, appartiennent à une seule des classes : on le voit dans le fait que les intervalles sont
fermés en leurs bornes supérieures, et ouverts en leurs bornes inférieures (sauf le premier et le
dernier…);
 il ne faut pas prendre trop de classes : le tableau aurait trop de lignes et il serait difficile d’y
dégager des informations utiles.
e
La 2 colonne de ce nouveau tableau précisera le centre de chaque classe : il s’agit de la moyenne
arithmétique des limites/bornes de la classe :

La 3e colonne donnera l’effectif (ou fréquence absolue) de chaque classe (𝑛_𝑖) ;


La 4e colonne donne la fréquence relative de chaque classe (fi ) ;
La 5e colonne donne l’effectif cumulé de chaque classe (𝑁_𝑖) ;
La 6e colonne donne la fréquence relative cumulée de chaque classe (𝐹𝑖 ).

On obtient alors le tableau suivant, plus synthétique que le précédent :

Classes c_i n_i f_i N_i F_i


[7,5 ; 12,5] 10 1 0.020833 1 0.020833
]12,5 ; 17,5] 15 8 0.166667 9 0.1875
]17,5 ; 22,5] 20 18 0.375 27 0.5625
]22,5 ; 27,5] 25 12 0.25 39 0.8125
]27,5 ; 32,5] 30 6 0.125 45 0.9375
]32,5 ; 37,5] 35 3 0.0625 48 1
18

Comment interpréter ce tableau ?


Prenons la ligne correspondant à la classe 3 : 17,5; 22,5. L’effectif de cette classe est n3=18. Cela
veut dire que 18 étudiants ont eu des points compris entre 17,5 non compris et 22,5 compris
(l’intervalle est ouvert en 17,5, donc, le 17,5 est non compris, mais il est fermé en 22,5, donc, le 22,5
est compris).

Pour la suite du cours, nous prendrons toujours des intervalles fermés en leurs bornes supérieures et
ouverts en leurs bornes inférieures, et dirons simplement « compris entre 17,5 et 22,5 ». On sous-
entend que le 17,5 n’est pas compris, mais que le 22,5 l’est. Il s’agît, bien entendu, d’un abus de
langage.

Reprenons cette même classe 3 et regardons l’effectif cumulé : N3=27. L’effectif cumulé de la classe
précédente est N2=9. Cela veut dire que, si l’on range les résultats des examens en ordre croissant, on
peut dire que la 10ème cote appartenait déjà à la classe 3 : 17,5; 22,5. Si nous n’avons que ce tableau,
ème
nous ne savons pas quelle cote était la 10 (sa valeur), mais nous savons que cette valeur était
comprise entre 17,5 et 22,5.
ème ème ème
Du 10 au 27 étudiant : les cotes étaient comprises dans la classe 3. Le 28 étudiant a eu une
cote appartenant à la classe 4.

Interprétation des fréquences cumulées dans ce tableau:


Dans ce tableau, il faut comprendre que la fréquence cumulée nous donne toujours la fréquence
observée d’obtenir une note inférieure ou égale à la borne supérieure de la classe en question.

Par exemple, 0,5625 est le pourcentage d’observations menant à une note inférieure ou égale à 22,5.
En fait inférieure ou égale à 22,5 mais supérieure ou égale à 7,5 car il n’y a de toutes façon pas
d’observation inférieure à 7,5.

C’est un peu comme si on avait attribué un « poids » de 0,5625 à l’intervalle [7,5 ; 22,5] (ou même à
l’intervalle [0 ; 22.5] voire même ]-∞, 22,5]…)

Question : quel est le nombre d’étudiants ayant eu des notes comprises entre 12,5 et 27,5 ?
On peut procéder de 2 manières un peu différentes :

Calcul par les effectifs (méthode la plus simple et la plus intuitive !):
12,5 est la borne inférieure de la classe 2, et 27,5 est la borne supérieure de la classe 4. On doit donc
faire la somme des effectifs des classes 2, 3 et 4. On prend la classe 4 car le 27,5 y appartient, de même
que la classe 2 car, malgré que 12,5 n’appartient pas à cette classe. En fait le nombre
12,5000000000000000000001 y appartient, et l’on l’arrondit vers 12,5.
Attention : si l’on prenait la classe 1 (12,5 appartient à cette classe), on serait en train de compter
également tous les étudiants qui ont eu une note entre 7,5 et 12,5 , ce qui fait trop d’étudiants (on ne
veut pas ceux qui ont eu un 8 par exemple, car dans l’énoncé du problème, on cherche ceux ayant eu
une note entre 12,5 et 27,5…). Donc en résumé le calcul est : n2 + n3 + n4 = 8 + 18 +12 = 38.

Calcul par les fréquences cumulées (au cas où l’info fournie se restreint à ces fréquences
cumulées):
19

la fréquence cumulée donne le pourcentage de l’effectif correspondant à des données comprises entre
la borne inférieure de l’entièreté des données, et la borne supérieure de la classe en question (souvenez-
vous, on considère des arrondis).

Exemple : classe 2, fréquence cumulée F2= 0,187, donc 18,7 % des étudiants ont eu des cotes
comprises entre 7,5 (la borne inférieure de toutes les données) et 17,5 (la borne supérieure de la classe
2).

Donc, pour répondre à la question « quel est le nombre d’étudiants (l’effectif) qui ont eu des notes
comprises entre 12,5 et 27,5 ? », on soustrait de la fréquence cumulée de la classe 4 (fréquence
d’observer des notes inférieures ou égales à 27,5), celle de la classe 1 (elle ne nous intéresse pas). Cela
nous donne le pourcentage d’étudiants qui ont eu des cotes appartenant aux classes 2, 3 ou 4 :
F4 – F1 = 0,8125 – 0,020833 = 0,791667
Donc 79,17% environ des étudiants ont eu des cotes comprises entre 12,5 et 27,5 (en fait, entre
12,5000000000001 et 27,5 mais on arrondit cette dernière valeur vers 12,5).

Pour connaître le nombre d’étudiants, il suffit maintenant de multiplier 0,7917 par l’effectif total (N =
48) :

0,7917 ∙ 48 ≅ 38.

Remarques :
 Pourquoi avons-nous soustrait la fréquence cumulée de la classe 1 et pas de la classe 2 ? Car si
l’on avait soustrait la fréquence cumulée de la classe 2, on n’aurait pas tenu compte du
pourcentage d’étudiants de la classe 2, mais seulement ceux à partir de la classe 3. On aurait
ainsi « oublié » certains étudiants. Nous avons déjà discuté cela lors de l’exemple 1.

 Le groupement en classes doit répondre à un certain nombre de critères qui relèvent surtout
du bon sens: le nombre de classes doit rester raisonnable sans quoi le groupement perd tout
son intérêt. Par contre, ce nombre ne peut pas être trop petit afin d’éviter de perdre les
spécificités de la série étudiée : la valeur de chaque caractère est remplacée par celle du centre
de la classe. Les résultats d’une étude statistique peuvent varier très fort suivant la façon dont
on a formé les classes.

 Dans certains cas, le statisticien prend des classes d’amplitudes différentes (largeurs
différentes). La méthode de travail ne change pas beaucoup, l’important est de comprendre ce
que l’on fait et de rester cohérent.

 Nous avons calculé par les deux méthodes pour vérifier si nos résultats étaient corrects. Si la
méthode n’est pas précisée dans l’énoncé, vous pouvez choisir celle que vous voulez.

1.3.4 Variables quantitatives discrètes - Représentations graphiques dans le


cas d’utilisation de classes
Pour l’exemple 2 que l’on vient d’étudier, on peut faire les graphiques suivants :
20

Remarquons que dans le diagramme des effectifs cumulés, on a représenté la borne supérieure des
classes en abscisse. Par exemple on a le point (12,5 ; 1) sur ce graphique. Cela a du sens car il y a 1
observation inférieure ou égale à 12,5. Si on avait indiqué 7,5 à la place du 12,5, cela n’aurait pas
donné une information très utile.

1.3.5 Variables quantitatives continues: Tableaux


Exemple 3 : Hauteurs d’arbres

Lors de l’abattage des sapins (épicéas) pour les fêtes de fin d’année, les bûcherons mesurent la
hauteur des arbres afin de les classer pour la vente. Le caractère étudié est la hauteur des arbres. Ce
caractère est un caractère quantitatif continu.

Exemple : le sapin qui mesure 176,3 cm appartient à l’intervalle ]174,5 ; 179,5] .

Nous travaillerons avec une valeur approchée à  0,5 cm.

Voici le tableau recensé de 400 arbres dont l'étendue des classes est de 5 cm.

Classes Centre ci ni fi Ni Fi
21

[159,5 ; 164,5] 162 5 0,0125 5 0,0125


]164,5 ; 169,5] 167 7 0,0175 12 0,03
]169,5 ; 174,5] 172 15 0,0375 27 0,0675
]174,5 ; 179,5] 177 25 0,0625 52 0,13
]179,5 ; 184,5] 182 37 0,0925 89 0,2225
]184,5 ; 189,5] 187 47 0,1175 136 0,34
]189,5 ; 194,5] 192 53 0,1325 189 0,4725
]194,5 ; 199,5] 197 57 0,1425 246 0,615
]199,5 ; 204,5] 202 49 0,1225 295 0,7375
]204,5 ; 209,5] 207 38 0,095 333 0,8325
]209,5 ; 214,5] 212 28 0,07 361 0,9025
]214,5 ; 219,5] 217 21 0,0525 382 0,955
]219,5 ; 224,5] 222 12 0,03 394 0,985
]224,5 ; 229,5] 227 6 0,015 400 1,00

De manière générale, dans le cas d’une variable quantitative continue, dresser un tableau recensé
sur base des valeurs observées, comme dans l’exemple 1, n’aurait pas beaucoup de sens, puisque
beaucoup de valeurs observées se retrouveraient toutes seules et le tableau n’apporterait pas beaucoup
d’information. C’est pour cette raison qu’on regroupe les valeurs prises par la variable en classes
comme dans l’exemple 2 ci-dessus. La méthode de travail est identique.

Concrètement, on considère un certain nombre d’intervalles (disons m intervalles) :

[a1; a2]; ]a2; a3]; …; ]am; am+1].

Le tableau est ensuite dressé comme précédemment, avec une colonne supplémentaire donnant le
centre de chaque intervalle (ai + ai+1)/2. L’exemple 3 en donne une illustration, de même que le
tableau suivant (qui correspond à un autre exemple…):

Remarque : les fréquences cumulées représentent la fréquence d’observation d’une valeur inférieure
ou égale à la borne supérieure de chaque classe (même si dans le tableau global, c’est le centre qu’on
indique en seconde colonne).

On peut encore mentionner quelques règles qu’il est généralement bon de suivre (mais qui ne sont pas
universelles):
22

• les intervalles ne doivent pas forcément être de la même longueur (surtout le premier et le
dernier), mais c’est plus facile à manipuler si c’est le cas ;
• l’union de ces intervalles doit couvrir l’étendue des valeurs de la variable.

1.3.6 Variables quantitatives continues - Représentations graphiques


L’exemple 3 mène aux représentations graphiques suivantes :

1.3.7 Un autre type de représentation graphique: les histogrammes


On a vu qu’un des outils pour représenter graphiquement une variable quantitative discrète est le
diagramme en barres (ou bâtonnets). Il suffit pour celui-ci de reprendre le tableau de la distribution de
la population et de dessiner pour chaque valeur numérique observée (ou modalité), une barre dont la
largeur importe peu et dont la hauteur est égale soit à l’effectif, soit à la fréquence (non cumulées).

Dans le cas des variables quantitatives continues, on peut également considérer des diagrammes en
barre correspondant aux différentes classes, mais il est également commun d’utiliser ce qu’on appelle
un histogramme.

Pour construire celui-ci, on reprend le tableau de la distribution : les intervalles correspondent


maintenant à des subdivisions de l’axe horizontal. Sur chacun de ces intervalles, un rectangle est
construit, dont la largeur est égale à la taille de l’intervalle et la hauteur est égale respectivement à:

1. à l’effectif de cet intervalle (ou fréquence absolue, la somme des fréquences absolues
redonnant l’effectif total) ;
2. à la proportion de données situées dans cet intervalle (fréquence relative de cet intervalle, la
somme des fréquences relatives étant égale à 1) ;
23

3. au rapport entre la fréquence relative et la largeur de l’intervalle (aussi appelé densité), de


telle sorte que la surface du rectangle soit égale à la fréquence relative, et que la somme des
surfaces des rectangles soit égale à 1 (car la somme des fréquences relatives vaut 1).

selon le type d’histogramme qu’on veut représenter.

Chacun des cas considérés plus haut (1, 2, 3) correspond à un type d’histogramme : histogramme de
fréquence absolue, histogramme de fréquence relative, histogramme de densité.

Exemple 4 :
On considère une population de bébés dont on étudie le poids à la naissance [kg]. On suppose que les
valeurs obtenues sur une certaine population de bébés sont les suivantes :

On va regrouper ces données en 5 classes de longueur 0.4.

Les 3 types d’histogrammes pour cet exemple sont les suivants : d’abord l’histogramme de fréquence
absolue :

Tableau 1: Tableau de l’histogramme de fréquence absolue pour les poids de bébés

Figure 1: graphe de l’histogramme de fréquence absolue pour les poids de bébés

L’histogramme de fréquence relative :


24

Tableau 2: tableau de l’histogramme de fréquence relative pour les poids de bébés

Figure 2: graphe de l’histogramme de fréquence relative pour les poids de bébés

Et enfin l’histogramme de densité :

Tableau 3: tableau de l’histogramme de densité pour les poids de bébés.


La 3è colonne contient les rapports entre les fréquences relatives et
la longueur de l’intervalle correspondant.
25

Figure 3: graphe de l’histogramme de densité pour les poids de bébés

Insistons encore sur l’importance de choisir un nombre d’intervalles adapté à la taille de la


population considérée. Si ce nombre est trop petit (voir graphe ci-dessous), le « résumé» des données
est trop peu précis, et l’histogramme ne nous apprend pas grand-chose.

Figure 4: exemple d’histogramme construit sur un nombre trop faible d’intervalles


et n’apportant pas grand-chose

Si au contraire le nombre d’intervalles est trop grand (voir graphe ci-dessous), la plupart des données
se retrouvent seules dans leur intervalle, et le graphe n’est pas beaucoup plus utile que de regarder le
tableau brut de nombres.
26

Figure 5: histogramme construit avec un nombre trop important d’intervalles


et n’apportant pas plus d’information que les données brutes initiales

Quelle que soit la taille de la population, on ne sélectionne en général pas moins de 4 et pas plus de
20 intervalles (environ, cela dépend en fait de la taille de la série statistique…). La plupart des
logiciels statistiques (comme SAS, R, etc.) tracent automatiquement des histogrammes qui suivent ces
conseils généraux.

Remarque* :
Dans un histogramme de densité, la somme des aires des rectangles est égale à 1. Ceci revient à dire
que l’aire qui est située sous (et donc l’intégrale de) la « courbe » formée des « côtés supérieurs » de
ces rectangles est égale à 1. On peut alors construire un autre type de graphe (voir figure ci-dessous):
• on considère une série de taille infinie ;
• on trace des histogrammes en divisant l’axe des données en des intervalles de plus en plus
petits ;
• les rectangles ont donc des largeurs de plus en plus petites, mais la somme de leurs aires est
toujours égale à 1 ;
• à la limite (quand on considère un nombre infini d’intervalles), on obtient ce qu’on appelle la
fonction de densité.

C’est un outil très important par lequel on caractérise des « familles » de populations qui se comportent
de manière similaire. La forme de la fonction de densité nous donne une information très complète sur
la manière dont la variable « se comporte aléatoirement », du type de comportement aléatoire.
Remarquons que l’intégrale de (ou l’aire sous) la fonction de densité est égale à 1.

Une distribution rencontrée souvent dans les applications est la distribution normale, ou « distribution
en cloche ».
27

Figure 6: de l’histogramme à la fonction de densité


28

1.4 Statistique descriptive: Les indicateurs statistiques


Les histogrammes procurent des informations utiles concernant la distribution d’un ensemble de
données, mais les graphes ne sont généralement pas très adaptés à la production d’inférences. En effet,
beaucoup d’histogrammes différents (bien que similaires) peuvent être construits à partir d’une même
population (en effectuant des choix différents pour le nombre, la largeur et la position des intervalles).
Pour élaborer des inférences et mesurer la qualité de celles-ci, il est nécessaire de disposer d’outils
définis rigoureusement permettant de résumer certains aspects de la population étudiée.

Un indicateur (ou paramètre) statistique est un nombre qui donne des informations sur une série
statistique. Il s’agira donc ici – et dans les chapitres suivants – de définir, pour une série donnée, des
quantités mathématiques véhiculant de l’information à propos de cette série, et d’étudier leurs
propriétés. Ces indicateurs possèdent des propriétés probabilistes qui nous permettront d’élaborer des
inférences et d’estimer la qualité des inférences élaborées.

On distingue plusieurs types d’indicateurs, qui répondent à des questions différentes:

 Où se situent les données ?


o Indicateurs (ou paramètres, ou mesures) de position :
 moyenne ;
 mode ;
 médiane ;
 quartiles ;

 Comment se répartissent les données ?


o Indicateurs (ou paramètres ou mesures) de dispersion :
 étendue ;
 écart interquartile ;
 variance ;
 écart-type ;
 coefficient de variation ;

 Quelle forme prennent les données ?


o Indicateurs (ou paramètres ou mesures) de forme :
 coefficient de dissymétrie ;
 coefficient d’aplatissement.

1.4.1 Paramètres (ou mesures) de position


Les paramètres ou mesures ou encore indicateurs de position donnent une idée de l'ordre de grandeur
des valeurs du caractère / de la variable statistique étudiée. En gros, de globalement « là où se situe la
partie centrale des données ».

1.4.1.1 La moyenne arithmétique


La moyenne arithmétique 𝑥̅ (couramment appelée moyenne par abus de langage) d’une série
statistique est la moyenne arithmétique de ses données.

Ci-dessous on reprend les exemples vus précédemment et on en calcule la moyenne.

Exemple 1 :
29

1+1+1+1+2+2+2+2+2+2+2+3+3+3+3+3+3+4+4+4
𝑥̅ = = 2,4
20
ou en utilisant la table des effectifs :

1∙4+2∙7+3∙6+4∙3
𝑥̅ = = 2,4
20

Pour calculer une moyenne, on utilise généralement la formule suivante, qui est un peu plus rapide à
utiliser dès qu’on a les fréquences absolues 𝑛𝑖 :
𝑐
1
𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖
𝑁
𝑖=1

où c est le nombre de modalités (observations distinctes).

Exemple 2 (notes des 48 étudiants):


On va repartir des données « brutes », avant regroupement en classes. Cela donne :

𝑥̅ = (24 + 24 + 14 + 16 + 24 + 22 + 19 + 27 + 8 + 24 + 23 + 21 + 22 + 20 + 16 + 15 + 20
+ 18 + 23 + 22 + 22 + 23 + 31 + 34 + 19 + 26 + 36 + 29 + 19 + 26 + 28 + 22
+ 20 + 17 + 13 + 13 + 21 + 19 + 31 + 22 + 33 + 31 + 24 + 17 + 30 + 20 + 22
+ 23)/48 = 22,3542

On aurait pu aussi repartir des données regroupées en classes, en remplaçant les données brutes par la
valeur du centre de chaque classe. On obtient alors :

1 ∙ 10 + 8 ∙ 15 + 18 ∙ 20 + 12 ∙ 25 + 6 ∙ 30 + 3 ∙ 35
𝑥̅ = ≅ 22,4
48

On voit que dans cet exemple, on n’a pas perdu énormément d’information lorsque l’on a fait le
regroupement en classe (du moins pas pour le calcul de la moyenne).

Exemple 3 (hauteurs d’arbres):

Dans ce cas-ci, on n’est pas du tout reparti de la série complète (avec les 400 données détaillées) mais
simplement des centres des différentes classes. La moyenne se calcule alors comme pour les exemples
précédents, mais en remplaçant les valeurs elles-mêmes par les centres des classes.

Remarque : Puisqu’elle est la somme des valeurs de la série, la moyenne s’exprime dans les mêmes
unités que la série elle-même. La moyenne d’un ensemble de prix libellés en € sera ainsi par exemple
elle-même exprimée en €.

Avantages de la moyenne:
La moyenne est le paramètre de position le plus utilisé parce qu’il est possible de la déterminer par des
calculs précis. Sa stabilité croît avec l’effectif total.
30

Inconvénient de la moyenne:
La moyenne est fortement influencée par les valeurs extrêmes (parfois anormales ou douteuses) ;
dans ce cas, elle peut perdre toute signification. Il faut cependant éviter d’éliminer ces valeurs : ce
serait modifier les données, donc perdre de l’information. Sauf s’il s’agît d’une erreur de frappe, par
exemple.

Remarques
 Valeur aberrante : Une variable qui n’appartient pas à la série statistique, mais qui y figure par
erreur (faute de frappe par exemple), est appelée valeur aberrante. On peut aussi appeler valeur
aberrante une variable qui appartient à la série, mais qui est très différente des autres. Par
exemple: on vérifie l’âge des étudiants du cours de statistique. Parmi les étudiants, il y a un de 95
ans. C’est une personne âgée qui a voulu suivre le cours parce qu’il a toujours aimé la statistique. Il
fait partie de la population (étudiants de la classe de statistique). Mais il s’agît d’un cas très spécial,
très particulier. La présence de cet étudiant va « tirer » (anormalement) la moyenne des âges des
étudiants vers le haut.

 Robustesse d’un indicateur statistique : Un indicateur affecté par des valeurs aberrantes et/ou
extrêmes est appelé indicateur (ou paramètre) non robuste. La robustesse d’un indicateur est sa
stabilité par rapport à des valeurs aberrantes.

 Remarquons enfin que d’autres moyennes peuvent également être considérées :


• la moyenne géométrique :

• la moyenne harmonique :

• les moyennes pondérées :

Elles ne nous intéressent cependant pas directement ici, raison pour laquelle nous écrirons souvent
simplement « moyenne » (en anglais, mean) pour désigner la moyenne arithmétique.

Exemple (moyenne pondérée). Un cas classique de moyenne pondérée est celui du calcul des indices
des prix, qui modélisent l’évolution dans le temps de la valeur d’un panier de biens de consommation
𝑥1 , 𝑥2 , … , 𝑥𝑛 .
Considérons par exemple l’indice de Laspeyres, qui est utilisé par l’INSEE (Institut national de la
statistique et des études économiques) pour le calcul de l’inflation en France.
Soient 𝜋_𝑡(𝑥𝑖 ) et 𝜅𝑡 (𝑥𝑖 ) le prix et la quantité consommée du produit xi durant l’année t. L’indice de
prix de l’année T est alors égal à :
31

Le poids 𝑤𝑖 représente la « place » du produit 𝑥𝑖 dans le panier initial. L’indice I est donc la moyenne
des évolutions des biens, pondérée par leur importance dans le panier.

1.4.1.2 Le mode
Le mode d'une série statistique est la valeur du caractère ou la classe (si on a décidé d’étudier ce
caractère à l’aide de classes) qui a le plus grand effectif (ce qui revient à la plus grande fréquence).

Dans le cas d’une série groupée en classes, on parle de classe modale, classe dont l'effectif est
supérieur ou égal à tout autre effectif de classes. Une série peut avoir plusieurs modes ou plusieurs
classes modales.

Lorsque la valeur observée le plus fréquemment est unique, on parle de distribution unimodale.
Lorsque diverses valeurs possèdent le même effectif maximum, on parle de distribution multimodale.

Figure 7: Distributions unimodale (à gauche) et bimodale (à droite)

Exemples :

Le mode de l’exemple 1 est 2 : en effet, 2 comporte 7 observations, alors que les autres valeurs en ont
toujours moins de 7…

Figure 8: diagramme en barres (ou batonnets) pour l'exemple 1

La classe modale de l’exemple 2 est la classe ]17,5; 22,5].


32

La classe modale de l’exemple 3 est la classe de centre 197.

Avantage du mode:
Le mode est d’autant plus significatif qu’une valeur du caractère ou une classe domine nettement
toutes les autres.

Inconvénient du mode:
Le mode n’est pas susceptible d’une détermination par une formule analytique. Il n’est donc pas
utilisable lorsqu’on doit disposer d’expressions analytiques pour la suite des calculs.

1.4.1.3 La médiane
Définition : La médiane d'une série statistique est l'élément qui la partage en deux groupes de même
effectif.

a) Dans le cas de données non groupées, il suffit de les classer en ordre croissant ou décroissant et de
prendre l'élément du milieu.

On distingue 2 cas : N pair et N impair.

Cas où N est impair :


e
Si la série comprend un nombre impair N = 2p + 1 d’éléments, la médiane est le (p + 1) élément.

 Exemple : La série 12, 13, 13, 15, 15, 16, 17 comprend 7 éléments (7 : nombre impair); sa médiane est
le quatrième, donc 15.

Manière équivalente de voir les choses : lorsque N est impair, la médiane correspond à l’observation
𝑵
d’ordre ⌊ 𝟐 ⌋ + 𝟏 : la partie entière de N/2, à laquelle on ajoute 1 (c’est l’entier qui suit N/2).

 Dans notre exemple, N/2 vaut 3,5, et l’entier qui suit 3,5 est 4. La médiane est donc la 4ème
observation.
 Remarque : « graphiquement » ou « intuitivement », la médiane correspond alors à la valeur
« du milieu », qui laisse à sa gauche autant de valeurs qu’à sa droite.

Cas où N est pair :


Si la série comprend un nombre pair N = 2p d’éléments, alors par convention la médiane est la
e e
moyenne arithmétique entre les p et (p+1) éléments. Càd entre les observations d’ordre N/2 et N/2
+1.

 Exemple : La série 13, 14, 14, 15, 16, 16 comprend 6 éléments (6 : nombre pair). La médiane est donc
14+15
la moyenne arithmétique entre le 3e et le 4e. Donc la médiane vaut = 14,5.
2

b) Dans le cas de données groupées : La détermination de la médiane se fait généralement par


interpolation à partir du tableau de fréquences cumulées (convention).

C’est plus laborieux… Dans la pratique il est souvent plus simple de repartir des données brutes et de
calculer la médiane comme expliqué au cas précédent (cas des données non groupées). A condition
d’avoir à dispositions ces données non groupées évidemment…

Une interpolation (linéaire) d’un graphique composé uniquement de points consiste à relier ces points
par des segments de droite.
33

Graphiquement : La médiane est l'abscisse du point d'intersection du polygone des fréquences


cumulées et de la droite d'équation y =0,5 (droite « horizontale », parallèle à l’axe des x).

Exemple d’interpolation linéaire:


On suppose que l’on part d’un tableau de fréquences cumulées comme suit (la première colonne
désigne la borne supérieure de chaque intervalle correspondant à une classe):

x_i F_i
2 0.1
3.4 0.3
4.6 0.4
6.7 0.55
8.5 0.75
9 0.8
13 0.9
16 1

Graphiquement une interpolation (linéaire) consiste à relier ces points par des droites, afin de combler
les trous :

La médiane correspond à la valeur de la variable pour laquelle la fréquence cumulée est de 50%. Donc
ce qui nous intéresse est de connaître l’abscisse du point d’ordonnée 0,5 = 50% (correspondant donc à
la fréquence cumulée de 50%).

On peut résoudre le problème graphiquement (mais ce sera approximatif) :

Graphiquement, on arrive à (environ) x1/2=6.


34

Si on veut être plus précis, on fait les choses analytiquement. Pour cela on cherche l’équation de la
droite qui contient le segment de droite qui nous intéresse (celui sur lequel se trouve le point (µ ; 50%)
correspondant à la médiane 𝑥1/2 ).

Dans notre exemple, on est sur le segment de droite reliant les points (4,6 ; 0,4) et (6,7 ; 0,55).

Rappel - Propriété d’une droite : le rapport entre les ordonnées et les abcisses de 2 points quelconques
de la droite est toujours le même, quels que soient les points choisis sur cette droite. C’est une façon
rapide d’obtenir l’équation d’une droite. C’est ce qu’on appelle le coefficient angulaire ou pente de
cette droite.

Donc si on se place sur la droite joignant les 2 points (4,6 ; 0,4) et (6,7 ; 0,55), ce coefficient angulaire
vaut :
0,55 − 0,4
= 0,071429
6,7 − 4,6

Si maintenant (médiane ; 0,50) est le point sur la droite correspondant à la médiane, on aura:

0,5 − 0,4 0,1 0,1


= 0,071429 ⇔ = 𝑚𝑒𝑑𝑖𝑎𝑛𝑒 − 4,6 ⇔ 𝑚𝑒𝑑𝑖𝑎𝑛𝑒 = + 4,6 = 6.
𝑚𝑒𝑑𝑖𝑎𝑛𝑒 − 4,6 0,071429 0,071429

(ici la résolution analytique n’apporte pas grand-chose par rapport à la résolution graphique, car notre
graphique était suffisamment précis…).

Reprenons maintenant les trois exemples traités au début de ce chapitre :

Exemple 1 :
La série comprend 20 éléments. Données non groupées. On est donc dans le cas a) ci-dessus. La
e e 2+2
médiane µ sera donc la moyenne du 10 et du 11 élément, soit 2 = 4 .

Exemple 2 :
Dans ce cas, on avait fait un regroupement par classes. On fait d’abord une interpolation sur le
diagramme des fréquences cumulées. Une simple lecture sur ce diagramme montre que µ ≅ 21,7
(résolution graphique) Il suffit en effet de regarder l’abcisse du point de coordonnées 0,5 sur ce
graphique, après avoir fait une interpolation linéaire des différents points du diagramme initial.

On pourrait aussi faire une résolution analytique. Dans cet exemple on avait regroupé en classes les
différentes valeurs avant de faire le tableau de recensement (voir tableau ci-dessous). Dans ce tableau,
la dernière colonne contient les fréquences cumulées ("𝐹𝑖 ").
35

La fréquence cumulée qui nous intéresse, 50%, n’est pas présente explicitement dans le tableau mais se
trouve entre les deux fréquences cumulées 18,7 % et 56,25% présentes dans ce tableau.

Classes c_i n_i f_i N_i F_i


[7,5; 12,5] 10 1 0.02 1 0.02
]12,5 ; 17,5] 15 8 0.167 9 0.187
]17,5 ; 22,5] 20 18 0.375 27 0.562
]22,5 ; 27,5] 25 12 0.25 39 0.812
]27,5 ; 32,5] 30 6 0.125 45 0.937
]32,5 ; 37,5] 35 3 0.0625 48 1

Pour trouver la médiane, on va donc faire une interpolation linéaire pour trouver la valeur de x pour
laquelle la fréquence cumulée vaudrait 50% (car on cherche la valeur centrale de la série).

On considère uniquement les bornes supérieures des classes, car on a vu que les fréquences
cumulées nous donnent la fréquence d’obtenir une valeur ≤ à cette borne supérieure. Par exemple,
0,187 est la fréquence d’avoir des observations inférieures ou égales à 17,5. On va donc ne
considérer que les bornes supérieures de intervalles dans ce tableau et interpoler entre les points
(17,5 ; 0,187) et (22,5 ; 0,5625).

Cela donne ici un coefficient angulaire de la droite :


0,5625 − 0,187
= 0,0751
22,5 − 17,5

On écrit ensuite que le point (mediane ; 0,5) appartient à cette droite :

0,5 − 0,187 0,313


= 0,0751 ⇔ = 0,0751
𝑚𝑒𝑑𝑖𝑎𝑛𝑒 − 17,5 𝑚𝑒𝑑𝑖𝑎𝑛𝑒 − 17,5

0,313
⇔ mediane = 17,5 + = 21,66778
0,0751
(ce que l’on avait obtenu graphiquement par ailleurs…)

ATTENTION : il faut bien comprendre le calcul ci-dessus. L’interpolation est très utile et nous
allons utiliser ce type de calcul (interpolation) pour répondre à différentes questions.

Exemple 3 :
Une simple lecture sur le diagramme des effectifs ou des fréquences cumulés montre que la
médiane vaut ≅ 195,5.
36

Calcul sans graphique (on note µ pour la médiane ci-dessous):

Avantages de la médiane
La médiane est facile à déterminer.

Elle n’est pas sensible aux valeurs aberrantes de la série. On dit donc que la médiane est un
paramètre robuste. En effet, si on vient modifier par exemple la note la plus faible que l’on avait
dans notre exemple 2 (on modifie le « 8 » en « 0 » pour l’élève le plus mauvais), cela ne change rien
à la médiane.

1.4.1.4 Les quartiles


Les quartiles (notés Q1, Q2 et Q3, ou 𝑥0,25 , 𝑥0.5 , 𝑥0,75 pour une série statistique notée 𝑥1 , 𝑥2 , … , 𝑥𝑛 )
partagent la série en quatre groupes d'effectifs égaux. Remarquons que le deuxième quartile se
confond avec la médiane.

Rappelons qu’avec la médiane, on partageait la série en deux groupes d’effectifs égaux… Ici c’est
quatre.

a) Cas de données non groupées :

Premier quartile :
C’est la plus petite valeur de la série qui est telle que au moins 25% des observations sont  à cette
𝑁
valeur. Concrètement, cela correspond à : 𝑥⌈𝑁⌉ , où ⌈ 4 ⌉ correspond au plus petit entier supérieur ou
4
égal à N/4 (ce qu’on appelle aussi le « plafond » de N/4).

 Exemple : soit la série statistique : 15, 16, 16, 17, 18, 18, 19, 20, 20. On a N=9
𝑁 9 𝑁
observations. On divise N par 4 : 4 = 4 = 2,25. Donc ⌈ 4 ⌉ = 3 (le plus petit entier qui
« suit » 2,5). Donc le premier quartile correspond à la 3ème observation (en numérotant les
observations à partir de la plus petite). C’est donc 16.

Troisième quartile :
37

C’est la plus petite valeur de la série qui est telle que au moins 75% des observations sont  à cette
3𝑁
valeur. Concrètement, cela correspond à : 𝑥⌈3𝑁⌉ , où ⌈ 4 ⌉ correspond au plus petit entier supérieur ou
4
égal à 3N/4.

 Exemple : soit la série statistique : 15, 16, 16, 17, 18, 18, 19, 20, 20. On a N=9
3𝑁 27
observations. On multiplie cette fois N par 3 et on divise le résultat par 4 : 4 = 4 = 6,75.
3𝑁
Donc ⌈ 4 ⌉ = 7. Donc le premier quartile correspond à la 7ème observation (en numérotant les
observations à partir de la plus petite). C’est donc 19.

Si on résume cet exemple, on a :


15, 16, 𝟏𝟔, 17, 𝟏𝟖, 18, 𝟏𝟗, 20, 20
↓ ↓ ↓
𝑸𝟏 𝑸𝟐 = 𝒙𝟏 𝑸𝟑
𝟐

Le second quartile est simplement la médiane. On a déjà vu comment la calculer.

b) Cas de données groupées en classes :

Le premier quartile est la valeur de x correspondant à une fréquence cumulée de 0,25 (càd 25%,
soit un quart de la série statistique).

Le troisième quartile est la valeur de x correspondant à une fréquence cumulée de 0,75 (càd 75%,
soit, trois quarts de la série statistique.

Les quartiles se recherchent comme la médiane, c’est-à-dire généralement par interpolation.


Concrètement, on remplace le pourcentage cumulé de 50% dans le calcul par 25% (premier
quartile) ou 75% (troisième quartile), mais le reste du raisonnement est le même que pour le calcul
de la médiane.
On considère à nouveau les bornes supérieures pour faire les interpolations nécessaires à partir des
fréquences cumulées.

Exemple 2:

Exemple 3

𝑄1 = 186,1 ; 𝑄2 = 𝜇 = 196, 𝑄3 = 205,8


38
39

1.4.2 Paramètres (ou mesures) de dispersion


1.4.2.1 Introduction
Considérons les deux séries suivantes donnant les résultats pour une classe de 17 élèves lors de deux
contrôles notés sur 20.

Contrôle 1 : 5 6 6 8 8 8 12 12 12 12 14 14 16 16 18 18 19
Contrôle 2 : 8 9 10 10 11 11 12 12 12 12 12 13 14 14 14 15 15

Pour ces deux séries, le mode, la médiane et la moyenne valent 12.

Faut-il en conclure que les séries sont semblables ? L'examen de ces deux séries montre que les
résultats du second contrôle sont davantage resserrés autour de la moyenne que ceux du premier. On
dit que la dispersion des résultats est plus forte pour le premier contrôle que pour le second.

Graphiquement, c’est plus parlant :

Figure 9: diagramme des fréquences absolues pour les deux séries:


en bleu pour le contrôle 1 et en rouge pour le contrôle 2.

Il faut donc compléter les informations données par les indicateurs de position par des indicateurs de
dispersion qui indiqueront la façon dont la série s'étend autour de ces valeurs centrales.

1.4.2.2 Étendue
Définition : L’étendue d’une série statistique est la différence entre la plus grande et la plus petite
valeur de la série (donc le max moins le min).

Avantage : Le calcul de l'étendue est très simple.

Inconvénient : Elle dépend uniquement des valeurs extrêmes de la série qui peuvent être anormales.

Conclusion : L'étendue est donc un médiocre paramètre de dispersion et est peu utilisé…

Pour notre exemple donné ci-dessus (les 2 contrôles), l’étendue de la première série est 19-5=14, alors
que pour la seconde elle vaut 15-8=3.

Dans les exemples étudiés précédemment, cela donne :

Exemple 1 : 4 – 1 = 3
40

Exemple 2 : 36 – 8 = 28

Exemple 3 : 229,5 – 159,5 = 70

1.4.2.3 Ecart interquartile


Définition : L’écart interquartile d’une série statistique 𝑥1 , 𝑥2 , … , 𝑥𝑛 (noté EI) est la différence entre le
troisième et le premier quartile :
𝐸𝐼 = 𝑥0,75 − 𝑥0,25 = 𝑄3 − 𝑄1

Exemple 2 : 23,7 – 15,8 = 7,9

Exemple 3 : 205,8 – 186,1 = 19,7

1.4.2.4 Variance
La variance est LE paramètre de dispersion par excellence.

Pour évaluer la dispersion autour de la moyenne arithmétique, l'idée qui vient spontanément est de
déterminer les écarts entre la moyenne x et les diverses valeurs xi de la série.

Les mathématiciens démontrent que, pour toute série statistique, la somme de ces écarts, sur l’entièreté
des données, est nulle : ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0. En effet, les termes 𝑥𝑖 − 𝑥̅ sont négatifs ou positifs, et les
termes positifs compensent les termes négatifs. Cela peut aussi se démontrer rigoureusement en
repartant de la définition de la moyenne (exercice).

D'où l'idée de considérer la valeur absolue ou les carrés de ces écarts, qui eux sont tous positifs et ne
vont donc pas se compenser les uns les autres.

Pour des raisons de facilité, c'est la seconde option (les carrés) qui prévaut.

Définition : La variance notée s² (ou σ² ou V) d’une série statistique (𝑥𝑖 , 𝑛𝑖 )𝑖=1,…,𝑐 est la moyenne
arithmétique des carrés des écarts des données par rapport à la moyenne arithmétique :
𝑐
1 2
𝑠 2 = ∑ 𝑛𝑗 (𝑥𝑗 − 𝑥̅ )
𝑛
𝑗=1

Dans cette expression, 𝑛𝑗 est l’effectif associé à la valeur observée 𝑥𝑖 , n la taille de l’échantillon, et c
le nombre de valeurs différentes observées. Remarquons que si 𝑥1 , 𝑥2 , … , 𝑥𝑁 représentent les
différentes valeurs observées sur l’échantillon de taille n, sans avoir regroupé sous un même indice une
valeur qui se serait répétée plusieurs fois, alors la définition ci-dessus devient simplement:
𝑁
1 2 1
𝑠 2 = ∑(𝑥𝑗 − 𝑥̅ ) = ((𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑁 − 𝑥̅ )2 )
𝑁 𝑁
𝑗=1
(La différence entre les deux expressions est que dans la seconde, certains termes seront égaux entre
eux s’il y a des répétitions de valeurs dans la série, et qu’ils sont regroupés dans la première
expression. S’il n’y a pas de répétitions dans les modalités, tous les 𝑛𝑗 vallent 1 et les deux expressions
sont identiques… )

Méthode simplificatrice du calcul de la variance :


41
1
𝒔𝟐 = ((𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑁 − 𝑥̅ )2 )
𝑁
1
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 + 𝑥̅ 2 + 𝑥̅ 2 + ⋯ + 𝑥̅ 2 − 2𝑥1 𝑥̅ − 2𝑥2 𝑥̅ − ⋯ − 2𝑥𝑁 𝑥̅ )
𝑁
1 1 2
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 ) + ⋅ 𝑁 ⋅ 𝑥̅ 2 − (𝑥1 + 𝑥2 + ⋯ 𝑥𝑁 ) ⋅ 𝑥̅
𝑁 𝑁 𝑁
1 2 2 2 2
= (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁 ) + 𝑥̅ − 2𝑥̅ ⋅ 𝑥̅
𝑁
1
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 ) − 𝑥̅ 2
𝑁

1
Il suffit donc de calculer la moyenne arithmétique des carrés des observations, càd 𝑁 ∑𝑐𝑗=1 𝑛𝑗 𝑥𝑗2 , et de
retrancher le carré de la moyenne, càd 𝑥̅ 2 . C’est donc « la moyenne des carrés moins le carré de la
moyenne ». Cela simplifie un peu les calculs dans la pratique…

Exemple 1 :

xi ni
1 4
2 7
3 6
4 3

1 134
d’où l’on tire : 𝑠 2 = 20 (4 ∙ 12 + 7 ∙ 22 + 6 ∙ 32 + 3 ∙ 42 ) − 2,42 = − 2,4 = 0,94
20

Exemple 2 : s² = 33,32

Exemple 3 : s² = 194,65

Autre exemple : returns observés pour des actions cotées

Lorsque l’on fait des investissements, on s’intéresse notamment au caractère « volatile » du rendement
que l’on peut obtenir sur ces investissements. Supposons que l’on investisse dans des actions. On peut
s’intéresser à ce qu’on appelle le rendement arithmétique d’une action sur une période de temps
Δ𝑡 donnée comme :
𝑆(𝑡) − 𝑆(𝑡 − Δ𝑡)
𝑟𝑡 =
𝑆(𝑡 − Δ𝑡)
Càd
𝑉𝑎𝑙𝑒𝑢𝑟 𝑑𝑒 𝑙 ′ 𝑎𝑐𝑡𝑖𝑜𝑛 𝑒𝑛 𝑓𝑖𝑛 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒 − 𝑣𝑎𝑙𝑒𝑢𝑟 𝑒𝑛 𝑑é𝑏𝑢𝑡 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒
𝑣𝑎𝑙𝑒𝑢𝑟 𝑒𝑛 𝑑é𝑏𝑢𝑡 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒

Si on prend l’exemple du cours de l’action Carrefour du 1/1/2018 au 5/2/2019, et que l’on calcule les
returns journaliers, cela donne ceci (extrait du fichier excel) :
42
Close Number of Shares
Number of Trades
Turnover Currency returns
17.23 1828018 3520 31478547.7 EUR -0.0083453
17.375 1716496 3825 29756039 EUR 0.00520683
17.285 2410224 4922 41691383.3 EUR 0.00115841
17.265 1604033 3879 27684024.1 EUR -0.007188
17.39 2308459 5322 40118042.4 EUR 0.00636574
17.28 1679554 3862 29038080.8 EUR -0.0100258
17.455 2823246 5557 49145739.1 EUR 0.01364692
17.22 3035508 7002 52319512.8 EUR -0.0140281
17.465 8044906 17853 139502157 EUR 0.06917661
16.335 2275771 4557 37255678.2 EUR -0.004267
16.405 1968765 4804 32347118.2 EUR -0.0126392
16.615 4456347 8845 74027403 EUR 0.03714107
16.02 1878271 3760 30049008.9 EUR 0
16.02 2554182 4781 40757441.6 EUR 0.00691389
15.91 2458439 5452 39108515.9 EUR -0.0071763
16.025 3425929 7489 54751310.1 EUR 0.01940204
15.72 2070454 3878 32611821.3 EUR -0.0056926
15.81 2626631 5157 41378130.1 EUR -0.0025237
15.85 3036816 5836 48249200.3 EUR 0.00955414
15.7 5347595 10895 83839774.5 EUR 0.0271508
15.285 2137567 4484 32536729.2 EUR 0.01024455
Figure 10: extraits de données du cours de l’action Carrefour, et calcul de returns journaliers

Si l’on calcule la variance de la série statistique des returns journaliers observés sur cette période (d’un
peu plus d’un an, donc utilisant bien plus de données que celles illustrées sur la figure ci-dessus), on
obtient 0,00029915.

On peut faire la même chose pour une autre action, par exemple Beneteau (fabriquant de bateaux). Sur
la même période, cela donne une variance des returns journaliers de 0.00077422, soit beaucoup plus
que pour Carrefour… les investisseurs dans l’action Beneteau ont donc pu observer de grandes
fluctuations de la valeur de leur portefeuille pendant la période considérée, plus que des investisseurs
dans l’action carrefour.

Dans une telle situation, on dit que l’action Carrefour est moins « volatile » que l’action Beneteau sur
la période considérée.
Close Number of Shares
Number of Trades
Turnover Currency returns
12.66 89138 474 1124840.84 EUR 0.0128
12.5 61509 406 767507.02 EUR 0.00806452
12.4 134026 514 1660202.88 EUR -0.0127389
12.56 66539 343 836281.52 EUR 0.0048
12.5 84311 508 1060828.78 EUR -0.0141956
12.68 68227 380 872463.52 EUR -0.0139969
12.86 88018 563 1149352.42 EUR 0.01100629
12.72 105094 604 1337226.08 EUR -0.0185185
12.96 57713 390 755295.38 EUR -0.0240964
13.28 57749 412 766872.06 EUR 0.01374046
13.1 43987 330 572908.18 EUR 0.01708075
12.88 53195 358 685359.36 EUR 0.01098901
12.74 39099 261 496704.76 EUR 0.00473186
12.68 33856 240 428771.84 EUR 0.0144
12.5 60253 395 757452.08 EUR -0.0031898
12.54 54299 330 680701.86 EUR -0.0172414
12.76 75953 510 962339.82 EUR 0.00472441
12.7 93234 530 1171611.5 EUR 0.0111465
12.56 134469 644 1687766.88 EUR 0.01948052
12.32 227710 957 2791752.42 EUR 0.04054054
11.84 131926 754 1512041.92 EUR 0.07441016
11.02 92519 587 1008841.58 EUR 0.02226345
10.78 78469 460 855904.78 EUR -0.056042
11.42 80073 475 908058.46 EUR -0.0052265
11.48 41173 402 470053.86 EUR 0.04363636
11 93499 496 1019588.48 EUR 0.04961832
Figure 11 : extrait de données du cours de l’action Beneteau et calcul des returns journaliers

Remarquons que puisque la variance est une somme de carrés d’écarts, elle s’exprime dans les unités
de la série au carré : la variance d’une série de prix en € est donc exprimée en €², ce qui peut s’avérer
délicat ou gênant pour les interprétations en terme d’ordre de grandeur.

Pour cette raison notamment, on définit donc l’écart-type (en anglais, standard deviation).
43

1.4.2.5 Ecart-type
Définition :L’écart-type, noté « s » (parfois σ), est la racine carrée positive de la variance :

𝑠 = √𝑠 2

L’écart-type s’exprime donc dans la même unité que les valeurs xi de la variable.

Exemple 1 : s = √0,94 ≅ 0,97


Exemple 2 : s = 5,77
Exemple 3 : s = 13,95

Exemple : returns d’actions cotées


L’écart-type des returns journaliers (qu’on appelle dans ce cas « volatilité journalière » de l’action)
s’obtient en prenant la racine carrée des variances calculées, on obtient :
s=0,01729581 pour Carrefour, et s=0,02782489 pour Beneteau.

Les investisseurs préfèrent cependant utiliser ce qu’on appelle la « volatilité annualisée », qui consiste
en pratique à multiplier par la racine carrée du nombre de jours ouvrables de la période considérée
(racine de 250 dans la plupart des marchés). Cela donne ici 27% environ pour Carrefour, contre 44%
pour Beneteau.
Concrètement, cela donne une idée de l’intervalle de variation que l’on peut s’attendre à observer pour
les fluctuations de la valeur de l’action sur une période d’une année. On reviendra là-dessus avec la
règle empirique. Cela nous fournit en fait une possible estimation de l’écart-type de la distribution de
probabilité des returns annuels (càd calculés en prenant Δ𝑡 = 1 𝑎𝑛).

Avantage de l’écart-type:
L'écart-type constitue un excellent indicateur de dispersion, il tient compte de toutes les données de la
série statistique. Plus l’écart-type est faible, plus il y a une forte accumulation des observations autour
de la moyenne arithmétique. Plus l’écart-type est grand, plus l'étalement est grand. Il peut donc être
utilisé pour donner une idée de la variabilité d’un ensemble de données.

1.4.3 Règle empirique


L’écart-type peut être utilisé pour donner une idée de la variabilité d’un ensemble de données. On peut
démontrer (grâce au théorème de Tchebychev que nous ne verrons pas ici) que dans beaucoup de cas,
nous pouvons utiliser la règle empirique suivante.

Un nombre important d’ensembles de données collectées dans le monde réel possèdent une distribution
en cloche, c’est-à-dire une distribution qui ressemble à la distribution normale (à propos de laquelle
nous reparlerons).

Cette ressemblance approximative donne lieu à la règle empirique suivante :

Pour des données présentant une distribution approximativement normale (en cloche), si on note m la
moyenne et s l’écart type, alors :
• l’intervalle [𝑥̅ - s; 𝑥̅ + s] contient à peu près 68% des données ;
• l’intervalle [𝑥̅ - 2s; 𝑥̅ + 2s] contient à peu près 95% des données ;
• l’intervalle [𝑥̅ - 3s; 𝑥̅ + 3s] contient presque toutes les données.

Exemple.
44

Illustrons l’utilisation de cette règle empirique par un exemple. Supposons que les résultats des
étudiants à un examen possèdent une distribution normale de moyenne 𝑥̅ = 13 et d’écart-type s = 2.
Nous pouvons donc déduire de la règle empirique qu’approximativement 68% des étudiants obtiennent
un résultat entre 11, et 15,95% entre 9 et 17 et presque tous entre 7 et 19. La connaissance de la
moyenne et de l’écart-type donne donc une assez bonne idée de la distribution des résultats.

Supposons qu’un étudiant est tiré au hasard parmi ceux qui ont passé l’examen. Quelle est la
probabilité que son résultat soit situé entre 11 et 15 ? Par la règle empirique, on peut dire que 0,68 est
une réponse approchée mais satisfaisante à cette question.

Figure 12: illustration de la règle empirique.

Exemple : Cours des actions Carrefour et Beneteau


On peut calculer la proportion d’observations appartenant aux différents intervalles mentionnés ci-
dessus.
On obtient les proportions suivantes :

Vérification règle empirique


Beneteau 79% 96% 99%
Carrefour 81% 97% 98%

La règle empirique ne semble pas vraiment satisfaite par ces données, qui correspondent à des returns
journaliers. En fait, l’hypothèse principale derrière la règle empirique est d’avoir affaire à une
ditribution de probabilité proche d’une loi normale. Cela ne semble pas vraiment être le cas ici…

A titre d’illustration, voici ce que donne la règle empirique pour un indice boursier (en l’occurrence le
CAC40):

Vérification règle empirique


CAC40 72% 95% 99%

Cela fonctionne donc déjà beaucoup mieux… en fait la distribution des returns journaliers est déjà plus
proche d’une distribution normale quand on s’intéresse à un indice boursier (ou à un fonds d’actions
relativement diversifié).
45

1.4.4 Paramètres de forme : coefficients de dissymétrie et d’aplatissement


Deux distributions présentant les mêmes indicateurs de tendance centrale et de dispersion ne sont pas
pour autant égales.

Exemple : considérons deux séries statistiques dont les fréquences absolues sont données dans le
tableau suivant :
Série 1 Série 2
x_i n_i x_i n_i
1 2 1 1
2 4 2 7
3 8 3 5
4 4 4 5
5 2 5 2

On peut en tracer directement les histogrammes de fréquences absolues :

Figure 13: histogrammes de 2 séries statistiques présentant la même moyenne et la même


variance

On peut voir que ces deux séries possèdent la même moyenne et la même variance :

Série 1 :
1
𝑥̅ = (2 ∙ 1 + 𝟒 ∙ 𝟐 + 8 ∙ 3 + 4 ∙ 4 + 2 ∙ 5) = 3
20
1
𝑠2 = (2 ∙ 1 + 4 ∙ 22 + 8 ∙ 32 + 4 ∙ 42 + 2 ∙ 52 ) − 32 = 10,2 − 9 = 1,2
20

Série 2 :
1
𝑥̅ = (1 ∙ 1 + 7 ∙ 2 + 5 ∙ 3 + 5 ∙ 4 + 2 ∙ 5) = 3
20
1
𝑠2 = (1 ∙ 1 + 7 ∙ 22 + 5 ∙ 32 + 5 ∙ 42 + 2 ∙ 52 ) − 32 = 10,2 − 9 = 1,2
20

Or l’une a une distribution symétrique, l’autre pas…

Le coefficient de dissymétrie d’une série statistique (𝑥𝑖 , 𝑛𝑖 )𝑖=1,…,𝑐 est égal au quotient de la moyenne
des cubes des écarts par le cube de l’écart-type :

1 𝑐
∑𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )3
𝛾= 𝑛
𝑠3
46

Sur les deux séries ci-dessus, on peut voir que ce coefficient vaut:

Série 1 : 𝛾 = 0; Série 2 : 𝛾 ≈ 0.2282

On peut voir que c’est le signe de ce coefficient qui détermine « de quel côté la distribution penche » :
• si > 0 , la distribution est dissymétrique à gauche (cas de la série 2);
• si 𝛾 = 0, la distribution est symétrique (cas de la série 1);
• si 𝛾 < 0, la distribution est dissymétrique à droite.

Notons que la division par s³ fait en sorte que cet indicateur est sans unités.

Deux séries statistiques peuvent en outre avoir mêmes moyennes, variances et coefficient de
dissymétrie, mais des formes malgré tout différentes :

Figure 14: series présentant mêmes moyennes, écart-type, et coefficient de dissymétrie (égal à 0 car symétriques) mais une
distribution de forme différente

Définition : Le coefficient d’aplatissement ou kurtosis d’une série statistique (𝑥𝑖 , 𝑛𝑖 )𝑖=1…𝑐 (noté 𝜅)
est égal au quotient de la moyenne des écarts exposant 4 par l’écart-type exposant 4:
1 𝑐
∑𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )4
𝜅= 𝑛
𝑠4

A nouveau, la division par 𝑠 4 fait que cet indicateur est sans unité (donc il ne dépend pas de l’unité
choisie pour exprimer les valeurs de la série statistique : on peut par exemple travailler en kg ou en
livres, cela ne change pas la valeur du kurtosis).

Si on reprend la série 1 ci-dessus, on peut voir que le kurtosis vaut 2.5.


Le kurtosis d’une série statistique très proche d’une distribution normale est très proche de 3.

1.4.5 Remarques sur les indicateurs statistiques


1.4.5.1 Points communs à ces différents indicateurs
La ressemblance de plusieurs de ces indicateurs est frappante :
𝑐
1 2
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒: ∑ 𝑛𝑗 (𝑥𝑗 − 𝑥̅ )
𝑛
𝑗=1
𝑐
1 3
𝑛𝑢𝑚é𝑟𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑𝑒 𝑑𝑖𝑠𝑠𝑦𝑚é𝑡𝑟𝑖𝑒: ∑ 𝑛𝑗 (𝑥𝑗 − 𝑥̅ )
𝑛
𝑗=1
𝑐
1 4
𝑛𝑢𝑚é𝑟𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑′ 𝑎𝑝𝑝𝑙𝑎𝑡𝑖𝑠𝑠𝑒𝑚𝑒𝑛𝑡: ∑ 𝑛𝑗 (𝑥𝑗 − 𝑥̅ )
𝑛
𝑗=1
47

En fait ces quantités sont ce que l’on appelle des moments centrés :

Définition : Le moment centré d’ordre k d’une série statistique (𝑥𝑖 , 𝑛𝑖 )𝑖=1,…,𝑐 est donné par :
𝑐
1 𝑘
𝛽𝑘 = ∑ 𝑛𝑗 (𝑥𝑗 − 𝑥̅ )
𝑛
𝑗=1

1.4.5.2 Changements de variable et indicateurs


Question : Que devient la moyenne arithmétique d’une série statistique lorsqu’on retranche un
même nombre k (une constante) à chacun de ses éléments ?

Cela signifie que chaque valeur xi est remplacé par xi – k (ce qui donne lieu à une nouvelle série
statistique).

La moyenne arithmétique 𝑥̅𝑘 de la nouvelle série translatée de k est donc :

Conclusion : si l’on retranche un même nombre k à tous les termes d'une série statistique, la
moyenne de la série initiale est diminuée de k.

Autre question : Que devient la moyenne arithmétique d’une série statistique lorsqu’on divise
chacun de ses éléments par un même nombre k différent de 0 ?

On peut à nouveau calculer la moyenne de cette nouvelle série :

𝑥𝑖
Cela signifie que chaque valeur 𝑥𝑖 est remplacée par (ce qui donne lieu à une nouvelle série
𝑘
𝑥̅
statistique). La moyenne arithmétique de la nouvelle série est donnée par la formule : 𝑥̅𝑘 = 𝑘 .
48

Conclusion : si l’on divise par un même nombre k tous les éléments d'une série statistique, la
moyenne arithmétique de la série initiale est aussi divisée par ce nombre k.

1.4.6 Boîte à moustaches (BM)


Un graphique en « boîte à moustache » permet de résumer la dispersion d’une série statistique en
représentant sur un graphique 5 valeurs : le minimum, le maximum, les quartiles et la médiane. Il s’agît
d’une façon de visualiser rapidement l’essentiel de l’information fournie par une série statistique. En
fait, on a des informations sur la « dispersion » d’une série statistique : les valeurs de la série sont-elles
fort ou peu étalées, dispersées.

Pour construire une BM, on doit d’abord calculer Q1, Q2 et Q3, respectivement, le premier quartile, la
médiane (Q2), et le troisième quartile. Une fois les valeurs calculées, on les indique sur un segment de
droite orienté. On peut alors dessiner le rectangle de hauteur arbitraire, mais dont les abscisses des
côtés coïncident avec Q1 et Q3. On dessine un segment de droite d’abscisse Q2 (soit, la médiane) dans
ce rectangle.

Pour finir, on ajoute les « moustaches », ou « pattes », c’est-à-dire, des segments de droite qui vont des
côtés du rectangle (on part du milieu de ces côtés par rapport à leur hauteur), et vont jusqu’aux
abscisses de la valeur la plus petite de la série statistique (xmin) et de la valeur la plus grande (xmax).

On ne dessine pas toujours la droite orientée des abscisses. On peut remplacer les petits segments de
droite aux extrémités des « moustaches » par des flèches. Attention : si Q1 = Q2 = Q3, le rectangle est
collapsé et il ressemblera à un segment de droite vertical (et pas à un rectangle).

Ce type de graphique permet de comparer des séries statistiques et d’avoir en un coup d’œil une idée
de leurs dispersions et situations relatives.

Exemple de comparaison de différentes séries grâce à une boite à moustaches :


On considère 3 séries statistiques X, Y et Z données dans le tableau suivant :

Après calcul des quartiles et de la médiane, on obtient les boites à moustaches suivantes :
49

En regardant ces 3 graphiques, on voit directement que les séries X et Y ont mêmes médianes mais que
X est beaucoup plus dispersée que Y, que Z a une médiane beaucoup plus faible et est asymétrique.

1.4.7 Indicateurs statistiques - Utilisation du tableur MS Excel


Nous présentons dans cette section les principales fonctions du tableur Excel telles qu’elles sont
présentes par défaut dans le logiciel. Nous en corrigeons certaines car elles ne correspondent pas aux
définitions données ci-dessus et qui sont pourtant standard.

Moyenne:
Elle se calcule comme: MOYENNE(nombre1 ; nombre2 ;…) où nombre1, nombre2,… représentent
les arguments numériques dont on a besoin pour obtenir la moyenne. Ce sont toutes les valeurs
observées de la série statistique, incluant les répétitions.

Par exemple , si on a la série statistique :


13, 14, 14, 15, 15, 16, 17
la moyenne dans Excel se calculera comme :
MOYENNE(13 ;14 ;14 ;15 ;15 ;16 ;17). Ou encore, si on a placé la série dans les cellules allant de A1
jusque A7, comme MOYENNE(A1:A7). Si on veut rajouter une valeur à la série, disons encore 17,
cela donne : MOYENNE(A1:A7 ;17).

Dans une version anglophone du programme, cela donne : AVERAGE(13,14,14,15,15,16,17).


Donc les point-virgules deviennent des virgules et la fonction s’appelle « average ».

Remarquons que si une matrice ou une référence tapée comme argument contient du texte, des valeurs
logiques ou des cellules vides, ces valeurs ne sont pas prises en compte. Par contre, les cellules
contenant explicitement la valeur « 0 » sont prises en compte.

Médiane :
La fonction MEDIANE appliquée aux mêmes valeurs que plus haut renvoie la valeur médiane des
nombres.

Exemple :
MEDIANE(1; 2; 3; 4; 5) = 3

MEDIANE(1; 2; 3; 4; 5; 6) = 3, 5

Dans la version anglophone d’Excel, cette fonction s’appelle MEDIAN.


50

Variance :
La fonction VAR d’Excel fournit un indicateur statistique en pratique proche de la variance telle que
nous l’avons définie précédemment, mais toutefois légèrement différente : elle utilise la formule
suivante :

N N 2
1 1
VAR = ∑ xi2 − (∑ xi )
N−1 N(N − 1)
i=1 i=1

(où n désigne le nombre total d’observations) alors que la variance telle que définie plus haut
correspond en fait à :
N N 2 N N 2
1 1 1 1
∑ xi2 − ( ∑ xi ) = ∑ xi2 − 2 (∑ xi )
N N N N
i=1 i=1 i=1 i=1

L’indicateur calculé dans Excel est souvent noté S 2 (on le lit « grand S carré ») et est lié à la variance
s 2 (le « petit s carré ») par la relation :
N 2
S2 = s
N−1
N
Il ne s’agit donc pas du même indicateur, mais lorsque la taille de l’échantillon est grande, N−1 est alors
proche de 1 et les deux indicateurs sont très proches… Il s’agit en fait d’un estimateur « non biaisé »
de la variance :

si une série statistique correspond à des réalisations indépendantes d’une même variable aléatoire X, à
chaque fois qu’on considère un nouvel ensemble de réalisations, on a une nouvelle quantité S 2 et s 2
que l’on peut calculer. On peut voir donc ces indicateurs également comme des variables aléatoires
(l’expérience aléatoire consistant alors à générer des observations indépendantes de notre variable
aléatoire X).

Lorsque la taille de l’échantillon (N) est grande, on peut voir que s2 et S 2 seront tous deux assez
proches de la « vraie » valeur de la variance de la variable aléatoire en question (= la variance
« théorique », que l’on peut noter ici σ2 ). C’est ce qu’on appelle des estimateurs de la variance
théorique.

Mais cependant en moyenne, sur les différents sets d’observation, S 2 sera égal à la « vraie » variance (à
la variance théorique) alors que ce n’est pas le cas de s 2 .
Plus précisément, E[S 2 ] = σ2 .

On dit que s2 est un « estimateur biaisé » de la variance, on parle aussi de « variance biaisée » des
observations ou de la série statistique. On qualifie S 2 d’ »estimateur non biaisé », et on parle de
« variance non biaisée ».

La fonction Excel VAR.P calcule la variance telle que définie précédemment, s2 , càd la variance
biaisée.

Exemple : échantillon (1345, 1301, 1368, 1322, 1310, 1370, 1318, 1350, 1303 et 1299) , valeurs
supposées stockées dans les cellules A2:A11. La fonction VAR donne :

VAR(A2 :A11)=754,3

alors que l’autre fonction , VAR.P, donne :


51

VAR.P(A2 :A11)=678,8.
𝑁
Dans cet exemple, la différence n’est pas si petite, car N est petit. La fraction 𝑁−1 vaut en effet environ
1.11, on a donc une différence de l’ordre de 10% entre les deux…

Quartiles :
La fonction QUARTILE renvoie le quartile d’une série de données.

On l’utilise comme : QUARTILE({nombre1 ; nombre2 ; … } ; quart) où quart indique quelle valeur


renvoyer :
 La valeur 0 renvoie à la valeur minimale de la série
 La valeur 1 au premier quartile
 La valeur 2 au second quartile (i.e. la médiane)
 La valeur 3 au troisième quartile
 La valeur 4 à la valeur maximale

Remarquons que pour obtenir les valeurs minimale et maximale de la série, on peut aussi utiliser les
fonctions MIN et MAX.
52

Chapitre 2: Statistique bivariée – régressions


linéaires
On va s’intéresser maintenant à l’étude non pas d’une variable statistique observée sur une population
mais de deux variables, associées aux mêmes unités statistiques, aux mêmes individus.

Par exemple, si on considère l’ensemble de la population belge, on peut s’intéresser à leur taille et leur
âge, ou encore leur poids et leur revenu annuel, etc… et se poser la question du comportement
statistique de chaque série considérée séparément, mais aussi des relations qui existeraient entre leurs
comportements statistiques respectifs.

Dans l’exemple qui suit, on a noté la taille (en cm) et le poids (en kg) de 100 enfants d’une école, puis
on a représenté ces deux variables simultanément par un graphique du type nuage de points. Ce
graphique est obtenu lorsqu’on place dans un repère cartésien les n points Mi de coordonnées xi ; yi  .

Un point (𝑥𝑖 , 𝑦𝑖 ) correspond à la valeur de la taille et du poids de l’élève numéro 𝑖. On obtient alors un
nuage de points :

L’observation de ce graphique permet de déjà de constater que le poids a tendance à augmenter avec la
taille, mais pas de façon systématique : on peut être petit et gros, ou grand et maigre.

Mais il y a un certain lien, qu’on appellera corrélation, entre les deux variables.

2.1 Moyennes, variances et écart-types marginaux


On peut considérer chaque série statistique séparément, et calculer les indicateurs que l’on a vus en
statistique descriptive univariée.

Si l’on revient à notre exemple, on peut d’abord calculer la taille moyenne (ici 𝑥𝑖 est la valeur de la iè
observation, avec possibilité que 2 observations correspondent à une même valeur):
53
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
(attention : on notera ici avec un « n » minuscule la taille de l’échantillon) et le poids moyen :
𝑛
1
𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
C’est ce qu’on appelle les moyennes marginales des deux séries statistiques.

Le point du plan 𝐺 = (𝑥̅ , 𝑦̅) est ce qu’on appellera par définition le centre de gravité du nuage de
points.

Exemple : soit la série statistique bivariée suivante :

x_i y_i
10 40
20 10
30 18
40 20
50 57
60 14

On peut représenter cette série par un nuage de points.


Le point rouge situé « au centre » du nuage représente le centre de gravité (35 ; 26,5) :

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70

Figure 15: Nuage de points et centre de gravité

Pour mesurer la dispersion du nuage autour de son centre de gravité G, on va calculer les écarts entre
les abscisses des points et l’abscisse de G, càd 𝑥𝑖 − 𝑥̅ et les ordonnées des points et celle de G, càd
𝑦𝑖 − 𝑦̅, et ce pour tout point du nuage.

Ce qui nous intéresse est l’écart moyen entre les points du nuage et le centre de gravité.

Il y aura des écarts positifs et négatifs selon la position du point par rapport à G. Si l’on fait la somme
de tous ces écarts (pour la taille X, et puis séparément pour le poids Y), elle sera nulle. Pour éviter ce
problème, on fait la somme des carrés des écarts, comme on l’a fait dans le cas univarié.

Clairement, plus cette somme est élevée, plus les points sont dispersés autour de G. Si au contraire
cette somme est nulle, alors c’est que chaque terme est nul (car une somme de termes positifs est nulle
si et seulement si chaque terme de la somme est nul), et donc que tous les points du nuage sont en fait
concentrés en le centre de gravité G (le nuage n’est plus un nuage mais un point…).

Ceci mène au calcul des variances marginales puis des écart-types marginaux.

On obtient donc 2 quantités mesurant la dispersion de la variable X et de la variable Y :


54

Remarque : Il y a d’autres moyens pour résoudre le problème des signes des écarts. On aurait pu faire
la somme des valeurs absolues des écarts au lieu de prendre leur carré, par exemple. Mais il est plus
facile de travailler avec des carrés qu’avec la valeur absolue. C’était l’idée de Gauss, en 1808.

Les variances de la variable X et de Y sont données par les carrés des écarts-types : 𝑠𝑥2 =
2
(𝑠𝑥 )2 𝑒𝑡 𝑠𝑦2 = (𝑠𝑦 ) (même définition que dans le cas univarié traité au chapitre précédent).

On a donc deux quantités, l’une pour la variable X (ne tenant compte que des observations pour cette
variable), l’autre pour la variable Y, d’où le terme « marginal ».

Les liens entre les deux variables (càd ici le fait que le poids a tendance à augmenter quand la taille
augmente) ne sont pas encore reflétés par ces deux variances marginales. Ce sera l’objet de la
covariance ci-dessous.

2.2 La covariance
Pour mesurer la variation conjointe des deux variables, on utilise le produit des écarts-types pour X et
pour Y. On introduit la covariance des deux variables x et y par :
𝑛
1
𝐶𝑜𝑣(𝑋, 𝑌) = 𝑠𝑥,𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1

Interprétation intuitive :
 Lorsque la covariance est strictement positive, cela signifie que la moyenne des produits
(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) est positive, ou encore qu’en moyenne, ces produits sont positifs, càd
correspondent à des facteurs de même signe.
o En moyenne, on a donc que (𝑥𝑖 − 𝑥̅ ) a le même signe que (𝑦𝑖 − 𝑦 ̅).
o Cela veut dire que lorsque l’observation 𝑥𝑖 est supérieure (resp. inférieure) à sa
moyenne 𝑥̅ , il en est donc généralement de même pour l’observation 𝑦𝑖 relativement à
sa moyenne 𝑦̅
o Une covariance positive traduit donc une tendance simultanée des phénomènes derrière
les séries X et Y à se situer du même côté de leur moyennes respectives.

 Lorsque la covariance est strictement négative, cela signifie que la moyenne des produits
(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) est négative, ou encore qu’en moyenne, ces produits sont négatifs, càd
correspondent à des facteurs de signe différent.
o En moyenne, on a donc que (𝑥𝑖 − 𝑥̅ ) a le signe opposé de (𝑦𝑖 − 𝑦 ̅).
o Cela veut dire que lorsque l’observation 𝑥𝑖 est supérieure (resp. inférieure) à sa
moyenne 𝑥̅ , on observe généralement que l’observation 𝑦𝑖 est plus petite (resp. plus
grande) que sa moyenne 𝑦̅
o Une covariance négative traduit donc une tendance simultanée des phénomènes X et Y
à se situer de part et d’autre de leurs moyennes respectives (quand l’une est au-dessus
de sa moyenne, l’autre est en dessous et vice-versa)

 Lorsque la covariance est nulle (ou proche de 0), c’est plus complexe.
55

o Il est clair qu’avoir une covariance strictement positive ou négative implique une
certaine dépendance entre les variables X et Y. En cas d’indépendance entre les
variables, il doit donc y avoir nécessairement une covariance nulle.
o En effet : si une observation de X est au-dessus de sa moyenne, comme il n’y a aucun
lien entre X et Y, a priori Y peut très bien se trouver au-dessus ou en dessous de sa
moyenne.
o Donc on aura « autant » de termes (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) avec un signe positif qu’avec un
signe négatif, et finalement la somme est proche de 0 car il y a compensation des
positifs par les négatifs.
o On verra que l’implication (indépendance implique corrélation nulle) ne va que dans un
sens.

En résumé, la covariance est positive si X et Y ont tendance à varier dans le même sens (càd quand les
valeurs observées pour de x augmentent, celles observées pour y également, comme dans notre
exemple la taille et le poids), et négative si elles ont tendance à varier en sens contraire.

Illustration :

taille (m) poids (kg)


Individu1 1.25 30
Individu 2 1.4 36
Individu 3 1.23 27
Individu 4 1.43 35
Poids (kg)

Individu 5 1.55 47

moyenne 1.3720 35.0000


moyenne des
carrés 1.8966 1271.8000
variances
marginales 0.0142 46.8000
écarts-types
marginaux 0.1191 6.8411 Taille (m)

On voit que plus la taille augmente, plus le poids a tendance à augmenter. On s’attend donc à ce que
quand 𝑥_𝑖−𝑥 ̅ est positif (taille au-dessus de la moyenne), 𝑦_𝑖−𝑦 ̅ soit positif également (poids au-
dessus de la moyenne).

On calcule ci-dessous le produit des écarts entre les observations et leur moyenne, et on voit qu’ils sont
tous positifs ou nuls. Cela traduit bien le fait que quand la taille augmente, le poids a tendance à
augmenter.

Le calcul de la covariance donne :


0,61 + 0,028 + 1,136 + 0 + 2,136
𝑠𝑥,𝑦 = = 0,782
5

Remarque 1: Expression analytique équivalente pour la covariance :


56

On peut montrer que cette quantité est aussi égale à :


𝑛
1
𝐶𝑜𝑣(𝑋, 𝑌) = 𝑠𝑥,𝑦 = ( ∑ 𝑥𝑖 𝑦𝑖 ) − 𝑥̅ 𝑦̅
𝑛
𝑖=1

Cela se voit facilement par calcul direct:


𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
1 1 1 1 1 1
𝑠𝑥,𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑(𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅𝑥𝑖 + 𝑥̅ 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑ 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝑥̅ 𝑦̅ ∑ 1
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
1 1 1 1
= ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝑦̅𝑥̅ + 𝑥̅ 𝑦̅ 𝑛 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝑦̅𝑥̅ + 𝑥̅ 𝑦̅ = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Dans notre illustration, on peut calculer la covariance par cette nouvelle formule, pour obtenir :

1
𝑠𝑥,𝑦 = (1,25 ⋅ 30 + 1,40 ⋅ 36 + 1,23 ⋅ 27 + 1,43 ⋅ 35 + 1,55 ⋅ 47) − 1,372 ⋅ 35
5
= 48,802 − 48,02 = 0,782

On voit qu’on obtient bien la même chose qu’avant.

Remarque 2 :Si l’on considère (artificiellement) deux séries statistiques prenant en fait les mêmes
valeurs (on « recopie » deux fois la même série et on voit cela comme deux séries mais en fait on prend
deux fois la même…), alors la covariance correspond en fait à la variance de notre (unique) série
statistique. En effet, dans ce cas, pour tout individu i, 𝑥𝑖 = 𝑦𝑖 , et donc 𝑥̅ = 𝑦̅, et la formule de la
covariance ci-dessus nous donne :
𝑛 𝑛
1 1
𝐶𝑜𝑣(𝑋, 𝑋) = 𝑠𝑥,𝑥 = ( ∑ 𝑥𝑖 𝑥𝑖 ) − 𝑥̅ 𝑥̅ = ( ∑ 𝑥𝑖2 ) − 𝑥̅ 2 = 𝑉𝑎𝑟(𝑋)
𝑛 𝑛
𝑖=1 𝑖=1

Remarque 3 : On peut montrer que la covariance ne dépend pas de l'origine choisie pour mesurer
les variables x et y, mais dépend des unités de mesure.

On peut constater cela sur notre illustration ci-dessus : si la taille est exprimée en mètres, on aboutit
aux résultats suivants :
ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
1.25 30 -0.122 -5.000 0.610
1.4 36 0.028 1.000 0.028
1.23 27 -0.142 -8.000 1.136
1.43 35 0.058 0.000 0.000
1.55 47 0.178 12.000 2.136

moyenne 1.372 35.000 Covariance: 0.782


moyenne
des carrés 1.897 1271.800
variances
marginales 0.014 46.800
écarts-types
marginaux 0.119 6.841

Si maintenant la taille est mesurée en cm (toutes les tailles sont alors multipliées par 100), cela donne :
57
ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
125 30 123.628 -5.000 -618.140
140 36 138.628 1.000 138.628
123 27 121.628 -8.000 -973.024
143 35 141.628 0.000 0.000
155 47 153.628 12.000 1843.536

moyenne 137.200 35.000 Covariance: 78.2


moyenne
des carrés 18965.600 1271.800
variances
marginales 141.760 46.800
écarts-types
marginaux 11.906 6.841

On voit que la covariance est multipliée elle-aussi par 100.

Si maintenant on change l’origine pour mesurer la taille (on enlève 1 m systématiquement à toutes les
tailles) :
ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
0.25 30 -1.122 -5.000 5.610
0.4 36 -0.972 1.000 -0.972
0.23 27 -1.142 -8.000 9.136
0.43 35 -0.942 0.000 0.000
0.55 47 -0.822 12.000 -9.864

moyenne 0.372 35.000 Covariance: 0.782


moyenne
des carrés 0.153 1271.800
variances
marginales 0.014 46.800
écarts-types
marginaux 0.119 6.841

On voit que la covariance est inchangée suite à ce changement d’origine.

C'est pourquoi, pour mesurer l'aspect plus ou moins "allongé" du nuage dans une direction (donc
l’intensité avec laquelle quand x prend des grandes valeurs, y également, ou le contraire), par un
coefficient sans unité, insensible au choix des unités choisies pour mesurer X et Y, on peut aussi
𝑥 𝑦
considérer la covariance entre les séries des 𝑠 𝑖 et 𝑠 𝑖 .
𝑥 𝑦

Ceci veut dire concrètement qu’on considère toutes les valeurs observées pour la variable X et qu’on
les divise toutes par l’écart type de la série, 𝑠𝑥 , et on fait de même pour la série Y. On obtient alors 2
nouvelles séries statistiques, et on en calcule la covariance.

C’est ce qui nous mène au concept de corrélation introduit plus bas.

2.3 Coefficient de corrélation


Comme annoncé plus haut, il s’agit de la quantité suivante :

𝑋 𝑌
𝝆(𝑿, 𝒀) = 𝐶𝑜𝑣 ( , )
𝑠𝑥 𝑠𝑦
58
𝑛 𝑛 𝑛
1 𝑥𝑖 𝑦𝑖 1 𝑥𝑖 1 𝑦
=( ∑ )−( ∑ ) ( ∑ 𝑖)
𝑛 𝑠𝑥 𝑠𝑦 𝑛 𝑠𝑥 𝑛 𝑠𝑦
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
1 1 1 1 1 1
=( ∑ 𝑥𝑖 𝑦𝑖 ) − ( ∑ 𝑥𝑖 ) ( ∑ 𝑦𝑖 )
𝑠𝑥 𝑠𝑦 𝑛 𝑠𝑥 𝑛 𝑠𝑦 𝑛
𝑖=1 𝑖=1 𝑖=1

𝑪𝒐𝒗(𝒙, 𝒚)
=
𝒔𝒙 𝒔𝒚

C’est donc la covariance divisée par le produit des écart-types marginaux.

Illustration
Si l’on reprend notre exemple, on obtient ce qui suit :
𝐶𝑜𝑣(𝑋, 𝑌) = 0,782, 𝑠𝑥 = 0,119, 𝑠𝑦 = 6,641
Cov(X, Y) 0,782
ρ(X, Y) = Corr(X, Y) = = = 0,96
sx ⋅ sy 0,119 ⋅ 6,641

Propriétés :
 La corrélation, notée également 𝑐𝑜𝑟𝑟(𝑋,𝑌), est symétrique en les variables X et Y
o si on échange les rôles de X et Y, la valeur obtenue est la même.
 La corrélation est indépendante des unités choisies pour mesurer X et Y et de l'origine
o par exemple on peut mesurer le poids en kg mais aussi en grammes ou en livres…, cela
ne va rien changer à la corrélation

 On peut voir par ailleurs que la corrélation est toujours comprise entre - 1 et 1.

 Elle vaut 1 si et seulement si le nuage est formé de points exactement alignés le long d'une
droite croissante (donc de coefficient angulaire positif), càd une droite d’équation :

y = a x + b, avec a > 0 .
Cela veut dire que pour tout i, la relation suivante est satisfaite :
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏

(les points (𝑥𝑖 , 𝑦𝑖 ) sont situés sur la droite, ils vérifient donc tous l’équation de la droite…).

 Le coefficient de corrélation vaut −𝟏 si et seulement si les points du nuage sont situés le long
d'une droite décroissante (donc de coefficient angulaire négatif):

yi = a xi + b , avec a < 0

Le coefficient de corrélation 𝜌(X,Y) sera donc proche de 1 si le nuage est très allongé selon une
direction croissante : si X augmente, Y augmente aussi de façon proportionnelle et presque
systématique.

Si 𝜌 est proche de - 1, lorsque X augmente, Y diminue de façon proportionnelle, et presque


systématique.
59

Figure 16: Exemples de cas où la corrélation est proche de 1 ou -1

Illustration sur notre exemple (poids et taille):

Dans l’exemple qui suit, le poids est obtenu exactement comme 40 fois la taille moins 20 :
𝑌 = 40 𝑋 − 20. On a donc une relation linéaire entre les deux. On vérifie par calcul direct que
la corrélation vaut effectivement bien 1 :

ecarts x_i - ecarts y_i - produits des


taille (m) poids (kg) moyenne moyenne écarts
1.25 30 -0.122 -5.000 0.610
1.4 36 0.028 1.000 0.028
1.23 29.2 -0.142 -5.800 0.824
1.43 37.2 0.058 2.200 0.128
1.55 42 0.178 7.000 1.246

moyenne 1.372 34.880 Covariance: 0.56704


moyenne
des carrés 1.897 1239.296 Corrélation 1.00
variances
marginales 0.014 22.682
écarts-types
marginaux 0.119 4.763

 Si 𝝆 est proche de + 1 ou de - 1, on dit que x et y sont bien corrélées,

 Si 𝝆 est proche de 0, on dit que x et y ne sont pas corrélées.


o Ceci a lieu en particulier lorsque X et Y sont indépendantes, c'est-à-dire si les deux
variables mesurées n'ont aucun rapport, aucune influence l’une sur l’autre (les valeurs
prises par l’une n’influencent aucunement les valeurs prises par l’autre ; en d’autre
termes, ce n’est pas parce que l’on sait que les valeurs prises par X sont par exemple
élevées, qu’on peut en conclure quoi ce que soit par rapport aux valeurs prises par y…).
On précisera plus tard ce concept d’indépendance.

o Mais ce n'est pas le seul cas : Y peut même être fonction de X, mais pas via une
fonction linéaire (droite)

Figure 17: Exemple de cas où la corrélation est proche de 0


60

En fait la corrélation mesure la dépendance linéaire entre deux variables. Elle exprime dans quelle
mesure Y est une fonction linéaire de X, càd dans quelle mesure on peut écrire :
𝑌 = 𝑎𝑋 + 𝑏 + 𝑒𝑟𝑟𝑒𝑢𝑟
pour certaines constantes 𝑎, 𝑏 bien choisies (voir plus loin dans les régressions linéaires), avec une
certaine erreur commise en remplaçant Y par la fonction linéaire de X, 𝑎𝑋 + 𝑏, erreur que l’on espère
petite.

Remarque : Remarquons que si l’on considère deux séries statistiques tout à fait identiques (on a
« recopié » la même série et on considère le tout comme deux séries, même s’il s’agit en fait de deux
fois la même…), dans ce cas la corrélation vaudra toujours 1 : (X,X)=1

2.4 Corrélation et causalité


Une bonne corrélation signifie qu'il existe une relation presque linéaire entre X et Y, mais pas
nécessairement de relation de cause à effet ! (parfois oui, mais pas toujours… )

Exemple de mauvaise interprétation en terme de causalité:


Le schéma ci-dessous représente en X l’évolution des effectifs de l'enseignement supérieur au cours du
temps, et Y le nombre de chômeurs au Canada sur cette même période (donc à différents moments).
On peut voir que le coefficient de corrélation vaut 0.94, donc une valeur proche de 1.

On voit que les deux quantités ont augmenté conjointement, mais en fait c'est surtout parce que la
population globale du Canada a beaucoup augmenté. Plus d’habitants implique plus de chômeurs (on
parle ici du nombre de chômeurs, pas du pourcentage qu’ils représentent dans la population…), mais
aussi plus d’étudiants dans l’enseignement supérieur. L'enseignement supérieur ne crée pas forcément
des chômeurs!

Figure 18: nombre de chômeurs et nombre d’habitants au Canada à différentes périodes

Autre exemple de mauvaise interprétation des corrélations:

On constate qu’il y a une corrélation positive entre le nombre de jours de vacances passés aux sports
d’hiver et le montant du loyer payé par les familles (on ne s’intéresse ici qu’aux familles payant un
loyer, pas à celles qui ont déjà acheté leur habitation). La raison de cette corrélation étant évidemment
que les familles à revenu plus élevé ont tendance à payer un loyer plus élevé également (car elles en
ont les moyens), et à partir plus souvent en vacances aux sports d’hiver (à nouveau car elles en ont les
moyens), que les familles à revenu plus modeste.

Une interprétation erronée de cette corrélation positive entre vacances aux sports d’hiver et montant du
loyer consisterait à dire que ce qui fait que les gens peuvent partir aux sports d’hiver est le montant de
leur loyer : payer un loyer élevé leur permettrait de pouvoir partir plus facilement aux sports d’hiver.
61

La conclusion qu’on en tirerait est que si l’on veut « démocratiser » les sports d’hiver dans un pays, il
suffirait d’inciter les propriétaires du pays à augmenter les loyers… ! Cela n’a évidemment aucun sens.

Relations d’effets conjoints

En fait, dans beaucoup de situations, on a des phénomènes se comportant de manière liée sans qu’il y
ait une relation de causalité entre l’un et l’autre. C’est le cas de deux actions dont les évolutions sont
parallèles (ou presque) sans que les variations de l’une provoquent les variations de l’autres, où les
variations des deux suivent en fait les variations générales du marché dans son ensemble.

Dans une telle situation, on parle d’effets conjoints : les causes génératrices d’évolution des deux séries
statistiques sont extérieures : on a une ou plusieurs causes extérieures agissant simultanément sur les
deux phénomènes X et Y.

Conclusion : Corrélation entre deux variable X et Y ne veut pas dire relation de causalité entre ces
deux variables !! Ce sont deux choses différentes.

Il existe un autre coefficient auquel on peut s’intéresser : le coefficient de détermination, qui est
donné par le carré du coefficient de corrélation :
2 2
𝑅 2 = (𝜌(𝑋, 𝑌)) = (𝑐𝑜𝑟𝑟(𝑋, 𝑌))

Il est toujours positif. Il intervient dans les régressions linéaires, traitées dans la section suivante.

Exemple : covariance et corrélation entre les returns observés sur différentes actions

On peut reprendre les données d’évolution des cours des actions Carrefour et Beneteau étudiées plus
haut.

Le calcul de la covariance et de la corrélation entre les deux séries de returns, sur la période s’étalant
du 1/1/2018 au 5/2/2019 nous fournit une covariance d’environ 7,15 *𝟏𝟎−𝟓 (très faible car l’ordre
de grandeur des returns journaliers est faible, et car la covariance dépend des unités de mesures, d’où
l’intérêt d’utiliser la corrélation !), mais une corrélation d’environ 15%. Les deux actions sont donc
faiblement positivement corrélées.

On peut également s’intéresser aux liens éventuels entre les rendements de ces actions et les
rendements d’un indice boursier, représentatif du marché dans son ensemble. Dans le cas présent,
comme les deux actions sont toutes deux des actions françaises, on peut s’intéresser à l’indice CAC40,
regroupant les principales actions d’entreprises françaises.
62

Figure 19: illustration de l’évolution de l’indice CAC 40 de 2017 à début 2019 (source : www.euronext.com)

Les caractéristiques statistiques de cet indice boursier considéré sur la même période (essentiellement
l’année 2018) sont les suivantes :

Moyenne des returns journaliers : -0.01634%


Ecart-type des returns journaliers : 0.874859%
Ecart-type des returns journaliers annualisé (ou volatilité annualisée) : 13.83%

Covariance et correlation entre le CAC40 et les deux actions ci-dessus :

Carrefour Beneteau
Covariance avec CAC40 4.44137E-05 0.00012854
Correlation avec CAC40 29.35% 52.80%

Remarquons que l’on peut disposer dans un tableau à 2 dimensions ces différentes covariances et
corrélations :

Carrefour Beneteau CAC40


Carrefour 0.0002991452 0.0000714656 0.0000444137
Beneteau 0.0000714656 0.0007742247 0.0001285371
CAC40 0.0000444137 0.0001285371 0.0000765378

C’est ce que les statisticiens appellent la matrice variance-covariance des différente séries
statistiques. (On est en fait déjà en train de faire de la statistique multivariée avec plus que 2 séries…).
Cette matrice n’est pas très parlante, toutes les valeurs sont très petites, car les ordres de grandeur sont
petits lorsqu’on regarde des variations de cours d’un jour à l’autre.

Dans ce tableau, sur la diagonale on a en fait repris les variances des returns des différentes actions et
de l’indice, puisqu’on a vu que la covariance d’une série statistique avec elle-même correspondait en
fait à la variance de cette série.

La matrice de corrélation est donnée ci-dessous :


63

Carrefour Beneteau CAC40


Carrefour 100.0% 14.8% 29.4%
Beneteau 14.8% 100.0% 52.8%
CAC40 29.4% 52.8% 100.0%

2.5 Régressions linéaires simples – méthode des moindres


carrés
Le nuage de points du début de ce chapitre est composé des points (taille ; poids). La première valeur
(la taille) donne l’abscisse du point, et la deuxième valeur (le poids), son ordonnée. Pour construire le
nuage on a simplement représenté ces couples de valeurs (taille ; poids) par des points ayant ces
coordonnées. Si l’on veut connaître le poids pour une certaine taille, il suffit d’aller chercher la valeur
de l’ordonnée pour le point dont l’abscisse est la taille donnée.

Mais, supposons qu’on veuille connaître le poids pour une taille qui ne correspond à aucun point du
graphique (nuage de points). Dans ce cas, si l’on arrive à approximer le nuage de points par le graphe
d’une fonction, le problème est résolu : on peut utiliser la fonction pour calculer le poids correspondant
à n’importe quelle taille. En langage mathématique, cela s’écrit :

poids = f(taille).

pour une certaine fonction f. Cela veut dire que le poids est une certaine fonction de la taille. Si l’on
veut trouver le poids qui correspond à la taille de 123 cm, il suffit de faire le calcul : poids=f(123).

Le problème est que nous ne connaissons pas a priori cette fonction (nous ne connaissons pas « f »).

Essayons de résoudre ce problème.


La première idée qui vient à l’esprit est de s’intéresser à des fonctions très simples, càd de type
linéaire1 : 𝑓(𝑥) = 𝑎𝑥 + 𝑏 pour certaines constantes a et b (que l’on doit déterminer).

On représente les valeurs (xi ; yi ) dans un graphique à deux dimensions Dans certains cas, le nuage de
points représentant une série statistique double (X ; Y) est tel que ses points ont l’air de de disposer
assez près d’une certaine droite D.

Supposons que cette droite, ait pour équation y  a x  b , où a est la pente de la droite et b est son
terme indépendant. Le terme indépendant est l’ordonnée du point d’intersection de la droite avec l’axe
des ordonnées.

À chaque point (xi ; yi ) de ce nuage de points, on peut faire correspondre un point Pi de la droite D
ayant la même abscisse que (xi ; yi ), c’est à dire, xi , mais d’ordonnée 𝑎𝑥𝑖 + 𝑏 :

1
On appelle cela une fonction linéaire car son graphe est une droite (càd une « ligne »)
64

L’ « erreur » associée à une telle modélisation Y=aX+b apparaît alors comme l’ écart (la distance)
entre les points (𝒙𝒊 , 𝒚𝒊 ) et les Pi= (𝒙𝒊 , 𝒂𝒙𝒊 + 𝒃). Ces écarts sont donnés par la longueur du segment
joignant ces deux points. Ces 2 points ont même abscisse 𝑥𝑖 , donc la distance est simplement donnée
par la différence des ordonnées:
é𝑐𝑎𝑟𝑡𝑖 = ei = 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏.

Si ces écarts sont petits, alors cela signifie que les points initiaux du nuage (𝑥𝑖 , 𝑦𝑖 ) sont proches des Pi,
c’est à dire, la droite est très proche des « vrais » points. Pour avoir une idée de l’erreur totale sur
l’ensemble des points, on agrège ces erreurs 𝑒𝑖 en une erreur totale 𝐸𝑇. L’agrégat des erreurs choisi
par Gauss est la somme des carrés. Les erreurs sont rendues positives par mise au carré et cumulées
par simple sommation. Des raisons analytiques sont à la base de ce choix, car celui-ci condition à des
expressions simples et facilement manipulables. On aurait pu penser à la somme des valeurs absolues
de ces écarts, mais il est plus facile de travailler avec des carrés qu’avec des valeurs absolues (les
calculs sont plus faciles). Remarquons que les mises au carré aplifie les écarts les plus grands et donne
donc aux valeurs éloignées de la tendance une importance démesurée.

On va chercher la droite la plus proche (le modèle « le meilleur »), au sens de celui qui va minimiser
l’erreur totale 𝐸𝑇. Il y a plusieurs manières de procéder a priori pour prendre en compte tous les
écarts..

Soit 𝐸𝑇 = 𝐸𝑇(𝑎, 𝑏) la somme des carrés des écarts:


𝑛

𝐸𝑇(𝑎, 𝑏) = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)2


𝑖=1

Cette somme dépend de a et b, donc on peut la voir comme une fonction de ces 2 variables a et b, d’où
la notation 𝐸𝑇(𝑎, 𝑏). On veut que 𝐸𝑇(𝑎, 𝑏) soit le plus petit possible (cela veut dire une droite le plus
proche possible des vrais points en moyenne).

On va introduire deux artifices de calcul qui permettent l’obtention d’une solution analytique simple
utilisant les indicateurs statistiques usuels.
1
Au lieu de chercher à minimiser ET, cherchons plutôt à minimiser 𝑛 𝐸𝑇. Les valeurs de a et b qui
réalisent ce minimum sont évidemment les mêmes que celles qui minimisent ET. Ensuite, on
introduit artificiellement les écarts entre les observations et leurs moyennes respectives 𝑥̅ , 𝑦̅. On a
alors :
65

Si l’on développe le carré parfait ci-dessus, on obtient une somme de trois termes :

Or,
𝑛 𝑛 𝑛
1 1 1 1
∑(𝑦𝑖 − 𝑦̅) = ∑ 𝑦𝑖 − ∑ 𝑦̅ = 𝑦̅ − 𝑛𝑦̅ = 0.
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Le 5ème terme est donc nul, et il en est de même pour le 6ème.

On arrive donc au résultat :

càd la somme de 2 fonctions : une fonction du second degré de la seule variable a, facilement
minimisable (il suffit de la dériver et de trouver le point où la dérivée s’annule), et une fonction à deux
variables a et b prenant la forme particulière d’un carré parfait, prenant donc son minimum là où elle
s’annule.

Or, quel que soit a, ce dernier terme peut être annulé par un choix judicieux de b : il suffit de prendre
𝑏 = 𝑦̅ − 𝑎 𝑥̅ .

Il suffit donc de trouver le paramètre a qui minimise le premier terme, et de l’injecter dans l’expression
ci-dessus pour obtenir le paramètre b qui convient également.

Il reste donc seulement à trouver ce paramètre a. Notons 𝑓(𝑎) la fonction d’une seule variable
correspondant à ce premier terme :
𝑓(𝑎) = 𝑠𝑦2 + 𝑎2 𝑠𝑥2 − 2𝑎 𝑠𝑥,𝑦

Si on calcule la dérivée de cette fonction cela donne :


𝑓 ′ (𝑎) = 2𝑎𝑠𝑥2 − 2𝑠𝑥,𝑦
Cette dérivée s’annule si et seulement-ci :
𝑠𝑥,𝑦 𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= 2 =
𝑠𝑥 𝑉𝑎𝑟(𝑋)
1
En résumé, les paramètres minimisant 𝑛 𝐸𝑇, ou encore la somme des carrés des écarts, valent donc :
66

𝒔𝒙,𝒚 𝑪𝒐𝒗(𝑿, 𝒀)
𝒂= =
𝒔𝟐𝒙 𝑽𝒂𝒓(𝑿)

̅−𝒂𝒙
𝒃=𝒚 ̅.

La droite D d’équation y = a x + b ainsi obtenue (avec a,b comme ci-dessus) est appelée droite de
régression.

Qualité d’une régression linéaire : coefficient de détermination


Une mesure de la qualité d’une régression linéaire est obtenue en considérant le coefficient de
détermination:

𝑹𝟐 = 𝝆𝟐

défini comme le carré de la corrélation entre les deux variables statistiques X et Y.

En effet, la valeur minimale de l’écart quadratique ET que l’on a minimisé ci-dessus est donnée par :

𝐸𝑇𝑚𝑖𝑛 = 𝑛 . 𝑓(𝑎) = 𝑛. (𝑠𝑦2 + 𝑎2 𝑠𝑥2 − 2𝑎 𝑠𝑥,𝑦 ) = 𝑛. (𝑉𝑎𝑟(𝑌) + 𝑎2 𝑉𝑎𝑟(𝑋) − 2𝑎𝐶𝑜𝑣(𝑋, 𝑌))


𝑠𝑥,𝑦 𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= =
𝑠𝑥2 𝑉𝑎𝑟(𝑋)

En remplaçant a par cette valeur dans l’expression de ET , on obtient:

𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌) − 𝐶𝑜𝑣(𝑋, 𝑌)2


𝐸𝑇𝑚𝑖𝑛 = 𝑛 = 𝑛 𝑉𝑎𝑟(𝑌)(1 − 𝜌2 )
𝑉𝑎𝑟(𝑋)

𝐶𝑜𝑣(𝑋,𝑌)2
puisque 𝜌2 = 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌).

De ceci il apparait clairement que plus 𝜌2 est proche de 1, plus l’écart quadratique moyen est proche de
0 (indépendamment de la variabilité de Y capturée par Var(Y)).

En d’autres termes également, si on note 𝑦̂𝑖 = 𝑎𝑥𝑖 + 𝑏, on a la relation :

𝐸𝑇𝑚𝑖𝑛 = ∑(𝑦̂𝑖 − 𝑦𝑖 )2 = (1 − 𝜌2 ) ∑(𝑦𝑖 − 𝑦̅)2


𝑖 𝑖

1
ou encore (exercice, il suffit de développer les carrés ci-dessous et d’utiliser le fait que 𝑛 ∑𝑖 𝑦𝑖 = 𝑦̅):
2 2
∑𝑖(𝑦𝑖 − 𝑦̅)2 − ∑𝑖 (𝑦̂𝑖 − 𝑦𝑖 )2 ∑𝑖 (𝑦̂𝑖 − 𝑦̅)2
𝑅 =𝜌 = =
∑𝑖 (𝑦𝑖 − 𝑦̅)2 ∑𝑖 (𝑦𝑖 − 𝑦̅)2

Ceci s’interprète comme :


67

𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑒 𝑌 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑎 𝑟é𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛


𝑅2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒 𝑌

Donc une indication de la pertinence d’une régression linéaire (et donc d’un modèle linéaire, dans
lequel on a tenté d’expliquer Y à l’aide d’une fonction linéaire de X, et donné par le coefficient de
détermination 𝑹𝟐 .

Quand ça ne marche pas bien :


Il se peut au contraire qu’une droite ne représente pas « bien » le nuage de points. En d’autres termes
que le nuage ne ressemble en rien à une droite. Dans ce cas, on peut essayer de modifier les variables
du problème et chercher une relation linéaire non pas entre les séries X et Y mais entre X et une
fonction de Y.
2
Par exemple, si le nuage de points (ti ; gi) n’a pas l’allure d’une droite, ou peut vérifier l’allure de (ti ;
gi).

Pour analyser si une droite est une bonne approximation du nuage de points, on étudie le coefficient de
corrélation. Mais attention, cette étude ne suffit pas.

Souvent, on teste différentes droites de régression (en partant d’abord des deux séries de départ, puis
des fonctions de celles-ci) et on les compare entre-elles pour choisir la plus pertinente, c'est-à-dire,
celle qui représente mieux le nuage de points. En général on se base sur le carré de la corrélation

Par exemple, on peut comparer les coefficients de corrélation de la droite de régression pour (ti ; gi)
2
avec celui obtenu pour (ti ; gi) pour étudier la pertinence de ces fonctions.

2.5.1 Applications et exemples


Les régressions linéaires peuvent servir à construire des modèles pour l’évolution dans le temps de
certaines quantités observées, notamment des variables de marché ou macro-économiques.

2.5.1.1 Exemple 1: variation des taux d’intérêt sans risque


Le graphe suivant illustre une régression linéaire entre deux séries statistiques X et Y, où :
 X est le taux d’intérêt (taux sans risque à 3 mois) observé tous les jours pendant une certaine
période, et
 Y est le taux d’intérêt observé tous les jours mais avec un décalage de 1 jour dans le futur

En clair :
 𝑥𝑖 = taux au jour i-1
 𝑦𝑖 = taux au jour i

On « voit » sur ce graphe que les points s’alignent quasiment sur la droite de régression. Cela veut dire
que le taux observé un jour est quasiment une fonction linéaire du tau
68

-3
x 10 Regression
3.5

2.5
Rate observed
2
Regression
1.5
1.8 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6
-3
x 10
-4
x 10 Residuals
2

-2

-4
0 50 100 150 200 250 300 350 400

x observé la veille, et cela tous les jours


avec la même fonction linéaire (la relation est la même tous les jours).
(Note : nous ne donnons pas ici ni les coefficients de la régression ni le coefficient de détermination).

En fait cette estimation sert de base à l’estimation des paramètres d’un modèle de type « AR(1) »
(auto-régressif d’ordre 1), càd du type :

𝑥𝑖 = 𝑎𝑥𝑖−1 + 𝑏 + 𝜖𝑖

(où 𝜖𝑖 sont i.i.d.), modèle qui apparait assez pertinent pour l’évolution dans le temps des taux d’intérêt
par exemple.

2.5.1.2 Taux de décès à la naissance en fonction du temps


On s’intéresse aux taux de décès pour 1000 naissances des enfants de moins d’un an en Belgique
depuis 1900 :

Décès avant 1 an pour


Année (“x”)
1000 naissances (« y »)
1900 178.2
1930 99.5
1950 53.45
1970 21.09
1980 12.14
1990 7.75
2000 4.9
2010 3.7
2017 3.1

Les indicateurs statistiques usuels se calculent facilement :


𝑥̅ = 1971,89
69
𝑠𝑥2 = 1341,88

𝑦̅ = 42,65

𝑠𝑦2 = 3204,72

𝑠𝑥,𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) = −1947,8791

𝜌 = −93,93%, 𝑅2 = 88,23%

Le coefficient de corrélation est proche de 1, un modèle obtenu par régression linéaire est a priori
indiqué. Cependant, une modélisation linéaire pour des taux de décès est a priori suspecte, car ces taux
doivent toujours rester positifs (on a un « pallier » , ou un « floor », à 0 !).

Graphiquement et analytiquement, les données et la droite de régression (le modèle linéaire, donc) se
présente comme suit :

 Droite de régression : 𝑦 = −1,4516083 𝑥 + 2905,05807

Où les coefficients sont obtenus comme :


1947,879
 𝑎 = − 1341,88
 𝑏 = 𝑦̅ − 𝑎𝑥̅ = 42,65 − (−1947,8791 ∗ 1971,89)

Nombre de décès la première année pour 1000


naissances
200

150

100

50

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

-50
Figure 20: Modèle linéaire pour l'évolution dans le temps du nombre de décès à la naissance en Belgique

On constate que malgré une corrélation relativement proche de -1 (et un coefficient de détermination
également assez proche de 1), le modèle linéaire n’a pas de sens car il se traduit par des nombres de
décès négatifs à partir de 2010… Par ailleurs, les points n’ont pas vraiment l’air de se disposer le long
d’une droite…

On va alors faire une transformation des données en passant aux coordonnées semi-
logarithmiques pour les nombres de naissances. Cela revient à transformer la série Y en une
nouvelle série correspondant aux logarithmes de Y : Y’=ln(Y) :
70

Décès avant 1
Année (X) an pour 1000 Log (Y)
naissances (Y)
1900 178.2 5.18290652
1930 99.5 4.60015764
1950 53.45 3.97874664
1970 21.09 3.04879899
1980 12.14 2.49650579
1990 7.75 2.04769284
2000 4.9 1.58923521
2010 3.7 1.30833282
2017 3.1 1.13140211

Dans ce cas, on peut recalculer tous les indicateurs statistiques univariés et bivariés :

𝑥̅ = 1971,89

𝑠𝑥2 = 1341,88

̅ = 2,82
𝑦′
2
𝑠𝑦′ = 1,9444
𝐶𝑜𝑣(𝑋, 𝑌′) = −50,58073

𝜌 = −99,02%, 𝑅2 = 98,05%

On voit que la corrélation est devenue beaucoup plus proche de -1.

Une régression linéaire de log(Y) sur les années (X) nous donne :

𝐷𝑟𝑜𝑖𝑡𝑒 𝑑𝑒 𝑟é𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛: 𝑦′ = −0,037694 𝑥 + 77,1488648

Graphiquement cela donne :

Nombre de décès la première année pour 1000 naissances


6

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

Figure 21: Modèle linéaire construit sur les logarithmes du nombres de décès (modèle en coordonnées semi-logarithmiques).
71

Le nouveau modèle linéaire ainsi obtenu nous donne donc une modélisation du logarithme du nombre
de décès avant un an (sur 1000 naissances) comme :

ln(𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 𝑝𝑜𝑢𝑟 1000 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠) = −0,037694 ∗ 𝑎𝑛𝑛é𝑒 + 77,1488648

càd que l’on suppose implicitement que les données vérifient :

𝑙𝑛(𝑦𝑖 ) = 𝑦𝑖′ = −0,037694 𝑥𝑖 + 77,1488648 + 𝑒𝑖′

càd :

𝑥𝑖 +77,1488648+𝑒𝑖′
𝑦𝑖 = 𝑒 −0,037694

Ce nouveau modèle se réécrit encore :

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 = 𝑒 −0,037694∗𝑎𝑛𝑛é𝑒+77,1488648

Il s‘agit donc d’un modèle exponentiel. On modélise le nombre de décès par l’exponentielle d’une
fonction linéaire du temps.

Le premier modèle consistait en fait à supposer implicitement :

𝑦𝑖 = −1,4516083 𝑥𝑖 + 2905,05807 + 𝑒𝑖

ce qui est une relation fondamentalement différente…

En faisant un graphique des nombres de décès (tels quels, sans prendre le logarithmes) en fonction du
temps et qu’on représente les valeurs obtenues en appliquant ce modèle exponentiel on obtient ce qui
suit :

Nombre de décès la première année pour 1000 naissances


300

250

200

150

100

50

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

2.5.1.3 Evolution de la balance commerciale aux USA


On repart de données concernant la balance commerciale aux USA sur une période relativement courte
(5 ans sulement) :
72

On peut facilement calculer les paramètres statistiques de ces deux séries (en prenant à nouveau le
temps comme première série) :

𝑥̅ = 1995

𝑠𝑥2 = 2

𝑦̅ = −136,6

𝑠𝑦2 = 687,44

𝑠𝑥,𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) = −34,8

𝜌 = −93,85%

Le graphique suivant représente les données ainsi que la droite de régression (Y en fonction de X) sur
ces données.

Cet exemple nous permet d’illustrer la non robustesse de la méthode de régression linéaire par
moindres carrés. Imaginons que l’année 1997 ait été erronée, et ne comprenne le déficit que pour les 6
premiers mois. Les données deviennent alors :

Et une régression linéaire sur ces données erronées donne :


73

Avec ces nouvelles données, le modèle linéaire est radicalement différent : il présente une tendance à
la hausse alors que l’ancien modèle annonçait une tendance à la baisse… L’effet est évidemment très
marqué ici car on n’a considéré que 5 points de données.
74

Appendice : Quelques outils

Symbole de sommation
L’utilisation de points de suspension dans l’écriture d’une somme n’est ni pratique (c’est une notation
plutôt longue) ni rigoureuse (on ne décrit pas vraiment les termes qui sont représentés par les « ... »).
Pour cette raison, les mathématiciens ont recours au symbole de sommation Σ (lettre grecque
majuscule « sigma », c’est le son « s » en grec).

L’idée est de décrire les termes de la somme à l’aide d’une variable muette (qu’on note souvent par
une lettre minuscule, par exemple i, j, k ou l), qui prend des valeurs entières successives entre une
valeur minimum et une valeur maximum. L’expression de ces termes est placée à droite du symbole Σ,
tandis que les valeurs minimum et maximum sont respectivement placées en-dessous et au-dessus de
celle-ci.

Par exemple, on peut réécrire la somme des n premiers nombres entiers de la façon suivante :
𝑛

1 + 2 + ⋯ + (𝑛 − 1) + 𝑛 = ∑ 𝑗.
𝑗=1

L’idée est la même pour une la somme de n termes plus compliqués :


𝑛
1+4 2+4 𝑛−1+4 𝑛+4 𝑗+4
+ + ⋯ + + = ∑ .
11 22 (𝑛 − 1)𝑛−1 𝑛𝑛 𝑗𝑗
𝑗=1
Ou encore la somme des 1000 premiers nombres entiers positifs élevés au carré :
1000

1 + 4 + 9 + ⋯ + 999 + 1000 = ∑ 𝑗 2
2 2

𝑗=1
Insistons sur le fait que la somme est une quantité qui ne dépend pas de la variable muette (le « j » dans
les exemples ci-dessus), raison pour laquelle nous pouvons librement modifier celle-ci (modifier la
lettre utilisée : au lieu d’utiliser « j » on peut utiliser « i » ou « k » par exemple). Elle dépend cependant
bien de la valeur maximale que prend la variable muette (n ou 1000 dans nos exemples).

Donc on a par exemple l’égalité suivante :


𝑛 𝑛
𝑗+4 𝑘+4
∑ 𝑗 =∑ 𝑘
𝑗 𝑘
𝑗=1 𝑘=1

Lorsque la somme porte sur plusieurs variables différentes, on utilise plusieurs symboles de sommation
et plusieurs variables muettes. Par exemple, pour calculer la population européenne totale, on peut faire
la somme de la population de chaque âge dans chaque pays :
28 125 125 28

∑ ∑ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛(𝑝𝑎𝑦𝑠, 𝑎𝑔𝑒) = ∑ ∑ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛(𝑝𝑎𝑦𝑠, 𝑎𝑔𝑒)


𝑝𝑎𝑦𝑠=1 𝑎𝑔𝑒=0 𝑎𝑔𝑒=0 𝑝𝑎𝑦𝑠=1

où nous avons inversé les deux symboles de sommation, puisque sommer les âges (pour chaque pays)
puis sommer les pays est équivalent à sommer les pays (pour chaque âge) puis sommer les âges.

Le même genre de notation existe aussi pour le produit, qui fonctionne exactement de la même façon :
75
100

2 ∙ 4 ∙ 6 ∙ 8 ∙ 10 ∙ … ∙ 188 ∙ 200 = ∏ 2𝑘
𝑘=1

Fonction exponentielle
Lorsqu’un nombre réel est multiplié plusieurs fois par lui-même, on note ce nombre de fois en
exposant, c’est-à-dire en haut à droite de ce nombre. Ainsi, on écrit
25 = 2 ∙ 2 ∙ 2 ∙ 2 ∙ 2
De manière plus générale, si a est un nombre réel quelconque et n est un entier positif, on écrit
𝑎𝑛 = ⏟
𝑎 ∙ 𝑎 ∙ …∙ 𝑎
𝑛 𝑓𝑎𝑐𝑡𝑒𝑢𝑟𝑠

Lorsqu’on multiplie deux puissances du même nombre, celles-ci s’additionnent (règle d’addition des
exposants). Ainsi,
22 ∙ 23 = (2 ∙ 2) ∙ (2 ∙ 2 ∙ 2) = 2 ∙ 2 ∙ 2 ∙ 2 ∙ 2 = 25
et

où m est un entier positif.

Lorsqu’une puissance est appliquée à une puissance, celles-ci se multiplient (règle de multiplication
des exposants) :
(𝑎𝑛 )𝑚 = 𝑎𝑛∙𝑚
Signalons que, par convention, la puissance 0 de tout nombre réel strictement positif vaut 1 :
𝑎0 = 1

Les puissances négatives signifient que l’on divise par la puissance positive correspondante :
1
𝑎−𝑛 = 𝑛
𝑎
On peut aussi appliquer à a des exposants fractionnaires, qui correspondent aux racines :

Si on choisit un nombre réel x, il est possible en utilisant une suite de fractions, de définir 𝑎 𝑥 . Si on
considère que x est une variable réelle, on obtient la fonction exponentielle :

𝑎(.) : ℝ → ℝ+ : 𝑥 ↦ 𝑎 𝑥 .
Un cas particulier très important est celui où a = e = 2,7182… le « nombre d’Euler ». Sans entrer dans
les détails, on peut voir que ce nombre peut s’obtenir comme la limite pour n tendant vers l’infini de :
1 𝑛
(1 + 𝑛) , cette dernière quantité s’introduisant naturellement dans le cadre de problèmes d’intérêts
composés sur des périodes de plus en plus petites (…).
Dans ce cas, la fonction exponentielle correspondante, 𝑒 𝑥 , a la propriété intéressante suivante :
𝑒𝑥 ≈ 1 + 𝑥
pour x suffisamment petit. Une meilleure approximation est donnée par :
𝑒 𝑥 ≈ 1 + 𝑥 + 𝑥2
et on peut continuer comme ça en rajoutant des termes 𝑥 3 , 𝑥 4 , 𝑥 5 , … pour avoir des approximations
meilleures, valables pour des x de plus en plus grands.

Son graphe a l’allure suivante :


76

GRaphe de la fonction exponentielle exp(x)


35

30

25

20

15

10

0
-3 -2 -1 0 1 2 3 4

Fonction logarithme
Il est utile d’inverser la fonction exponentielle, par exemple, afin de déterminer l’exposant qu’il est
nécessaire d’appliquer à une quantité pour obtenir un résultat donné :
𝑎 𝑥 = 𝑏 ⇔ 𝑥 = log 𝑎 (𝑏)
Le nombre x est le logarithme de b en base a s’il est la puissance à laquelle il faut élever la quantité a
pour obtenir b. Puisque cette fonction est l’inverse de l’exponentielle, elle jouit de propriétés qu’on
peut considérer comme les transposées des caractéristiques de celles-ci :
log 𝑎 (1) = 0,

log 𝑎 (𝑎) = 1,

log 𝑎 (𝑥 ∙ 𝑦) = log 𝑎 (𝑥) + log 𝑎 (𝑦) ,

𝑥
log 𝑎 ( ) = log 𝑎 (𝑥) − log 𝑎 (𝑦) ,
𝑦

log 𝑎 (𝑥 𝑛 ) = 𝑛 ∙ log 𝑎 (𝑥).

Comme cas particulier important, mentionnons le logarithme en base e, qu’on appelle logarithme
naturel ou népérien et qu’on note ln(x) = log 𝑒 (𝑥). La plupart des calculatrices ne donnent accès au
logarithme que dans cette base-là. La formule suivante permet de changer de base :
log 𝑐 (𝑏)
log 𝑎 (𝑏) =
log 𝑐 (𝑎)

Calculer log 𝑎 (𝑏) sur une calculatrice se fera donc en divisant ln(b) par ln(a) :

ln(𝑏 )
log 𝑎 (𝑏) = .
ln(𝑎)

Dérivée et intégrale d’une fonction


La dérivée d’une fonction (qui se note avec une apostrophe après le symbole utilisé pour désigner la
fonction) donne son taux d’accroissement instantané, c’est-à-dire la façon dont elle croît ou décroît. Il
n’est dès lors pas étonnant qu’en physique, la vitesse soit la dérivée de la position, et que l’accélération
soit la dérivée de la vitesse (ou dérivée seconde de la position).

On a les règles de calcul suivantes, qu’il est indispensable de connaître dans la pratique :
77

La primitive est la « notion inverse », au sens où dériver une primitive ou primitiver une dérivée
revient à ne rien faire (à une constante près). Une fois que la primitive d’une fonction est connue, on
peut en calculer l’intégrale, qui correspond à l’aire sous la courbe du graphe d’une fonction entre deux
bornes : si F est la primitive de f,

𝑏
∫ 𝑓(𝑥)𝑑𝑥 = [𝐹(𝑥)]𝑏𝑎 = 𝐹(𝑏) − 𝐹(𝑎)
𝑎

L’intégrale jouit des propriétés suivantes :

Nous renvoyons le lecteur à des manuels de mathématiques générales du secondaire pour plus de
détails à propos de la dérivée, de la primitive et de l’intégrale.

La table ci-dessous donne les dérivées et primitives de quelques fonctions usuelles.

Alphabet grec
Nous utiliserons parfois les lettres de l’alphabet grec, qu’il faut pouvoir prononcer :
78
79