Vous êtes sur la page 1sur 148

1

Principes de la statistique

1B-ASSURANCE
Année académique 2019-2020

Titulaire : Celine Azizieh


2

Table des matières

Contrat didactique ..................................................................................................................................... 5


Chapitre 1: Introduction – données et statistiques ............................................................................... 7
1.1 Qu’est-ce que la statistique ? ..................................................................................................... 7
1.2 Quelques applications de la statistique : ................................................................................... 8
1.3 Définition formelle de la statistique .......................................................................................... 9
1.4 Vocabulaire : variables statistiques, données, observations, séries etc ................................... 12
1.5 La collecte des données ........................................................................................................... 16
Chapitre 2: Statistique descriptive : présentation sous forme de tableaux et de graphiques.............. 18
2.1 Résumer des données qualitatives ........................................................................................... 18
2.2 Résumer des données quantitatives discrètes .......................................................................... 21
2.3 Résumer des données quantitatives discrètes – Regroupement en classes ............................. 25
2.4 Résumer des variables quantitatives continues ....................................................................... 30
2.5 Histogrammes.......................................................................................................................... 32
2.6 Utiliser Excel pour construire une distribution de fréquence et faire des graphiques............. 38
2.6.1 Distribution de Fréquence ................................................................................................... 38
2.6.2 Graphiques .......................................................................................................................... 39
Chapitre 3: Statistique descriptive: Les indicateurs statistiques ........................................................ 41
3.1 Indicateurs de tendance centrale (ou de position) ................................................................... 41
3.1.1 La moyenne arithmétique .................................................................................................... 41
3.1.2 La médiane .......................................................................................................................... 45
3.1.3 Le mode ............................................................................................................................... 46
3.1.4 Les quartiles ........................................................................................................................ 47
3.2 Indicateurs de dispersion (ou de variabilité) ........................................................................... 49
3.2.1 Étendue ................................................................................................................................ 49
3.2.2 Ecart interquartile ................................................................................................................ 50
3.2.3 Variance .............................................................................................................................. 50
3.2.4 Ecart-type ............................................................................................................................ 54
3.2.5 Coefficient de variation ....................................................................................................... 54
3.3 Indicateurs de forme : coefficients de dissymétrie et d’aplatissement .................................... 55
3.4 Remarques sur les indicateurs statistiques .............................................................................. 58
3.4.1 Points communs à ces différents indicateurs....................................................................... 58
3.4.2 Changements de variable et indicateurs .............................................................................. 58
3.5 Règle empirique et théorème de Chebychev ........................................................................... 59
3

3.6 Boîte à moustaches (BM) ........................................................................................................ 63


3.7 Indicateurs statistiques - Utilisation du tableur Excel ............................................................. 64
Chapitre 4: Statistique bivariée – régressions linéaires................................................................... 67
4.1 Moyennes marginales et centre de gravité .............................................................................. 68
4.2 Variances et écart-types marginaux ........................................................................................ 68
4.3 La covariance .......................................................................................................................... 69
4.4 Coefficient de corrélation ........................................................................................................ 73
4.5 Corrélation et causalité ............................................................................................................ 78
4.6 Régressions linéaires simples – méthode des moindres carrés ............................................... 81
4.6.1 Paramètres de la droite de régression au sens des moindres carrés .................................... 81
4.6.2 Qualité d’une régression linéaire : coefficient de détermination ........................................ 84
4.6.3 Applications et exemples .................................................................................................... 86
Chapitre 5: Calcul des probabilités .................................................................................................... 95
5.1 Introduction ............................................................................................................................. 95
5.2 Introduction intuitive aux probabilités .................................................................................... 96
5.3 Evénement, expérience aléatoire, espace échantillon ........................................................... 101
5.4 Quelques rappels de la théorie des ensembles ...................................................................... 103
5.5 Modèle probabiliste discret ................................................................................................... 104
5.5.1 Combinaison d’événements .............................................................................................. 104
5.5.2 Probabilité ......................................................................................................................... 105
5.5.3 Quelques règles de calcul .................................................................................................. 110
5.6 Analyse combinatoire ............................................................................................................ 111
5.6.1 Règle multiplicative (ou règle du 𝒎 ∙ 𝒏).......................................................................... 112
5.6.2 Permutations ...................................................................................................................... 115
5.6.3 Arrangements .................................................................................................................... 116
5.6.4 Partitions............................................................................................................................ 117
5.6.5 Combinaisons .................................................................................................................... 119
5.7 Probabilité conditionnelle et indépendance........................................................................... 120
5.8 Règle des probabilités totales et formule de Bayès ............................................................... 122
Chapitre 6: Variables aléatoires discrètes ........................................................................................ 126
6.1 Variable aléatoire : définition................................................................................................ 126
6.2 Distribution d’une variable aléatoire discrète ....................................................................... 127
6.3 Espérance et variance d’une variable aléatoire discrète ........................................................ 128
6.4 La distribution uniforme discrète .......................................................................................... 133
6.5 La distribution binomiale ...................................................................................................... 134
6.6 La distribution de Poisson ..................................................................................................... 138
Chapitre 7: Variables aléatoires continues ....................................................................................... 140
7.1 Fonction de répartition et fonction de densité d’une variable aléatoire continue ................. 141
7.2 Distribution uniforme ............................................................................................................ 143
4

7.3 Distribution exponentielle ..................................................................................................... 144


7.4 Distribution normale ............................................................................................................. 145
7.5 La distribution log-normale **.............................................................................................. 147
5

Contrat didactique

Activité d’enseignement : Principes de la Statistique


Année : 1 Heures : 30

Prérequis et articulation avec le cursus


Pour pouvoir aborder et suivre ce cours, l'étudiant doit être capable de :
 Utiliser correctement les opérations algébriques de base (additions de fractions, puissances,
manipulation d’exponentielles et de logarithmes…)
 Utiliser correctement une calculatrice scientifique
 Résoudre des équations du premier et du second degré à une inconnue
 Résoudre des systèmes linéaires de deux équations à deux inconnues
 Représenter graphiquement une fonction linéaire (du type f(x)=ax+b, où a et b sont des
constantes, et dont le graphe est une droite)
 Comprendre la signification de chaque paramètre intervenant dans l'équation d'une droite (donc
les paramètres a et b mentionnés au point précédent) ou dans une fonction linéaire
 Dériver et intégrer des fonctions élémentaires (exponentielle, logarithme, polynomes,
puissances)

Compétences de formation développées / axes de formation :


 Mesurer la complexité, synthétiser et exploiter les savoirs collectés avec la rigueur
scientifique requise
 Recueillir, analyser, confronter et interpréter des données pertinentes pour résoudre des
problématiques liées à des situations nouvelles ou inconnues dans des contextes élargis ou
pluridisciplinaires
(axe : se documenter et analyser de manière critique)

Objectifs de l’activité d’enseignement :


Les objectifs du cours sont de pouvoir :
 Analyser avec objectivité et synthétiser un tableau de données
 Elaborer un tableau ordonné à partir d'un tableau brut de données
 Représenter graphiquement une série statistique, notamment au moyen d’un histogramme
 Comparer deux séries statistiques univariées à l’aide de critères objectifs tels tableaux recensés,
indicateurs statistiques
 Calculer la moyenne, médiane, mode, variance et écart type, écart moyen absolu, coefficient de
variation d'une distribution statistique à une variable
 Décrire les relations existant entre deux séries de données, à l’aide notamment de la corrélation 
 Calculer les paramètres de la droite de régression linéaire obtenue par la méthode des moindres
carrés
 Décrire la pertinence et interpréter d'une corrélation établie statistiquement
 Dénombrer des ensembles et calculer des probabilités d'événements
 Résoudre des exercices d'analyse combinatoire
 Pouvoir calculer la probabilité d’événements liés à une variable aléatoire
6

 Pouvoir calculer l’espérance et la variance de variables aléatoires discrètes et continues

Organisation des séances de cours


Les séances de cours seront divisées en deux groupes : les cours magistraux (±50%) et les séances
d’exercices (±50%). Les étudiants sont tenus d’arriver à l’heure ; un étudiant en retard doit attendre
l’heure suivante pour entrer dans la salle de cours. Le silence est exigé en classe, et les téléphones
doivent être éteints. Les ordinateurs portables sont tolérés uniquement s’ils sont utilisés pour des
raisons directement liées au cours (prise de notes, lecture du syllabus, etc.); il est donc interdit de
consulter des sites web n’ayant aucun rapport avec le cours pendant celui-ci. Il est interdit de
manger/boire dans la classe. Evitez les situations désagréables en n’apportant pas de la nourriture, ni
des boissons dans la classe.

Modalités et critères d’évaluation :


L’évaluation prendra la forme d’un examen écrit composé des éléments suivants :
1. un ensemble de questions portant sur des points de théorie, pour ±20% du total de l’examen ;
2. un ensemble d’exercices similaires à ceux qui ont été faits au cours (c’est-à-dire des exercices
où la méthode à appliquer est la même, mais dans des contextes et avec des paramètres
différents), pour ±60% du total de l’examen ;
3. un ensemble d’exercices légèrement différents de ceux qui ont été faits au cours (mais bien
entendu faisables), pour ±20% du total de l’examen.

A l’examen, toutes les réponses doivent être justifiées, une réponse par oui ou par non est insuffisante.
Ne proposez pas un calcul sans le justifier. Commentez tous vos résultats, expliquez le raisonnement
que vous suivez. Et montrez toutes les étapes des calculs : un résultat, même correct, non justifié n’est
pas accepté. Il faut éviter les ambiguïtés et les incohérences dans vos explications et calculs.
La matière d’examen correspond à tout ce qui a été couvert au cours, noté au tableau ou pas.

La durée de l’examen sera indiquée sur les feuilles et/ou sera communiquée oralement au début; elle ne
correspond pas nécessairement à la durée de réservation de la salle dans laquelle l’examen se déroule.
Le matériel autorisé le jour de l’examen est le suivant, à l’exclusion de quoi que ce soit d’autres :
1. une carte d’étudiant ou une carte d’identité ;
2. de quoi écrire (mais pas de trousse) ;
3. une calculatrice (l’utilisation de la calculatrice des téléphones est bien entendu interdite), ainsi
qu’une pile de rechange ou une deuxième calculatrice de rechange (le prêt de calculatrice entre
étudiants est interdit) ; la mémoire des calculatrices programmables sera effacée par un
surveillant au début de l’examen ;
4. une collation raisonnable.

Les couvre-chefs (casquettes, chapeaux, foulards…) sont interdits le jour de l’examen et pendant les
cours, y compris les casques antibruit. Il en va de même pour les écouteurs.

Support(s) de cours et bibliographie :


Pour suivre le cours l’étudiant doit être muni d’une calculatrice, du syllabus et de ses notes de cours.
Bibliographie :
 Satistiques pour l’économie et la gestion, Anderson, Sweeney, Williams, Camm, Cochran,
De Boeck Supérieur. 5e édition (traduction de la 7è édition).
 D. Wackerly, W. Mendenhall et R. Scheaffer, Mathematical statistics with applications,
Thomson, 2008 ;
 Statistiques pour décideurs - Daniel Justens - De Boeck Université
7

Chapitre 1: Introduction – données et


statistiques

1.1 Qu’est-ce que la statistique ?


Fréquemment, on lit dans les journaux et les magazines des phrases du genre :
 Le prix médian d’une maison individuelle dans la région XX s’élève à 190000 euros
 14,1% des directeurs généraux des sociétés appartenant au classement Fortune 500 sont des
femmes (The Wall Street Journal, 30 avril 2012)
 Le découvert moyen des cartes de crédit est de 5204 dollars par personne (site de PRWeb, avril
2012)
 Le pourcentage de travailleurs américains dormant moins de six heures par nuit est de 30%
(The Wall Street Journal, 4 aout 2012)
 …

Les chiffres qui sont présents dans les phrases ci-dessous (190000 euros, 14,1% etc) sont appelés
statistiques. Dans le langage courant, le terme « statistique » recouvre les données chiffrées telles que
les moyennes, les médianes, les pourcentages et les valeurs maximales qui nous aident à comprendre
l’environnement économique.

Cependant, le contenu des statistiques inclut beaucoup plus que les chiffres ; de manière générale, on
peut définir la statistique comme l’art et la science de collecter, analyser, présenter et interpréter
des données.

La statistique a envahi de nombreux domaines : la science, l'économie, la politique, la pédagogie, la


psychologie, la médecine, les assurances, les sciences sociales, etc. Ceci est dû au fait que le monde
qui nous entoure est rempli d’incertitudes. Pour mieux le comprendre et gérer ces incertitudes, de
nombreuses données sont recueillies. La statistique vise notamment à départager l’information du bruit
qu’on y retrouve.

A titre d’exemple, supposons que nous souhaitions étudier la population belge sous toutes ses coutures,
et que nous tentions de déterminer quel est la taille moyenne des Belges de plus de 18 ans. Pour ce
faire, il vient intuitivement à l’esprit deux méthodes, à savoir :
 le recensement, qui consiste à interroger chacun des N Belges sans exception aucune et à
enregistrer leur taille ;
 l’échantillonnage, qui consiste à prélever au hasard au sein de la population totale un échantillon
de taille n < N (par exemple 5000 personnes) puis à calculer la moyenne des tailles des individus
sélectionnés ; la moyenne calculée sur cet échantillon sera alors considérée comme un indicateur,
une approximation de la moyenne de la population totale.

Recenser représente une opération lourde, fastidieuse, lente, coûteuse et souvent de précision illusoire.
En effet, au fur et à mesure de la progression des opérations de recensement, la population change,
8

puisqu’elle se modifie par les naissances et par les décès. Des lors, nous n’obtiendrons qu’un résultat
approximatif et coûteux.

Échantillonner présente au contraire les avantages du contrôle de l’économie de la méthode et de


l’exactitude de la mesure de la moyenne de l’âge sur l’échantillon, mais présente le désavantage de
l’imprécision de l’extrapolation à la population totale de la Belgique de l’analyse effectuée sur
l’échantillon. Cela soulève déjà la question de la représentativité de l’échantillon choisi.

1.2 Quelques applications de la statistique :


• En comptabilité, les experts comptables utilisent des procédure d’échantillonnage statistique
lorsqu’ils effectuent des audits pour le compte de leurs clients. Par exemple, supposons qu’une
entreprise de comptabilité veuille déterminer si le montant du compte « fournisseurs » qui apparait
dans le bilan corresponda bien au montant réel. Généralement, le nombre de fournisseurs est
tellement grand que ré-examiner et valider chaque compte individuellement serait trop long et trop
couteux. Dans de telles situations, il est courant que l’expert-comptable sélectionne un sous-
ensemble de comptes, appelé échantillon. Après avoir examiné les comptes de l’échantillon,
l’expert-comptable conclut si le montant du compte « fournisseurs » inscrit dans le bilan est
acceptable ou pas.
• En finance, les analystes financiers utilisent des informations statistiques diverses pour orienter
leurs recommandations en matière d’investissement. Dans le cas de titres boursiers, on peut
examiner un certain nombre de données financières, telles le rendement en dividende. En
comparant l’information d’un titre avec la moyenne des titres du marché, l’analyste financier peut
savoir si le titre est un bon investissement.
• En marketing : les scanners des caisses enregistreuses dans les commerces collectent des données
utilisées dans de nombreuses applications de recherche en marketing. Certaines sociétés achètent
les données recueillies par les scanners de supermarchés, les exploitent et vendent ensuite les
conclusions statistiques aux fabricants. Les fabricants dépensent des centaines de milliers de
dollars ou d’euros par catégorie de produit pour obtenir ce type de données scannées ou les
conclusions statistiques relatives aux activités promotionnelles par exemples (offres spéciales dans
les magasins etc). Ce type d’analyse se révèlent souvent utiles pour établir les futures stratégies
commerciales des produits concernés.
• Les économistes fournissent fréquemment des précisions à propos de certains faits économiques
futurs. Ils utilisent de nombreuses informations statistiques pour effectuer ces prévisions. Par
exemple, pour prévoir le taux d’inflation, ils utilisent des indicateurs tels que l’indice des prix à la
production, le taux de chômage, et le taux d’utilisation des capacités de production. Souvent ces
indicateurs statistiques sont intégrés à des modèles de prévisions qui prévoient le taux d’inflation.
De manière générale, les économistes observent différents indices de santé économique sur une
période de temps donnée et utilisent cette information pour prédire l’évolution future de
l’économie.
• Les systèmes d’information (systèmes IT) : les administrateurs de ces systèmes sont responsables
au jour le jour du fonctionnement des réseaux informatique d’une entreprise. Une grande quantité
d’information statistique permet aux administrateurs réseau d’évaluer la performance des outils
informatiques, des réseaux locaux ou à distance, de l’intranet et des autres moyens de
communications. Des statistiques telles que le nombre moyen d’utilisateurs du système, la durée
durant laquelle chaque composant du système n’est pas utilisé et la part de la bande passante
utilisée à différents moments de la journée sont des exemples d’informations statistiques qui aident
l’administrateur IT à mieux comprendre et gérer le réseau informatique.
• Journalisme : les sondages sont élaborés pour estimer les tendances électives, ou pour prévoir les
résultats des élections ;
9

• En médecine et pharmacie, les chercheurs mènent des expériences pour détermine l’effet des
médicaments et de certains environnements sur l’homme, dans le but de découvrir comment traiter
différentes maladies ;
• En gestion de la production, de nombreux graphiques de contrôle de la qualité sont utilisés pour
vérifier les caractéristiques du produit fini dans un processus de production. En particulier, un
diagramme en barres peut être utilisé pour contrôler la production moyenne. Supposons par
exemple qu’une machine remplisse des canettes de 33 cl d’une boisson de type soda.
Périodiquement, un agent de production sélectionne un échantillon de canettes et calcule la quantité
moyenne contenue dans les canettes de l’échantillon. En fonction de la réglementation, des limites
supérieures et inférieures ne peuvent pas être dépassées par les différentes canettes de l’échantillon.
Le processus de production est dit « sous contrôle » lorsque les données de l’échantillon seront
toujours comprises entre ces limites supérieure et inférieure.
Autre exemple en production : les appareils électroniques lancés sur le marché sont échantillonnés
et testés pour déterminer s’ils peuvent effectivement être envoyés aux clients ou s’il est nécessaire
de conserver le lot ;
• En assurance : Les compagnies d’assurance observent au cours des années précédentes le nombre
de sinistres et leurs montants sur les différents contrats d’assurance souscrits par leurs clients, et
tentent d’en tenir compte afin de déterminer le niveau de prime qu’un nouveau client devrait payer
étant donné son profil de risque, ses caractéristiques (ex : l’âge de l’assuré en assurance
automobile). Ces informations servent également à ajuster au cours du temps les primes des clients
existant : les « bons » clients verront leur prime diminuer et les « mauvais » leur prime augmenter
en assurance RC auto par exemple… Les statistiques ont donc un rôle central en assurance.

Avec l’avènement des nouvelles technologies, les sources de données sont de plus en plus nombreuses
et complexes. Depuis des siècles cependant, l'homme a souvent tenu une comptabilité des personnes et
des choses avec l'espoir d'utiliser les données du passé pour la résolution des problèmes du présent et la
e
prévision des événements futurs. Cependant, ce n'est qu'à la fin du XIX siècle que se sont développées
des méthodes statistiques rigoureuses, permettant en particulier une bonne interprétation des données
recueillies.

Les sociétés modernes sont submergées de statistiques, et il serait difficile de bien fonctionner sans
elles. Il nous faut des résumés quantitatifs – donc, des statistiques – pour comprendre le monde et
prendre des décisions éclairées.

Presque tous les problèmes d’ordre social et de gestion sont « quantifiés » par le biais de statistiques et
tant les fonctionnaires de l’administration que les collaborateurs du secteur privé conseillant les
décideurs – en particulier dans le domaine de l’assurance – doivent être capables de comprendre une
étude statistique et d’en interpréter les résultats.

1.3 Définition formelle de la statistique


On pourrait résumer la statistique comme la science qui collecte, analyse et interprète des
observations relatives à un même phénomène ; elle étudie méthodiquement un ensemble de données
numériques, ce qui permet de faire un état de la situation présente et passée, de présenter ces données
d'une manière intelligible et synthétique, et surtout de servir de base à la prévision.

Il en résulte qu’une étude statistique se découpera généralement en trois phases :

 La collecte des informations est la phase préparatoire et probablement la plus délicate : elle
consiste à définir la population étudiée, choisir le caractère étudié, vérifier si l’échantillon
10

choisi est représentatif de la population. C’est de la qualité de cette collecte que dépendra la
validité des résultats trouvés.
 L’analyse des informations recueillies consiste à déterminer un certain nombre de
caractéristiques mathématiques/statistiques relatives à la série statistique étudiée.
 L’interprétation des résultats obtenus lors de l’analyse permet au statisticien de tirer un
certain nombre de conclusions et de suggérer les décisions à prendre.

La statistique est composée de 2 disciplines : la statistique descriptive et la statistique inférientielle

La statistique descriptive désigne l’ensemble des méthodes qui permettent de représenter les données
sous une certaine forme et de les résumer à l’aide de valeurs caractéristiques, afin de rendre ces
données immédiatement exploitables et compréhensibles.

La statistique inférentielle :
De nombreuses situations requièrent des données relatives à un vaste ensemble d’éléments (individus
de la population belge, électeurs, ménages, produits, clients, etc). A cause de considérations telles les
coûts et le temps, les données ne peuvent être collectées qu’auprès d’une petite partie du groupe
concerné. Le groupe considéré dans son ensemble est désigné par le terme population (voir plus loin)
et la petite partie du groupe par le terme échantillon (voir plus loin).

Formellement, la statistique inférentielle désigne l’ensemble des méthodes qui permettent d’étendre à
une population les propriétés d’un échantillon sélectionné au sein de celle-ci, et de valider ou
d’infirmer des hypothèses formulées a priori à son propos. Elle permet donc de prédire, avec un certain
risque d’erreur, les paramètres inconnus de la population à partir des caractéristiques d’un échantillon
extrait de cette même population.

Exemple d’inférence statistique: La société Norris fabrique des ampoules. Dans le but d’accroitre la
durée de vie des ampoules, le groupe de recherche a mis au point un nouveau filament. Dans ce cas, la
population correspond à l’ensemble des ampoules produites avec le nouveau filament. Pour évaluer les
performances de ce nouveau filament, 200 nouvelles ampoules ont été fabriquées et testées. Les
données collectées à partir de cet échantillon indiquent le nombre d’heures d’éclairage obtenues avec
chaque ampoule avant que le filament ne grille.

107 54 66 62 74 92 75 65 81 83
78 90 96 66 68 85 83 74 73 73
73 65 62 116 85 78 90 81 62 70
66 78 75 86 72 67 68 91 77 63
68 71 79 65 73 88 62 75 79 70
66 71 64 96 77 87 72 76 79 63
97 70 86 88 80 77 89 62 83 81
94 101 76 89 60 80 67 83 94 89
76 84 68 64 68 103 71 94 93 77
77 78 72 81 87 84 92 66 63 82
79 88 74 79 78 88 71 71 61 72
63 43 77 71 84 93 89 68 59 64
94 62 61 78 89 63 74 85 65 84
11

66 59 74 85 75 69 82 61 62 85
59 61 82 79 72 68 70 84 62 67
75 67 65 99 77 76 96 73 71 92
98 79 65 77 58 88 74 83 92 59
68 61 82 59 51 89 77 72 81 64
57 98 98 86 69 81 70 63 65 58
76 71 86 92 45 75 102 76 65 73

Sur base de cet échantillon, les statisticiens vont estimer la valeur moyenne de la durée de vie d’une
ampoule de la population totale (moyenne population) en calculant ce qu’on appelle la moyenne
échantillon, obtenue en prenant simplement la moyenne arithmétique des 200 valeurs de ce tableau (on
prend la somme et on divise par 200 – voir plus loin). L’utilisation de cette moyenne échantillon pour
estimer la moyenne population est déjà un processus d’inférence statistique.

Quand les statisticiens utilisent un échantillon pour estimer une caractéristique de la population, ils
définissent également la qualité ou précision de l’estimation. Dans cet exemple, le statisticien doit
préciser que l’estimation (ponctuelle) de la durée de vie moyenne des ampoules de la population est de
76 heures, avec une marge d’erreur de plus ou moins 4 heures. Ainsi l’intervalle d’estimation de la
durée de vie moyenne de toutes les ampoules produites est compris entre 72 et 80 heures avec un
certain degré de confiance (par exemple 95% : cela voudra dire que selon l’échantillon choisi de 200
ampoules, avec une probabilité de 95%, la vraie moyenne est contenue dans cet intervalle).

Tout ceci est un exemple d’inférence statistique : on étudie un échantillon pour en déduire les
propriétés de la population dans son ensemble, en précisant la qualité ou la précision des estimations.

Tout ceci nous mène à une autre discipline importante des mathématiques, jouant un grand rôle dans
l’étude de la statistique : la théorie des probabilités, avec laquelle elle forme les sciences de
l’aléatoire. D’une part, les phénomènes observés et décrits par la statistique descriptive peuvent être
représentés par des modèles ou par des lois dont la définition repose sur des notions définies dans la
théorie des probabilités. D’autre part, les méthodes de la statistique inférentielle reposent sur des
résultats issus de cette théorie. Ces deux disciplines ne sont pas fondamentalement opposées (comme
on le lit trop souvent), mais se complètent l’une l’autre.

La statistique à l’époque des « big data »


Des milliards d’euros sont dépensés chaque année par les industries et les gouvernements de tous les
pays du monde pour collecter des données, que ce soit via des expériences, des sondages ou d’autres
procédures. Ces montants gigantesques sont dépensés dans l’unique but d’obtenir des informations à
propos des phénomènes mesurables dans tous les domaines (dans les sphères économiques,
scientifiques, etc.), et donc de mieux les comprendre.

Depuis les années 2000, ce fait est encore plus vrai : les ensembles de données disponibles se
multiplient, et avec eux les efforts déployés pour récolter celles-ci. Les décideurs, depuis les
entrepreneurs de PME jusqu’aux membres des gouvernements, font face à des quantités formidables
d’informations, qu’il s’agit de comprendre et d’utiliser.

Les contributions de la statistique sont donc plus que jamais cruciales, et ce à tous les niveaux de notre
société.
12

1.4 Vocabulaire : variables statistiques, données, observations, séries etc


Données : les données sont les faits et les chiffres qui sont collectés, analysés et résumés pour pouvoir
ensuite être interprétés. Toutes les données collectées dans une étude particulière forment l’ensemble
des données.

o Exemple : le tableau suivant présente un ensemble de données contenant des informations


relatives à 60 pays qui font partie de l’Organisation mondiale du commerce (OMC,
organisation qui encourage le libre-échange au niveau international et constitue une plateforme
de résolution des conflits commerciaux).

Balance Perspective
Pays Statut OMC PIB par tête Note Fitch
commerciale Fitch
Arménie Membre 5,400 2,673,359 BB- Stable
Australie Membre 40,800 -33,304,157 AAA Stable
Autriche Membre 41,700 12,796,558 AAA Stable
Azerbaïdjan Observateur 5,400 -16,747,320 BBB- Positive
Bahreïn Membre 27,300 3,102,665 BBB Stable
Belgique Membre 37,600 -14,930,833 AA+ Negative
Brésil Membre 11,600 -29,796,166 BBB Stable
Bulgarie Membre 13,500 4,049,237 BBB- Positive
Canada Membre 40,300 -1,611,380 AAA Stable
Cap Vert Membre 4,000 874,459 B+ Stable
Chilie Membre 16,100 -14,558,218 A+ Stable
Chine Membre 8,400 -156,705,311 A+ Stable
Colombie Membre 10,100 -1,561,199 BBB- Stable
Costa Rica Membre 11,500 5,807,509 BB+ Stable
Croatie Membre 18,300 8,108,103 BBB- Negative
Chypre Membre 29,100 6,623,337 BBB Negative
République
Membre 25,900 -10,749,467 A+ Positive
tchèque
Danemark Membre 40,200 -15,057,343 AAA Stable
Equateur Membre 8,300 1,993,819 B- Stable
Egypte Membre 6,500 28,486,933 BB Negative
Le Salvadore Membre 7,600 5,019,363 BB Stable
Estonie Membre 20,200 802,234 A+ Stable
France Membre 35,000 118,841,542 AAA Stable
Géorgie Membre 5,400 4,398,153 B+ Positive
Allemagne Membre 37,900 -213,367,685 AAA Stable
Hongrie Membre 19,600 -9,421,301 BBB- Negative
Islande Membre 38,000 -504,939 BB+ Stable
Irlande Membre 39,500 -59,093,323 BBB+ Negative
Israël Membre 31,000 6,722,291 A Stable
13

Italie Membre 30,100 33,568,668 A+ Negative


Japon Membre 34,300 31,675,424 AA Negative
Kazakhstan Observateur 13,000 -33,220,437 BBB Positive
Kenya Membre 1,700 9,174,198 B+ Stable
Lettonie Membre 15,400 2,448,053 BBB- Positive
Liban Observateur 15,600 13,715,550 B Stable
Lituanie Membre 18,700 3,359,641 BBB Positive
Malaisie Membre 15,600 -39,420,064 A- Stable
Mexique Membre 15,100 1,288,112 BBB Stable
Pérou Membre 10,000 -7,888,993 BBB Stable
Les Philippines Membre 4,100 15,667,209 BB+ Stable
Pologne Membre 20,100 19,552,976 A- Stable
Portugal Membre 23,200 21,060,508 BBB- Negative
Corée du Sude Membre 31,700 -37,509,141 A+ Stable
Roumanie Membre 12,300 13,323,709 BBB- Stable
Russie Observateur 16,700 -151,400,000 BBB Positive
Rwanda Membre 1,300 939,222 B Stable
Serbie Observateur 10,700 8,275,693 BB- Stable
Les Seychelles Observateur 24,700 666,026 B Stable
Singapour Membre 59,900 -27,110,421 AAA Stable
Slovaquie Membre 23,400 -2,110,626 A+ Stable
Slovénie Membre 29,100 2,310,617 AA- Negative
Afrique du Sud Membre 11,000 3,321,801 BBB+ Stable
Suède Membre 40,600 -10,903,251 AAA Stable
Suisse Membre 43,400 -27,197,873 AAA Stable
Thaïlande Membre 9,700 2,049,669 BBB Stable
Turquie Membre 14,600 71,612,947 BB+ Positive
Royaume-Uni Membre 35,900 162,316,831 AAA Negative
Uruguay Membre 15,400 2,662,628 BB Positive
Etats-Unis Membre 48,100 784,438,559 AAA Stable
Zambie Membre 1,600 -1,805,198 B+ Stable

Autre exemple : Dans une compagnie d’assurance, les montants des sinistres enregistrés chaque année
pour les différents contrats d’assurance, mais aussi les caractéristiques des clients ou des risques
assurés de ces contrats, constituent des données statistiques.

Les éléments sont les entités auprès desquelles les données sont collectées.
o Dans l’exemple ci-dessus, chaque pays listé dans le tableau est un élément, dont le nom
apparait dans la première colonne. Puisqu’il y a 60 pays, l’ensemble des données contient 60
éléments.

Une variable (ou variable statistique) est une caractéristique des éléments à laquelle on s’intéresse.
14

o Par exemple, le tableau ci-dessus contient 5 variables :


 Le statut à l’OMC : le pays peut être membre ou observateur
 Le PIB par habitant (en USD) (PIB = production globale du pays divisée par le nombre
d’habitants, on utilise cette variable pour comparer la productivité économique des pays)
 Le décifit de la balance commerciale (en milliers de USD) : différence entre la valeur en
USD des importations et des exportations du pays
 La note Fitch : l’évaluation par l’agence de notation Fitch de la dette souveraine du pays.
 Les perspectives Fitch : indicateur de la tendance vers laquelle la note pourrait tendre dans
les 2 ans à venir (suivant les analystes de Fitch)

L’ensemble des informations obtenues pour un élément particulier correspond à une observation.

o Dans notre exemple, la première observation contient l’ensemble des informations suivantes :
Membre, 5400, 2,673,359, BB-, Stable (ces 5 valeurs correspondent donc à 1 observation). Un
ensemble de données de 60 éléments contiendra donc 60 observations.

Une série statistique est un ensemble de valeurs collectées portées sur une liste comme.
o Par exemple, l’ensemble des 60 observations contenues dans le tableau précédent.
o Autre exemple : la taille des élèves d'une classe (comprenant ici 10 élèves) :
162 176 164 178 174 180 187 149 155 144
o Autres exemples : le nombre de voix obtenues par l'ensemble des personnes sur une liste, etc.

Une série statistique est dite univariée si elle ne correspond qu’aux observations d’une seule variable.
Elle est multivariée si plusieurs variables sont observées. Une série est bivariée si elle correspond à
l’observation de deux variables.

On distingue deux types de variables (donnant lieu à 2 types de séries): qualitative et quantitative.

 Une variable statistique est qualitative si elle décrit des qualités, càd des valeurs qui ne
peuvent pas s’additionner, qui ne s’exprime pas comme la mesure de quelque chose.
o Dans notre exemple, le statut à l’OMC est une variable qualitative. Autres exemples : la
couleur des yeux, la marque d'une voiture, l'activité professionnelle, la nationalité etc.

 Une variable est quantitative décrit des quantités, que l’on peut additionner entre elles,
soustraire, multiplier etc.
o Dans notre exemple, le PIB par habitant est quantitative, de même que la balance
commerciale. Autres exemples : l'âge de personnes, leur poids, leur revenu annuel, l’âge
au moment du décès, le montant d’un sinistre d’un portefeuille d’assurance RC auto, la
température d’un malade, le résultat obtenu dans le lancer d’un dé etc.

Une variable quantitative peut elle-même être discrète ou continue.

 Une variable quantitative discrète peut être représentée par un nombre fini ou infini
dénombrable de valeurs.
o Ce sera, par exemple, le nombre d’enfants par famille, le nombre d’hospitalisations par
patient, le résultat obtenu lors du lancer d’un dé, le nombre de pétales dans une fleur,
15

etc. Notre exemple n’en comporte en fait pas, sauf si on décide de travailler par exemple
avec des nombres entiers, ou avec des nombres avec maximum 2 chiffres derrière la
virgule.

 Une variable quantitative continue peut prendre toutes les valeurs possibles dans un
intervalle donné [a, b] de la droite réelle (càd un ensemble infini non dénombrable de valeurs).
o Par exemple, le poids, la taille, l’âge, la concentration en ozone ou en calcium, la
température d’un malade sont des variables qualitatives continues (sauf si on décide de
ne travailler par exemple qu’avec un nombre spécifique de chiffres derrière la virgule,
par exemple seulement 2). Pour le poids, toutes les valeurs possibles entre 0 et (disons)
350 sont admissibles. On dit qu’on a un « continuum » de valeurs possibles.

Une population est un ensemble soumis à une étude statistique. Plus précisément, la grande collection
d’objets, d’individus, d’éléments, etc. sur laquelle se porte notre intérêt est appelée la population. Elle
peut être réelle et finie (par exemple l’ensemble des Belges de plus de 18 ans, ou l’ensemble des pays
de l’OMC) ou infinie et virtuelle (par exemple, toutes les pièces d’un certain type qui seront produites
par une usine donnée dans le futur). Ce processus est illustré à la figure ci-dessous. Les éléments de
celle-ci sont parfois appelés unités de population.

o Autres exemples de population : l’ensemble de tous les assurés de plus de 50 ans d’une
compagnie d’assurance, l’ensemble des hommes belges ayant exercé la profession d’enseignant
dans une haute école ou à l’université, l’ensemble des femmes belges habitant en Wallonie,
l’ensemble de tous les restaurants d’une chaine…

Un échantillon est un sous-ensemble de la population (c’est cet échantillon qui servira à l’étude
statistique).
o Par exemple, on sélectionne 15 restaurants parmi tous ceux de la chaine. On sélectionne un
panel de 2000 belges en âge de voter pour effectuer un sondage.

Quelle que soit la nature de la variable il faut toujours s'assurer qu'elle est définie pour chaque individu
sans ambiguïté : pour chaque individu et chaque variable il doit y avoir une et une seule valeur.
16

Une statistique est une quantité calculée à partir des valeurs d’un échantillon. Par exemple, la
consommation moyenne de lait des ménages belges est une statistique calculée à partir d’un
échantillon de ménages belges prélevé au hasard au sein de la population belge totale.

1.5 La collecte des données


Les enquêtes par sondage ont été développées à partir des années 1930 avec l’américain Gallup,
fondateur de l’institut qui porte son nom. La technique du sondage s’applique aux sciences sociales et
politiques, mais aussi dans le domaine de l’économie et de la gestion.

Le sondage consiste à estimer la proportion d’une population dotée d’un certain caractère en mesurant
cette proportion sur une partie seulement de la population, que l’on appelle l’échantillon.

Le choix d’un échantillon n’est pas simple. Il faut décider de sa taille (le nombre d’individus) et du
choix des individus. Afin que le sondage soit utile, il faut que la valeur estimée de la variable
statistique à l’aide du sondage (relative à l’échantillon, donc) soit « suffisamment proche » de la
« vraie » valeur, inconnue (c’est justement celle que l’on cherche en faisant le sondage) de la
population totale. L’échantillon doit être assez petit pour que le sondage soit concrètement réalisable et
économiquement viable, mais pas trop petit, car il faut qu’il puisse vraiment représenter la population
par rapport au caractère statistique étudié.

Un exemple extrême : supposons que l’on veuille étudier la proportion de femmes parmi les clients
d’un magasin. Si l’on cherche à estimer cette proportion en considérant un échantillon composé d’un
seul individu, il sera constitué soit de 100% d’hommes, soit de 100% de femmes. On arrive alors à une
estimation très loin de la vraie valeur (qui n’est pas connue, mais que l’on sait différente de 100% de
clients du même sexe). Combien de clients faut-il donc prendre pour avoir un bon échantillon ?

Le choix de l’échantillon peut se faire à l’aide de deux techniques différentes : soit par la méthode des
quotas, soit par la méthode probabiliste, aussi appelée méthode aléatoire.

Selon la méthode des quotas, il faut que l’échantillon présente les mêmes proportions de certains
caractères de la population qu’il représente (on vise ici les caractères relevants pour le problème
étudié…). Par exemple, la même répartition par âge (dans le cas où la variable statistique qui nous
intéresse est a priori liée à l’âge).

Dans la méthode probabiliste ou aléatoire, le choix de l’échantillon se fait au hasard : on sélectionne


au hasard dans la population totale les éléments de l’échantillon. De cette façon, chaque membre de la
population a une chance égale de figurer dans l’échantillon.

Les avantages de la méthode des quotas sont l’économie, la rapidité et la souplesse d’utilisation,
notamment pour les enquêtes délicates. Les inconvénients dont les risques d’erreur systématique due à
la sélection dont les enquêteurs sont consciemment ou inconsciemment responsables. La méthode
probabiliste est moins souple et de coût plus élevé (notamment car il faut sélectionner davantage de
membres dans l’échantillon), mais le risque d’erreur peut être contrôlé et mesuré grâce à la théorie des
probabilités. Elle est par exemple davantage appliquée pour des sondages réalisés en entreprise (ou en
groupe d’individus réduit de manière générale). Un nouveau problème se pose cependant : celui de
pouvoir reproduire le hasard artificiellement.

On peut aussi combiner les avantages de la méthode probabiliste et de la méthode des quotas.
17

Quelle que soit la méthode choisie, souvent il faut redresser l’échantillon pour résoudre des problèmes
survenus lors du sondage proprement dit. Par exemple, si plusieurs personnes n’ont pas répondu à un
sondage par téléphone, il faut décider si l’effectif sera maintenu ou pas : il faut décider si des individus
devront être ajoutés à l’échantillon initialement prévu pour prendre la place de ceux qui n’ont pas
répondu.

Le nombre d'individus étant généralement grand, voire très grand, une série brute est difficilement
lisible et interprétable. Il est indispensable de la résumer.

Pour cela, on commence par un tri à plat, on fait un décompte des modalités ou valeurs obtenues de la
série, qui nous servira de base à la construction de tableaux et de graphiques.

Nous allons voir les choses de plus près sur des exemples dans les sections qui suivent.
18

Chapitre 2: Statistique descriptive : présentation


sous forme de tableaux et de graphiques

Nous allons étudier comment établir des tableaux permettant de résumer l’information contenue dans
une série de données statistiques.
On s’intéressera d’abord aux données qualitatives, puis quantitatives discrètes et enfin
quantitatives continues.

2.1 Résumer des données qualitatives


2.1.1 Distribution de fréquence
Une distribution de fréquence est un résumé des données sous forme de tableau décrivant le nombre (la
fréquence, aussi appelée fréquence absolue) des observations.
Exemple 0 : Coca-Cola, Coca Light, Dr. Pepper, Pepsi et Sprite sont cinq boissons non alcoolisées
largement répandues et consommées à travers le monde. Supposons que les données présentées dans le
tableau suivant constituent un échantillon de 50 achats de boisson :
Marque achetée
Coca-Cola Coca-Cola Coca-Cola Sprite Coca-Cola
Coca Light Dr. Pepper Coca Light Dr. Pepper Coca Light
Pepsi Sprite Coca-Cola Pepsi Pepsi
Coca Light Coca-Cola Sprite Coca Light Pepsi
Coca-Cola Coca Light Pepsi Pepsi Pepsi
Coca-Cola Coca-Cola Coca-Cola Coca-Cola Pepsi
Dr. Pepper Coca-Cola Coca-Cola Coca-Cola Coca-Cola
Coca Light Sprite Coca-Cola Coca-Cola Dr. Pepper
Pepsi Coca-Cola Pepsi Pepsi Pepsi
Pepsi Coca Light Coca-Cola Dr. Pepper Sprite
Tableau 1: Données issues d’un échantillon de 50 achats de boisson non-alcoolisée

Pour développer une distribution de fréquence à partir de ces données, le nombre de fois où chaque
marque de boisson apparaît dans le tableau est comptabilisé.
Coca-Cola apparait 19 fois, Coca Light 8 fois, Dr. Pepper 5 fois etc.
On aboutit au tableau suivant, qui résume la répartition des 50 achats de boisson entre les cinq
marques :
Boisson non-alcoolisée Fréquence (ou effectifs)
Coca-Cola 19
Coca Light 8
Dr. Pepper 5
Pepsi 13
Sprite 5
TOTAL 50
Tableau 2: Distribution de fréquence des achats de boisson non-alcoolisée. On parle aussi de « table des effectifs »
19

On voit déjà dans ce tableau que Coca-Cola est le leader des ventes de boisson non-alcoolisée, Pepsi
arrive en deuxième position, Coca Light en troisième, Sprite et Dr. Pepper occupent la quatrième place
à égalité.
Cette distribution de fréquence résume les informations sur la popularité des cinq marques les plus
vendues.
Le nombre de fois qu’on a observé une valeur s’appelle donc la fréquence. Mais on parle aussi de
fréquence absolue ou d’effectif.
Les différentes valeurs observées s’appelles les modalités de la série.
Le tableau obtenu s’appelle aussi parfois la table des effectifs.

La première colonne de ce tableau contient donc les modalités de la série, et la seconde les fréquences
(ou fréquences absolues, ou encore effectifs) de chaque modalité.

La dernière ligne est écrite à titre de vérification, et contient l’effectif total de la série. Dans notre
exemple, l’effectif total est de 50.

2.1.2 Distribution de fréquence relative


La fréquence relative d’une modalité correspond à la proportion des observations correspondant à
cette modalité.
On peut aussi exprimer cette fréquence relative en pourcentage, en la multipliant par 100.
Exemple :

Boisson non-alcoolisée Fréquence relative Fréquence (relative) en


pourcentage
Coca-Cola 0,38 38
Coca Light 0,16 16
Dr. Pepper 0,10 10
Pepsi 0,26 26
Sprite 0,10 10
TOTAL 1 100

De ce tableau, on peut constater que la fréquence relative de Coca-Cola est de 19/50, càd 0,38.
Pour Coca Light, elle est de 8/50=0,16. Etc.

Les fréquences relatives sont donc obtenues comme les fréquences absolues divisées par le nombre
total d’observations, souvent noté N.

2.1.3 Tableau recensé


On peut aussi regrouper dans un même tableau les modalités (càd les valeurs observées, que l’on
note souvent 𝑥𝑖 ), les fréquences absolues (ou effectifs, notés 𝑛𝑖 ) et fréquences relatives (notées 𝑓𝑖 ). On
obtient alors un tableau recensé :
20

Boisson non-alcoolisée Fréquence (ou effectif) Fréquence relative


𝒙𝒊 𝒏𝒊 𝒇𝒊
Coca-Cola 19 0,38
Coca Light 8 0,16
Dr. Pepper 5 0,10
Pepsi 13 0,26
Sprite 5 0,10
TOTAL 50 1

2.1.4 Graphiques : diagrammes en barres et diagramme circulaire


Un diagramme en barres est un moyen graphique de décrire des données qualitatives résumées par
une distribution de fréquence absolue (effectifs), relative ou en pourcentage.
Sur l’un des axes du graphique (généralement l’axe horizontal), on note les noms des modalités. Sur
l’autre axe (généralement l’axe vertical), on note la fréquence absolue, relative ou en pourcentage.
Chaque modalité est représentée par une barre de largeur égale, et de hauteur égale à la fréquence
absolue, relative ou en pourcentage (selon le type de graphique).

Boisson non alcoolisée


20
18
16
Fréquence

14
12
10
8
6
4
2
0
Coca-Cola Coca Light Dr. Pepper Pepsi Sprite

Figure 1: Diagramme en barres des achats de boisson non-alcoolisées. Ici, ce sont les fréquences (absolues) qui sont représentées
sur l’axe y.

Le graphique a été effectué dans Excel, si on le fait à la main, on indiquera des graduations sur l’axe
vertical mais pas nécessairement des lignes horizontales sur l’entièreté du graphique comme ici (…).

Un diagramme circulaire est un autre type de graphique que l’on peut construire. Il permet de
représenter les distributions de fréquences relative et en pourcentage de données qualitatives. Pour
dessiner un tel diagramme, on commence par dessiner un cercle représentant l’ensemble des données.
Ensuite on se sert des fréquences relatives pour diviser le cercle en secteurs (ou en parts) qui
correspondent à la fréquence relative de chaque classe. Par exemple, puisqu’un cercle fait 360 degrés,
si Coca-Cola a une fréquence relative de 0,38, le secteur du diagramme circulaire correspondant à
21

Coca-Cola fait 0,38 × 360 = 136,8 degrés. Pour Coca Light : 0,16 × 360 = 57,6 degrés et ainsi de
suite.

Achats de boisson non-alcoolisée

Sprite
10%

Coca-Cola
Pepsi 38%
26%

Dr.
Pepper
10% Coca Light
16%

Figure 2: Diagramme circulaire des achats de boissons non-alcoolisées.

Ce diagramme est parfois aussi appelé diagramme en secteurs ou encore camenbert.


On peut varier les options de présentation de ce type de diagramme (choix des couleurs, utilisation de
la 3D etc). En général utiliser des effets « 3D » n’apporte rien à la compréhension du graphique (voir
exemple ci-dessous).

2.2 Résumer des données quantitatives discrètes


On peut aller un peu plus loin dans le cas de données quantitatives.
2.2.1 Distribution de fréquence
Exemple 1 :
On suppose que dans un sac se trouvent 4 boules numérotées de 1 à 4.
On effectue 20 tirages successifs en remettant à chaque fois la boule tirée dans le sac. Voici les boules
tirées lors de ces 20 tirages:
1, 3, 2, 4, 3, 2, 2, 3, 4, 2, 1, 3, 1, 2, 4, 1, 3, 2, 2, 3.

On va commencer par ranger par ordre croissant les observations. La même série ordonnée s’écrit :
1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4.

Nous constatons que le caractère observé, c’est-à-dire, la boule tirée, prend des valeurs entre 1 et 4. Ce
sont les valeurs prises par la série ou modalités xi.

La différence entre les deux valeurs extrêmes (la plus grande et la plus petite) s'appelle l'étendue de la
série. Dans notre exemple : 4 – 1 = 3. On a donc x1 = 1 ; x2 =2 ; x3=3, x4=4.
22

Certaines valeurs xi reviennent plusieurs fois lors des 20 tirages: le nombre de fois que la valeur xi se
rencontre est nommé à nouveau fréquence, ou fréquence absolue, ou encore effectif de cette valeur.
On le note à nouveau ni.

L'ensemble des couples (xi, ni) aboutit à la distribution de fréquence, appelée aussi table des
effectifs, que l’on peut ranger dans un tableau :

Numéro de Fréquence
boule absolue
xi ni
1 4
2 7
3 6
4 3
Total 20

La première colonne de ce tableau contient donc les modalités de la série, et la seconde les effectifs
(ou fréquences absolues) de chaque modalité.

L'effectif total N est le nombre d'éléments de la population:


4

𝑁 = 𝑛1 + 𝑛2 + 𝑛3 + 𝑛4 = ∑ 𝑛𝑖
𝑖=1
Dans l’exemple présent : N = 4+7+6+3 = 20.
Question : Combien de fois a-t-on tiré des boules numérotées avec un numéro inférieur ou égal à 3 ? Il
s’agit donc des cas où la boule était numérotée avec 1, 2, ou 3. La réponse s’écrit :

𝑛1 + 𝑛2 + 𝑛3 = 4 + 7 + 6 = 17.

2.2.2 Distributions de fréquences relatives et pourcentages


La fréquence relative d’une modalité (ou d’une valeur observée) est définie comme pour les variables
qualitatives, càd comme le rapport entre sa fréquence (ou effectif) et l'effectif total.

Exemple : si l’on veut calculer la fréquence relative de la boule 2 :


𝑛2 7
𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑒 𝑑𝑒 𝑙𝑎 𝑏𝑜𝑢𝑙𝑒 2 = = = 0,35 = 35%.
𝑁 20
Cela veut dire que 35% des tirages ont donné des boules numérotées avec le numéro 2.

De manière générale, on notera la fréquence relative d’une modalité 𝑥𝑖 par 𝑓𝑖 , et on a donc la


définition:
𝑛
𝑓𝑖 = 𝑁𝑖 .
On peut indiquer également ces fréquences relatives en pourcentages, en les multipliant par 100.
23

En notant dans un tableau les modalités (càd les valeurs observées), les fréquences relatives et les
pourcentages, on tient un tableau de fréquence :

Fréquence
Fréquence (relative) en
Modalité relative pourcentage
(xi) (fi)
1 0,2 20
2 0,35 35
3 0,3 30
4 0,15 15
TOTAL 1 100

2.2.3 Effectifs (ou fréquence) cumulés et tableau recensé


Dans le cas de données quantitatives, cela a du sens de considérer également les effectifs cumulés, car
les modalités peuvent être rangées par ordre croissant.
L'effectif cumulé (ou la fréquence cumulée) d’une modalité est la somme des effectifs de toutes les
valeurs inférieures ou égales à cette valeur.
Par exemple, le nombre de fois qu’on a observé des valeurs inférieures ou égales à 1 est de 4, le
nombre de fois où on a observé des valeurs inférieures ou égales à 2 est de 4 + 7=11, etc.
On aboutit au tableau suivant (la table des effectifs cumulés).

Effectifs
Modalités cumulés
xi 𝑵𝒊
1 4
2 11
3 17
4 20

On remarque que le dernier effectif cumulé, càd celui correspondant à la plus grande modalité (ici,
correspondant à 4) est égal à l’effectif total (ici, 20).
On note en général l’effectif cumulé avec une lettre majuscule, mais un indice (pour indiquer de
quelle modalité il s’agit). Par exemple, si on note avec des minuscules 𝑛𝑖 les fréquences, on notera
avec des majuscules Ni les fréquences cumulées (ou effectifs cumulés).
De manière générale que l’effectif cumulé est défini comme:
𝑖

𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 = ∑ 𝑛𝑗
𝑗=1
24

𝑁𝑖 représente donc le nombre de fois que l'on rencontre une valeur inférieure ou égale à xi.
La fréquence relative cumulée de la valeur xi est le rapport de l'effectif cumulé à l'effectif total ; elle
est notée :
𝑁𝑖
𝐹𝑖 =
𝑁

𝑁3 17
Par exemple, on a : 𝐹3 = = 20 = 0,85, ce qui signifie que 85% des boules tirées étaient des boules
𝑁
numérotées 1, 2 ou 3.

Remarque : La convention de notation que l’on a adoptée ici est l’usage d’une minuscule pour les
fréquences absolues ou relatives non cumulées, et d’une majuscule pour les effectifs ou les fréquences
relatives cumulés. (en clair : non cumulé noté en minuscule, cumulé noté en majuscule).

Lorsque l’on met dans un même tableau les effectifs (ou fréquences), les effectifs cumulés, les
fréquences relatives, et les fréquences relatives cumulées, on obtient ce qu’on appelle un tableau
recensé.

Effectifs Fréquences
(ou fréquences, Effectifs Fréquences
relatives cumulées
Modalités ou fréquences absolues) cumulés relatives
(xi) (ni) (Ni) (fi) (Fi)
1 4 4 0,2 0,2
2 7 11 0,35 0,55
3 6 17 0,3 0,85
4 3 20 0,15 1
Total 20 1

Un tableau recensé est le tableau obtenu en classant les valeurs de la variable (ou modalités) par ordre
croissant. De plus, il doit indiquer les effectifs (ou fréquences), les fréquences relatives, les effectifs
cumulés et les fréquences relatives cumulées de chaque valeur (ou de chaque classe).

On laisse parfois une ligne supplémentaire (comme dans le tableau ci-dessus), pour y noter les sommes
des valeurs de la colonne (ligne « Total »):
o Dans la colonne des effectifs (ou fréquences), le total correspond à l’effectif total (ici 20)
o Dans la colonne des effectifs cumulés (ou fréquences cumulées), la ligne correspondant à la
plus grande modalité est égale également à l’effectif total (20)
o Dans la colonne des fréquences relatives (et pas des fréquences cumulées !), le total
donnera toujours « 1 ».
o Dans la colonne des fréquences relatives cumulées, la ligne correspondant à la plus grande
moalité vaut toujours « 1 »
Indiquer le total (contenant donc les sommes de la colonne en question) peut donc être utile à titre de
vérification…

Attention : Il est possible qu’à cause des arrondis lors des calculs des fréquences relatives, la somme
de celles-ci ne soit pas égale à « 1 ». En fait elle sera toujours très proche de « 1 ». Si lors d’un
25

exercice/question d’examen, vous trouvez une valeur différente de « 1 », ajoutez une petite phrase pour
expliquer que vous n’avez pas « 1 » à cause des erreurs d’arrondis.

2.2.4 Graphiques : diagrammes en barres et diagramme circulaire


Les mêmes types de graphique vu dans le cas de variables qualitatives peuvent être effectués.
Dans le cas de notre exemple 1, cela donne :

8
7
Fréquence

6
5
4
3
2
1
0
1 2 3 4
Figure 3: Diagramme en barres dans le cas de l’exemple 1 (boules numérotées de 1 à 4)

4 1
15% 20%

3
30%
2
35%

Figure 4: Diagramme circulaire dans le cas de l’exemple 1 (boules numérotées de 1 à 4)

2.3 Résumer des données quantitatives discrètes – Regroupement en


classes
Lorsque l’on a affaire à des données quantitatives discrètes prenant beaucoup de valeurs différentes,
on procède généralement à un regroupement en classes avant de faire les tableaux et graphiques
résumant les données.
2.3.1 Regroupement en classes et distributions de fréquence absolue et relative
Exemple 2 :
48 élèves participent à un examen noté sur 40. L’ensemble des notes obtenues constitue une série
statistique quantitative discrète (car nombre fini de valeurs possibles : 0, 1, 2, …, 40).

Voici les différents résultats (les notes des 48 élèves):


26

24, 24, 14, 16, 24, 22, 19, 27, 8, 24, 23, 21, 22, 20, 16, 15, 20, 18, 23, 22, 22, 23, 31, 34,
19, 26, 36, 29, 19, 26, 28, 22, 20, 17, 13, 13, 21, 19, 31, 22, 33, 31, 24, 17, 30, 20, 22, 23.
Procédons comme dans l’exemple précédent et transformons ce tableau brut en un début de tableau
recensé. On voit déjà que 8 est la note minimale, et 39 la note maximale.

xi ni Ni xi ni Ni xi ni Ni
8 1 1 18 1 10 28 1 40
9 0 1 19 4 14 29 1 41
10 0 1 20 4 18 30 1 42
11 0 1 21 2 20 31 3 45
12 0 1 22 7 27 32 0 45
13 2 3 23 4 31 33 1 46
14 1 4 24 5 36 34 1 47
15 1 5 25 0 36 35 0 47
16 2 7 26 2 38 36 1 48
17 2 9 27 1 39

Ce tableau volumineux ne nous donne pas une idée très résumée de la distribution des données.
Nous allons plutôt les grouper en classes afin d’avoir une information plus synthétique (et donc
plus parlante).

Au lieu de travailler avec les notes en première colonne, on va y mettre les différentes classes. La
re
1 colonne sera donc la liste des différentes classes avec leurs limites (supérieures et inférieures).
Le choix de cet intervalle dépend de l'étendue du tableau.
Créons par exemple des classes correspondant à des intervalles de cinq unités comme suit:

]7,5 ; 12,5], ]12,5 ; 17,5], ]17,5 ; 22,5], ]22,5 ; 27,5], ]27,5 ; 32,5], ]32,5; 37,5].

e
La 2 colonne de ce nouveau tableau précisera le centre de chaque classe : il s’agit de la moyenne
arithmétique des limites/bornes de la classe :

La 3e colonne : l’effectif (ou fréquence) de chaque classe (𝑛_𝑖) ;


La 4e colonne : la fréquence relative de chaque classe (fi ) ;
La 5e colonne : l’effectif cumulé de chaque classe (𝑁_𝑖) ;
La 6e colonne : la fréquence relative cumulée de chaque classe (𝐹𝑖 ).

On obtient alors le tableau suivant, plus synthétique que le précédent :


27

Classes 𝒄𝒊 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
]7,5 ; 12,5] 10 1 0.020833 1 0.020833
]12,5 ; 17,5] 15 8 0.166667 9 0.1875
]17,5 ; 22,5] 20 18 0.375 27 0.5625
]22,5 ; 27,5] 25 12 0.25 39 0.8125
]27,5 ; 32,5] 30 6 0.125 45 0.9375
]32,5 ; 37,5] 35 3 0.0625 48 1

Comment interpréter ce tableau ?


Prenons la ligne correspondant à la classe 3 : 17,5; 22,5.
L’effectif (ou la fréquence) de cette classe est n3=18. Cela veut dire que 18 étudiants ont eu des
notes comprises entre 17,5 (non compris) et 22,5 (compris).
La fréquence relative cumulée de cette classe est de 0,5625. Cela veut dire qu’environ 56% des
élèves ont eu une note inférieure ou égale à 22,5.
L’effectif cumulé de la classe 3 est de N3=27. L’effectif cumulé de la classe 2 vaut par contre
N2=9. Cela veut dire que, si l’on range les résultats des examens en ordre croissant, on peut dire que
la 10ème cote appartenait déjà à la classe 3 : 17,5; 22,5. Donc si nous n’avons que ce tableau,
ème
nous ne savons pas combien vaut exactement la valeur de la 10 note, mais nous savons que cette
valeur est comprise entre 17,5 et 22,5.
ème ème ème
Du 10 au 27 étudiant : les notes sont comprises dans la classe 3. Le 28 étudiant a eu quant
à lui une note appartenant à la classe 4, donc située entre 22,5 et 27,5…

Remarques sur la construction des classes:


 Nombre de classes : les classes regroupent les observations en fonction de leurs
caractéristiques. En général, on recommande d’utiliser entre 5 et 20 classes. Lorsque le
nombre d’observations est relativement faible, 5 ou 6 classes suffisent généralement pour
répartir les données. Pour un nombre plus important d’observations, un nombre plus
important de classes est généralement nécessaire (de l’ordre de 10 ou 15). L’objectif est
d’utiliser suffisamment de classes pour souligner les divergences, ou différences qui existent
entre les données, sans toutefois obtenir un nombre excessif de classes qui se traduirait par le
fait que certaines d’entre elles ne seraient constituées que de quelques observations. Il ne
faut pas prendre trop de classes : le tableau aurait trop de lignes et il serait difficile d’y
dégager des informations utiles. Dans notre exemple (N=48), on a choisi seulement 6 classes
(mais on aurait pu en prendre 5…).
 Largeur des classes : la seconde étape dans la construction des classes est de déterminer
leur largeur. On recommande d’utiliser la même largeur pour toutes les classes (mais ce
n’est pas obligatoire). Ainsi, la largeur et le nombre de classes ne sont pas indépendantes
mais sont liées : plus le nombre de classes est faible, plus elles seront larges, et vice versa.
Un moyen simple pour identifier la largeur des classes est de considérer la plus petite et la
plus grande valeur observée dans l’ensemble des données. Une fois le nombre de classes
spécifié, la largeur approximative des classes est donnée par :

𝑣𝑎𝑙𝑒𝑢𝑟 𝑙𝑎 𝑝𝑙𝑢𝑠 𝑔𝑟𝑎𝑛𝑑𝑒−𝑣𝑎𝑙𝑒𝑢𝑟 𝑙𝑎 𝑝𝑙𝑢𝑠 𝑝𝑒𝑡𝑖𝑡𝑒


Largeur des classes =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠
28

36−8 28
Dans notre exemple cela donnerait, si on s : 6 = 6 = 4,66. On aboutit donc à une
longueur de classes entre 4 et 5… et on va l’arrondir à « 5 » (cela donne des classes assez
parlantes).
 Les limites inférieures et supérieures des classes : elles sont choisies de sorte que toutes
les valeurs observées (toutes les modalités), appartiennent à une seule des classes. On a
même précisé ici que les intervalles correspondant aux classes sont fermés en leurs bornes
supérieures, et ouverts en leurs bornes inférieures. En général on prend les valeurs maximum
et minimum mais ce n’est pas une règle absolue.

Pour la suite du cours, on prendra en général des intervalles fermés en leurs bornes supérieures et
ouverts en leurs bornes inférieures, et on dira simplement « compris entre 17,5 et 22,5 ». On sous-
entend que le 17,5 n’est pas compris, mais que le 22,5 l’est (c’est un abus de langage).

Interprétation des fréquences cumulées dans ce tableau:


Dans ce tableau, il faut comprendre que la fréquence relative cumulée nous donne toujours la
fréquence relative observée d’obtenir une note inférieure ou égale à la borne supérieure de la classe
en question.

Par exemple, 0,5625 est la proportion d’observations menant à une note inférieure ou égale à 22,5.

C’est un peu comme si on avait attribué un « poids » de 0,5625 à l’intervalle [7,5 ; 22,5] (ou même
à l’intervalle [0 ; 22.5] , car il n’y a pas de note inférieure ou égale à 7,5)

Petit problème : quel est le nombre d’étudiants ayant eu des notes comprises entre 12,5 et
27,5 ?
On peut procéder de 2 manières un peu différentes :

Calcul par les effectifs (ou fréquences absolues) :


12,5 est la borne inférieure de la classe 2, et 27,5 est la borne supérieure de la classe 4. Les notes
comprises entre 12,5 et 27,5 correspondent donc aux notes dans les classes 2, 3 et 4. On doit donc
faire la somme des effectifs de ces classes 2, 3 et 4. Cela donne donc : n2 + n3 + n4 = 8 + 18 +12 =
38.
Attention : si l’on prenait la classe 1 (12,5 appartient à cette classe), on serait en train de compter
également tous les étudiants qui ont eu une note entre 7,5 et 12,5 , ce qui fait trop d’étudiants (on ne
veut pas ceux qui ont eu un 8 par exemple, car dans l’énoncé du problème, on cherche ceux ayant
eu une note entre 12,5 et 27,5…).

Calcul par les fréquences relatives cumulées (plus compliqué):


la fréquence relative cumulée donne la proportion du nombre de données inférieures ou égales à la
borne supérieure d’une classe.

Exemple : classe 2, fréquence relative cumulée F2= 0,187, donc 18,7 % des étudiants ont eu des
cotes comprises inférieures ou égales à 17,5.
29

Donc, pour répondre à la question « quel est le nombre d’étudiants (l’effectif) qui ont eu des cotes
comprises entre 12,5 et 27,5 ? », on soustrait la fréquence relative cumulée de la classe 4 (fréquence
d’observer des notes inférieures ou égales à 27,5), de celle de la classe 1 (elle ne nous intéresse pas).
Cela nous donne la proportion d’étudiants qui ont eu des notes appartenant aux classes 2, 3 ou 4 :
F4 – F1 = 0,8125 – 0,020833 = 0,791667
Donc 79,17% environ des étudiants ont eu des notes comprises entre 12,5 et 27,5.

Pour connaître le nombre d’étudiants ayant eu des notes entre 12,5 et 27,5, il suffit maintenant de
multiplier 0,7917 par l’effectif total (N = 48) :

0,7917 ∙ 48 ≅ 38.
On retrouve bien le 38 obtenu plus haut par la première méthode.

Remarques :
 Nous avons résolu le problème par les deux méthodes pour vérifier si nos résultats étaient
corrects. Si la méthode n’est pas précisée dans l’énoncé, vous pouvez choisir celle que vous
voulez.

 Pourquoi avons-nous soustrait la fréquence cumulée de la classe 1 et pas de la classe 2 ? Car


si l’on avait soustrait la fréquence cumulée de la classe 2, on n’aurait pas tenu compte du
pourcentage d’étudiants de la classe 2, càd ceux qui ont eu une note entre 12,5 et 17,5. On
aurait ainsi « oublié » certains étudiants.

 Le groupement en classes doit répondre à un certain nombre de critères qui relèvent


surtout du bon sens: le nombre de classes doit rester raisonnable sans quoi le groupement
perd tout son intérêt. Par contre, ce nombre ne peut pas être trop petit afin d’éviter de perdre
les spécificités de la série étudiée : la valeur de chaque caractère est remplacée par celle du
centre de la classe. Les résultats d’une étude statistique peuvent varier très fort suivant la
façon dont on a formé les classes.

 Dans certains cas spécifiques, le statisticien considérera des classes d’amplitudes différentes
(largeurs différentes). La méthode de travail ne change pas beaucoup, l’important est de
comprendre ce que l’on fait et de rester cohérent.
2.3.2 Graphiques dans le cas d’utilisation de classes : diagrammes en barres et diagramme
circulaire
Pour l’exemple 2 que l’on vient d’étudier, on peut faire à nouveau les mêmes graphiques que
ceux introduits précédemment :
30

Figure 5: Diagramme circulaire et diagramme en barres pour les notes des étudiants (exemple 2)

2.4 Résumer des variables quantitatives continues


2.4.1 Distribution de fréquence, de fréquence relative, en pourcentages, …
Le cas des variables quantitatives continues se traite toujours en utilisant un regroupement en
classes, exactement comme pour les variables quantitatives discrètes vues plus haut. On illustre cela
à partir de l’exemple 3 ci-dessous.

Exemple 3 : Hauteurs d’arbres


Lors de l’abattage des sapins (épicéas) pour les fêtes de fin d’année, les bûcherons mesurent la
hauteur des arbres afin de les classer pour la vente. Le caractère étudié est la hauteur des arbres.
Ce caractère est un caractère quantitatif continu, car a priori on peut observer n’importe quelle
valeur positive…

Il y a 400 observations. On décide de travailler avec des classes de longueur 5, et on commence


avec la classe ]159,5 ; 164,5] car cela correspond aux plus petites observations (remarque : on aurait
pu travailler avec des classes d’extrémités entières, et commencer avec [160 ; 165], càd une classe
fermée s’il y a une observation correspondant à 160…). On voit sur les données que cela nous
donne 14 classes (donc un nombre de classes compris entre 5 et 20, comme recommandé plus haut).

On compte alors le nombre d’observations se situant dans chaque classe, pour obtenir les fréquences
(ou effectifs). On divise par l’effectif total, 400, pour obtenir les fréquences relatives, on indique
également les effectifs cumulés et les fréquences relatives cumulées… etc.
Exemple : le sapin qui mesure 176,3 cm appartient à l’intervalle ]174,5 ; 179,5] .

Voici le tableau recensé de 400 arbres dont la largeur des classes est de 5 cm.

Classes Centre ci ni fi Ni Fi
]159,5 ; 164,5] 162 5 0,0125 5 0,0125
]164,5 ; 169,5] 167 7 0,0175 12 0,03
]169,5 ; 174,5] 172 15 0,0375 27 0,0675
]174,5 ; 179,5] 177 25 0,0625 52 0,13
]179,5 ; 184,5] 182 37 0,0925 89 0,2225
]184,5 ; 189,5] 187 47 0,1175 136 0,34
31

]189,5 ; 194,5] 192 53 0,1325 189 0,4725


]194,5 ; 199,5] 197 57 0,1425 246 0,615
]199,5 ; 204,5] 202 49 0,1225 295 0,7375
]204,5 ; 209,5] 207 38 0,095 333 0,8325
]209,5 ; 214,5] 212 28 0,07 361 0,9025
]214,5 ; 219,5] 217 21 0,0525 382 0,955
]219,5 ; 224,5] 222 12 0,03 394 0,985
]224,5 ; 229,5] 227 6 0,015 400 1,00

De manière générale, dans le cas d’une variable quantitative continue, dresser un tableau
recensé sur base des valeurs observées sans regrouper en classes, comme dans l’exemple 1, n’aurait
pas beaucoup de sens, puisque beaucoup de valeurs observées se retrouveraient toutes seules et le
tableau n’apporterait pas beaucoup d’information. C’est pour cette raison qu’on regroupe toujours
en classes les valeurs prises par la variable, comme dans l’exemple 2 ci-dessus. La méthode de
travail est identique, et toutes les remarques énoncées plus haut (pour le cas de variables
quantitatives discrètes avec regroupement en classes) restent d’application.

On peut encore rappeler quelques règles qu’il est généralement bon de suivre (mais qui ne sont pas
universelles), déjà mentionnées plus haut:
• les intervalles ne doivent pas forcément être de la même longueur (surtout le premier et le
dernier), mais c’est plus facile à manipuler si c’est le cas ;
• l’union de ces intervalles doit couvrir l’étendue des valeurs de la variable.

2.4.2 Représentations graphiques


L’exemple 3 mène aux représentations graphiques suivantes :

Hauteurs d'arbres: fréquences (ou effectifs)


60
50
40
30
20
10
0

Figure 6: Distribution de fréquence pour l’exemple 3 (hauteurs d’arbres)


32

Figure 7: Diagramme circulaire pour l’exemple 3 (hauteurs d’arbres)

2.5 Histogrammes
Une autre représentation graphique courante des données quantitatives est l’histogramme.
Pour construire celui-ci, on reprend le tableau de la distribution de fréquence ou de fréquence
relative: les intervalles correspondent maintenant à des subdivisions de l’axe horizontal. Sur chacun
de ces intervalles, un rectangle est construit, dont la largeur est égale à la taille de l’intervalle et la
hauteur est égale respectivement à (3 types possibles d’histogrammes):

1. à l’effectif de cet intervalle (ou fréquence absolue, la somme des fréquences absolues
redonnant l’effectif total) ;
2. à la fréquence relative de données situées dans cet intervalle (la somme des fréquences
relatives étant égale à 1) ;
3. au rapport entre la fréquence relative et la largeur de l’intervalle (aussi appelé densité), de
telle sorte que la surface du rectangle soit égale à la fréquence relative, et que la somme des
surfaces des rectangles soit égale à 1 (car la somme des fréquences relatives vaut 1).

Chacun des cas considérés plus haut (1, 2, 3) correspond à un type d’histogramme : histogramme
de fréquence absolue, histogramme de fréquence relative, histogramme de densité.

Exemple 4 :
On considère une population de bébés dont on étudie le poids à la naissance [kg]. On suppose que
les valeurs obtenues sur une certaine population de bébés sont les suivantes :

Les 3 types d’histogrammes pour cet exemple sont les suivants :


33

Tableau 3: Tableau de l’histogramme de fréquence absolue pour les poids de bébés

Figure 8: graphe de l’histogramme de fréquence absolue pour les poids de bébés

Tableau 4: tableau de l’histogramme de fréquence relative pour les poids de bébés


34

Figure 9: graphe de l’histogramme de fréquence relative pour les poids de bébés

Tableau 5: tableau de l’histogramme de densité pour les poids de bébés.


La 3è colonne contient les rapports entre les fréquences relatives et
la longueur de l’intervalle correspondant.

Figure 10: graphe de l’histogramme de densité pour les poids de bébés

Insistons encore sur l’importance de choisir un nombre d’intervalles adapté à la taille de la


population considérée. Si ce nombre est trop petit (voir graphe ci-dessous), le « résumé» des
données est trop peu précis, et l’histogramme ne nous apprend pas grand-chose.
35

Figure 11: exemple d’histogramme construit sur un nombre trop faible d’intervalles
et n’apportant pas grand-chose

Si au contraire il est trop grand (voir graphe ci-dessous), la plupart des données se retrouvent seules
dans leur intervalle, et le graphe n’est pas plus utile que de regarder le tableau brut de nombres.

Figure 12: histogramme construit avec un nombre trop important d’intervalles


et n’apportant pas plus d’information que les données brutes initiales

Quelle que soit la taille de la population, on ne sélectionne en général pas moins de 5 et pas plus
de 20 intervalles (environ). La plupart des logiciels statistiques (comme SAS, R, etc.) tracent
automatiquement des histogrammes qui suivent ces conseils généraux.

Remarques
 Un diagramme en barres et un histogramme de fréquence sont fondamentalement deux
choses identiques. Tous deux sont une représentation graphique des données exprimées sous
forme d’une distribution de fréquence. Un histogramme est simplement un diagramme en
barres sans séparation entre les rectangles. Pour certaines données quantitatives discrètes,
une séparation entre les rectangles est toutefois plus appropriée. Si on considère par exemple
le nombre de cours que suit un étudiant, les données ne peuvent être que des nombres
entiers. Des valeurs intermédiaires comme 12,7 ou 5,6 ne sont pas possibles. Par contre,
avec des données quantitatives continues, telles que les données sur la longueur des arbres
(exemple 3), une séparation entre les rectangles n’est pas appropriée.
36

 Parfois on considère des classes « ouvertes », càd sans limite supérieure ou inférieure.
Exemple : on considère la durée du temps nécessaire pour effectuer les audits de fin d’année
des clients d’un cabinet d’expert-comptables :

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13

On aboutit au tableau de fréquence suivant :

Durée de l'audit
(jours) Fréquence
10-14 4
15-19 8
20-24 5
25-29 2
30-34 1
Total 20

On a choisi ici des classes couvrant bien toutes les valeurs possibles, mais avec des « trous »
entre les classes (il y a un trou entre l’intervalle [10,14] et [15,19]…) car toutes les valeurs
possibles sont entières. On aurait pu faire pareil avec l’exemple 2 (notes des 48 étudiants).

Supposons que l’on ait eu deux observations supplémentaires correspondant aux valeurs
observées 58 et 65, apparaissant comme « extrêmes » par rapport aux autres. Plutôt que de
continuer la liste des intervalles de 5 jours avec les classes 35-39, 40-44, etc., on peut
simplifier la distribution de fréquence en considérant une classe ouverte « 35 et plus ».

On arrive alors au tableau suivant :

Durée de l'audit
(jours) Fréquence
10-14 4
15-19 8
20-24 5
25-29 2
30-34 1
35 et plus 2
Total 22
37

Remarque* :
Dans un histogramme de densité, la somme des aires des rectangles est égale à 1. Ceci revient à dire
que l’aire qui est située sous la « courbe » formée des « côtés supérieurs » de ces rectangles
(l’intégrale) est égale à 1. On peut alors construire un autre type de graphe (voir figure ci-dessous):
• on considère une série de taille infinie ;
• on trace des histogrammes en divisant l’axe des données en des intervalles de plus en plus
petits ;
• les rectangles ont donc des largeurs de plus en plus petites, mais la somme de leurs aires est
toujours égale à 1 ;
• à la limite (quand on considère un nombre infini d’intervalles), on obtient ce qu’on appelle
la fonction de densité.

C’est un outil très important par lequel on caractérise des « familles » de populations qui se
comportent de manière similaire. La forme de la fonction de densité nous donne une information
très complète sur la manière dont la variable « se comporte aléatoirement », du type de
comportement aléatoire. Remarquons que l’intégrale de (ou l’aire sous) la fonction de densité est
égale à 1.

Une distribution rencontrée souvent dans les applications est la distribution normale, ou
« distribution en cloche », correspondant à la « courbe de Gauss ».

On en reparlera dans le chapitre consacré aux probabilités.

Figure 13: de l’histogramme à la fonction de densité


38

2.6 Utiliser Excel pour construire une distribution de fréquence et faire des
graphiques
2.6.1 Distribution de Fréquence
Les étapes suivantes décrivent comment utiliser l’outil Excel « Pivot Tables » pour construire une
distribution de fréquence de l’exemple 0 (50 achats de boisson non alcoolisée).
On suppose que dans les cellules A1-A51 se trouvent les données, y compris le titre ‘marque
achetée (donc dans une colonne).

Etape 1 : Sélectionner une cellule de l’ensemble des données


Etape 2 : Cliquer sur Insert dans la barre des taches
Etape 3 : Dans Tables Group, choisir PivotTables ;
Etape 4 : Dans « Select a table or a range », sélectionner la plage de données, y compris le titre
« Marque achetée »
Etape 5 : Sélectionner « Existing worksheet » dans « Where do you want … » et indiquer la cellule
où la table va se trouver. Cliquer ensuite sur « OK »
Etape 6 : Dans la fenêtre qui apparaît « Pivot Table Field List », cocher « marque achetée »
Etape 7 : si l’on désire avoir une distribution de fréquence, il suffit de faire un « drag and drop » de
« marque achetée » dans le rectangle « ∑ 𝑣𝑎𝑙𝑢𝑒𝑠 » :

Etape 8 : Changer le titre de la cellule D3 en « Fréquence »

Si l’on désire compléter la table avec les fréquences relatives, on rajoute une colonne « Fréquence
relative » dans le tableau, que l’on complète en divisant simplement les cellules D4-D8 par la valeur
contenue dans D9 :
39

Pour cela, écrire « =D4/$D$9 » dans la cellule E4, et étirer la cellule vers le bas jusque dans E8.

2.6.2 Graphiques
Pour faire un diagramme en barres du type de celui montré dans le cadre de l’exemple 0 (boissons
non alcoolisées) :
Etape 1 : Sélectionner une cellule du tableau contenant les fréquences, obtenu par utilisation de
l’outil « Pivot Tables » d’Excel.
Etape 2 : Cliquer sur Insert dans la barre des tâches
Etape 3 : Dans Charts, cliquer sur le type de graphique désiré. On a choisi un graphique du type
« clustered column » :

Etape 4 : Une prévisualisation du graphique apparait :


40

On peut alors changer le titre du graphique en le titre que l’on souhaite avoir (cliquer sur la zone de
titre qui contient « Total » dans l’illustration, et insérer le titre qu’on veut, par exemple Achats de
boisson non-alcoolisée).

Une autre méthode consiste à utiliser l’outil « Pivot Chart » d’Excel, et de suivre exactement les
mêmes étapes que décrites pour construire la distribution de fréquences. A la sortie, ce qui
apparaitra sera un diagramme en barres avec la distribution de fréquence (absolue).
41

Chapitre 3: Statistique descriptive: Les


indicateurs statistiques

Dans le chapitre 2, on a discuté des méthodes graphiques et sous forme de tableaux permettant de
résumer des données. Dans ce chapitre, nous présentons plusieurs méthodes numériques de
statistiques descriptives qui permettent également de résumer des données. Par ailleurs, ces
indicateurs vont servir dans certains cas d’estimateurs de certains paramètres lorsque l’on fait de
l’inférence statistique.

Un indicateur (ou paramètre) statistique est un nombre qui donne des informations sur une série
statistique. Il s’agira donc ici – et dans les chapitres suivants – de définir, pour une série donnée, des
quantités mathématiques véhiculant de l’information à propos de cette série, et d’étudier leurs
propriétés.
On distingue plusieurs types d’indicateurs, qui répondent à des questions différentes:

 Où se situent les données ?


o Indicateurs de position (ou de tendance centrale) :
 moyenne (arithmétique);
 mode ;
 médiane ;
 quartiles ;

 Comment se répartissent les données ?


o Indicateurs de dispersion (ou de variabilité):
 étendue ;
 écart interquartile ;
 variance ;
 écart-type ;
 coefficient de variation ;

 Quelle forme prennent les données ?


o Indicateurs de forme :
 coefficient de dissymétrie ;
 coefficient d’aplatissement.

3.1 Indicateurs de tendance centrale (ou de position)


Les indicateurs de tendance centrale donnent une idée de « là où se situe la partie centrale des
données ». Ils donnent une idée de l'ordre de grandeur de la variable statistique étudiée.
3.1.1 La moyenne arithmétique
La moyenne arithmétique 𝑥̅ (couramment appelée moyenne par abus de langage) d’une série
statistique est la moyenne arithmétique de ses données.
42

Ci-dessous on reprend les exemples vus précédemment et on en calcule la moyenne.

Exemple 1 :

1+1+1+1+2+2+2+2+2+2+2+3+3+3+3+3+3+4+4+4
𝑥̅ = = 2,4
20
Donc on fait simplement la somme des valeurs observées, on et divise par le nombre
d’observations.
On peut aussi utiliser la distribution des fréquences (ou table des effectifs) :
Numéro de Fréquence
boule absolue
xi ni
1 4
2 7
3 6
4 3
Total 20

La moyenne s’obtient alors en multipliant les modalités par le nombre de fois qu’on les a observées,
et en sommant ces produits, puis en divisant par le nombre d’observations :
1∙4+2∙7+3∙6+4∙3
𝑥̅ = = 2,4
20

De manière générale, on peut résumer la formule permettant de calculer la moyenne en :


𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁
𝑥̅ =
𝑁

où N est l’effectif total et où 𝑥1 , 𝑥2 , … , 𝑥𝑁 désignent les différentes observations (pas nécessairement


distinctes).
On peut aussi utiliser la formule un peu plus rapide utilisant les fréquences :
𝑛1 𝑥1 + 𝑛2 𝑥2 + ⋯ + 𝑛𝑐 𝑥𝑐
𝑥̅ =
𝑁

où c est le nombre de modalités (càd de valeurs observées distinctes) et 𝑛𝑖 est la fréquence absolue
associée à la modalité 𝑥𝑖 .

Attention : dans la première formule, 𝑥𝑖 désigne une observation (les observations de notre
exemple sont 1, 3, 2, 4, 3, 2, 2, 3, 4, 2, 1, 3, 1, 2, 4, 1, 3, 2, 2, 3), alors que dans la seconde formule,
il désigne une modalité (ex : 1, 2, 3, 4 sont les 4 modalités différentes de notre exemple).
43

Exemple 2 : les notes de 48 étudiants


Les données étaient :
24, 24, 14, 16, 24, 22, 19, 27, 8, 24, 23, 21, 22, 20, 16, 15, 20, 18, 23, 22, 22, 23, 31, 34,
19, 26, 36, 29, 19, 26, 28, 22, 20, 17, 13, 13, 21, 19, 31, 22, 33, 31, 24, 17, 30, 20, 22, 23.

Si on prend la somme de toutes ces valeurs et qu’on divise par le nombre d’observations (48) cela
donne :
24 + 24 + 14 + 16 + 24 + 22 + ⋯ + 20 + 22 + 23 1073
= ≈ 22,35
48 48
Si on avait à disposition uniquement la distribution des fréquences à l’aide de classes, on aurait pu
calculer une moyenne basée sur les centres des classes. On repart alors du tableau avec
regroupement en classes :
Classes 𝒄𝒊 𝒏𝒊
]7,5 ; 12,5] 10 1
]12,5 ; 17,5] 15 8
]17,5 ; 22,5] 20 18
]22,5 ; 27,5] 25 12
]27,5 ; 32,5] 30 6
]32,5 ; 37,5] 35 3

et on calcule la moyenne comme pour l’exemple 1, en remplaçant les valeurs observées par les
centres des classes :
1 ∙ 10 + 8 ∙ 15 + 18 ∙ 20 + 12 ∙ 25 + 6 ∙ 30 + 3 ∙ 35
𝑥̅ = ≅ 22,40
48
On voit que dans notre exemple, on obtient une valeur légèrement différente par rapport à
l’utilisation de toutes les données. On privilégiera d’utiliser un maximum d’information disponibles
en calculant la moyenne, donc plutôt repartir plutôt de l’ensemble des données.

Remarque : Puisqu’elle est la somme des valeurs de la série, la moyenne s’exprime dans les
mêmes unités que la série elle-même. La moyenne d’un ensemble de prix libellés en € sera ainsi par
exemple elle-même exprimée en €.

Avantages de la moyenne:
La moyenne est le paramètre de position le plus utilisé parce qu’il est possible de la déterminer par
des calculs précis. Sa stabilité croît avec l’effectif total.

Inconvénient de la moyenne:
La moyenne peut être fortement influencée par les valeurs extrêmes et/ou aberrantes (parfois
anormales ou douteuses) ;
 Valeur aberrante : il s’agit d’une valeur observée qui contraste fort avec les autres valeurs
observées de la série, et qui s’y trouve par erreur.
 Valeur extrême : valeur observée qui contraste également fort avec les autres données, mais
qui ne s’y trouve pas par erreur.
44

Dans ce cas, la moyenne peut perdre toute signification. Il faut cependant éviter d’éliminer ces
valeurs trop systématiquement: ce serait modifier les données, donc perdre de l’information, peut-
être correcte. Sauf s’il s’agît d’une erreur de frappe, par exemple.

Exemple: les âges des étudiants du cours de statistique sont donnés par :

19 18 19 66
18 19 25 21
20 18 19 20
21 22 22 18
19 20 21 19

Parmi les étudiants, il y en a un de 66 ans. C’est une personne âgée qui a voulu suivre le cours
parce qu’elle a toujours aimé la statistique. Cette personne fait partie de la population (étudiants
de la classe de statistique). Mais il s’agit d’un cas très spécial. La présence de cet étudiant va
tirer (anormalement) la moyenne des âges des étudiants vers le haut. C’est une valeur extrême
(mais pas aberrante car correcte).

Concrètement :

Moyenne sans la valeur extrême : 19,89 ans

Moyenne avec la valeur extrême : 22,2 ans

 Robustesse d’un indicateur statistique : Un indicateur pouvant être affecté par des valeurs
aberrantes et/ou extrêmes est appelé indicateur (ou paramètre) non robuste. La robustesse d’un
indicateur est sa stabilité par rapport à des valeurs aberrantes et/ou extrêmes.

 Remarquons enfin que d’autres moyennes peuvent également être considérées :


• la moyenne géométrique :

• la moyenne harmonique :

• les moyennes pondérées :

Elles ne nous intéressent cependant pas directement ici, raison pour laquelle nous écrirons souvent
simplement « moyenne » (en anglais, mean ou average) pour désigner la moyenne arithmétique.

Exemple de moyenne pondérée : l’indice des prix. Un cas classique de moyenne pondérée est
celui du calcul des indices des prix, qui modélisent l’évolution dans le temps de la valeur d’un
panier de biens de consommation 𝑥1 , 𝑥2 , … , 𝑥𝑛 .
45

Considérons par exemple l’indice de Laspeyres, qui est utilisé par l’INSEE (Institut national de la
statistique et des études économiques) pour le calcul de l’inflation en France.
Soient 𝜋𝑇 (𝑥𝑖 ) et 𝜅𝑇 (𝑥𝑖 ) le prix et la quantité consommée du produit xi durant l’année T. L’indice de
prix de l’année T est alors égal à :

Le poids 𝑤𝑖 représente la « place » du produit 𝑥𝑖 dans le panier initial. L’indice I est donc la
moyenne des évolutions des biens, pondérée par leur importance dans le panier.

3.1.2 La médiane
La médiane est une autre mesure de tendance centrale pour une variable statistique, bien plus
résistante aux valeurs aberrantes que la moyenne.
Lorsque les données sont classées par ordre croissant (de la plus petite à la plus grande valeur), la
médiane correspond grosso modo à la valeur centrale, càd qui sépare les observations en deux
groupes de même taille :
 Lorsque le nombre d’observations est impair, la médiane correspond à la valeur centrale
o Exemple : 5 observations :
32, 42, 46, 46, 54.

On est en présence de 5 données (nombre impair). On voit que 46 est la valeur


centrale de cet ensemble de 5 données. C’est donc la médiane.

 Lorsque le nombre d’observations est pair, il n’y a pas une unique valeur centrale, mais
deux valeurs centrales. Dans ce cas, la convention généralement utilisée consiste à définir la
médiane comme la moyenne des valeurs des deux valeurs centrales.
o Exemple : salaires mensuels initiaux d’étudiants diplômés d’une école de commerce

3710, 3755, 3850, 3880, 3880, 3890, 3920, 3940, 3950, 4050, 4130, 4325

On a 12 observations (donc un nombre pair d’observations). Les deux valeurs


centrales sont la 6è et la 7e, càd 3890 et 3920. Si on prend la moyenne de ces deux
valeurs, cela donne :
3890 + 3920
𝑚é𝑑𝑖𝑎𝑛𝑒 = = 3905
2

Définition : La médiane est obtenue en classant d’abord les données par ordre croissant, puis :
Pour un nombre impair d’observations : la médiane est la valeur centrale
Pour un nombre pair d’observations : la médiane est la moyenne des deux valeurs centrales

Avantages de la médiane
La médiane est facile à déterminer.
Elle est par ailleurs peu influencée par les valeurs aberrantes ou extrêmes de la série. On dit donc
que la médiane est un paramètre robuste.
46

Exemple : Si l’on reprend l’exemple avec les âges de 20 étudiants d’une classe, la médiane calculée
en gardant tous les étudiants, on commence d’abord par classer les observations par ordre croissant :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
Nombre pair d’observations, donc deux valeurs centrales : la 10è et la 11e observations, càd 19 et
20. Si l’on prend la moyenne de deux cela donne 19,5 ans (on parle d’âge médian).

Si maintenant on exclut la valeur extrême 66, on se retrouve avec :


18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25
Nombre impair d’observations (19 observations). La valeur centrale est la 10è, qui vaut 19 ans.
On voit que la différence entre la médiane avec ou sans valeur extrême est seulement de 0,5 ans,
alors que la différence entre les deux moyennes (avec ou sans valeur extrême) était de 22,2 – 19,89
= 2,31.

De manière générale, lorsqu’un ensemble de données contient des valeurs extrêmes dont on ne
veut pas tenir compte, la médiane est souvent une mesure préférable de la tendance centrale.

3.1.3 Le mode
Le mode d'une série statistique est la valeur de l’observation qui a la plus grande fréquence.

Dans le cas d’une série groupée en classes, on parle de classe modale, classe dont l'effectif est
supérieur ou égal à tout autre effectif de classes. Une série peut avoir plusieurs modes ou plusieurs
classes modales.

Lorsque la valeur observée le plus fréquemment est unique, on parle de distribution unimodale.Si
les données ont exactement 2 modes, on parle de distribution bimodale. Lorsque les données ont
plus de 2 modes, on parle de distribution multimodale. Dans les cas multimodaux, le mode n’est
presque jamais utilisé car énumérer trois modes ou plus n’est pas particulièrement utile pour décrire
les données.

Figure 14: Distributions unimodale et bimodale

Exemples :
Le mode de l’exemple 1 est 2 : en effet, 2 comporte 7 observations, alors que les autres valeurs en
ont toujours moins de 7…
47

8
7
Fréquence

6
5
4
3
2
1
0
1 2 3 4
Figure 15: Diagramme en barres dans le cas de l’exemple 1 (boules numérotées de 1 à 4)

La classe modale de l’exemple 2 est la classe : ]17,5; 22,5].


La classe modale de l’exemple 3 est la classe de centre 197.

Avantage du mode:
Le mode est d’autant plus significatif qu’une valeur du caractère ou une classe domine nettement
toutes les autres.

Inconvénient du mode:
Le mode n’est pas susceptible d’une détermination par formule algébrique. Il n’est donc pas
utilisable lorsqu’on doit disposer d’expressions analytiques pour la suite des calculs.

3.1.4 Les quartiles


Les quartiles (notés Q1, Q2 et Q3, ou encore 𝑥0,25 , 𝑥0.5 , 𝑥0,75 pour une série statistique notée
𝑥1 , 𝑥2 , … , 𝑥𝑛 ) partagent la série en quatre groupes d'effectifs égaux.
Plus précisément, on commence par ranger par ordre croissant les observations, comme pour le
calcul de la médiane. Ensuite :
 Le premier quartile 𝑸𝟏 s’obtient en divisant le nombre total d’observations (l’effectif
total) par 4, et en prenant le premier entier qui suit ce nombre s’il n’est pas entier. Ce
dernier nombre est un entier (par exemple 5), et le premier quartile est l’observation dont
l’ordre est égal à cet entier.

o Exemple : les âges des étudiants d’une classe sont donnés par :

18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25

Il y a 19 observations. On divise alors 19 par 4 :


19
= 4,75.
4
Le plus petit entier qui suit 4,75 vaut 5. Le premier quartile 𝑄1 sera donc égal à la 5è
observation, càd 19. Donc 𝑄1 = 19.

 Le second quartile 𝑸𝟐 est par définition égal à la médiane


48

 Le troisième quartile 𝑸𝟑 s’obtient en considérant d’abord le nombre total d’observation


3
multiplié par 4, et en prenant l’entier qui suit ce nombre s’il n’est pas entier lui-même. Ce
dernier nombre est un entier (par exemple 15), et le troisième quartile est l’observation dont
l’ordre est égal à cet entier.

o Exemple : les âges des étudiants d’une classe sont donnés par :

18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25

Il y a 19 observations. On multiplie alors 19 par 3/4 :


3
19 × 4 = 14,25.
Le plus petit entier qui suit 14,25 vaut 15. Le 3è quartile 𝑄3 sera donc égal à la 15è
observation, càd 21. Donc 𝑄1 = 19.

Remarquons que le deuxième quartile se confond avec la médiane.

Rappelons qu’avec la médiane, on partageait la série en deux groupes d’effectifs égaux… Ici, on
voit que les quartiles partagent les données en quatre groupes d’effectifs (approximativement)
égaux.

En effet, si on reprend l’exemple ci-dessus, on avait trouvé:

18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25

𝑄1 𝑄2 𝑄3

On a donc bien subdivision en 4 groupes d’effectifs égaux.

On peut aussi faire le lien avec les fréquences cumulées :


Le premier quartile est la plus petite valeur de x correspondant à une fréquence cumulée d’au
moins 0,25 (càd 25%, soit un quart de la série statistique).
Le troisième quartile est la plus petite valeur de x correspondant à une fréquence cumulée d’au
moins 0,75 (càd 75%, soit, trois quarts de la série statistique.

Remarque : les définitions de la médiane et des quartiles correspondent à une certaine convention
utilisée par un certain nombre d’auteurs. D’autres conventions existent, et mènent à des valeurs
légèrement différentes.
1
Exemple d’autre convention pour les quartiles : pour 𝑄1, on considère 𝑗 = 𝑁 × 4 , puis si ce nombre
𝑗 n’est pas entier, on prend le plus petit entier qui suit 𝑗, ce qui donne l’ordre des observations
correspondant au premier quartile. Mais si ce nombre 𝑗 est entier, on prendra la moyenne entre la 𝑗 è
et la (𝑗 + 1)è observation.
Conclusion : toujours bien faire attention à la convention utilisée lorsque vous utilisez un logiciel
pour calculer les quartiles et la médiane.
49

3.2 Indicateurs de dispersion (ou de variabilité)


Considérons les deux séries suivantes donnant les résultats pour une classe de 17 élèves lors de deux
contrôles notés sur 20.

Contrôle 1 : 5 6 6 8 8 8 12 12 12 12 14 14 16 16 18 18 19

Contrôle 2 : 8 9 10 10 11 11 12 12 12 12 12 13 14 14 14 15 15

Pour ces deux séries, le mode, la médiane et la moyenne valent 12.

Faut-il en conclure que les séries sont semblables ? L'examen de ces deux séries montre que les résultats
du second contrôle sont davantage resserrés autour de la moyenne que ceux du premier. On dit que la
dispersion des résultats est plus forte pour le premier contrôle que pour le second.

Graphiquement, c’est plus parlant :

Figure 16: diagramme en barres (fréquences absolues) pour les deux séries:
en bleu pour le contrôle 1 et en rouge pour le contrôle 2.

Il faut donc compléter les informations données par les indicateurs de position par des indicateurs de
dispersion qui indiqueront la façon dont la série prend des valeurs autour de ces valeurs centrales.

3.2.1 Étendue
Un premier indicateur de dispersion, facile à calculer est l’étendue.

Définition : L’étendue d’une série statistique est la différence entre la plus grande et la plus petite
valeur de la série (donc le max moins le min).

Avantage : Le calcul de l'étendue est très simple.


Inconvénient : Elle dépend uniquement des valeurs extrêmes de la série, qui peuvent être anormales.
L'étendue est donc un médiocre paramètre de dispersion et est peu utilisé…
50

Exemple : Si l’on reprend l’exemple avec l’âge des étudiants d’une classe, avec la valeur extrême « 66 »,
l’étendue vaut 66 − 18 = 48, alors que sans la valeur extrême, l’étendue vaut 25 − 18 = 7. La présence
ou non de la valeur extrême « 66 » influence donc très fort le calcul de l’étendue...

Pour l’exemple donné ci-dessus (les 2 contrôles), l’étendue de la première série est 19-5=14, alors que
pour la seconde elle vaut 15-8=3.

Dans les autres exemples étudiés précédemment, cela donne :

Exemple 1 : 4 – 1 = 3
Exemple 2 : 36 – 8 = 28

3.2.2 Ecart interquartile


Définition : L’écart interquartile d’une série statistique 𝑥1 , 𝑥2 , … , 𝑥𝑛 (noté EI) est la différence entre le
troisième et le premier quartile :
𝐸𝐼 = 𝑥0,75 − 𝑥0,25 = 𝑄3 − 𝑄1

Exemple avec les âges des étudiants : 21 – 19 = 2

3.2.3 Variance
La variance est LE paramètre de dispersion par excellence.
C’est une mesure de dispersion qui utilise toutes les observations.
Elle est basée sur la différence entre la valeur de chaque observation (𝑥𝑖 ) et la moyenne 𝑥̅ de la série.
Cette différence
𝑥𝑖 − 𝑥̅
est appelé écart par rapport à la moyenne.
On va en fait s’intéresser à l’amplitude de ces écarts sur l’entièreté des données. En effet, si ces écarts
sont grands, c’est que les données sont fort dispersées autour de la moyenne.
On pourrait imaginer de prendre la moyenne de ces écarts sur toutes les données. Or si on fait cela, on
peut voir que certains termes 𝑥𝑖 − 𝑥̅ seront négatifs, d’autres positifs, et que la somme des termes positifs
compense exactement la somme des termes négatifs… et que finalement la moyenne de ces écarts est
nulle... Donc il faut faire autrement.
Une manière de résoudre ce problème est de considérer non pas l’écart, mais l’écart quadratique par
rapport à la moyenne, càd (𝑥𝑖 − 𝑥̅ )2 . Dans ce cas, si on regarde la moyenne de ces écarts quadratiques sur
l’ensemble des données, on peut voir que l’on obtiendra jamais 0 (sauf si tous les écarts quadratiques sont
nuls, càd si la série statistique est constante). Cela aboutit à la variance.

Définition : La variance notée s² (ou σ² ou V) d’une série statistique (𝑥𝑖 , 𝑛𝑖 )𝑖=1,…,𝑐 est la moyenne
arithmétique des carrés des écarts des données par rapport à la moyenne arithmétique :
𝑁
2
1 2
𝑠 = ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1
51

Dans cette expression, N est l’effectif total et 𝑥𝑗 sont les N observations (certaines pouvant se répéter
plusieurs fois, lorsque l’on observe plusieurs fois la même valeur).

Exemple : le salaire mensuel initial d’étudiants sortant d’une école de commerce est donné par :

Salaire mensuel
Diplômés de départ ($)
1 3850
2 3950
3 4050
4 3880
5 3755
6 3710
7 3890
8 4130
9 3940
10 4325
11 3920
12 3880

On va alors calculer la variance en partant de la formule de départ (en calculant les écarts quadratiques).
On voit d’abord que la moyenne vaut 3940.
On calcule ensuite les écarts, puis les écarts quadratiques, puis la moyenne de ces écarts quadratiques :

Salaire Ecart au carré par


mensuel de Ecart par rapport à rapport à la moyenne
Diplômés départ ($) la moyenne (𝒙𝒊 − 𝒙̅) (𝒙𝒊 − ̅𝒙)𝟐
1 3850 -90 8100
2 3950 10 100
3 4050 110 12100
4 3880 -60 3600
5 3755 -185 34225
6 3710 -230 52900
7 3890 -50 2500
8 4130 190 36100
9 3940 0 0
10 4325 385 148225
11 3920 -20 400
12 3880 -60 3600
Somme =0 Somme = 301850

La variance vaut donc 301850 / 12 = 25154,17


52

Autre exemple : on repart de l’exemple avec les âges des étudiants d’une classe :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66

1. On commence par calculer la moyenne :


1 444
𝑥̅ = (18 × 4 + 19 × 6 + 20 × 3 + 21 × 3 + 22 × 2 + 25 + 26) = = 22,2
20 20

2. Ensuite on calcule les écarts par rapport à la moyenne pour chacune des valeurs observées :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
-4.2 -4.2 -4.2 -4.2 -3.2 -3.2 -3.2 -3.2 -3.2 -3.2 -2.2 -2.2 -2.2 -1.2 -1.2 -1.2 -0.2 -0.2 2.8 43.8
La ligne du bas donne les écarts par rapport à la moyenne.

3. Ensuite, on élève au carré ces écarts (ligne du bas):


18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
-4.2 -4.2 -4.2 -4.2 -3.2 -3.2 -3.2 -3.2 -3.2 -3.2 -2.2 -2.2 -2.2 -1.2 -1.2 -1.2 -0.2 -0.2 2.8 43.8

17.64 17.64 17.64 17.64 10.24 10.24 10.24 10.24 10.24 10.24 4.84 4.84 4.84 1.44 1.44 1.44 0.04 0.04 7.84 1918.44

4. Et enfin on prend la moyenne de ces écarts au carré (écarts quadratiques).


Cela donne :
1
𝑠2 = (17,64 ⋅ 4 + 10,24 ⋅ 6 + ⋯ + 7,84 + 1928,44) = 103,86
20
La variance vaut donc 103,86

Méthode simplificatrice du calcul de la variance :


1
𝒔𝟐 = ((𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑁 − 𝑥̅ )2 )
𝑁
1
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 + 𝑥̅ 2 + 𝑥̅ 2 + ⋯ + 𝑥̅ 2 − 2𝑥1 𝑥̅ − 2𝑥2 𝑥̅ − ⋯ − 2𝑥𝑁 𝑥̅ )
𝑁
1 1 2
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 ) + ⋅ 𝑁 ⋅ 𝑥̅ 2 − (𝑥1 + 𝑥2 + ⋯ 𝑥𝑁 ) ⋅ 𝑥̅
𝑁 𝑁 𝑁
1 2 2 2 2
= (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁 ) + 𝑥̅ − 2𝑥̅ ⋅ 𝑥̅
𝑁
1
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 ) − 𝑥̅ 2
𝑁

Il suffit donc de calculer la moyenne arithmétique des carrés des observations, et de retrancher le carré de
la moyenne, càd 𝑥̅ 2 . C’est donc « la moyenne des carrés moins le carré de la moyenne ». Cela
simplifie un peu les calculs dans la pratique…

Variance = moyenne des carrés – carré de la moyenne


53

Illustration de la méthode simplificatrice sur l’exemple ci-dessus (salaires des étudiants diplômés):

Moyenne des salaires = 3940. Moyenne au carré = 3940² = 15 523 600.


On calcule ensuite les carrés des observations et on en prend la moyenne :

Salaire mensuel de
Diplômés départ ($) Salaire mensuel carré
1 3850 14822500
2 3950 15602500
3 4050 16402500
4 3880 15054400
5 3755 14100025
6 3710 13764100
7 3890 15132100
8 4130 17056900
9 3940 15523600
10 4325 18705625
11 3920 15366400
12 3880 15054400
Somme des carrés = 186 585 050
Moyenne des carrés = 15 548 754,2

Variance = moyenne des carrés moins carrés de la moyenne = 15 548 754,2 - 15 523 600 = 25 154,17

L’inconvénient de cette méthode-ci réside dans le fait que l’on va manipuler de très grandes quantités.

Illustration de la méthode simplificatrice sur l’exemple 1 (boules numérotées de 1 à 4):

xi ni
1 4
2 7
3 6
4 3

On peut voir que la moyenne valait 2,4. La méthode simplifiée aboutit à :


1 134
𝑠2 = (4 ∙ 12 + 7 ∙ 22 + 6 ∙ 32 + 3 ∙ 42 ) − 2,42 = − 2,4 = 0,94
20 20

Remarque :
Puisque la variance est une somme de carrés d’écarts, elle s’exprime dans les unités de la série au carré :
la variance d’une série de prix en € est donc exprimée en €², ce qui peut s’avérer délicat ou gênant pour
les interprétations en terme d’ordre de grandeur.
Le fait que les unités associées à la variance sont élevées au carré, rend difficile l’interprétation intuitive
de la valeur numérique de la variance. On recommande d’utiliser la variance comme une mesure utile
pour comparer le degré de dispersion de plusieurs séries statistiques. La série qui a la plus grande
variance aura la plus grande dispersion.
54

Pour cette raison notamment, on définit l’écart-type (en anglais, standard deviation).

3.2.4 Ecart-type
Définition :L’écart-type, noté « s » (parfois σ), est la racine carrée positive de la variance :

𝑠 = √𝑠 2

L'écart-type s'exprime donc dans la même unité que les valeurs xi de la variable.

Exemple 1 (boules numérotées) : 𝑠 = √0,94 ≅ 0,97

Exemple salaires des étudiants diplômés : 𝑠 = √25154,17 = 158,6

Avantage de l’écart-type:
 L’écart-type est plus facile à interpréter que la variance puisqu’il est mesuré dans les mêmes inités
que les données.
 L'écart-type constitue un excellent indicateur de dispersion, il tient compte de toutes les données
de la série statistique. Plus l’écart-type est faible, plus il y a une forte accumulation des
observations autour de la moyenne arithmétique. Plus l’écart-type est grand, plus l'étalement est
grand. Il peut donc être utilisé pour donner une idée de la variabilité d’un ensemble de données.
3.2.5 Coefficient de variation
Le coefficient de variation est une mesure de dispersion relative ; il mesure l’écart-type relatif à la
moyenne.
Définition : Le coefficient de variation est défini comme :

𝐸𝑐𝑎𝑟𝑡 − 𝑡𝑦𝑝𝑒 𝑠
× 100 = × 100
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 𝑥̅

Il est donc mesuré en pourcentages.

Exemple (salaires des étudiants diplômés) :


Ecart-type : 158,6
Moyenne : 3940
158,6
Coefficient de variation : × 100 = 4,025
3940
Interprétation du coefficient de variation: l’écart-type représente seulement 4,025% de la moyenne de
l’échantillon.

Avantage / utilité du coefficient de variation


En général, le coefficient de variation est une mesure utile pour comparer la dispersion de séries
statistiques qui ont des écart-types et des moyennes différentes.
55

3.3 Indicateurs de forme : coefficients de dissymétrie et d’aplatissement


Coefficient de dissymétrie
Deux distributions présentant les mêmes indicateurs de tendance centrale et de dispersion ne sont pas pour
autant égales.
Exemple : considérons deux séries statistiques dont les fréquences sont données dans le tableau suivant :
Série 1 Série 2
x_i n_i x_i n_i
1 2 1 1
2 4 2 7
3 8 3 5
4 4 4 5
5 2 5 2

On peut en tracer directement les histogrammes de fréquences absolues :

Figure 17: histogrammes de fréquence absolue de 2 séries statistiques présentant la même moyenne
et la même variance

On peut voir effectivement que ces deux séries possèdent la même moyenne et la même variance :

Série 1 :
1
𝑥̅ = (2 ∙ 1 + 4 ∙ 2 + 8 ∙ 3 + 4 ∙ 4 + 2 ∙ 5) = 3
20
1
𝑠2 = (2 ∙ 1 + 4 ∙ 22 + 8 ∙ 32 + 4 ∙ 42 + 2 ∙ 52 ) − 32 = 10,2 − 9 = 1,2
20

Série 2 :
1
𝑥̅ = (1 ∙ 1 + 7 ∙ 2 + 5 ∙ 3 + 5 ∙ 4 + 2 ∙ 5) = 3
20
1
𝑠2 = (1 ∙ 1 + 7 ∙ 22 + 5 ∙ 32 + 5 ∙ 42 + 2 ∙ 52 ) − 32 = 10,2 − 9 = 1,2
20

Or l’une a une distribution symétrique, l’autre pas…


56

L’un des principaux attraits d’un histogramme est de fournir des informations concernant la forme d’une
distribution. La figure ci-dessous présente quatre histogrammes construits à partir de distributions de
fréquence relative.

Figure 18: Histogrammes illustrant le degré d’asymétrie de quatre distributions (source : Statistiques pour l’économie et la gestion,
De Boeck, Anderson et al. )

Le cas A représente l’histogramme d’un ensemble de données modérément asymétrique (ou biaisé) à
gauche. Un histogramme est dit asymétrique à gauche si sa queue de distribution s’étend vers la gauche.
Ce type d’histogramme est caractéristique des résultats d’examens, aucune note n’étant supérieure à
100% de bonnes réponses, la plupart des notes étant supérieures à 70% (dans les bonnes classes…).
Le cas B illustre l’histogramme d’un ensemble de données modérément asymétrique à droite. Ce type
d’histogramme se rencontre par exemple pour des données de prix de logements : quelques logements très
chers créent une asymétrie dans la queue droite de la distribution.
Le cas C représente un histogramme symétrique. Dans un tel histogramme, les queues droite et gauche
ont la même forme. Les histogrammes obtenus à partir de données réelles ne sont jamais parfairement
symétriques, mais peuvent l’être à peu près. Des données relatives au poids ou à la taille d’individus
fournissent des histogrammes relativement symétriques.
Le cas D illustre un histogramme fortement asymétrique à droite. Cela concerne par exemple les données
concernant les prix des logements, les salaires, les quantités achetées, etc

On capture le type de dissymétrie à l’aide du coefficient de dissymétrie :


Le coefficient de dissymétrie d’une série statistique (𝑥𝑖 )𝑖=1,…,𝑁 (noté par la lettre grecque gamma : 𝛾)
est égal au quotient de la moyenne des cubes des écarts par le cube de l’écart-type :

1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )3
𝛾= 𝑁
𝑠3
57

Sur les deux séries ci-dessus, on peut voir que ce coefficient vaut:

Série 1 : 𝛾 = 0; Série 2 : 𝛾 ≈ 0.2282

On peut voir que c’est le signe de ce coefficient qui détermine « de quel côté la distribution penche » :
• si > 0 , la distribution est asymétrique à gauche (cas de la série 2);
• si 𝛾 = 0, la distribution est symétrique (cas de la série 1);
• si 𝛾 < 0, la distribution est asymétrique à droite.

Notons que la division par s³ implique que cet indicateur est sans unités. Concrètement cela veut dire que
si la série est exprimée par exemple en km, et qu’on décide de l’exprimer en miles, le coefficient de
dissymétrie 𝛾 ne va pas changer.

Coefficient d’aplatissement
Deux séries statistiques peuvent en outre avoir mêmes moyennes, variances et coefficient de dissymétrie,
mais des formes malgré tout différentes :

Figure 19: series présentant mêmes moyennes, écart-type, et coefficient de dissymétrie (égal à 0 car symétriques) mais une
distribution de forme différente

Définition : Le coefficient d’aplatissement ou kurtosis d’une série statistique (𝑥𝑖 )𝑖=1…𝑁 (noté par la
lettre grecque kappa : 𝜅 ) est égal au quotient de la moyenne des écarts exposant 4 par l’écart-type
exposant 4:
1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4
𝜅= 𝑁
𝑠4

A nouveau, la division par 𝑠 4 fait que cet indicateur est sans unité (donc il ne dépend pas de l’unité
choisie pour exprimer les valeurs de la série statistique : on peut par exemple travailler en kg ou en livres,
cela ne changera pas la valeur du kurtosis).

Si on reprend la série 1 ci-dessus, on peut voir que le kurtosis vaut 2.5.


Le kurtosis d’une série statistique très proche d’une distribution normale est très proche de 3.
58

3.4 Remarques sur les indicateurs statistiques


3.4.1 Points communs à ces différents indicateurs
La ressemblance de plusieurs de ces indicateurs est frappante :
𝑁
1 2
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒: ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1
𝑁
1 3
𝑛𝑢𝑚é𝑟𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑𝑒 𝑑𝑖𝑠𝑠𝑦𝑚é𝑡𝑟𝑖𝑒: ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1
𝑁

1 4
𝑛𝑢𝑚é𝑟𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑 𝑎𝑝𝑝𝑙𝑎𝑡𝑖𝑠𝑠𝑒𝑚𝑒𝑛𝑡: ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1

En fait ces quantités sont ce que l’on appelle des moments centrés :

Définition : Le moment centré d’ordre k d’une série statistique (𝑥𝑖 )𝑖=1,…,𝑁 est donné par :
𝑁
1 𝑘
𝛽𝑘 = ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1

3.4.2 Changements de variable et indicateurs


Question : Que devient la moyenne arithmétique d’une série statistique lorsqu’on retranche un
même nombre k (une constante) à chacun de ses éléments ?

Cela signifie que chaque valeur xi est remplacé par xi – C (ce qui donne lieu à une nouvelle série
statistique).

La moyenne arithmétique 𝑥̅𝑘 de la nouvelle série translatée de k est donc :


𝑁 𝑁 𝑁
1 1 1 1
𝑥̅𝐶 = ∑(𝑥𝑖 − 𝐶) = ∑ 𝑥𝑖 − ∑ 𝐶 = 𝑥̅ − ⋅ 𝑁 ⋅ 𝐶 = 𝑥̅ − 𝐶
𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1

Conclusion : si l’on retranche une même constante C à tous les termes d'une série statistique, la
moyenne de la série initiale est diminuée de C.

Exemple : âge des élèves d’une classe


Données :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
Si l’on calcule la moyenne, on a vu qu’on obtenait 22,2.
Supposons maintenant que l’on retranche 18 à chaque donnée.
On obtient alors les données :
0 0 0 0 1 1 1 1 1 1 2 2 2 3 3 3 4 4 7 48
59

Si l’on recalcule la moyenne de cette nouvelle série, on obtient en fait 4,2, càd 22,2 − 18.

Question : Que devient la moyenne arithmétique d’une série statistique lorsqu’on divise chacun de
ses éléments par un même nombre C différent de 0 ?

On peut à nouveau calculer la moyenne de cette nouvelle série :


𝑁 𝑁 𝑁
1 𝑥𝑖 1 1 1 𝑥̅
𝑥̅ 𝐶 = ∑ = ∑ 𝑥𝑖 = ⋅ ( ∑ 𝑥𝑖 ) =
𝑁 𝐶 𝑁𝐶 𝐶 𝑁 𝐶
𝑖=1 𝑖=1 𝑖=1

𝑥𝑖
Cela signifie que chaque valeur 𝑥𝑖 est remplacée par (ce qui donne lieu à une nouvelle série
𝐶
𝑥̅
statistique). La moyenne arithmétique de la nouvelle série est donnée par la formule : 𝑥̅𝐶 = 𝐶 .

Conclusion : si l’on divise par un même nombre C tous les éléments d'une série statistique, la
moyenne arithmétique de la série initiale est aussi divisée par ce nombre C.

3.5 Règle empirique et théorème de Chebychev


Le théorème de Chebychev nous permet de déterminer le pourcentage d’observations qui devraient se
situer à un certain nombre d’écart-types de part et d’autre de la moyenne.

Théorème de Chebychev :
1
Au moins (1 − 𝑘 2 ) des observations doivent se situer au plus à 𝑘 écart-types de part et d’autre de la
moyenne, càd dans l’intervalle [𝑥̅ − 𝑘 ⋅ 𝑠, 𝑥̅ + 𝑘 ⋅ 𝑠].

Dans ce résultat, 𝑘 ≥ 1 mais n’est pas forcément un nombre entier.


En appliquant ce résultat avec 𝑘 = 2, 3, 4 on obtient :
 Au moins 75% des observations se situent au plus à 2 écart-types de part et d’autre de la moyenne
(càd dans l’intervalle [𝑥̅ − 2𝑠, 𝑥̅ + 2 𝑠])
 Au moins 89% des observations se situent au plus à 3 écart-types de part et d’autre de la moyenne
(càd dans l’intervalle [𝑥̅ − 3𝑠, 𝑥̅ + 3 𝑠])
 Au moins 94% des observations se situent au plus à 4 écart-types de part et d’autre de la moyenne
(càd dans l’intervalle [𝑥̅ − 4𝑠, 𝑥̅ + 4 𝑠])

Illustration sur l’exemple avec les salaires des étudiants diplômés :


On considère l’intervalle [𝑥̅ − 2𝑠, 𝑥̅ + 2 𝑠] ≈ [3623 ; 4257]. On regarde le nombre d’observations se
trouvant dans cet intervalle. On voit qu’il y a 11 observations situées dans cet intervalle, et une seule à
l’extérieur de l’intervalle. Cela fait une proportion de 11/12 càd de 91,7%, proportion qui est bien
supérieure à 75%.

L’un des avantages du théorème de Chebychev est qu’il s’applique à tout ensemble de données, quelle
que soit la forme de la distribution des données. En conséquence il peut être utilisé pour toutes les
distributions rencontrées.
60

Dans la pratique cependant, de nombreux ensembles de données ont une distribution en forme de cloche,
plus spécifiquement une distribution « normale ». Dans ce cas, on peut voir que l’on a la règle empirique
suivante.

Règle empirique : Pour des données présentant une distribution approximativement normale (en cloche),
si on note 𝑥̅ la moyenne et s l’écart type, alors :
• l’intervalle [𝑥̅ - s; 𝑥̅ + s] contient à peu près 68% des données ;
• l’intervalle [𝑥̅ - 2s; 𝑥̅ + 2s] contient à peu près 95% des données ;
• l’intervalle [𝑥̅ - 3s; 𝑥̅ + 3s] contient presque toutes les données.

Exemple.
Illustrons l’utilisation de cette règle empirique par un exemple. Supposons que les résultats des étudiants à
un examen possèdent une distribution normale de moyenne 𝑥̅ = 13 et d’écart-type s = 2. Nous pouvons
donc déduire de la règle empirique qu’approximativement 68% des étudiants obtiennent un résultat entre
11, et 15,95% entre 9 et 17 et presque tous entre 7 et 19. La connaissance de la moyenne et de l’écart-type
donne donc une assez bonne idée de la distribution des résultats.

Supposons qu’un étudiant est tiré au hasard parmi ceux qui ont passé l’examen. Quelle est la probabilité
que son résultat soit situé entre 11 et 15 ? Par la règle empirique, on peut dire que 0,68 est une réponse
approchée mais satisfaisante à cette question.

Figure 20: illustration de la règle empirique.


61

Illustration de la règle empirique: Cours des actions Carrefour et Beneteau, et comparaison avec
l’indice CAC40
Returns journaliers
Lorsque l’on fait des investissements, on s’intéresse notamment au caractère « volatile » du rendement
que l’on peut obtenir sur ces investissements. Supposons que l’on investisse dans des actions. On peut
s’intéresser à ce qu’on appelle le rendement arithmétique d’une action sur une période de temps
Δ𝑡 donnée comme :
𝑆(𝑡) − 𝑆(𝑡 − Δ𝑡)
𝑟𝑡 =
𝑆(𝑡 − Δ𝑡)
Càd
𝑉𝑎𝑙𝑒𝑢𝑟 𝑑𝑒 𝑙 ′ 𝑎𝑐𝑡𝑖𝑜𝑛 𝑒𝑛 𝑓𝑖𝑛 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒 − 𝑣𝑎𝑙𝑒𝑢𝑟 𝑒𝑛 𝑑é𝑏𝑢𝑡 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒
𝑣𝑎𝑙𝑒𝑢𝑟 𝑒𝑛 𝑑é𝑏𝑢𝑡 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒

Si on prend l’exemple du cours de l’action Carrefour du 1/1/2018 au 5/2/2019, et que l’on calcule les
returns journaliers, cela donne ceci (extrait du fichier excel) :

Close Number of Shares


Number of Trades
Turnover Currency returns
17.23 1828018 3520 31478547.7 EUR -0.0083453
17.375 1716496 3825 29756039 EUR 0.00520683
17.285 2410224 4922 41691383.3 EUR 0.00115841
17.265 1604033 3879 27684024.1 EUR -0.007188
17.39 2308459 5322 40118042.4 EUR 0.00636574
17.28 1679554 3862 29038080.8 EUR -0.0100258
17.455 2823246 5557 49145739.1 EUR 0.01364692
17.22 3035508 7002 52319512.8 EUR -0.0140281
17.465 8044906 17853 139502157 EUR 0.06917661
16.335 2275771 4557 37255678.2 EUR -0.004267
16.405 1968765 4804 32347118.2 EUR -0.0126392
16.615 4456347 8845 74027403 EUR 0.03714107
16.02 1878271 3760 30049008.9 EUR 0
16.02 2554182 4781 40757441.6 EUR 0.00691389
15.91 2458439 5452 39108515.9 EUR -0.0071763
16.025 3425929 7489 54751310.1 EUR 0.01940204
15.72 2070454 3878 32611821.3 EUR -0.0056926
15.81 2626631 5157 41378130.1 EUR -0.0025237
15.85 3036816 5836 48249200.3 EUR 0.00955414
15.7 5347595 10895 83839774.5 EUR 0.0271508
15.285 2137567 4484 32536729.2 EUR 0.01024455

Figure 21: extraits de données du cours de l’action Carrefour, et calcul de returns journaliers

Variance et écart-type des returns


Si l’on calcule la variance de la série statistique de ces returns journaliers observés sur cette période
(période d’un peu plus d’un an, donc utilisant bien plus de données que celles illustrées sur la figure ci-
dessus), on obtient 0,00029915. Numériquement cela ne nous dit pas grand-chose…

On peut faire la même chose pour une autre action, par exemple Beneteau (fabriquant de bateaux). Sur la
même période, cela donne une variance des returns journaliers de 0.00077422, soit beaucoup plus que
pour Carrefour… les investisseurs dans l’action Beneteau ont donc pu observer de grandes fluctuations de
la valeur de leur portefeuille pendant la période considérée, plus que des investisseurs dans l’action
carrefour. On voit ici que la variance nous sert déjà à comparer les deux actions.

Dans une telle situation, on dit que l’action Carrefour est moins « volatile » que l’action Beneteau sur la
période considérée.
62

Close Number of Shares


Number of Trades
Turnover Currency returns
12.66 89138 474 1124840.84 EUR 0.0128
12.5 61509 406 767507.02 EUR 0.00806452
12.4 134026 514 1660202.88 EUR -0.0127389
12.56 66539 343 836281.52 EUR 0.0048
12.5 84311 508 1060828.78 EUR -0.0141956
12.68 68227 380 872463.52 EUR -0.0139969
12.86 88018 563 1149352.42 EUR 0.01100629
12.72 105094 604 1337226.08 EUR -0.0185185
12.96 57713 390 755295.38 EUR -0.0240964
13.28 57749 412 766872.06 EUR 0.01374046
13.1 43987 330 572908.18 EUR 0.01708075
12.88 53195 358 685359.36 EUR 0.01098901
12.74 39099 261 496704.76 EUR 0.00473186
12.68 33856 240 428771.84 EUR 0.0144
12.5 60253 395 757452.08 EUR -0.0031898
12.54 54299 330 680701.86 EUR -0.0172414
12.76 75953 510 962339.82 EUR 0.00472441
12.7 93234 530 1171611.5 EUR 0.0111465
12.56 134469 644 1687766.88 EUR 0.01948052
12.32 227710 957 2791752.42 EUR 0.04054054
11.84 131926 754 1512041.92 EUR 0.07441016
11.02 92519 587 1008841.58 EUR 0.02226345
10.78 78469 460 855904.78 EUR -0.056042
11.42 80073 475 908058.46 EUR -0.0052265
11.48 41173 402 470053.86 EUR 0.04363636
11 93499 496 1019588.48 EUR 0.04961832

Figure 22 : extrait de données du cours de l’action Beneteau et calcul des returns journaliers

L’écart-type des returns journaliers (qu’on appelle dans ce cas « volatilité journalière » de l’action)
s’obtient en prenant la racine carrée des variances calculées, on obtient :
s=0,01729581 pour Carrefour, et s=0,02782489 pour Beneteau.

Remarque : Les investisseurs préfèrent cependant utiliser ce qu’on appelle la « volatilité annualisée »,
qui consiste en pratique à multiplier par la racine carrée du nombre de jours ouvrables de la période
considérée (racine de 250 dans la plupart des marchés). Cela donne ici 27% environ pour Carrefour,
contre 44% pour Beneteau.
Concrètement, cette volatilité annualisée donne une idée de l’intervalle de variation que l’on peut
s’attendre à observer pour les fluctuations de la valeur de l’action sur une période d’une année. On
reviendra là-dessus avec la règle empirique. Cela nous fournit en fait une possible estimation de l’écart-
type de la distribution de probabilité des returns annuels (càd calculés en prenant Δ𝑡 = 1 𝑎𝑛).

Vérification de la règle empirique


On peut maintenant voir si la règle empirique s’applique ou non à nos actions Carrefour et Beneteau.
On peut calculer la proportion d’observations appartenant aux différents intervalles mentionnés ci-dessus.
On obtient les proportions suivantes :

Vérification règle empirique


Action / Intervalles [𝑥̅ − 𝑠, 𝑥̅ + 𝑠] [𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠] [𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠]
Beneteau 79% 96% 99%
Carrefour 81% 97% 98%
Règle empirique 68% 95% 100%

La règle empirique ne semble pas vraiment satisfaite par ces données, qui correspondent à des returns
journaliers. En fait, l’hypothèse principale derrière la règle empirique est d’avoir affaire à une distribution
proche d’une loi normale. Cela ne semble pas vraiment être le cas ici…
63

A titre d’illustration, voici ce que donne la règle empirique pour un indice boursier cette fois (en
l’occurrence le CAC40, auquel les deux actions appartiennent):

Vérification règle empirique


CAC40 72% 95% 99%

Cela fonctionne donc déjà beaucoup mieux… en fait la distribution des returns journaliers est plus proche
d’une distribution normale quand on s’intéresse à un indice boursier (ou à un fonds d’actions relativement
diversifié) que quand on regarde des actions individuelles.

3.6 Boîte à moustaches (BM)


Un graphique en « boîte à moustaches » (aussi appelé « boite à pattes ») permet de résumer la dispersion
d’une série statistique en représentant sur un graphique 5 valeurs importantes : le minimum, le
maximum, les 1er et 3ème quartiles et la médiane.
Il s’agît d’une façon de visualiser rapidement l’essentiel de l’information fournie par une série statistique.
En fait, cela fournit des informations sur la « dispersion » d’une série statistique : les valeurs de la série
sont-elles fort ou peu étalées, dispersées. Mais aussi sur la symétrie de la distribution.

Pour construire une BM, on doit d’abord calculer les 3 quartiles Q1, Q2 et Q3, respectivement, le premier
quartile, la médiane (Q2), et le troisième quartile. Une fois les valeurs calculées, on les indique sur un
segment de droite orienté (et gradué). On peut alors dessiner un rectangle de hauteur arbitraire, mais dont
les abscisses des côtés coïncident avec 𝑄1 𝑒𝑡 𝑄3 . On dessine ensuite un segment de droite d’abscisse Q2
(soit, la médiane) dans ce rectangle.

Pour finir, on ajoute les « moustaches », ou « pattes », c’est-à-dire, des segments de droite qui vont des
côtés du rectangle (on part du milieu de ces côtés par rapport à leur hauteur), et vont jusqu’aux abscisses
de la valeur la plus petite de la série statistique (xmin) et de la valeur la plus grande (xmax).

On ne dessine pas toujours la droite orientée des abscisses. On peut remplacer les petits segments de
droite aux extrémités des « moustaches » par des flèches. Attention : si Q1 = Q2 = Q3, le rectangle est
collapsé et il ressemblera à un segment de droite vertical (et pas à un rectangle).

Ce type de graphique permet de comparer des séries statistiques et d’avoir en un coup d’œil une idée de
leurs dispersions et situations relatives.
64

Concrètement, on a une idée très rapide de « là où se situent les données » lorsque l’on a une telle boite à
moustache.

Exemple de comparaison de différentes séries grâce à une boite à moustaches :


On considère 3 séries statistiques X, Y et Z données dans le tableau suivant :

Après calcul des quartiles et de la médiane, on obtient les boites à moustaches suivantes :

En regardant ces 3 graphiques, on voit directement que les séries X et Y ont mêmes médianes mais que X
est beaucoup plus dispersée que Y, que Z a une médiane beaucoup plus faible et est asymétrique.

3.7 Indicateurs statistiques - Utilisation du tableur Excel


Nous présentons dans cette section les principales fonctions du tableur Excel telles qu’elles sont présentes
par défaut dans le logiciel. Nous en corrigeons certaines car elles ne correspondent pas aux définitions
données ci-dessus et qui sont pourtant standard.

Moyenne:
Dans Excel en français, elle se calcule comme: MOYENNE(nombre1 ; nombre2 ;…) où nombre1,
nombre2,… représentent les arguments numériques dont on a besoin pour obtenir la moyenne. Ce sont
toutes les valeurs observées de la série statistique, incluant les répétitions.

Par exemple , si on a la série statistique :


13, 14, 14, 15, 15, 16, 17
la moyenne dans Excel se calculera comme :
65

MOYENNE(13 ;14 ;14 ;15 ;15 ;16 ;17). Ou encore, si on a placé la série dans les cellules allant de A1
jusque A7, comme MOYENNE(A1:A7). Si on veut rajouter une valeur à la série, disons encore 17, cela
donne : MOYENNE(A1:A7 ;17).

Dans une version anglophone, sous Windows, du programme, cela donne :


AVERAGE(13,14,14,15,15,16,17).
Donc les point-virgules deviennent des virgules et la fonction s’appelle « average ».
Remarquons que si une matrice ou une référence tapée comme argument contient du texte, des valeurs
logiques ou des cellules vides, ces valeurs ne sont pas prises en compte. Par contre, les cellules contenant
explicitement la valeur « 0 » sont prises en compte.

Médiane :
La fonction MEDIANE appliquée aux mêmes valeurs que plus haut renvoie la valeur médiane des
nombres.

Exemple :
MEDIANE(1; 2; 3; 4; 5) = 3

MEDIANE(1; 2; 3; 4; 5; 6) = 3, 5

Dans la version anglophone d’Excel, cette fonction s’appelle MEDIAN.

Variance :
La fonction VAR d’Excel fournit un indicateur statistique en pratique proche de la variance telle que nous
l’avons définie précédemment, mais toutefois légèrement différente : elle utilise la formule suivante :

N
1 2
VAR = ∑(xi − x̅)
N−1
i=1
(où N désigne le nombre total d’observations). Concrètement, au lieu de diviser la somme des carrés des
écarts par N, on la divise par N-1. En effet, la variance telle que définie dans ce cours correspond à la
formule:
N
2
1 2
s = ∑(xi − x̅)
N
i=1

L’indicateur calculé dans Excel avec la fonction VAR est souvent noté S 2 (on le lit « grand S carré ») et
est lié à la variance s2 introduite plus haut (le « petit s carré ») par la relation :
N 2
S2 = s
N−1

N
Il ne s’agit donc pas du même indicateur, mais lorsque la taille de l’échantillon est grande, N−1 est alors
proche de 1 et les deux indicateurs sont très proches… L’intérêt de ce nouvel estimateur est qu’il est ce
qu’on appelle un « estimateur non biaisé » de la variance théorique σ2 . On verra plus tard le concept de
variable aléatoire, une fonction numérique calculée sur base des résultats d’une expérience aléatoire. Et
pour une variable aléatoire, on peut introduire le concept de « variance », que l’on peut estimer sur base
66

de résultats de l’expérience aléatoire. Lorsque la taille de l’échantillon est très grand, l’estimateur S 2 aura
tendance à être plus proche de la variance théorique que notre estimateur s2 .

On peut montrer que cette expression S 2 est aussi égale à :


N N 2
1 1
VAR = ∑ xi2 − (∑ xi )
N−1 N(N − 1)
i=1 i=1

La fonction Excel VAR.P calcule la variance telle que définie précédemment dans ce cours, càd
l’indicateur « petit s carré » s 2 .

Exemple : échantillon (1345, 1301, 1368, 1322, 1310, 1370, 1318, 1350, 1303 et 1299) , valeurs
supposées stockées dans les cellules A2:A11. La fonction VAR donne :

VAR(A2 :A11)=754,3

alors que l’autre fonction , VAR.P, donne :

VAR.P(A2 :A11)=678,8.

𝑁
Dans cet exemple, la différence n’est pas si petite, car N est petit. La fraction 𝑁−1 vaut en effet environ
1.11, on a donc une différence de l’ordre de 10% entre les deux…
En résumé :
𝑉𝐴𝑅 = 𝑆 2 , 𝑉𝐴𝑅. 𝑃 = 𝑠 2

Quartiles :
La fonction QUARTILE renvoie le quartile d’une série de données.

On l’utilise comme : QUARTILE({nombre1 ; nombre2 ; … } ; quart) où quart indique quelle valeur


renvoyer :
 La valeur 0 renvoie à la valeur minimale de la série
 La valeur 1 au premier quartile
 La valeur 2 au second quartile (i.e. la médiane)
 La valeur 3 au troisième quartile
 La valeur 4 à la valeur maximale

Remarquons que pour obtenir les valeurs minimale et maximale de la série, on peut aussi utiliser les
fonctions MIN et MAX.
67

Chapitre 4: Statistique bivariée – régressions


linéaires

On va s’intéresser maintenant à l’étude non pas d’une variable statistique observée sur une population
mais de deux variables, associées aux mêmes unités statistiques, aux mêmes individus.

Par exemple, si on considère l’ensemble de la population belge, on peut s’intéresser à leur taille et leur
âge, ou encore leur poids et leur revenu annuel, etc… et se poser la question du comportement statistique
de chaque série considérée séparément, mais aussi des relations qui existeraient entre leurs
comportements statistiques respectifs.

Dans l’exemple qui suit, on a noté la taille (en cm) et le poids (en kg) de 100 enfants d’une école, puis on
a représenté ces deux variables simultanément par un graphique du type nuage de points. Ce graphique est
obtenu lorsqu’on place dans un repère cartésien les n points Mi de coordonnées xi ; yi  .
Remarque : dans ce chapitre, on va noter par une minuscule 𝒏 le nombre total d’observations de la
série bivariée (X,Y), et non plus par une majuscule N.

Un point (𝑥𝑖 , 𝑦𝑖 ) correspond à la valeur de la taille et du poids de l’élève numéro 𝑖. On obtient alors un
nuage de points :

Figure 23: nuage de points pour représenter une


série bivariée

L’observation de ce graphique permet de déjà de constater que le poids a tendance à augmenter avec la
taille, mais pas de façon systématique : on peut être petit et gros, ou grand et maigre.

Mais il y a un certain lien, qu’on appellera corrélation, entre les deux variables.
68

4.1 Moyennes marginales et centre de gravité


On peut considérer chaque série statistique séparément, et calculer les indicateurs que l’on a vus en
statistique descriptive univariée.

Si l’on revient à notre exemple (poids et taille), on peut d’abord calculer la taille moyenne (ici 𝑥𝑖 est la
valeur de la iè observation, avec possibilité que 2 observations correspondent à une même valeur):
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
(attention : on notera ici avec un « n » minuscule la taille de l’échantillon) et le poids moyen :
𝑛
1
𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
C’est ce qu’on appelle les moyennes marginales des deux séries statistiques.

Le point du plan 𝐺 = (𝑥̅ , 𝑦̅) est ce qu’on appellera par définition le centre de gravité du nuage de points.

Exemple : soit (X,Y) la série statistique bivariée suivante :

x_i y_i
10 40
20 10
30 18
40 20
50 57
60 14

On peut représenter cette série par un nuage de points.


Le point rouge situé « au centre » du nuage représente le centre de gravité (35 ; 26,5) :

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70

Figure 24: Nuage de points et centre de gravité

4.2 Variances et écart-types marginaux


Pour mesurer la dispersion du nuage autour de son centre de gravité G, on va calculer les écarts entre les
abscisses des points et l’abscisse de G, càd 𝑥𝑖 − 𝑥̅ et les ordonnées des points et celle de G, càd 𝑦𝑖 − 𝑦̅, et
ce pour tout point du nuage.
69

Ce qui nous intéresse est l’écart moyen entre les points du nuage et le centre de gravité.

Il y aura des écarts positifs et négatifs selon la position du point par rapport à G. Si l’on fait la somme de
tous ces écarts (pour la taille X, et puis séparément pour le poids Y), elle sera nulle. Pour éviter ce
problème, on fait la somme des carrés des écarts, comme on l’a fait dans le cas univarié.

Clairement, plus cette somme est élevée, plus les points sont dispersés autour de G. Si au contraire cette
somme est nulle, alors c’est que chaque terme est nul (car une somme de termes positifs est nulle si et
seulement si chaque terme de la somme est nul), et donc que tous les points du nuage sont en fait
concentrés en le centre de gravité G (le nuage n’est plus un nuage mais un point…).

Ceci mène au calcul des variances marginales puis des écart-types marginaux.

On obtient donc 2 quantités mesurant la dispersion de la variable X et de la variable Y :

Remarque : Il y a d’autres moyens pour résoudre le problème des signes des écarts. On aurait pu faire la
somme des valeurs absolues des écarts au lieu de prendre leur carré, par exemple. Mais il est plus facile
de travailler avec des carrés qu’avec la valeur absolue. C’était l’idée de Gauss, en 1808.

Les variances de la variable X et de Y sont données par les carrés des écarts-types : 𝑠𝑥2 = (𝑠𝑥 )2 𝑒𝑡 𝑠𝑦2 =
2
(𝑠𝑦 ) (même définition que dans le cas univarié traité au chapitre précédent).

On a donc deux quantités, l’une pour la variable X (ne tenant compte que des observations pour cette
variable), l’autre pour la variable Y, d’où le terme « marginal ».

Les liens entre les deux variables (càd ici le fait que le poids a tendance à augmenter quand la taille
augmente) ne sont pas encore reflétés par ces deux variances marginales. Ce sera l’objet de la covariance
ci-dessous.

4.3 La covariance
Pour mesurer la variation conjointe des deux variables, on utilise le produit des écarts pour X et pour Y.
On introduit la covariance des deux variables statistiques X et Y par :

𝑛
1
𝐶𝑜𝑣(𝑋, 𝑌) = 𝑠𝑥,𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1

Interprétation intuitive de la covariance :


 Lorsque la covariance est strictement positive, cela signifie que la moyenne des produits
(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) est positive, ou encore qu’en moyenne, ces produits sont positifs, càd
correspondent à des facteurs de même signe.
o En moyenne, on a donc que (𝑥𝑖 − 𝑥̅ ) a le même signe que (𝑦𝑖 − 𝑦
̅).
70

o Cela veut dire que lorsque l’observation 𝑥𝑖 est supérieure (resp. inférieure) à la moyenne 𝑥̅ ,
il en est généralement de même pour l’observation 𝑦𝑖 relativement à la moyenne 𝑦̅
 Exemple : C’est ce qu’on a quand on regarde le poids et la taille : en général,
quelqu’un de taille supérieure à la moyenne a aussi un poids supérieur à la
moyenne
o Une covariance positive traduit donc une tendance simultanée des phénomènes derrière les
séries X et Y à se situer du même côté de leur moyennes respectives.

 Lorsque la covariance est strictement négative, cela signifie que la moyenne des produits (𝑥𝑖 −
𝑥̅ )(𝑦𝑖 − 𝑦̅) est négative, ou encore qu’en moyenne, ces produits sont négatifs, càd correspondent à
des facteurs de signe différent.
o En moyenne, on a donc que (𝑥𝑖 − 𝑥̅ ) a un signe opposé à celui de (𝑦𝑖 − 𝑦 ̅).
o Cela veut dire que lorsque l’observation 𝑥𝑖 est supérieure (resp. inférieure) à la moyenne 𝑥̅ ,
on observe généralement que l’observation 𝑦𝑖 est inférieure (resp. supérieure) à la
moyenne 𝑦̅.
o Une covariance négative traduit donc une tendance simultanée des phénomènes X et Y à
se situer de part et d’autre de leurs moyennes respectives (quand l’une est au-dessus de sa
moyenne, l’autre est en dessous et vice-versa) et non du même coté
 Exemple : On observe que les gens effectuant davantage d’heure d’exercice (sport,
déplacements à vélo ou à pied etc) par semaine développent moins de maladies
cardio vasculaires au cours de leur vie. Les gens effectuant plus de sport que la
moyenne, ont moins de problèmes cardio-vasculaire que la moyenne.
 Exemple : on observe souvent que quand les taux d’intérêt baissent, le marché
immobilier a tendance à augmenter.

 Lorsque la covariance est nulle (ou proche de 0), c’est plus complexe.
o Il est clair qu’avoir une covariance strictement positive ou négative implique une certaine
dépendance entre les variables X et Y. En cas d’indépendance entre les variables, il doit
donc y avoir nécessairement une covariance nulle, du moins en théorie.
o En effet : si une observation de X est au-dessus de sa moyenne, comme il n’y a aucun lien
entre X et Y, a priori Y peut très bien se trouver au-dessus ou en dessous de sa moyenne.
o Donc on aura « autant » de termes (𝑥𝑖 − 𝑥̅ ) ⋅ (𝑦𝑖 − 𝑦̅) avec un signe positif qu’avec un
signe négatif, et finalement la somme est proche de 0 car il y a compensation des positifs
par les négatifs.
o On verra que l’implication (indépendance implique corrélation nulle) ne va que dans un
sens.

En résumé, la covariance est positive si X et Y ont tendance à varier dans le même sens (càd quand
les valeurs observées pour de x augmentent, celles observées pour y également, comme dans notre
exemple la taille et le poids), et négative si elles ont tendance à varier en sens contraire.

Illustration :
71

taille (m) poids (kg)


Individu1 1.25 30
Individu 2 1.4 36
Individu 3 1.23 27
Individu 4 1.43 35

Poids (kg)
Individu 5 1.55 47

moyenne 1.3720 35.0000


moyenne des
carrés 1.8966 1271.8000
variances
marginales 0.0142 46.8000
écarts-types
marginaux 0.1191 6.8411 Taille (m)

On voit que plus la taille augmente, plus le poids a tendance à augmenter. On s’attend donc à ce que
quand 𝑥𝑖 − 𝑥̅ est positif (taille au-dessus de la moyenne), 𝑦𝑖 − 𝑦̅ soit positif également (poids au-dessus
de la moyenne).

On calcule ci-dessous le produit des écarts entre les observations et leur moyenne, et on voit qu’ils sont
tous positifs ou nuls. Cela traduit bien le fait que quand la taille augmente, le poids a tendance à
augmenter.

Le calcul de la covariance donne :


0,61 + 0,028 + 1,136 + 0 + 2,136
𝑠𝑥,𝑦 = = 0,782
5

Remarque 1: Expression analytique équivalente pour la covariance :


On peut montrer que cette quantité est aussi égale à :
𝑛
1
𝐶𝑜𝑣(𝑋, 𝑌) = 𝑠𝑥,𝑦 = ( ∑ 𝑥𝑖 𝑦𝑖 ) − 𝑥̅ 𝑦̅
𝑛
𝑖=1

Cela se voit facilement par calcul direct:

𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
1 1 1 1 1 1
𝑠𝑥,𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑(𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅𝑥𝑖 + 𝑥̅ 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑ 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝑥̅ 𝑦̅ ∑ 1
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
1 1 1 1
= ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝑦̅𝑥̅ + 𝑥̅ 𝑦̅ 𝑛 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝑦̅𝑥̅ + 𝑥̅ 𝑦̅ = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Dans notre illustration (poids et taille), on peut calculer la covariance par cette nouvelle formule, pour
obtenir :
72

1
𝑠𝑥,𝑦 = (1,25 ⋅ 30 + 1,40 ⋅ 36 + 1,23 ⋅ 27 + 1,43 ⋅ 35 + 1,55 ⋅ 47) − 1,372 ⋅ 35
5
= 48,802 − 48,02 = 0,782

On voit qu’on obtient bien la même valeur qu’avant pour la covariance.

Remarque 2 : la covariance d’une série avec elle-même est égale à la variance de cette série
Si les deux séries de données sont identiques (X=Y), alors la covariance correspond en fait à la variance
de notre (unique) série statistique X. En effet, dans ce cas, pour tout individu i, 𝑥𝑖 = 𝑦𝑖 , et donc 𝑥̅ = 𝑦̅, et
la formule de la covariance ci-dessus nous donne :
𝑛 𝑛
1 1
𝐶𝑜𝑣(𝑋, 𝑋) = 𝑠𝑥,𝑥 = ( ∑ 𝑥𝑖 𝑥𝑖 ) − 𝑥̅ 𝑥̅ = ( ∑ 𝑥𝑖2 ) − 𝑥̅ 2 = 𝑉𝑎𝑟(𝑋)
𝑛 𝑛
𝑖=1 𝑖=1

Remarque 3 : La covariance ne dépend pas de l'origine choisie pour mesurer les variables X et Y,
mais dépend des unités de mesure.

On peut constater cela sur notre illustration ci-dessus : si la taille est exprimée en mètres, on aboutit aux
résultats suivants :
ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
1.25 30 -0.122 -5.000 0.610
1.4 36 0.028 1.000 0.028
1.23 27 -0.142 -8.000 1.136
1.43 35 0.058 0.000 0.000
1.55 47 0.178 12.000 2.136

moyenne 1.372 35.000 Covariance: 0.782


moyenne
des carrés 1.897 1271.800
variances
marginales 0.014 46.800
écarts-types
marginaux 0.119 6.841

Si maintenant la taille est mesurée en cm (toutes les tailles sont alors multipliées par 100), cela donne :
73

ecarts x_i - ecarts y_i - produits des


taille (cm) poids (kg) moyenne moyenne écarts
125 30 -12.200 -5.000 61.000
140 37 2.800 2.000 5.600
123 27 -14.200 -8.000 113.600
143 35 5.800 0.000 0.000
155 47 17.800 12.000 213.600

moyenne 137.200 35.200 Covariance: 78.76


moyenne
des carrés 18965.600 1286.400 Corrélation 96%
variances
marginales 141.760 47.360
écarts-types
marginaux 11.906 6.882

On voit que la covariance est multipliée elle-aussi par 100.

Si maintenant on change l’origine pour mesurer la taille (on enlève 1 m systématiquement à toutes les
tailles, càd on met l’origine à 1 et non à 0) :

taille (nombre de m au- ecarts x_i - ecarts y_i - produits des


dessus de 1m) poids (kg) moyenne moyenne écarts
0.25 30 -0.122 -5.000 0.610
0.4 36 0.028 1.000 0.028
0.23 27 -0.142 -8.000 1.136
0.43 35 0.058 0.000 0.000
0.55 47 0.178 12.000 2.136

moyenne 0.372 35.000 Covariance: 0.782


moyenne
des carrés 0.153 1271.800 Corrélation 0.96
variances
marginales 0.014 46.800
écarts-types
marginaux 0.119 6.841

On voit que la covariance ne change pas suite à ce changement d’origine.

La covariance dépend donc des unités. Or on voudrait une mesure indépendante des unités, qui serait telle
que quand on considère la valeur de cette mesure, directement on puisse dire s’il y a un lien important ou
non entre deux variables.
C'est pourquoi, pour mesurer l'aspect plus ou moins "allongé" du nuage dans une direction (donc
l’intensité avec laquelle quand x prend des grandes valeurs, y également, ou le contraire), par un
coefficient sans unité, insensible au choix des unités choisies pour mesurer X et Y, on va considérer la
𝑥 𝑦
covariance entre les séries des 𝑠 𝑖 et 𝑠 𝑖 .
𝑥 𝑦

Ceci veut dire concrètement qu’on considère toutes les valeurs observées pour la variable X et qu’on les
divise toutes par l’écart type de la série, 𝑠𝑥 , et on fait de même pour la série Y. On obtient alors 2
nouvelles séries statistiques, et on en calcule la covariance.
C’est ce qui nous mène au concept de corrélation introduit plus bas.

4.4 Coefficient de corrélation


Comme annoncé plus haut, il s’agit de la quantité suivante :
74

𝑋 𝑌
𝝆(𝑿, 𝒀) = 𝐶𝑜𝑣 ( , )
𝑠𝑥 𝑠𝑦

Càd celle entre la série X divisée par son écart-type (série « réduite ») et Y disivée aussi par son écart-
type. Si on calcule ce que ça vaut :
𝑛 𝑛 𝑛
1 𝑥𝑖 𝑦𝑖 1 𝑥𝑖 1 𝑦
=( ∑ )−( ∑ ) ( ∑ 𝑖)
𝑛 𝑠𝑥 𝑠𝑦 𝑛 𝑠𝑥 𝑛 𝑠𝑦
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
1 1 1 1 1 1
=( ∑ 𝑥𝑖 𝑦𝑖 ) − ( ∑ 𝑥𝑖 ) ( ∑ 𝑦𝑖 )
𝑠𝑥 𝑠𝑦 𝑛 𝑠𝑥 𝑛 𝑠𝑦 𝑛
𝑖=1 𝑖=1 𝑖=1

𝑪𝒐𝒗(𝑿, 𝒀)
=
𝒔𝒙 𝒔𝒚

C’est donc la covariance de X et Y divisée par le produit des écart-types marginaux de X et de Y.

Définition : La corrélation entre deux séries X et Y est définie par :


𝐶𝑜𝑣(𝑋, 𝑌)
𝜌(𝑋, 𝑌) = 𝐶𝑜𝑟𝑟(𝑋, 𝑌) =
𝑠𝑥 𝑠𝑦

Illustration
Si l’on reprend notre exemple, on obtient ce qui suit :
𝐶𝑜𝑣(𝑋, 𝑌) = 0,782, 𝑠𝑥 = 0,119, 𝑠𝑦 = 6,641
Cov(X, Y) 0,782
ρ(X, Y) = Corr(X, Y) = = = 0,96
sx ⋅ sy 0,119 ⋅ 6,641

Propriétés de la corrélation:
 La corrélation, notée également (𝑋,), est symétrique en les variables X et Y
o si on échange les rôles de X et Y, la valeur obtenue est la même.

 La corrélation est indépendante des unités choisies pour mesurer X et Y et de l'origine


o par exemple on peut mesurer le poids en kg mais aussi en grammes ou en livres…, cela ne
va rien changer à la corrélation

Exemple : on reprend notre exemple avec le poids et la taille, et on calcule la corrélation à partir de la
taille mesurée en cm et non en m :
75

ecarts x_i - ecarts y_i - produits des


taille (cm) poids (kg) moyenne moyenne écarts
125 30 -12.200 -5.000 61.000
140 37 2.800 2.000 5.600
123 27 -14.200 -8.000 113.600
143 35 5.800 0.000 0.000
155 47 17.800 12.000 213.600

moyenne 137.200 35.200 Covariance: 78.76


moyenne
des carrés 18965.600 1286.400 Corrélation 96%
variances
marginales 141.760 47.360
écarts-types
marginaux 11.906 6.882

 On peut voir par ailleurs que la corrélation est toujours comprise entre - 1 et 1 :
𝝆(𝑿, 𝒀) ∈ [−𝟏, 𝟏]

 Elle vaut 1 si et seulement si le nuage est formé de points exactement alignés le long d'une droite
croissante (donc de coefficient angulaire positif), càd une droite d’équation :

y = a x + b, avec a > 0 .
Cela veut dire que pour tout i, la relation suivante est satisfaite :
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏

(les points (𝑥𝑖 , 𝑦𝑖 ) sont situés sur la droite, ils vérifient donc tous l’équation de la droite…).

 Le coefficient de corrélation vaut −𝟏 si et seulement si les points du nuage sont situés le long
d'une droite décroissante (donc de coefficient angulaire négatif):

yi = a xi + b , avec a < 0

 Le coefficient de corrélation 𝜌(X,Y) sera donc proche de 1 si le nuage est très allongé selon une
direction croissante : si X augmente, Y augmente aussi de façon proportionnelle et presque
systématique.

Si 𝜌 est proche de - 1, lorsque X augmente, Y diminue de façon proportionnelle, et presque


systématique.
76

Figure 25: Exemples de cas où la corrélation est proche de ou égale à 1 ou -1

Illustration sur notre exemple (poids et taille):


Dans l’exemple qui suit, les données du poids sont obtenues exactement comme 40 fois celles de
la taille moins 20 :
𝑌 = 40 𝑋 − 20.

On a donc une relation linéaire entre les deux variables (y=40x-20 est l’équation d’une droite).
On vérifie par calcul direct dans Excel que la corrélation vaut effectivement bien 1 :

Exemple où le poids est exactement une fonction linéaire de la taille


ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
1.25 30 -0.122 -4.880 0.595
1.4 36 0.028 1.120 0.031
1.23 29.2 -0.142 -5.680 0.807
1.43 37.2 0.058 2.320 0.135
1.55 42 0.178 7.120 1.267

moyenne 1.372 34.880 Covariance: 0.56704


moyenne
des carrés 1.897 1239.296 Corrélation 1.00
variances
marginales 0.014 22.682
écarts-types
marginaux 0.119 4.763

 Si 𝝆 est proche de + 1 ou de - 1, on dit que X et Y sont bien corrélées ou très corrélées entre
elles,

 Si 𝝆 est proche de 0, on dit que X et Y ne sont pas corrélées.


o Ceci a lieu en particulier lorsque X et Y sont indépendantes, c'est-à-dire si les deux
variables mesurées n'ont aucun rapport, aucune influence l’une sur l’autre
 les valeurs prises par l’une n’influencent aucunement les valeurs prises par l’autre ;
en d’autre termes, ce n’est pas parce que l’on sait que les valeurs prises par X sont
par exemple élevées, qu’on peut en conclure quoi ce que soit par rapport aux
valeurs prises par y…). On précisera plus tard ce concept d’indépendance.

o Mais ce n'est pas le seul cas : Y peut même être une fonction de X, mais pas via une
fonction linéaire (droite)
77
X Y
1.265412 1.601267
2.387917 5.702147
2.054919 4.222692
-3.85791 14.88346
-1.32154 1.746466
0.284884 0.081159
Figure 26: Exemple de cas où la corrélation est proche de 0
4.913138 24.13893
• Voir exemple dans Excel : Exemple: 0.130502 0.017031
– Série X simulée suivant 2.177393 4.741039
une variable uniforme sur [-5,5] (voir plus loin : cela correspond à
des nombres entre -5 et-1.11527
5, répartis1.243832
uniformément sur cet intervalle)
– Série Y obtenue comme-0.1534 𝑌 = 𝑋 2 0.023531
(on prend le carré des valeurs obtenues pour X)
2.39312 5.727023
– On peut voir que 𝜌(𝑋, -4.61068𝑌) = 0,00289621.25836sur cet échantillon, càd quasi égale à 0
X Y -0.95725 0.916325
1.265412 1.601267 4.760721 22.66446
2.387917 5.702147 -2.86758 8.223016
2.054919 4.222692 -4.68611 21.9596
-3.85791 14.88346 -0.98123 0.962819
-1.32154 1.746466 -1.08339 1.17373
0.284884 0.081159 1.328783 1.765665
4.913138 24.13893 -0.96943 0.939792
0.130502 0.017031 -2.03597 4.145173
2.177393 4.741039 3.162157 9.999238
-1.11527 1.243832 0.729681 0.532434
-0.1534 0.023531 3.37844 11.41386
2.39312 5.727023 -3.00083 9.004986
-4.61068 21.25836 1.70142 2.89483
-0.95725 0.916325 -2.63274 6.931344
4.760721 22.66446 0.910985 0.829894
-2.86758
Figure 8.223016
27: simulations des séries X et Y
-4.68611 21.9596
-0.98123 0.962819
-1.08339 1.17373
1.328783 1.765665
-0.96943 0.939792
-2.03597 4.145173
3.162157 9.999238
0.729681 0.532434
3.37844 11.41386
-3.00083 9.004986
1.70142 2.89483
-2.63274 6.931344
0.910985 0.829894
Figure 28: Nuage de points de la série bivariée (X,Y). La corrélation entre X et Y est quasi égale à 0. En fait il existe une relation
directe entre X et Y, mais pas linéaire (pas une droite, mais une parabole)

En fait la corrélation mesure la dépendance linéaire entre deux variables. Elle exprime dans quelle
mesure Y est une fonction linéaire de X, càd dans quelle mesure on peut écrire :
𝑌 = 𝑎𝑋 + 𝑏 + 𝑒𝑟𝑟𝑒𝑢𝑟
78

pour certaines constantes 𝑎, 𝑏 bien choisies (voir plus loin dans les régressions linéaires), avec une
certaine erreur commise en remplaçant Y par la fonction linéaire de X, 𝑎𝑋 + 𝑏, erreur que l’on espère
petite.

Remarque : Remarquons que si l’on considère deux séries statistiques tout à fait identiques (on a
« recopié » la même série et on considère le tout comme deux séries, même s’il s’agit en fait de deux fois
la même…), dans ce cas la corrélation vaudra toujours 1 : (X,X)=1

4.5 Corrélation et causalité


Une bonne corrélation signifie qu'il existe une relation presque linéaire entre X et Y, mais pas
nécessairement de relation de cause à effet ! (parfois oui, mais pas toujours… )

Exemple de mauvaise interprétation en terme de causalité:


Le schéma ci-dessous représente en X l’évolution des effectifs de l'enseignement supérieur au cours du
temps, et Y le nombre de chômeurs au Canada sur cette même période (donc à différents moments). On
peut voir que le coefficient de corrélation vaut 0.94, donc une valeur proche de 1.

On voit que les deux quantités ont augmenté conjointement, mais en fait c'est surtout parce que la
population globale du Canada a beaucoup augmenté. Plus d’habitants implique plus de chômeurs (on
parle ici du nombre absolu de chômeurs, pas du pourcentage qu’ils représentent dans la population…),
mais aussi plus d’étudiants dans l’enseignement supérieur. L'enseignement supérieur ne crée pas
forcément des chômeurs!

Figure 29: nombre de chômeurs et nombre d’habitants au Canada à différentes périodes

Autre exemple de mauvaise interprétation des corrélations:


On constate qu’il y a une corrélation positive entre le nombre de jours de vacances passés aux sports
d’hiver et le montant du loyer payé par les familles non propriétaires de leur logement (on ne s’intéresse
ici qu’aux familles payant un loyer, pas à celles qui ont déjà acheté leur habitation). La raison de cette
corrélation étant évidemment que les familles à revenu plus élevé ont tendance à payer un loyer plus élevé
également (car elles en ont les moyens), et à partir plus souvent en vacances aux sports d’hiver (à nouveau
car elles en ont les moyens), que les familles à revenu plus modeste. Càd à la présence d’un troisième
facteur, le revenu.

Une interprétation erronée de cette corrélation positive entre vacances aux sports d’hiver et montant du
loyer consisterait à dire que ce qui fait que les gens peuvent partir aux sports d’hiver est le montant de
leur loyer : payer un loyer élevé leur permettrait de pouvoir partir plus facilement aux sports d’hiver. La
conclusion qu’on en tirerait est que si l’on veut « démocratiser » les sports d’hiver dans un pays, il
suffirait d’inciter les propriétaires du pays à augmenter les loyers… Cela n’a évidemment aucun sens.
79

Relations d’effets conjoints

En fait, dans beaucoup de situations, on a des phénomènes se comportant de manière liée sans qu’il y ait
une relation de causalité entre l’un et l’autre. C’est le cas de deux actions dont les évolutions sont
parallèles (ou presque) sans que les variations de l’une provoquent les variations de l’autres, où les
variations des deux suivent en fait les variations générales du marché dans son ensemble.

Dans une telle situation, on parle d’effets conjoints : les causes génératrices d’évolution des deux séries
statistiques sont extérieures : on a une ou plusieurs causes extérieures agissant simultanément sur les deux
phénomènes X et Y.

Conclusion : Corrélation entre deux variable X et Y ne veut pas dire relation de causalité entre ces deux
variables !! Ce sont deux choses différentes.

Il existe un autre coefficient auquel on peut s’intéresser : le coefficient de détermination, qui est donné
par le carré du coefficient de corrélation :
2 2
𝑅 2 = (𝜌(𝑋, 𝑌)) = (𝑐𝑜𝑟𝑟(𝑋, 𝑌))

Il est toujours positif. Il intervient dans les régressions linéaires, traitées dans la section suivante.

Exemple : covariance et corrélation entre les returns observés sur différentes actions
On peut reprendre les données d’évolution des cours des actions Carrefour et Beneteau étudiées plus haut.
Le calcul de la covariance et de la corrélation entre les deux séries de returns, sur la période s’étalant du
1/1/2018 au 5/2/2019 nous fournit une covariance d’environ 7,15 *𝟏𝟎−𝟓 (très faible car l’ordre de
grandeur des returns journaliers est faible, et car la covariance dépend des unités de mesures, d’où
l’intérêt d’utiliser la corrélation !), mais une corrélation d’environ 15%. Les deux actions sont donc
faiblement positivement corrélées.
On peut également s’intéresser aux liens éventuels entre les rendements de ces actions et les rendements
d’un indice boursier, représentatif du marché dans son ensemble. Dans le cas présent, comme les deux
actions sont toutes deux des actions françaises, on peut s’intéresser à l’indice CAC40, regroupant les
principales actions d’entreprises françaises.
80

Figure 30: illustration de l’évolution de l’indice CAC 40 de 2017 à début 2019 (source : www.euronext.com)

CAC40 : Les caractéristiques statistiques de cet indice boursier considéré sur la même période
(essentiellement l’année 2018) sont les suivantes :

Moyenne des returns journaliers : -0.01634%


Ecart-type des returns journaliers : 0.874859%
Ecart-type des returns journaliers annualisé (ou volatilité annualisée) : 13.83%

Covariance et correlation entre le CAC40 et les deux actions ci-dessus :

Carrefour Beneteau
Covariance avec CAC40 4.44137E-05 0.00012854
Correlation avec CAC40 29.35% 52.80%

Remarquons que l’on peut disposer dans un tableau à 2 dimensions ces différentes covariances et
corrélations :

Carrefour Beneteau CAC40

Carrefour 0.0002991452 0.0000714656 0.0000444137

Beneteau 0.0000714656 0.0007742247 0.0001285371

CAC40 0.0000444137 0.0001285371 0.0000765378

C’est ce que les statisticiens appellent la matrice variance-covariance des différente séries statistiques.
(On est en fait déjà en train de faire de la statistique multivariée avec plus que 2 séries…). Cette matrice
n’est pas très parlante, toutes les valeurs sont très petites, car les ordres de grandeur sont petits lorsqu’on
regarde des variations de cours d’un jour à l’autre.
81

Dans ce tableau, sur la diagonale on a en fait repris les variances des returns des différentes actions et de
l’indice, puisqu’on a vu que la covariance d’une série statistique avec elle-même correspondait en fait à la
variance de cette série.

La matrice de corrélation est donnée ci-dessous :


Carrefour Beneteau CAC40
Carrefour 100.0% 14.8% 29.4%
Beneteau 14.8% 100.0% 52.8%
CAC40 29.4% 52.8% 100.0%

4.6 Régressions linéaires simples – méthode des moindres carrés


Le nuage de points du début de ce chapitre est composé des points (taille ; poids). La première valeur (la
taille) donne l’abscisse du point, et la deuxième valeur (le poids), son ordonnée. Pour construire le nuage
on a simplement représenté ces couples de valeurs (taille ; poids) par des points ayant ces coordonnées. Si
l’on veut connaître le poids pour une certaine taille, il suffit d’aller chercher la valeur de l’ordonnée pour
le point dont l’abscisse est la taille donnée.

Mais, supposons qu’on veuille connaître le poids pour une taille qui ne correspond à aucun point du
graphique (nuage de points). Dans ce cas, si l’on arrive à approximer le nuage de points par le graphe
d’une fonction, le problème est résolu : on peut utiliser la fonction pour calculer le poids correspondant à
n’importe quelle taille. En langage mathématique, cela s’écrit :

poids = f(taille).

pour une certaine fonction f. Cela veut dire que le poids est une certaine fonction de la taille. Si l’on veut
trouver le poids qui correspond à la taille de 123 cm, il suffit de faire le calcul : poids=f(123).

Le problème est que nous ne connaissons pas a priori cette fonction (nous ne connaissons pas « f »).
4.6.1 Paramètres de la droite de régression au sens des moindres carrés
Essayons de résoudre ce problème :
La première idée qui vient à l’esprit est de s’intéresser à des fonctions très simples, càd de type linéaire1 :
𝑓(𝑥) = 𝑎𝑥 + 𝑏 pour certaines constantes a et b (que l’on doit déterminer).

On représente les valeurs (xi ; yi ) dans un graphique à deux dimensions Dans certains cas, le nuage de
points représentant une série statistique double (X ; Y) est tel que ses points ont l’air de de disposer assez
près d’une certaine droite D.

Supposons que cette droite ait pour équation y  a x  b , où a est la pente de la droite et b est son

1
On appelle cela une fonction linéaire car son graphe est une droite (càd une « ligne »)
82

terme indépendant. Le terme indépendant est l’ordonnée du point d’intersection de la droite avec l’axe des
ordonnées.

À chaque point (xi ; yi ) de ce nuage de points, on peut faire correspondre un point Pi de la droite D ayant
la même abscisse que (xi ; yi ), c’est à dire, xi , mais d’ordonnée 𝑎𝑥𝑖 + 𝑏 :

L’ « erreur » associée à une telle modélisation Y=aX+b apparaît alors comme l’ écart (la distance) entre
les points (𝒙𝒊 , 𝒚𝒊 ) et leurs projections verticales Pi= (𝒙𝒊 , 𝒂𝒙𝒊 + 𝒃). On appelle également ces écarts les
résidus.
Ces écarts sont donnés par la longueur du segment joignant ces deux points. Ces 2 points ont même
abscisse 𝑥𝑖 , donc la distance est simplement donnée par la différence des ordonnées:
é𝑐𝑎𝑟𝑡𝑖 = ei = 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏.

Si ces écarts sont petits, alors cela signifie que les points initiaux du nuage (𝑥𝑖 , 𝑦𝑖 ) sont proches des Pi, du
point de vue de la variable Y, c’est à dire, la droite est très proche des « vrais » points.
Pour avoir une idée de l’erreur totale sur l’ensemble des points, on agrège ces erreurs 𝑒𝑖 en une erreur
totale 𝑬𝑻 ou somme des carrés des résidus (𝑆𝐶𝑟𝑒𝑠 ) :
𝑛 𝑛

𝐸𝑇 = 𝑆𝐶𝑟𝑒𝑠 = ∑ 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏 = ∑ écart i .


𝑖=1 𝑖=1
Cela correspond au choix de Gauss pour la résolution de ce type de problème. Les erreurs sont rendues
positives grâce à la mise au carré et sont cumulées par simple sommation. Des raisons analytiques sont à
la base du choix du carré, car celui-ci conduit à des expressions simples et facilement manipulables (la
fonction 𝑥 2 est plus facile à dériver que la fonction valeur absolue par exemple, avec laquelle on aurait
aussi pu travailler). Remarquons que les mises au carré amplifie les écarts les plus grands et donne donc
aux valeurs éloignées de la tendance une importance démesurée.

On va chercher la droite la plus proche (le modèle « le meilleur »), au sens de celui qui va minimiser
l’erreur totale 𝑬𝑻 ou la somme des carrés des résidus. On parlera de droite au sens des moindres
carrés.
Il y a plusieurs manières de procéder a priori pour prendre en compte tous les écarts..

Soit 𝐸𝑇 = 𝐸𝑇(𝑎, 𝑏) la somme des carrés des écarts:


83

𝐸𝑇(𝑎, 𝑏) = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)2


𝑖=1

Cette somme dépend de a et b, donc on peut la voir comme une fonction de ces 2 variables a et b, d’où
la notation 𝑬𝑻(𝒂, 𝒃). On veut que 𝐸𝑇(𝑎, 𝑏) soit le plus petit possible (cela veut dire une droite le plus
proche possible des vrais points en moyenne).

Résolution du problème
On va introduire deux artifices de calcul qui permettent l’obtention d’une solution analytique simple
utilisant les indicateurs statistiques usuels.
1
Au lieu de chercher à minimiser ET, cherchons plutôt à minimiser 𝑛 𝐸𝑇. Les valeurs de a et b qui réalisent
ce minimum sont évidemment les mêmes que celles qui minimisent ET. Ensuite, on
introduit artificiellement les écarts entre les observations et leurs moyennes respectives 𝑥̅ , 𝑦̅. On a alors :

Si l’on développe le carré parfait ci-dessus, on obtient une somme de trois termes :

(1)

Or,
𝑛 𝑛 𝑛
1 1 1 1
∑(𝑦𝑖 − 𝑦̅) = ∑ 𝑦𝑖 − ∑ 𝑦̅ = 𝑦̅ − 𝑛𝑦̅ = 0.
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Le 5ème terme de (1) est donc nul, et il en est de même pour le 6ème de (1).

On arrive donc au résultat :

(2)
càd la somme de 2 fonctions :
o une fonction du second degré de la seule variable a, facilement minimisable (il suffit de la
dériver et de trouver le point où la dérivée s’annule), et
84

o une fonction à deux variables a et b prenant la forme particulière d’un carré parfait,
prenant donc son minimum là où elle s’annule.

Or, quel que soit a, ce dernier terme peut être annulé par un choix judicieux de b : il suffit de prendre
̅−𝒂𝒙
𝒃=𝒚 ̅.

Ceci nous fournit le choix de b (qui dépendra donc du choix de a).


Il suffit donc de trouver le paramètre a qui minimise le premier terme, et de l’injecter dans l’expression
ci-dessus pour obtenir le paramètre b qui convient également.

Il reste donc seulement à trouver ce paramètre a. Notons 𝑓(𝑎) la fonction d’une seule variable
correspondant à ce premier terme :
𝑓(𝑎) = 𝑠𝑦2 + 𝑎2 𝑠𝑥2 − 2𝑎 𝑠𝑥,𝑦

Si on calcule la dérivée de cette fonction f par rapport à la variable a, cela donne :


𝑓 ′ (𝑎) = 2𝑎𝑠𝑥2 − 2𝑠𝑥,𝑦
Cette dérivée s’annule si et seulement si :
𝑠𝑥,𝑦 𝐶𝑜𝑣(𝑋, 𝑌)
2𝑎𝑠𝑥2 − 2𝑠𝑥,𝑦 = 0 ⇔ 𝑎 = =
𝑠𝑥2 𝑉𝑎𝑟(𝑋)
1
En résumé, les paramètres minimisant la somme des carrés des écarts 𝑛 𝐸𝑇, valent donc :

𝒔𝒙,𝒚 𝑪𝒐𝒗(𝑿, 𝒀)
𝒂= =
𝒔𝟐𝒙 𝑽𝒂𝒓(𝑿)

̅−𝒂𝒙
𝒃=𝒚 ̅.

La droite D d’équation y = a x + b ainsi obtenue (avec a,b comme ci-dessus) est appelée droite de
régression.
4.6.2 Qualité d’une régression linéaire : coefficient de détermination
Une mesure de la qualité d’une régression linéaire est obtenue en considérant le coefficient de
détermination:

𝑹𝟐 = 𝝆𝟐

défini comme le carré de la corrélation entre les deux variables statistiques X et Y.

En effet, la valeur minimale de l’écart quadratique ET que l’on a minimisé ci-dessus est donnée par :

𝐸𝑇𝑚𝑖𝑛 = 𝑛 . 𝑓(𝑎) = 𝑛. (𝑠𝑦2 + 𝑎2 𝑠𝑥2 − 2𝑎 𝑠𝑥,𝑦 ) = 𝑛. (𝑉𝑎𝑟(𝑌) + 𝑎2 𝑉𝑎𝑟(𝑋) − 2𝑎𝐶𝑜𝑣(𝑋, 𝑌))


85

𝑠𝑥,𝑦 𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= =
𝑠𝑥2 𝑉𝑎𝑟(𝑋)

En remplaçant a par cette valeur dans l’expression de ET , on obtient:

𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌) − 𝐶𝑜𝑣(𝑋, 𝑌)2


𝐸𝑇𝑚𝑖𝑛 =𝑛 = 𝑛 𝑉𝑎𝑟(𝑌)(1 − 𝜌2 )
𝑉𝑎𝑟(𝑋)

𝐶𝑜𝑣(𝑋,𝑌)2
puisque 𝜌2 = 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌).

De ceci il apparait clairement que plus 𝜌2 est proche de 1, plus l’écart quadratique moyen est proche de 0
(indépendamment de la variabilité de Y capturée par Var(Y)).

En d’autres termes également, si on note 𝑦̂𝑖 = 𝑎𝑥𝑖 + 𝑏, on a la relation :

𝐸𝑇𝑚𝑖𝑛 = ∑(𝑦̂𝑖 − 𝑦𝑖 )2 = (1 − 𝜌2 ) ∑(𝑦𝑖 − 𝑦̅)2


𝑖 𝑖

1
ou encore (exercice, il suffit de développer les carrés ci-dessous et d’utiliser le fait que 𝑛 ∑𝑖 𝑦𝑖 = 𝑦̅):
∑𝑖(𝑦𝑖 − 𝑦̅)2 − ∑𝑖 (𝑦̂𝑖 − 𝑦𝑖 )2 ∑𝑖 (𝑦̂𝑖 − 𝑦̅)2
𝑅 2 = 𝜌2 = =
∑𝑖 (𝑦𝑖 − 𝑦̅)2 ∑𝑖 (𝑦𝑖 − 𝑦̅)2

Ceci s’interprète comme :


𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑒 𝑌 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑎 𝑟é𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛
𝑅2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒 𝑌

Donc une indication de la pertinence d’une régression linéaire (et donc d’un modèle linéaire, dans
lequel on a tenté d’expliquer Y à l’aide d’une fonction linéaire de X, et donné par le coefficient de
détermination 𝑹𝟐 . Cela donne une indication du fait que la droite de régression colle bien aux données.

Que fait-on quand ça ne marche pas bien ?


Il se peut qu’une droite ne représente pas « bien » le nuage de points. En d’autres termes que le nuage ne
ressemble en rien à une droite. On trouvera dans ces cas-là une valeur de 𝑅 2 assez petite (disons inférieure
à 30%). Dans ce cas, on peut essayer de modifier les variables du problème et chercher une relation
linéaire non pas entre les séries X et Y mais entre X et une fonction de Y.

2
Par exemple, si le nuage de points (ti ; gi) n’a pas l’allure d’une droite, ou peut vérifier l’allure de (ti ; gi).

Pour analyser si une droite est une bonne approximation du nuage de points, on étudie le coefficient de
corrélation 𝜌 ou le coefficient de détermination 𝑅 2 . Mais attention, cette étude ne suffit pas.
86

Souvent, on teste différentes droites de régression / différents modèles de régression (en partant d’abord
des deux séries de départ, puis des fonctions de celles-ci) et on les compare entre-elles pour choisir la plus
pertinente, c'est-à-dire, celle qui représente mieux le nuage de points. En général on se base sur le carré de
la corrélation

Par exemple, on peut comparer les coefficients de corrélation de la droite de régression pour (ti ; gi) avec
2
celui obtenu pour (ti ; gi) pour étudier la pertinence de ces fonctions.

4.6.3 Applications et exemples


Les régressions linéaires peuvent servir à construire des modèles pour l’évolution dans le temps de
certaines quantités observées, notamment des variables de marché ou macro-économiques.
4.6.3.1 Exemple 1: variation des taux d’intérêt en fonction du temps
Le graphe suivant illustre une régression linéaire entre deux séries statistiques X et Y, où :
 X est le taux d’intérêt (taux sans risque à 3 mois) observé tous les jours pendant une certaine
période, et
 Y est le taux d’intérêt observé tous les jours mais avec un décalage de 1 jour dans le futur

En clair :
 𝑥𝑖 = taux au jour i
 𝑦𝑖 = taux au jour i+1

On « voit » sur ce graphe que les points s’alignent quasiment sur la droite de régression. Cela veut dire
que le taux observé un jour est quasiment une fonction linéaire du taux observé la veille, et cela tous les
jours avec la même fonction linéaire (la relation est la même tous les jours).
-3
x 10 Regression
3.5

2.5
Rate observed
2
Regression
1.5
1.8 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6
-3
x 10
-4
x 10 Residuals
2

-2

-4
0 50 100 150 200 250 300 350 400

(Note : nous ne donnons pas ici ni les coefficients de la régression ni le coefficient de détermination).

En fait cette estimation sert de base à l’estimation des paramètres d’un modèle de type « AR(1) » (auto-
régressif d’ordre 1), càd du type :
𝑥𝑖 = 𝑎𝑥𝑖−1 + 𝑏 + 𝜖𝑖
87

(où 𝜖𝑖 sont des nombres aléatoires indépendants et identiquement distribués, i.i.d. , voir plus loin), modèle
qui apparait assez pertinent pour l’évolution dans le temps des taux d’intérêt par exemple.

4.6.3.2 Taux de décès à la naissance en fonction du temps


On s’intéresse aux taux de décès pour 1000 naissances des enfants de moins d’un an en Belgique depuis
1900 :
Année (“x”) Décès avant 1 an pour
1000 naissances (« y »)
1900 178.2
1930 99.5
1950 53.45
1970 21.09
1980 12.14
1990 7.75
2000 4.9
2010 3.7
2017 3.1

Les indicateurs statistiques usuels (moyennes, variances, covariance…) se calculent facilement :

𝑥̅ = 1971,89
𝑠𝑥2 = 1341,88
𝑦̅ = 42,65
𝑠𝑦2 = 3204,72
𝑠𝑥,𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) = −1947,8791
𝜌 = −93,93%, 𝑅2 = 88,23%

Le coefficient de corrélation est proche de 1, un modèle obtenu par régression linéaire est donc a priori
indiqué. Cependant, une modélisation linéaire pour des taux de décès est suspecte, car ces taux doivent
toujours rester positifs (on a un « pallier » , ou un « floor », à 0 !). Or, les données et la droite de
régression (le modèle linéaire, donc) se présentent comme suit :
 Droite de régression : 𝑦 = −1,45 𝑥 + 2905,06

Où les coefficients sont obtenus comme :


1947,879
 𝑎=− = −1,45
1341,88
 𝑏 = 𝑦̅ − 𝑎𝑥̅ = 42,65 − (−1,45 ∗ 1971,89)
88

Nombre de décès la première année pour 1000


naissances
200

150

100

50

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

-50

Figure 31: Modèle linéaire pour l'évolution dans le temps du nombre de décès à la naissance en Belgique

On constate que malgré une corrélation relativement proche de -1 (et un coefficient de détermination
également assez proche de 1), le modèle linéaire (en temps que modèle de prévision) n’a pas beaucoup
de sens car il se traduit par des nombres de décès négatifs à partir de 2010… Par ailleurs, les points n’ont
pas vraiment l’air de se disposer le long d’une droite…

On va alors faire une transformation des données en passant aux coordonnées semi-logarithmiques pour
les nombres de naissances. Cela revient à transformer la série Y en une nouvelle série correspondant
aux logarithmes de Y : Y’=ln(Y) :

Année (X) Décès avant 1 an pour Ln (Y)


1000 naissances (Y)
1900 178.2 5.18290652
1930 99.5 4.60015764
1950 53.45 3.97874664
1970 21.09 3.04879899
1980 12.14 2.49650579
1990 7.75 2.04769284
En considérant non 2000 4.9 1.58923521 plus Y mais 𝑌 ′ =
ln(𝑌), on peut 2010 3.7 1.30833282 recalculer tous les
indicateurs statistiques univariés et bivariés :
2017 3.1 1.13140211
𝑥̅ = 1971,89
𝑠𝑥2 = 1341,88
̅ = 2,82
𝑦′
2
𝑠𝑦′ = 1,9444
𝐶𝑜𝑣(𝑋, 𝑌′) = −50,58
𝜌 = −99,02%, 𝑅2 = 98,05%

On voit que la corrélation est devenue beaucoup plus proche de -1, de même que le coefficient de
détermination.
89

Une régression linéaire de ln(Y) sur les années (X) nous donne comme droite de régression:

𝑦′ = −0,038 𝑥 + 77,15

Graphiquement cela donne :

Nombre de décès la première année pour 1000 naissances


6

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

Figure 32: Modèle linéaire construit sur les logarithmes du nombres de décès (modèle en coordonnées semi-logarithmiques).

Le nouveau modèle linéaire ainsi obtenu nous donne donc une modélisation du logarithme du nombre de
décès avant un an (sur 1000 naissances) comme :

ln(𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 𝑝𝑜𝑢𝑟 1000 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠) = −0,037694 ∗ 𝑎𝑛𝑛é𝑒 + 77,1488648

càd que l’on suppose implicitement que les données vérifient :


𝑙𝑛(𝑦𝑖 ) = 𝑦𝑖′ = −0,037694 𝑥𝑖 + 77,1488648 + 𝑒𝑖′
càd :
𝑥𝑖 +77,1488648+𝑒𝑖′
𝑦𝑖 = 𝑒 −0,037694
Ce nouveau modèle se réécrit encore :

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 𝑝𝑜𝑢𝑟 1000 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠 = 𝑒 −0,037694∗𝑎𝑛𝑛é𝑒+77,1488648

càd une fonction exponentielle du temps, avec un coefficient négatif.


Il s‘agit donc d’un modèle exponentiel. On modélise le nombre de décès par l’exponentielle d’une
fonction linéaire du temps.

Le premier modèle consistait en fait à supposer implicitement :


𝑦𝑖 = −1,4516083 𝑥𝑖 + 2905,05807 + 𝑒𝑖
ce qui est une relation fondamentalement différente…
90

En faisant un graphique des nombres de décès (tels quels, sans prendre le logarithme) en fonction du
temps et en représentant les valeurs obtenues en appliquant ce modèle exponentiel on obtient ce qui suit :

Nombre de décès la première année pour 1000 naissances


300

250

200

150

100

50

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

Figure 33: Comparaison données et modèle pour le modèle exponentiel

4.6.3.3 Evolution de la balance commerciale aux USA


On repart de données concernant la balance commerciale aux USA sur une période relativement courte (5
ans sulement) :

On peut facilement calculer les paramètres statistiques de ces deux séries (en prenant à nouveau le temps
comme première série) :

𝑥̅ = 1995

𝑠𝑥2 = 2
𝑦̅ = −136,6
𝑠𝑦2 = 687,44
𝑠𝑥,𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) = −34,8
𝜌 = −93,85%
Le graphique suivant représente les données ainsi que la droite de régression (Y en fonction de X) sur ces
données.
91

Cet exemple nous permet d’illustrer la non robustesse de la méthode de régression linéaire par
moindres carrés. Imaginons que l’année 1997 ait été erronée, et ne comprenne le déficit que pour les 6
premiers mois. Les données deviennent alors :

Et une régression linéaire sur ces données erronées donne une droite de régression très différente:

Avec ces nouvelles données, le modèle linéaire est radicalement différent : il présente une tendance à la
hausse alors que l’ancien modèle annonçait une tendance à la baisse… L’effet est évidemment très
marqué ici car on n’a considéré que 5 points de données.
En conclusion, la méthode des moindres carrés n’est pas toujours très robuste : l’impact de données
aberrantes peut être très grand et modifier complètement le modèle linéaire.
4.6.3.4 Evolution dans le temps des températures à Paris
Un dernier exemple consiste à regarder en fonction du temps l’évolution des températures mesurées à
Paris en fonction du temps.
92

Plus précisément, on repart des données de températures moyennes mesurées par l’observatoire
Monsouris à Paris, de 1900 à 2018. Une illustration des données est fournie ci-dessous.
Témpératures moyennes à Paris - observatoire Montsouris
janv Juillet moyenne année
1900 5 22.2 11.5
1901 2.7 20.5 10.5
1902 4.5 18.8 10.3
1903 3.7 18.3 10.7
1904 1.9 21.8 10.9
1905 2 20.7 10.5
1906 5 19.4 11.1
1907 3 17.1 10.7
1908 0.3 19.1 10.4
1909 2 16.5 10.2
1910 4.1 17.1 10.9
1911 1.3 21.9 11.8
1912 4.5 19.4 11
1913 5.6 16.9 11.3
1914 0.1 18.3 11.1
1915 4 17.9 10.9
1916 7 18 11
1917 0.5 18.9 9.9
1918 3 19.2 11.1
1919 2.9 15.9 10.4
etc … … …

On n’utilisera que la colonne « moyenne année » dans l’analyse qui suit.


On va considérer à nouveau comme variable X le temps (les années) et comme variable Y la température
moyenne.
On peut calculer les moyennes marginales, écart-types marginaux et covariance :
MOYENNE temp sur 1900-2018 Moyenne années: 𝑥̅ =1959
𝑦̅ =11.71
VARIANCE temp sur 1900-2018 Variance années : 𝑠𝑥2 =1180
𝑠𝑦2 = 0.74

Corrélation : 77,61% ,
𝑅 2 = 60,23

En applicant les formules vues dans la section précédente, on obtient la droite de régression estimée:
y=0,01946 x – 26,4231
93

dans laquelle on peut remarquer que le coefficient de x est positif…indiquant une tendance à
l’augmentation des températures moyennes en fonction du temps.

Si on représente le nuage de points (reliés par des segments de droite) et la droite de régression (en rouge)
estimée sur 1900-2018 , on obtient ce qui suit :

Ceci en se basant sur l’historique total, allant de 1900 à 2018.


Ce modèle implique qu’en moyenne, il faut 51,38 années pour une augmentation de 1 degré de la
température moyenne à Paris.
Mais on aurait aussi pu varier la période historique sur laquelle on se place : considérer par exemple
uniquement les données après la seconde guerre mondiale : de 1946 à 2018.
Dans ce cas, on peut voir qu’on obtient la droite de régression suivante :
𝑦=0,02631 𝑥−40,0448
et une corrélation et un coefficient de détermination égaux à :
𝜌=70,14% et 𝑅^2=49,23%

Basé sur ce nouvel historique, le modèle est à première vue de “moins bonne qualité” (la droite colle
moins bien aux données). Mais le coefficient de x est plus important : les températures augmentent plus
vite.
Il indique aussi qu’il ne faut plus que 38 ans environ pour observer une hausse de 1 degré de la
température moyenne. Il semble donc indiquer une accélération après la seconde guerre de l’augmentation
de température en fonction du temps.

On montre dans un cours de statistique plus avancé que les modèles construits ci-dessus sur base des
températures sont en fait « statistiquement significatifs », ce qui veut dire intuitivement que le
coefficient de « x » (la vitesse d’augmentation de la température) est « réellement » différent de 0 et que
ce n’est pas par chance, càd que ce n’est pas dû au « bruit contenu dans les données ». Si on avait pu
sélectionner un autre échantillon pour estimer le même modèle (ce qui n’est pas possible en pratique car
on ne peut pas reproduire l’expérience aléatoire), on aurait encore mesuré un coefficient différent de 0.

Pour mieux comprendre ce concept de statistiquement significatif, voici un exemple de mesures qui sont
dues au « hasard » :
On lance un dé 6 fois et on mesure le nombre de fois qu’on a eu une valeur paire :
 Premier lancer : 1, 4, 5, 4, 3, 1  nombre de fois qu’on a eu une valeur paire : 2
94

 Second lancer : 3, 2, 6, 2, 6, 5  nombre de fois qu’on a eu une valeur paire : 4


Si on regarde seulement le premier lancer, on a l’impression qu’on a 2 chances sur 6 d’avoir un résultat
pair, donc si on avait parié sur pair, on aurait eu un gain moyen négatif sur l’ensemble des parties.
Par contre si on regarde le second, on a l’impression du contraire : qu’on a 4 chances sur 6 d’avoir un
résultat pair, donc si on avait parié sur pair, on aurait eu un gain moyen positif sur l’ensemble des parties.
Or on peut voir que le gain espéré – si le dé est équilibré – est nul (car on a autant de chance d’avoir un
résultat pair que impair). Or, basé sur ces deux (petits) échantillons, la première estimation du gain moyen
est négative, la seconde est positive. En fait la « vraie » valeur est nulle, et le fait d’avoir obtenu la
première fois une valeur négative est juste due au hasard, en changeant d’échantillon, on peut obtenir des
valeurs positives ou négatives (ou nulles). On est en présence ici d’un coefficient qui n’est pas
statistiquement différent de 0.
On peut montrer que ce n’est pas le cas du coefficient des régressions linéaires de notre exemple.

Il existe des techniques de statistiques qui permettent d’identifier quand une mesure statistique (comme
notre gain moyen avec les dés, ou le coefficient de la régression linéaire avec les températures) est
statistiquement différente de 0, càd que le fait d’avoir trouvé une valeur (par ex.) positive n’est pas due au
hasard comme dans notre petit exemple avec les dés. Que même en changeant d’échantillon (extrait de la
même population) on aurait eu une valeur positive.

Si on revient à notre exemple avec les températures, ces techniques montrent un coefficient
statistiquement différent de 0 et positif, cela veut dire qu’il y a réellement une tendance au réchauffement
à Paris, que ce n’est pas dû à des fluctuations « normales » autour d’une température moyenne qui serait
stable dans le temps… Ces techniques sortent du cadre de ce cours.
95

Chapitre 5: Calcul des probabilités

5.1 Introduction
Dans la vie de tous les jours, le terme « probabilité » désigne une mesure de la confiance qu’on a en la
réalisation d’un événement futur.
La théorie des probabilités est née de questions posées par le Chevalier de Méré à son ami Blaise
Pascal.
France – XVIIè siècle. Le Chevalier de Méré (de son vrai nom Antoine Gombaud, 1607-1684) est un
libertin, grand amateur de vin, de femmes et de jeux de hasard. Blaise Pascal est mathématicien,
philosophe, physicien (avant de se tourner entièrement vers la religion, abandonnant tout le reste).
Méré joue énormément aux dés. Quand un dé est bien équilibré (et donc non truqué), on ne peut pas
évidemment savoir sur quelle face il va tomber (on est en présence de ce qu’on appelle une
« expérience aléatoire »), mais Méré sait que chacune des six faces tend à revenir une fois sur six.
Méré sait qu’il lui arrivera de tirer le même chiffre, par exemple le 6, deux, ou trois, ou même quatre
fois de suite. Mais il a constaté qu’à long terme, en lançant beaucoup de fois le dé, le 6 revenait une
fois sur six, comme chacune des autres faces du dé, qui revenaient elles aussi une fois sur 6.

Il avait tiré de cette observation une règle à lui, qu’il pensait correcte, et qu’il trouvait très utile. S’il
lance un dé, il a une chance sur six de sortir un 6. Supposons que ce soit le 6 qui l’intéresse, et qu’il
lance son dé non pas une fois mais quatre fois de suite. Il se disait alors qu’il avait « quatre fois une
1 2
chance sur six de tirer un 6 », càd 4 × 6 = 3. On verra plus tard que ce raisonnement est erroné (et cela
peut se vérifier expérimentalement en répétant l’expérience de lancer quatre fois de suite un dé…).
En attendant, Méré y croyait. Cependant Méré jouait à des jeux qui se jouent non pas avec un dé, mais
deux dés distincts. Il s’est donc demandé quelles chances il avait de tirer deux 6 en lançant ces deux
dés. Pour le découvrir il avait raisonné comme suit.
Il a d’abord établit la liste de toutes les possibilités (tous les « cas possibles ») que l’on pouvait trouver
en lançant deux dés. Par exemple si le premier dé est un 1, le second lui peut prendre les 6 possibilités :
96

valoir 1, ou 2, ou 3, etc. Cela fait 6 cas possibles correspondant à avoir un 1 pour le premier dé. Idem
quand le premier dé vaut 2… et en tout cela fait 6+6+6+6+6+6 = 6 × 6 = 36 car possibles.
Les différents cas sont illustrés ci-dessous :

Figure 34: les 36 possibilités (ou les 36 cas possibles) correspondant aux résultats du lancer de 2 dés.

Une seule de ces possibilités intéresse le chevalier de Méré : celle où l’on a deux fois un 6. Quelle est
la chance re sortir un double 6 avec deux dés lancés une fois ? Réponse : 1 sur 36. Mais supposons
maintenant qu’on lance les deux dés 24 fois. Méré raisonne comme tout à l’heure et conclut à « 24 fois
1 2
une chance sur 36 », ce qui fait 24 × 36 = 3, càd à nouveau 2/3, comme ci-dessus. Nous verrons qu’à
nouveau ce raisonnement est erroné…
Il en concluait qu’il avait exactement les mêmes chances (2/3) de sortir un 6 quatre fois de suite en
lançant quatre fois un dé que de sortir un double 6 en lançant 24 fois deux dés… Pourtant, quand il
parie en se fiant à son raisonnement exposé ci-dessus, les dés refusent de se comporter comme le
raisonnement le prédit : le Chevalier perd plus souvent avec les deux dés qu’avec un seul, pour lequel
il gagnait un peu plus souvent… Or il s’attendait à gagner en moyenne (chance 2/3 de gagner).
Cela le met hors de lui, il perd de l’argent. Ce problème l’obsède, et il décide de consulter son ami
Blaise Pascal.
C’est de la réflexion de Pascal sur ces problèmes et de la correspondance avec Pierre de Fermat (1601-
1665) qui s’ensuivit qu’est née la théorie des probabilités.

5.2 Introduction intuitive aux probabilités


Revenons à notre tableau qui représente l’ensemble des 36 résultats possibles de notre expérience
aléatoire (lancer deux dés de couleur différente). On supposera que chacune de ces issues a la même
chance que toutes les autres d’apparaître (càd que le dé est équilibré).
Prenons un de ces résultats au hasard : par exemple obtenir un 2 pour le premier dé et un 3 pour le
second, qu’on peut représenter par le couple (2,3).
Quelle est sa probabilité ? intuitivement quelle est la fréquence vers laquelle la fréquence relative
d’apparition de (2,3) va tendre si on répète beaucoup de fois l’expérience de lancer les deux dés ?
1
Ce résultat apparait 1 fois sur nos 36 possibilités, donc ce sera 1 sur 36, càd 36 = 0,02778.

On exprime souvent les probabilités de cette façon : par une fraction dont le numérateur correspond au
cas favorable et le dénominateur l’ensemble des cas possibles. En faisant cela, on voit que la
probabilité est toujours comprise entre 0 et 1.

Par exemple, la probabilité que la somme des résultats des deux dés valle 13 est 0 : il n’y a aucun cas
favorable menant à une somme qui vaut 13… Celle de tirer deux chiffres dont la somme est entre 2 et
12 est de 1 (car tous les cas possibles sont des cas favorables : les 36 possibilités mènent à une somme
97

qui vaut entre 2 et 12…). Donc on peut avoir des probabilités qui valent 0 et des probabilités qui valent
1.
Chacune des 36 possibilités du tableau a une probabilité de 1/36, et la somme de ces probabilités vaut
1
1, puisque si on somme 36 fois 1/36 avec lui-même, on obtient 36 × 36 = 1 … La somme des
probabilités de tous les résultats de l’expérience aléatoire vaut donc 1.

Allons plus loin : considérons cette fois un événement, càd quelque chose qui peut se produire à l’aide
d’éventuellement plusieurs cas possibles. Par exemple, l’événement que la somme des deux dés valle
3. C’est un événement.

Quelle est la probabilité de cet événement ? Pour le savoir, il faut se demander combien de cas
possibles réalisent l’événement. On va voir dans le tableau :

On voit qu’il y a deux cas possibles qui mènent à la réalisation de l’événement : la somme des deux
dés vaut 3 : c’est (1,2) et (2,1). Comme la probabilité de chacun des deux cas est de 1/36, et qu’ils ne
1 1 2
peuvent pas se produire en même temps, la probabilité de notre événement vaut donc 36 + 36 = 36.
Notation : Notons cela plus clairement.
Pour un événement A, on notera sa probabilité P(A). Dans notre exemple, on a P(A)=2/36.

Combiner des événements :


Il est possible de combiner des événements pour obtenir de nouveaux événements: on peut
s’intéresser par exemple à la réalisation simultanée de deux événements E et F.
Cela veut dire qu’on a « E et F ».
Par exemple, si 𝐸 et F correspondent à :
 E : la somme des deux dés vaut 5  𝐸 = {(1,4), (2,3), (3, 2), (4, 1)}.
Il y a 4 éléments (4 cas possibles) dans E.
 F : le premier dé (le dé noir) est pair
→ 𝐹 = {(2,1), (2,2), (2,3), … , (2,6), (4,1), (4,2), … , (6,1), (6,2), … , (6,6)}
Il y a en fait 6+6+6=18 éléments dans F.
Alors la réalisation simultanée des deux événements mène à :
{(2,3), (4,1)}
On voit que pour arriver à cela, on a pris l’intersection des deux ensembles E et F.
98

"E et F" 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑 à 𝐸 ∩ 𝐹:


l'intersection des deux ensembles associés à E et F

On peut aussi regarder l’événement correspondant à la réalisation de E ou de F (avec la possibilité


aussi que les deux se produisent en même temps). Càd « E ou F ».
Cela veut dire qu’on s’intéresse à E sans avoir F, à F sans avoir E, et aussi à E et F en même temps.
Regardons cela sur notre exemple :
 La réalisation de E ou de F correspond à obtenir un des cas possibles se trouvant dans E ou un
des cas se trouvant dans F. Combien de cas possibles cela fait-il ?
 On en a 4 dans E, on en a 18 dans F. Si on fait la somme des deux : 4+18=22, on en a compté
trop… car on a compté deux fois ceux qui sont à la fois dans E et dans F : cela concerne (2,3) et
(4,1).
 Si on regarde les éléments se trouvant dans E ou dans F, càd dans la réunion des deux
ensembles E et F, on arrive à :

 Nombre d’éléments dans la réunion de E et F :


4 + 18 − 2 = 20
Càd le nombre d’éléments dans E, plus ceux dans F, moins le nombre d’éléments dans
l’intersection…car on les a compté deux fois en prenant 4 + 18…
 La probabilité de « E ou F » vaut donc
20
𝑃(𝐸 𝑜𝑢 𝐹) =
36

 Càd la probabilité de E (4/36) plus celle de F (18/36) moins celle de « E et F » (2/36) :


20 4 18 2
𝑷(𝑬 𝒐𝒖 𝑭) = = + − = 𝑷(𝑬) + 𝑷(𝑭) − 𝑷(𝑬 ∩ 𝑭)
36 36 36 36

Si l’on a affaire à deux événements mutuellement exclusifs, càd qui ne peuvent pas se produire en
même temps, càd dont l’intersection est vide, alors dans ce cas (et uniquement dans ce cas !) :
𝑷(𝑬 𝒐𝒖 𝑭) = 𝑷(𝑬) + 𝑷(𝑭) si et seulement si 𝑬 ∩ 𝑭 = ∅


99

On peut aussi s’intéresser à la non-réalisation d’un événement, càd « non E ».


Par exemple, E pourrait être l’événement qui consiste à obtenir un double 1 dans le lancer de deux dés.
On a alors : 𝐸 = {(1,1)}.
La non réalisation de E consiste alors à ne pas avoir un double 1, càd à avoir l’une des 35 autres
possibilités du tableau. La probabilité de « non E » vaut donc 35/36, càd 1 − 𝑃(𝐸).
De manière générale :
𝑃(𝑛𝑜𝑛 𝐸) = 1 − 𝑃(𝐸)

On doit encore comprendre les règles concernant la probabilité de l’intersection/de la réalisation


simultanée de 2 événements : "𝑬 𝒆𝒕 𝑭".
Pour cela on a besoin de la notion de « probabilité conditionnelle ».

Exemple :
Supposons que l’on s’intéresse à avoir une somme des deux dés égale à 3. On a vu que la probabilité
de cet événement (événement A). On a vu que sa probabilité, P(A), valait 2/36.
Supposons maintenant qu’on lance d’abord le dé noir, qu’on observe son résultat puis qu’on lance
l’autre dé, le blanc. Supposons que le dé noir soit tombé d’abord sur « 1 ». P(A) a-t-il encore une
probabilité de 2/36 ? Non. Si le premier dé a donné 1, la probabilité d’avoir une somme égale à 3 a
évidemment augmenté : elle vaut 1/6, et correspond au cas où le résultat du dé blanc est « 2 » (ce qui
vaut 1/6).
Appelons B l’événement d’avoir un 1 avec le premier dé, le dé noir.
La réalisation de B influence la probabilité de A : si B s’est produit, on a plus de chance que A se
produise. On appelle cette probabilité la probabilité conditionnelle et on la note : 𝑃(𝐴|𝐵).
Elle se lit : « Probabilité de A sachant B ».
C’est la chance de réalisation de A sachant que B s’est réalisé.
Si deux événements sont combinés avec « et » et qu’ils sont dépendants, càd que la réalisation de l’un
influence celle de l’autre, alors on a :
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) × 𝑃(𝐵)
Intuitivement c’est assez clair :
 Pour que A et B se réalise, il faut d’abord que B se réalise (proba P(B)) puis que , sachant que
B s’est réalisé, A se réalise aussi (proba P(A|B) )

Lorsque la réalisation de B n’influence pas celle de A (ni le contraire), on dit que A et B sont
indépendants, et on a alors :
𝑃(𝐴|𝐵) = 𝑃(𝐴)
Le fait que B s’est réalisé ou non (« sachant B »), la probabilité que A se réalise à son tour est la même
(elle vaut P(A) : proba que A se réalise, peu importe que B se réalise ou pas).

Si les événements A et B sont indépendants :


𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵)

100

En résumé :
𝑃(𝐴 𝑜𝑢 𝐵) = 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
𝑃(𝑛𝑜𝑛 𝐴) = 1 − 𝑃(𝐴)
𝑃(𝐴 𝑒𝑡 𝐵) = 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) × 𝑃(𝐵)
Et si A et B sont indépendants :
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵).

Résolution du problème de Méré par Pascal :


Le raisonnement de Méré ne valait pas un clou. Montrons-le en utilisant les règles vues jusqu’à
présent.
 Nommons E l’événement qui consiste à obtenir (au moins un) 6 en quatre lancers d’un dé.
On peut en fait facilement calculer la probabilité que E ne se réalise pas, càd P(non E).
Non E = ne pas avoir de 6 au cours d’aucun des lancers.
Càd
Ne pas avoir de 6 au premier lancer, ni au second, ni au troisième, ni au quatrième.
On s’intéresse donc à la probabilité de l’intersection entre 4 événements.
Or les différents lancers sont indépendants (les résultats de l’un n’influencent pas ceux des
autres).
Donc la probabilité de cette intersection vaut le produit des probabilités de chacun d’eux.

5
Or, ne pas avoir de 6 lors d’un lancer a une probabilité 6
Donc ne pas avoir de 6 ni au premier, ni au second, ni au troisième ni au quatrième vaut :
5 5 5 5 5 4
× × × = ( ) = 0,482 = 𝑃(𝑛𝑜𝑛 𝐸)
6 6 6 6 6
Donc :
𝑃(𝐸) = 1 − 𝑃(𝑛𝑜𝑛 𝐸) = 1 − 0,482 = 0,518.
Méré croyait que ceci valait 2/3…

 Pour deux dés lancés 24 fois, on s’intéressait à la probabilité d’avoir au moins une fois (sur les
24) un double 6.
L’événement complément, càd ne pas avoir une seule fois sur les 24 lancers un double 6 vaut :
35 24
( ) = 0,509
36
C’est le même raisonnement qu’avant : ne pas avoir un double 6 lors du lancer de 2 dés vaut
35/36. Et comme les différents lancers sont indépendants, on multiplie les probabilités….
Donc la probabilité d’avoir au moins un double 6 lors de 24 lancers de 2 dés vaut 1 moins cette
proba :
1 − 0,509 = 0,491.

Le premier événément a une proba de 0,518, le second de 0,491… ni l’une ni l’autre ne vaut 2/3.
101

On comprend pourquoi le Chevalier gagnait avec un dé (cela se produisait un peu plus qu’une fois sur
2, car proba de 0,518) mais perdait avec deux (cela se produisait un peu moins qu’une fois sur 2, car
proba de 0,491…).

Le concept de probabilité est nécessaire pour manipuler des phénomènes physiques, biologiques, mais
aussi sociaux et économiques qui génèrent des observations qui ne peuvent être prédites avec certitude.
Par exemple, la pression artérielle d’une personne à un moment donné ne peut pas être prédite avec
certitude, et nous ne connaissons jamais la charge exacte qu’un pont pourra supporter avant de
s’effondrer dans une rivière. On ne connait pas avec certitude quel sera dans une semaine ou dans un
mois le prix d’une action cotée ou le taux de change entre l’Euro et le US Dollar.
De tels événements ne peuvent être prédits avec certitude, mais la fréquence relative avec laquelle ils
se produisent dans une longue série d’essais est souvent (mais pas toujours !) remarquablement stable.
Les événements possédant cette propriété sont appelés aléatoires, ou stochastiques.
La nécessité de disposer d’une théorie des probabilités qui fournisse une méthode rigoureuse pour
trouver un nombre (une probabilité) qui est en accord avec la fréquence relative réelle d’occurrence
d’un événement dans une longue série d’essais est évident si l’on imagine un résultat différent pour
l’échantillon produit par le joueur.

Reprenons l’exemple du lancer d’un dé équilibré à 6 faces. On a une probabilité de 1/6 d’avoir un
« 1 », de même pour un « 2 », un « 3 » et ainsi de suite.
Supposons qu’on lance le dé 10 fois et qu’on obtienne un « 1 » 10 fois de suite. Intuitivement, cela
nous laisse douter du caractère équilibré du dé… il est probablement truqué.
Supposons, par exemple, qu’au lieu de dix « 1 », on ait observé cinq « 1 », deux « 2 », un « 3 », un
« 4 » et un « 6 ». Est-ce un résultat « suffisamment improbable » pour rejeter notre hypothèse selon
laquelle le dé est équilibré et conclure qu’il est déséquilibré ? De nombreux résultats expérimentaux
tombent dans une « zone grise » où une évaluation rigoureuse de la probabilité qu’ils se réalisent doit
être effectuée. C’est pour cette raison que doit être développée une théorie rigoureuse des probabilités
qui permet de calculer la probabilité d’observer des résultats donnés.

5.3 Evénement, expérience aléatoire, espace échantillon


On supposera toujours qu’on est en présence d’une expérience aléatoire , càd un processus dont les
observations, les résultats, ne sont pas prévisibles à l’avance.
Par exemple :
 Le lancer d’un dé équilibré  l’ensemble des résultats possibles de l’expérience : 1, 2, 3, 4, 5,
6. Il peut se voir comme l’ensemble {1, 2, 3, 4, 5, 6}.
 Le lancer d’une de pièce de monnaie  2 résultats possibles : face ou pile  ensemble des
résultats possible : {P,F}
 Le cours boursier d’une action cotée (par ex. Ageas) à une date future  toutes les valeurs
possibles sont dans le demi-intervalle [0,+∞[
 La température à un endroit à une date future : valeurs possibles : [-272, +∞[
 Le nombre de clients dans un supermarché pendant une période d’une semaine : 0, 1, 2, 3, ….
 etc.

De manière générale, l’ensemble des résultats possibles d’une expérience aléatoire s’appelle l’espace
échantillon ou encore l’espace d’échantillonnage (sample space en anglais).
C’est la première chose à déterminer lorsqu’on est en présence d’une expérience aléatoire : quel est
l’espace échantillon.
102

Souvent on le notera par la lettre « S ».

Exemple : on lance deux fois une pièce de monnaie :


 1er jeu : F, 2è jeu : P  on va représenter cela par le couple (F,P)
 1er jeu : F, 2è jeu : F  (F,F)
Etc

 S={(F,P), (F,F), (P,P), (P,F)}


Ici, on voit qu’il y a 4 éléments dans S, et c’est normal car on a 2 possibilités pour le premier jeu, et
pour chacune de ces possibilités, on en a 2 pour le second. Cela fait 2 fois 2 = 4…
On reviendra sur cette règle (la règle multiplicative).

Exemple : prix de l’action Ageas dans une semaine. Elle ne peut prendre que des valeurs positives ou
nulles. Donc ici S=[0, +∞[.

Lorsqu’on effectue une expérience aléatoire, on peut s’intéresser à ce qu’on appelle un événement (que
l’on notera par des lettres majuscules).
Exemples d’événements dans l’expérience consistant à lancer un dé à six faces :
 A : obtenir un résultat impair ;
 B : obtenir un résultat < 5 ;
 C : obtenir un 2 ou un 3 ;
 𝐸1 : obtenir un 1 ; 𝐸2 : obtenir un 2 ; 𝐸3 : obtenir un 3 ; 𝐸4 : obtenir un 4 ; 𝐸5 : obtenir un 5 ; 𝐸6 :
obtenir un 6.
On voit que certains événements correspondent à un seul cas possible :
𝐸1 = {1}, 𝐸2 = {2} 𝑒𝑡𝑐
Ces événements ne correspondent qu’à un seul résultat de l’expérience. C’est ce qu’on appelle un
événement simple.
Par contre si on observe l’événement A (un nombre impair), on voit que
𝐴 = {1,3,5}
A se réalise si on a un 1, un 3 ou un 5…
On appelle un tel événement un événement composé.
On voit, en terme d’ensembles, que :
𝐴 = 𝐸1 ∪ 𝐸3 ∪ 𝐸5
càd que A peut s’obtenir en combinant des événements simples (il est en fait composé de 3 événements
simples).
Un événement simple ne peut se produire que d’une seule manière, alors qu’un événement composé
peut se produire de plusieurs manières distinctes.
Certains concepts de la théorie des ensembles seront utiles pour exprimer les relations entre les
événements associés à une expérience.
On voit déjà ici que mathématiquement, un événement correspond à un sous-ensemble de l’espace
échantillon :
Exemple : lancer de dé : A=résultat impair = {1,3,5}. A est un sous-ensemble de S={1,2,3,4,5,6} :
𝐴 ⊂ 𝑆.
103

Dans l’exemple avec le dé, l’espace échantillon comporte un nombre fini d’éléments / de résultats
possibles pour l’expérience aléatoire (un nombre fini de points d’échantillonnage possibles).
Dans l’exemple avec l’action, au contraire il y en a un nombre infini… et non dénombrable (on ne peut
pas les numéroter 1, 2, 3, …). Par contre, si on regarde l’ensemble des clients qui visiteront un
supermarché pendant une semaine, on a :
𝑆 = {0,1,2,3,4, … } = ℕ
l’ensemble des nombres naturels.

Définition : On dire qu’un espace d’échantillonnage est discret s’il contient soit un nombre fini, soit
un nombre infini dénombrable de points d’échantillonnage distincts.

Le but est de pouvoir parler (et manipuler de manière cohérente) de la probabilité qu’un événement se
produise.
Exemple : la probabilité d’avoir un résultat impair.
La probabilité sera donc un nombre qui représentera en pratique dans les applications la « chance de
survenance » de cet événement.
Donc mathématiquement, on aura besoin d’une fonction qui associe à tout sous-ensemble A de S (S
= l’ensemble de tous les résultats possibles) un nombre P(A), qui devra satisfaire certaines
propriétés.

Une des propriétés sera que la somme des probabilités de tous les résultats possibles sera égale à 1 :
Exemple : si le dé est équilibré,
1 1
𝑃[{1}] = , 𝑃[{2}] = , 𝑒𝑡𝑐
6 6
Donc
1 1 1
𝑃[{1}] + 𝑃[{2}] + ⋯ + 𝑃[{6}] = + + ⋯ + = 1.
6 6 6
Avant de voir les différentes propriétés qu’on exigera à une telle fonction, voyons quelques rappels de
théorie des ensembles.

5.4 Quelques rappels de la théorie des ensembles


Pour pouvoir élaborer une théorie des probabilités rigoureuse, nous avons besoin d’une base de théorie
des ensembles. Nous utiliserons des lettres majuscules, A, B, C, … pour désigner des ensembles de
points. Si les éléments de l’ensemble A sont 𝑎1 , 𝑎2 , 𝑎3 , nous écrirons

𝐴 = {𝑎1 , 𝑎2 , 𝑎3 }

Soit S l’ensemble de tous les éléments considérés (dans un contexte donné…par exemple l’ensemble
de tous les nombres naturels, ou l’ensemble de tous les humains sur la Terre, … ), c’est-à-dire que S
est l’ensemble univers. Pour deux ensembles A et B, nous dirons que A est un sous-ensemble de
B, ou A est contenu dans B (noté 𝐴 ⊂ 𝐵), si chaque point dans A est également dans B.

L’ensemble vide, noté ∅, est l’ensemble ne comportant aucun point ; ainsi, ∅ est un sous-ensemble de
tous les ensembles (au sens de la notion de sous-ensemble introduite juste avant).
104

L’union de deux ensembles A et B, notée 𝐴 ∪ 𝐵, est l’ensemble de tous les points dans A ou B ou les
deux, c’est-à-dire que l’union de A et B contient tous les points qui se trouvent dans au moins un des
ensembles. L’opérateur logique associé à l’union est « ou » puisque 𝑥 ∈ 𝐴 ∪ 𝐵 si 𝑥 ∈ 𝐴 ou 𝑥 ∈ 𝐵.

L’intersection de A et B, notée 𝐴 ∩ 𝐵, est l’ensemble de tous les points se trouvant à la fois dans A et
dans B. L’opérateur logique associé à l’intersection est « et » puisque 𝑥 ∈ 𝐴 ∩ 𝐵 si 𝑥 ∈ 𝐴 et 𝑥 ∈ 𝐵.

Si A est un sous-ensemble de S, alors le complément de A, noté 𝐴̅ ou 𝐴𝐶 , est l’ensemble des points qui
sont dans S mais pas dans A. On remarque que 𝐴 ∪ 𝐴̅ = 𝑆 et 𝐴 ∩ 𝐴̅ = ∅.

Deux ensembles A et B sont disjoints ou mutuellement exclusifs si 𝐴 ∩ 𝐵 = ∅ ; les ensembles


mutuellement exclusifs n’ont pas de points communs.

Exemple : Considérons le problème de la section précédente. Soit S l’ensemble de tous les résultats
possibles d’un unique lancer de dé :
𝑆 = {1, 2, 3, 4, 5, 6}
Soient les ensembles
𝐴 = {1, 2}, 𝐵 = {1, 3} 𝑒𝑡 𝐶 = {2, 4, 6}:

On calcule facilement que

Notons également que B et C s’excluent mutuellement (sont disjoints), alors que ce n’est pas le cas de
A et C.

Sans en donner la démonstration, donnons quatre règles de calcul très utiles (que l’on retrouve
facilement en faisant des diagrammes de Venn)

D’abord les règles de distributivité :

Ensuite les règles de De Morgan :

5.5 Modèle probabiliste discret


5.5.1 Combinaison d’événements
On va supposer que l’espace échantillon correspondant à notre expérience est discret.
On dira que deux événements sont disjoints s’ils correspondent à des ensembles disjoints ou
mutuellement exclusifs.
Exemple : Lancer d’un dé. Les événements
105

A=avoir un résultat pair , et B=avoir un résultat impair


sont disjoints. En effet, on voit que
𝐴 = {1,3,5}, 𝐵 = {2,4,6}
𝐴∩𝐵 =∅
Ils sont donc disjoints.

Exemple : Tous les événements simples correspondent à des ensembles résultats différents de
l’expérience sont toujours disjoints/mutuellement exclusifs. Par exemple, 𝐸1 = {1} et 𝐸2 = {2} sont
disjoints.

La réalisation simultanée de deux événements A et B correspondra à leur intersection.


Exemple : S={1,2,3,4,5,6} (résultats du lancer d’un dé), A={1,3,5} (résultat impair) et
B={4,5,6} (résultat supérieur ou égal à 4).
L’événement « avoir un résultat pair supérieur ou égal à 4 » correspond à {4,6}, qui est bien
égal à 𝐴 ∩ 𝐵:
𝐴 ∩ 𝐵 = {2,4,6} ∩ {4,5,6} = {4,6}.

La réalisation de l’un ou de l’autre événément correspond à leur réunion, 𝑨 ∪ 𝑩.


Exemple : S={1,2,3,4,5,6} (résultats du lancer d’un dé), A={1,3,5} (résultat impair) et
B={4,5,6} (résultat supérieur ou égal à 4).
L’événement « avoir un résultat pair ou supérieur ou égal à 4 » correspond à {2,4,5,6}, qui est
bien égal à 𝐴 ∪ 𝐵:
𝐴 ∪ 𝐵 = {2,4,6} ∪ {4,5,6} = {2,4,5,6}.

Les événements composés peuvent se voir comme des réunions d’événements simples.
Par exemple, dans le cas du lancer d’un dé, l’événement A (observer un nombre impair) se produira si
et seulement si l’un des événements simples 𝐸1 , 𝐸3 𝑜𝑢 𝐸5 se produit :

𝐴 = {1, 3, 5} = 𝐸1 ∪ 𝐸3 ∪ 𝐸5 .

De même l’événement B, observer un nombre inférieur à 5, peut être écrit comme :

𝐵 = {1, 2, 3, 4} = 𝐸1 ∪ 𝐸2 ∪ 𝐸3 ∪ 𝐸4

La non réalisation d’un événement A correspond à son complément : 𝑺\𝑨 notée 𝑨 ̅ ou 𝑨𝒄 .


Exemple : A = avoir un résultat pair={2,4,6}. La non réalisation de A correspond en fait à avoir un
résultat impair, càd {1,3,5}, que l’on peut voir comme {1,2,3,4,5,6} ∖ {2,4,6} = {1,3,5}.

5.5.2 Probabilité
On supposera qu’on est en présence d’une expérience aléatoire avec un espace échantillon S fini ou
infini dénombrable (ex : l’ensemble des nombres naturels, l’ensemble des réels positifs arrondis à 2
décimales après la virgule).
106

Mathématiquement, une probabilité définie sur un espace échantillon S (ou mesure de probabilité)
sera une fonction envoyant tout sous-ensemble de S sur un nombre, et qui vérifiera certaines propriétés
« naturelles », et qui représentera dans les applications une mesure de notre confiance en la réalisation
de l’événement sur une seule répétition de l’expérience, de telle sorte qu’il soit conforme à notre
intuition tout en étant rigoureux et utile.

Comment définir mathématiquement une probabilité ?


Il y a plusieurs manières de définir la probabilité.
On a déjà vu la définition introduite pas Pascal et Fermat au XVIIème siècle pour le Chevalier de Méré.
Les problèmes posés à cette époque relevaient essentiellement des jeux de hasard, et plus précisément
des jeux de dés, de cartes et de roulette dont les deux principales caractéristiques sont les suivantes :
1. ils ne contiennent qu’un ensemble fini de résultats possibles ;
2. les événements simples correspondants ont les mêmes chances de se réaliser.

Pour ce genre de problème concret, il était naturel de considérer le rapport entre le nombre de cas
favorables au joueur et le nombre de cas possibles comme une mesure des chances de gain du joueur:

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠


𝑃(𝐴) =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒𝑠

Exemple : on lance 2 fois un dé équilibré. Quelle est la probabilité d’avoir au moins un 6 parmi les 2
lancers ?
On a déjà vu qu’il y avait 36 cas possibles dans notre expérience.
Combien de cas favorables ? Etablissons la liste de ces cas favorables :
(6,1), (6,2), (6,3), (6,4), (6, 5), (6, 6),
(1,6), (2,6), (3,6), (4,6), (5,6)
ce qui fait 11 cas favorables.
La probabilité d’avoir au moins un 6 au cours des 2 lancers est donc de : 11/36.

Cette définition fonctionne bien pour les jeux de hasard, pour lesquels tous les résultats possibles ont la
même chance de survenance (« équiprobables »). Cela ne fonctionne plus si le dé n’est pas équilibré…
De manière générale, cette définition, suffisante pour les jeux de hasard, est cependant insatisfaisante :
1. elle n’est utilisable que si l’espace d’échantillonnage est fini : si celui-ci est infini, il est
impossible de calculer le nombre de cas possibles (et parfois le nombre de cas favorables) ;
2. elle ne convient que pour des cas où les événements simples sont équiprobables, càd ont tous
la même « chance » de se réaliser : on ne peut dès lors pas calculer de probabilité dès qu’un
événement simple a plus ou moins de chances de se réaliser que les autres événements simples,
une situation qui se rencontre assez souvent (penser à un dé pipé, à la disparité
hommes/femmes, etc.).

Il faut donc trouver une autre façon de définir la probabilité. La bonne façon de poser cette définition
est de penser à la notion de fréquence relative: la probabilité doit être définie de telle sorte qu’elle
corresponde à la fréquence relative observée lorsque l’expérience correspondant à l’événement en
question est répétée un très grand nombre de fois.
107

Cette fréquence relative, stable à long terme, fournit une mesure de notre confiance en la réalisation
d’un événement aléatoire qui est intuitivement valable si nous voulons effectuer une prédiction de la
survenance future de cet événement.

Tentons d’attribuer une probabilité « empirique » à un événement quelconque ; pour ce faire, on va


répéter l’expérience un grand nombre N de fois. On va noter k(N) le nombre de fois que l’événement
𝑘(𝑁)
se réalise. La fréquence relative de l’événement vaut donc 𝑁 . Nous constatons une certaine stabilité
ou régularité au fur et à mesure que N grandit. De cette stabilité statistique, nous pouvons tirer une
conclusion très importante en énonçant la définition empirique de la probabilité.

Définition empirique :
Soient S un espace d’échantillonnage et A un événement. La probabilité que A se réalise (notée P(A))
est la limite de la fréquence de survenance de A lorsque N, le nombre de répétitions de l’expérience
aléatoire, tend vers l’infini :

𝑘(𝑁)
𝑃(𝐴) = lim = lim 𝑓𝐴 (𝑁)
𝑁→∞ 𝑁 𝑁→∞

où nous avons noté 𝑓𝐴 (𝑁) la fréquence relative de A après N répétitions de l’expérience.

La figure ci-dessous illustre la convergence de la fréquence relative d’obtenir 6 sur un dé


équilibré vers la probabilité correspondante :

Cette définition est une définition empirique : elle est utile pour comprendre la notion et s’en forger
une intuition, mais elle n’est pas indépendante de l’expérience elle-même, et requiert implicitement la
convergence de cette fréquence relative vers une limite. Telle quelle elle ne mène pas à grand-chose
mathématiquement.

Pour obtenir une définition mathématiquement rigoureuse, nous allons prendre le problème à l’envers:
1. lister les propriétés désirables que la probabilité empirique possède ;
108

2. définir la probabilité comme un objet mathématique ayant ces propriétés en ne fixant pas la
valeur que doit prendre la probabilité dans la majorité des cas ;

En analysant la notion de fréquence relative, nous constatons que trois conditions doivent être
respectées :
1. la fréquence relative d’un événement doit être supérieure ou égale à zéro. Une fréquence
relative négative n’a pas de sens ;
2. la fréquence relative de l’espace d’échantillonnage S doit être égale à 1. En effet, comme tout
résultat possible de l’expérience est un point de S, il s’ensuit que S se produit chaque fois que
l’expérience est effectuée, donc 𝑘(𝑁) = 𝑁, et la fréquence relative de S vaut tout le temps 1….
Donc aussi à la limite;
3. si deux événements sont disjoints, la fréquence relative de leur union est la somme de
leurs fréquences relatives respectives : 𝑓𝐴∪𝐵 = 𝑓𝐴 + 𝑓𝐵 dès que 𝐴 ∩ 𝐵 = ∅.

Voyons cela sur un exemple : lancer d’un dé équilibré. A={2,4,6}, 𝐵 = {1}. On répète
12 fois l’expérience (N=12). On suppose qu’on obtient :
1,2,3,5,2,1,3,4,6,6,1,1
On calcule les fréquences relatives de A et B : on a observé 5 fois la réalisation A et 4
fois celle de B. Donc :
5 4
𝑓𝐴 = , 𝑓𝐵 = ,
12 12
Maintenant, on voit aussi que 𝐴 ∪ 𝐵 s’est produit en tout 9 fois. Donc :
9 4 5
𝑓𝐴∪𝐵 = = + = 𝑓𝐴 + 𝑓𝐵
12 12 12

On aboutit à la définition suivante du concept de probabilité.

Définition : Soit S un espace d’échantillonnage associé à une expérience. La probabilité 𝑃 est une
fonction qui associe un nombre à chaque événement A de l’espace échantillon S de telle sorte que les
conditions suivantes soient satisfaites :
1. 𝑃(𝐴) ≥ 0
2. 𝑃(𝑆) = 1
3. Si 𝐴1 , 𝐴2 , … , 𝐴𝑛 , … est une famille dénombrable d’événements disjoints de S (càd 𝐴𝑖 ∩ 𝐴𝑗 = ∅
pour tout 𝑖 ≠ 𝑗) alors

𝑃(𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 ∪ … ) = ∑ 𝑃(𝐴𝑗 )
𝑗=1

Ces 3 conditions sont ce que l’on appelle les axiomes de Kolmogorov.

Conséquences de cette définition


 La 3ème condition implique la propriété suivante : si 𝐴1 , 𝐴2 , … , 𝐴𝑛 est une collection finie
d’événements disjoints (ou mutuellement exclusifs), alors

𝑃(𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 ) = ∑ 𝑃(𝐴𝑗 )
𝑗=1
109

(pour voir que ceci est une conséquence de la 3ème condition, considérer dans cette condition
pour les n premiers ensembles 𝐴1 , 𝐴2 , … , 𝐴𝑛 , et pour les suivants l’ensemble vide ∅). La
probabilité de la réunion d’événements disjoints est donc la somme des probabilités de
chaque événement.

Exemple : dé non équilibré


1 1
𝑃[{1}] = , 𝑃[{2}] = 𝑃[{3}] = 𝑃[{4}] = 𝑃[{5}] = 𝑃[{6}] =
2 10
On voit effectivement que 𝑃[𝑆], qui vaut 1 (car c’est l’espace échantillon), peut se réécrire :
1 1 1 1 1 1
𝑃[𝑆] = 𝑃[{1}] + 𝑃[{2}] + ⋯ + 𝑃[{6}] = + + + + + =1
2 10 10 10 10 10

Attention : ceci ne marche plus si les événements ne sont plus disjoints…

 Autre conséquence immédiate de cette définition : 𝑷(𝑨) ∈ [𝟎, 𝟏] : la probabilité d’un


événement est toujours comprise entre 0 et 1.

Pour voir cela, on repart d’un événement A et on considère son complément, 𝐴 , ou encore 𝐴̅ ,
qui est aussi un événement, tel que 𝐴 ∩ 𝐴̅ = ∅. Ce sont donc deux événements disjoints. Or,
leur réunion vaut S tout entier :
𝐴 ∪ 𝐴̅ = 𝑆
Donc en appliquant les propriétés de la définition et le point précédent, on a :
𝑃[𝑆] = 1 = 𝑃[𝐴 ∪ 𝐴̅] = 𝑃[𝐴] + 𝑃[𝐴̅]
Ce qui implique
𝑃[𝐴] = 𝑃[𝑆] − 𝑃[𝐴̅] ≤ 𝑃[𝑆]
(car 𝑃[𝐴̅] ≥ 0). Or P[S]=1. Donc
𝑃[𝐴] ≤ 1
Par ailleurs P[A]≥ 0 par la premiere condition de la définition. Donc
𝑃[𝐴] ∈ [0,1].

Comme annoncé, cette définition n’explique pas comment fixer la probabilité d’un événement
particulier : c’est juste la définition d’un objet mathématique, sur lequel une théorie peut être
construite, des résultats peuvent être démontrés. Cela signifie que toutes les manières de fixer cette
probabilité sont conformes à cette définition mathématique ; cependant, celles qui ne reflètent pas la
notion de fréquence relative sont inutiles d’un point de vue pratique, puisqu’elles mènent à des
résultats qui n’ont rien à voir avec le monde réel.

Pour les espaces d’échantillonnage discrets, il suffit d’assigner des probabilités à chaque
événement simple et de s’arranger pour que la somme des probabilités valle 1. En effet, tout
événement composé est une union disjointe d’événements simples, et par la 3ème condition, on peut
donc en déduire aussi sa probabilité.
110

Exemple : lancer d’un dé équilibré à 6 faces


Si un dé équilibré est utilisé pour l’exemple du lancer de dé, il semble raisonnable de supposer que
tous les événements simples auront la même fréquence relative à long terme. Nous attribuerons donc
une probabilité de 1/6 à chaque événement simple :
1
𝑃(𝐸𝑖 ): = 𝑝𝑜𝑢𝑟 𝑖 = 1, … ,6
6
Cette attribution de probabilités est conforme à la condition 1.
A partir de ceci, la probabilité de tout événement composé peut être obtenue si l’on impose à P que la
3eme condition doit être satisfaite (sinon P n’est pas une probabilité au sens de la définition
mathématique ci-dessus). En particulier,

𝑃(𝑆) = 𝑃{1,2,3,4,5,6} = 𝑃(𝐸1 ∪ 𝐸2 ∪ 𝐸3 ∪ 𝐸4 ∪ 𝐸5 ∪ 𝐸6 )


1 1 1 1 1 1
= 𝑃(𝐸1 ) + 𝑃(𝐸2 ) + ⋯ + 𝑃(𝐸6 ) = + + + + + = 1
6 6 6 6 6 6

Donc on a bien que la 2ème condition 𝑃(𝑆) = 1 est satisfaite par la fonction P ainsi définie.
Conclusion : C’est bien une probabilité au sens mathématique du terme.

La condition 3 nous dit aussi qu’on peut calculer la probabilité d’un événement en additionnant les
probabilités des événements simples dont il est composé (rappelons que des événements simples
distincts sont toujours mutuellement exclusifs/disjoints). L’événement A (observer un nombre impair)
est donc associé à la probabilité suivante :

Un grand nombre d’événements intéressants dans le monde réel (que ce soit pour le généticien, pour
l’ingénieur ou pour l’homme d’affaires) s’expriment comme des nombres. Ils incluent par exemple le
nombre de patients présentant une mutation donnée et développant une maladie particulière, la valeur
du taux de change euro - dollar à un instant donné, le prix du pétrole à une date future…

C’est la valeur que prend cette variable (disons Y) qui nous intéresse, valeur qui dépend du résultat
d’une expérience aléatoire ; on formalise mathématiquement cette notion à l’aide du concept de
variable aléatoire.

5.5.3 Quelques règles de calcul

Théorème : si A est un événement, et 𝐴̅ son complément, alors


𝑃(𝐴̅) = 1 − 𝑃(𝐴)

Preuve : On peut décomposer l’espace d’échantillonnage S selon A et son complément :


𝑆 = 𝐴 ∪ 𝐴̅.
Comme 𝐴 et 𝐴̅ sont disjoints, on a que 𝑃(𝑆) = 𝑃(𝐴 ∪ 𝐴̅) = 𝑃(𝐴) + 𝑃(𝐴̅). Mais on sait par ailleurs
que 𝑃(𝑆) = 1. On en déduit donc que 𝑃(𝐴) + 𝑃(𝐴̅) = 1, ou encore 𝑃(𝐴̅) = 1 − 𝑃(𝐴).
CQFD
Ce résultat est utile dans les situations où il est plus facile de calculer 𝑃(𝐴̅) plutôt que 𝑃(𝐴).
111

On déduit de ce résultat en particulier que 𝑃(∅) = 0 (appliquer ce résultat en choisissant comme


événement A l’ensemble S tout entier).

Théorème : La probabilité de l’union de deux événements A et B est donnée par la formule :


𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

Preuve : On peut démontrer cela en traçant un diagramme de Venn et en remarquant que :

𝐴 ∪ 𝐵 = (𝐴\𝐵) ∪ (𝐵\𝐴) ∪ (𝐴 ∩ 𝐵)

A\B A∩B B\A

Ces 3 sous-ensembles sont clairement disjoints. Donc


𝑃[𝐴 ∪ 𝐵] = 𝑃[𝐴\𝐵] + 𝑃[𝐴 ∩ 𝐵] + 𝑃[𝐵\𝐴]

Or, on peut aussi écrire (en utilisant le même raisonnement):


𝑃[𝐴] = 𝑃[𝐴\𝐵] + 𝑃[𝐴 ∩ 𝐵]
𝑃[𝐵] = 𝑃[𝐵\𝐴] + 𝑃[𝐴 ∩ 𝐵]
Donc
𝑃[𝐴] + 𝑃[𝐵] = 𝑃[𝐴\𝐵] + 𝑃[𝐵\𝐴] + 2𝑃[𝐴 ∩ 𝐵] = 𝑃[𝐴 ∪ 𝐵] + 𝑃[𝐴 ∩ 𝐵]
Ce qui implique (en faisant passer 𝑃[𝐴 ∩ 𝐵] dans le premier membre) que :
𝑃[𝐴] + 𝑃[𝐵] − 𝑃[𝐴 ∩ 𝐵] = 𝑃[𝐴 ∪ 𝐵].
CQFD

Remarque : Dans le cas particulier où A et B sont mutuellement exclusifs / disjoints :


𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
mais comme 𝐴 ∩ 𝐵 = ∅ et que 𝑃(∅) = 0, il ne reste que P(𝐴) + 𝑃(𝐵).
On retrouve donc une propriété déjà vue : la proba de la réunion est la somme des probabilités si les
événements sont disjoints.

5.6 Analyse combinatoire


Nous nous tournons maintenant vers l’analyse combinatoire afin d’acquérir quelques outils nous
permettant de compter le nombre d’éléments dans l’espace échantillon dans beaucoup de situations
concrètes, et donc de calculer des probabilités.
L’analyse combinatoire, ou techniques de dénombrement, permet compter le nombre d’éléments d’un
ensemble fini comportant beaucoup d’éléments. Dans certains cas en effet, le nombre total d’éléments
de l’espace échantillon S est très important, et l’énumération manuelle est alors impossible. De même
que pour certains événements, qui sont des sous-ensembles de S.
112

Ce sera surtout utile dans le cas équiprobable (càd quand tous les événements simples ont la même
chance de survenir). Dans ce cas, la probabilité sera simplement le nombre d’éléments que comporte
l’événement auquel on s’intéresse (le nombre de cas favorables) divisé par le nombre total d’éléments
de S (le nombre de cas possibles) . En d’autres termes,
#𝐴
𝑃(𝐴) =
#𝑆
où #A désigne le nombre d’éléments se trouvant dans A (« cardinal de A »).

5.6.1 Règle multiplicative (ou règle du 𝒎 ∙ 𝒏)


C’est la règle la plus importante, car tous les problèmes peuvent souvent d’une manière ou d’une autre
s’y ramener. On verra d’autres règles par la suite, mais on utilise la règle multiplicative pour les
obtenir.
Théorème : soit 𝐴 = {𝑎1 , 𝑎2 , … , 𝑎𝑚 } un ensemble comportant m éléments, et 𝐵 = {𝑏1 , 𝑏2 , … , 𝑏𝑛 } un
ensemble comportant n éléments. Alors il est possible de former 𝑚. 𝑛 paires ordonnées du type (𝑎𝑖 , 𝑏𝑗 ),
contenant un élément 𝑎𝑖 de A et un élément 𝑏𝑗 de B.

Preuve : Il suffit de tracer une grille carrée de côtés m et n pour se convaincre de ce résultat. CQFD

L’ensemble des paires (ou couples) correspondantes s’appelle le produit cartésien des ensembles A
et B, et est noté 𝑨 × 𝑩.

Ce résultat se généralise à un nombre quelconque d’ensembles à « croiser » : par exemple le nombre


total de triplets construits sur 3 ensembles A, B, C, donc du type {𝑎𝑖 , 𝑏𝑗 , 𝑐𝑘 }. Le nombre de tels triplets
sera égal à 𝑚. 𝑛. 𝑝, où le nombre d’éléments de A est m, de B est n et de C est p. Le nombre d’éléments
de 𝐴 × 𝐵 × 𝐶 est donc ce produit 𝑚. 𝑛. 𝑝.

Ce résultat permet de dénombrer facilement le nombre de résultats possibles (le nombre d’éléments
dans l’espace échantillon) d’une expérience aléatoire.

Exemple : lancer de 2 dés


Considérons l’expérience qui consiste à lancer deux dés à six faces et dénombrons l’espace échantillon
S correspondant. Un résultat de cette expérience peut être représenté symboliquement comme un
couple ordonné de nombres représentant les résultats sur le premier dé et sur le deuxième dé
respectivement. Ainsi, (4; 5) représente l’événement « le premier dé a donné un 4 et le deuxième un
5».

L’espace échantillon S consiste en l’ensemble de toutes les paires possibles (x; y), où x et y sont tous
deux des nombres entiers entre 1 et 6, donc de la forme (𝑎𝑖 , 𝑏𝑗 ) où 𝑎𝑖 ∈ {1,2,3,4,5,6} et 𝑏𝑗 ∈
{1,2,3,4,5,6}. S est donc le produit ensembliste de 2 ensembles comportant chacun 6 éléments :
𝑆 = {1,2,3,4,5,6} × {1,2,3,4,5,6}
En appliquant le résultat précédent en prenant 𝑚 = 𝑛 = 6, on en déduit que S comporte 6.6=36
éléments.
On retrouve en fait le nombre d’éléments qu’on avait dans le tableau de l’introduction :
113

Figure 35: illustration du nombre d’éléments dans l’espace échantillon correspondant au lancer de deux dés. Ce tableau recense
tous les cas possibles. Il comporte 36 éléments, obtenu comme 𝟑𝟔 = 𝟔 ⋅ 𝟔

Exemple : probabilité de trouver 2 personnes ayant la même date d’anniversaire


Calculons la probabilité que, dans un groupe de 20 personnes sélectionnées au hasard, toutes aient des
dates d’anniversaire différentes (en ne tenant pas compte des années de naissance et en négligeant les
années bissextiles).

Numérotons les jours de l’année de 1 à 365 ; un point d’échantillonnage pour cette expérience consiste
en un 20-uple de nombres entiers entre 1 et 365, le premier nombre représentant la date d’anniversaire
de la première personne, le deuxième nombre celle de la deuxième personne, etc.).

En appliquant plusieurs fois le théorème précédent, on a 365 possibilités pour la première personne,
fois 365 pour la seconde, fois 365 pour la troisième etc… on obtient que l’espace échantillon S
contient N = 36520 points d’échantillonnage (ce qui est très grand : 1,7614 . 1051 , soit un nombre
entier avec 52 chiffres : 1 761 400 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000).
C’est le nombre de cas possibles dans notre problème.

Si on note A l’événement « tous ont des dates d’anniversaires différentes », nous devons maintenant
calculer le nombre d’éléments de A (le nombre de cas favorables).
Un événement simple se trouvant dans A est un 20-uple de nombres entiers entre 1 et 365 tous
différents. Le premier nombre de ce 20-uple peut donc être choisi librement, soit dans un ensemble de
taille 365; le second élément est lui aussi librement choisi, mais sous la contrainte qu’il est différent du
premier, et donc dans un ensemble de taille 364. Et ainsi de suite.
1𝑒𝑟𝑒 𝑑𝑎𝑡𝑒: 365 𝑐ℎ𝑜𝑖𝑥
2è 𝑑𝑎𝑡𝑒: 364 𝑐ℎ𝑜𝑖𝑥
3è 𝑑𝑎𝑡𝑒: 363 𝑐ℎ𝑜𝑖𝑥
𝑒𝑡𝑐

En répétant ce raisonnement, on obtient que le nombre d’éléments de A, noté 𝑁𝐴 vaut :

𝑁𝐴 = 365 ∙ 364 ∙ … ∙ 346

On obtient donc finalement la probabilité suivante :

𝑁𝐴 365 ∙ 364 ∙ … ∙ 346


𝑃(𝐴) = = = 0,5886
𝑁 36520
114

La probabilité de trouver (au moins) 2 personnes avec la même date d’anniversaire vaut donc

1 − 𝑃(𝐴) = 1 – 0,5886 = 0,4114.

Donc dans un groupe de 20 personnes, on a finalement plus de 40% de chance de trouver 2 personnes
ayant la même date d’anniversaire, ce qui est beaucoup… Il est donc courant que dans un groupe de
cette taille on trouve 2 personnes nées le même jour.

A titre d’information, voici ce que devient cette probabilité (4 chiffres significatifs derrière la virgule)
en fonction de la taille du groupe considéré :

Taille Probabilité
du
groupe
2 0.0027
5 0.0271
10 0.1169
15 0.2529
20 0.4114
25 0.5687
30 0.7063
40 0.8912
50 0.9704
60 0.9941
70 0.9992
80 0.9999

Dans un groupe de 50 personnes, on est déjà « quasi-certain» de trouver 2 personnes avec la même
date d’anniversaire (probabilité de 97%)…

Exemple : plaques d’immatriculation.

On s’intéresse aux plaques d’immatriculation du type :

𝑋𝑋𝑋𝑌𝑌𝑌

Où « X » désigne une des 26 lettres de l’alphabet, et où « Y » désigne un chiffre entre 0 et 9.

Le nombre de plaques d’immatriculation que l’on peut construire de cette manière revient au nombre
de 6-uples du type « ( 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5 , 𝑎6 ) » où 𝑎1 , 𝑎2 , 𝑎3 ∈ { 𝐴, 𝐵, 𝐶, … , 𝑋, 𝑌, 𝑍} (un ensemble de 26
éléments) et 𝑎4 , 𝑎5 , 𝑎6 ∈ {0,1,2, … ,8,9} (un ensemble de 10 éléments).

Par la règle multiplicative, le nombre de possibilités est donné par :

26 ⋅ 26 ⋅ 26 ⋅ 10 ⋅ 10 ⋅ 10

ce qui fait 17 576 000.


115

On peut donc immatriculer plus de 17 millions de voitures de cette manière-là sans épuiser les plaques.
Pour un pays comme la Belgique (un peu moins de 6 millions de voitures privées en 2018), ce format
est donc adapté. Il ne l’est pas pour la France (parc automobile estimé à plus de 39 millions de
véhicules début 2017, y compris les autocars, utilitaires etc. Plus de 32 millions de voitures privées).

5.6.2 Permutations
Les résultats d’une expérience aléatoire peuvent souvent être représentés symboliquement comme une
suite de nombres ou de symboles. Dans certains cas, il est clair que le nombre total de points
d’échantillonnage est égal au nombre de manières distinctes selon lesquelles ces symboles peuvent être
disposés l’un à la suite de l’autre.

Définition : Une permutation est une disposition ordonnée de n éléments distincts.

Classer n objets distincts dans n catégories distinctes revient à faire une permutation.

Exemple : on considère les éléments 1,2,3,4. Une permutation de ces 4 éléments est donnée par :
(1,3,2,4)
Une autre permutation est donnée par :
(4,3,2,1)
Donc ce qui est important dans une permutation c’est que l’ordre a de l’importance, et que tous les
éléments ont été sélectionnés.

Théorème : Le nombre de permutations d’un ensemble de n objets est égal à la factorielle de n :


𝑃𝑛 = 𝑛! = 𝑛 ∙ (𝑛 − 1) ∙ (𝑛 − 2) ∙ … ∙ 2 ∙ 1

Preuve : En appliquant la règle m.n, nous voyons que le premier objet peut être librement choisi parmi
les n objets totaux. Après le premier choix, le second peut être choisi parmi les (n -1) restant, le
troisième parmi les (n - 2), et le nème doit être placé dans la dernière place (on n’a plus le choix pour le
dernier restant). Par conséquent, le nombre total de permutations distinctes est égal à 𝑛! . CQFD

Exemple. Calculons le nombre d’anagrammes du mot math. Puisque toutes les lettres sont différentes,
il s’agit d’une permutation sans répétition, et on a donc : 𝑃4 = 4! = 4.3.2.1= 24. Vérifions ce résultat
en énumérant « à la main » ces anagrammes :

Exemple* : 4 femmes et 6 hommes doivent s’asseoir sur un même banc, mais ils doivent rester groupés
par genre. Combien de dispositions sont-elles possibles ?
116

Solution : nombre de genres : 2 (femme et homme). Soit on met d’abord les femmes, puis les hommes,
soit le contraire. Donc on a le choix entre l’ordre femmes, puis hommes, ou hommes, puis femmes.
Cela fait 2. Pour chacun de ces cas, on a 4! possibilités pour les femmes, et 6! pour les hommes. En
tout cela fait le produit 2.4!6!=34560.

5.6.3 Arrangements
Définition : Un arrangement est une disposition ordonnée de r objets distincts parmi n (avec 𝑛 ≥ 𝑟).

Cela revient à sélectionner r objets distincts parmi n, et à les classer/disposer dans un certain ordre.
L’ordre dans lequel on dispose ces r objets a donc de l’importance dans un arrangement.

Exemple : on considère les éléments 1,2,3,4. Un arrangement de 3 éléments parmi ces 4 éléments est
donné par :
(1,3,2)
Un autre arrangement est donné par :
(3,2,1)
Un autre arrangement est donné par :
(1,4,2)
Donc ce qui est important dans un arrangement c’est que l’ordre a de l’importance, et mais que tous
les éléments ne sont pas nécessairement sélectionnés (on n’en prend en général qu’une partie, c’est
le cas si r est strictement plus petit que n : r < n).
Théorème : Le nombre d’arrangements de r objets parmi un ensemble total de n objets est égal à :

Preuve : Nous voulons compter le nombre de façons de remplir r positions avec n objets distincts. En
appliquant la règle m.n, nous voyons que le premier objet peut être librement choisi parmi les n objets
totaux. Après le premier choix, le second peut être choisi parmi les (n - 1) restant, le troisième parmi
les (n - 2), et le rème parmi les (n - r + 1). Par conséquent, le nombre total d’arrangements distincts est
donc égal à :

CQFD
Exemple. Les noms de 3 employés sont tirés au hasard d’une urne contenant les noms des 30 employés
d’une petite entreprise (on ne remet pas les noms déjà tirés dans l’urne).
La personne dont le nom est tiré en premier reçoit 100 €, et les personnes dont les noms sont tirés en
deuxième et en troisième reçoivent respectivement 50 € et 25 €. Combien de points d’échantillonnage
sont associés à cette expérience ?

Puisque que les prix attribués sont différents, le nombre de points d’échantillonnage est le nombre
d’arrangements ordonnés de r = 3 noms parmi le total de n = 30 noms possibles.

Ainsi le nombre total de points d’échantillonnage dans S est :


117

Concrètement, il y a 24 360 manières différentes de sélectionner 3 noms dans un certain ordre parmi
30.

Exemple : un couple possède 20 amis différents mais n’a qu’une table à 6 places. Il ne peut donc
inviter que 4 personnes. Si on suppose que ce couple a ses habitudes et désire garder ses places
habituelles à table, le nombre de manière qu’il peut inviter 4 amis et les installer aux 4 places restant
vides est donné par le nombre d’arrangements de 4 parmi 20, càd :
𝐴20
4 = 20 ⋅ 19 ⋅ 18 ⋅ 17 = 116 280

5.6.4 Partitions
Définition : Une partition de n objets distincts en k groupes est une façon de diviser ces n objets en k
groupes contenant chacun respectivement 𝑛1 , 𝑛2 , … , 𝑛𝑘 objets (avec 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛)

Classer n objets distincts dans k catégories distinctes de telle sorte que chacune reçoit un certain
nombre 𝑛𝑖 (pour le groupe i) de ces objets revient à faire une partition.

Théorème : Le nombre de partitions de n objets en k groupes de 𝑛1 , 𝑛2 , … , 𝑛𝑘 objets est égal à

Avant de passer à la preuve, essayons de retrouver cette formule sur un exemple :


On suppose qu’on a 10 objets en tout (N=10) et que l’on désire constituer une partition en 3 groupes de
5, 3 et 2 objets.
 On constitue d’abord le groupe de 5 objets :
On a 10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 choix, mais comme l’ordre n’a pas d’importance, il faut diviser par le
nombre de manière dont les 5 objets sélectionner peuvent changer d’ordre , càd peuvent
permuter entre eux. Cela donne :
10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6
choix pour le premier groupe
5!
 Pour chaque premier groupe constitué, on peut construire un second groupe. Maintenant il ne
reste plus que 5 objets car 5 ont déjà été sélectionnés… Cela donne pour le second groupe de 3
objets :
5⋅4⋅3
manières de sélectionner 3 objets parmi 5, et de les ranger dans un certain ordre. Or l’ordre n’a
pas d’importance donc on doit diviser ce nombre par le nombre de manières de permuter les 3
objets sélectionnés, càd par 3!=3.2 .1. Cela donne :
5⋅4⋅3
3!
 On construit ensuite le dernier groupe. Il reste 2 objets parmi 2, sans que l’ordre n’ait
d’importance. Il n’y a qu’une seule possibilité de sélectionner un groupe de 2 objets parmi 2
sans les ranger dans un certain ordre : c’est de prendre tout le groupe lui-même. Donc le dernier
facteur vaut 1.
118

 Au total , on a obtenu :
10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 5 ⋅ 4 ⋅ 3
⋅ ⋅1
5! 3!
Ce qui peut se réécrire :
10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 5 ⋅ 4 ⋅ 3 2 ⋅ 1 10!
⋅ ⋅ =
5! 3! 2! 5! ⋅ 3! ⋅ 2!
c’est-à-dire la formule annoncée.

Preuve : le nombre de partitions cherché est le nombre de permutations de n objets distincts sous une
contrainte particulière : à l’intérieur de chacun des k groupes dans lesquels sont disposés les objets, les
permutations ne comptent pas (l’ordre ne compte pas). Si l’on effectue cette division en k groupes puis
qu’on permute les éléments de chacun de ces groupes, on obtient une permutation simple de
l’ensemble de n objets, soit 𝑃𝑛 = 𝑛! (par la sous-section 5.6.2 sur les permutations). On a donc

𝑃𝑛 = 𝑁 ∙ (𝑛1 ! ∙ 𝑛2 ! ∙ … ∙ 𝑛𝑘 !) = 𝑛!

et en isolant N, on obtient le résultat cherché. CQFD

Exemple. Un patron assigne 20 ouvriers à 4 chantiers différents, qui nécessitent respectivement 6, 4, 5


et 5 travailleurs. Les quatre plus jeunes ouvriers réclament : le patron déclare que la répartition a été
décidée de manière aléatoire, mais ils ont tous les quatre été assignés au premier chantier, le plus
pénible. Calculons la probabilité de cette répartition afin de voir si leur plainte est fondée ou pas.

Calculons d’abord la taille de l’espace d’échantillonnage. Il s’agit d’une partition de n = 20 ouvriers


dans 4 groupes de taille 𝑛1 = 6, n2 = 4, n3 = 5 et n4 = 5. Par le théorème précédent on a donc

20!
𝑁=
6! 4! 5! 5!

Calculons maintenant la taille NA de l’événement A : « les 4 plus jeunes sont affectés au chantier 1 »
(c’est l’événement qui s’est réalisé). Nous devons donc compter le nombre de partitions des 20
ouvriers dans lesquelles les 4 jeunes sont affectés au chantier 1.

Une fois les quatre jeunes placés dans le chantier 1, il reste 16 ouvriers à répartir dans des groupes de
taille 2, 4, 5 et 5 (cela correspond aux places à « combler »). NA correspond donc au nombre de
manière de répartir ces 16 ouvriers dans ces 4 groupes de 2, 4, 5 et 5, càd

16!
𝑁𝐴 =
2! 4! 5! 5!

par le théorème que nous venons de voir. On obtient donc finalement la probabilité :
119

Vu que cette probabilité est très faible, il est très peu probable que la répartition ait réellement été faite
de manière aléatoire… les ouvriers ont donc raison de réclamer.

5.6.5 Combinaisons

Définition: une combinaison est une sélection de r objets dans un groupe de n objets.

En d’autres termes, cela correspond à considérer un sous-ensemble de taille r dans un ensemble de


taille n. L’ordre n’a donc pas d’importance.
Une combinaison peut se voir comme un sous-ensemble de l’ensemble de départ.

Exemple : Une combinaison de 3 nombres parmi 1,2,3,4 est donnée par :


{1,2,3}.
Une autre combinaison est donnée par
{1,2,4}
Les deux arrangements suivants :
(1,2,3) 𝑒𝑡 (3,2,1)
Correspondent en fait à la même combinaison :
{1,2,3}
Remarquons que dans cet exemple on a utilisé la notation avec les crochets {, , , , } pour les
combinaisons (comme pour énumérer les éléments d’un ensemble) alors qu’on a utilisé la notation
avec les parenthèses (, , , ,) pour les arrangements (comme pour un n-uple, car l’ordre a de
l’importance).
Il y a donc beaucoup plus d’arrangements de r objets parmi n que de combinaisons de r objets parmi n.
La différence entre les deux est donnée par les permutations des r éléments : l’ordre n’a pas
d’importance dans les combinaisons.

Théorème : Le nombre de combinaisons de r objets parmi n est donné par :

Preuve : on sait qu’il y a plusieurs arrangements correspondant à la même combinaison. Pour une
même combinaison correspondent 𝑟! arrangements différents formés avec les mêmes éléments.
𝐴𝑛
Donc 𝐶𝑟𝑛 = 𝑟
. CQFD
𝑟!

𝑛
Les nombres du type ( ) sont appelés coefficients binomiaux, en référence à la formule du binôme de
𝑘
Newton, donnant la nè puissance de la somme de deux nombre (un binôme) :
𝑛
𝑛
(𝑥 + 𝑦) = ∑ ( ) 𝑥 𝑘 𝑦 (𝑛−𝑘) .
𝑛
𝑘
𝑘=0
Exemple d’application de cette formule : (𝑥 + 𝑦) = 𝑥 2 + 2𝑥𝑦 + 𝑦 2 .
2
120

𝑛
En anglais, on lit ( ) « n choose k » car cela correspond au nombre de manières de choisir k éléments
𝑘
dans un ensemble de cardinal n, càd le nombre de sous-ensembles de cardinal k dans un ensemble de
cardinal n (utile si vous voulez programmer cela dans un langage de programmation associé à un
logiciel comme R ou Matlab ou encore Excel VBA).

Exemple. Calculons la probabilité de gagner le gros lot au Lotto (tirage des six bons numéros, parmi
45 numéros numérotés de 1 à 45).
L’événement A : « gros lot » n’est composé que d’un seul point d’échantillonnage : #𝐴 = 1.
Pour calculer le nombre total de possibilités d’un jeu de lotto (le nombre de manières de sélectionner 6
numéros parmi 45, càd le nombre d’éléments dans l’espace échantillon, #𝑆), on est devant le problème
de devoir sélectionner un sous-ensemble de 6 éléments dans un ensemble de 45 éléments.
L’ordre n’a pas d’importance.
Il faut donc pour cela utiliser une combinaison, puisqu’il s’agit de choisir 6 numéros parmi 45 :
45 45!
( )= = 8 145 060
6 6! 39!

La probabilité de gagner le gros lot au Lotto est donc de moins de 1 sur 8 millions...

5.7 Probabilité conditionnelle et indépendance


La réalisation d’un événement – et donc la probabilité qui lui est associée – dépend parfois de la
réalisation d’autres événements. Par exemple, les pêcheurs amateurs s’intéressent à la probabilité qu’il
pleuve au cours de leurs séances de pêche. La probabilité qu’il pleuve pendant un jour donné, si on
ignore les conditions atmosphériques et tous les autres facteurs, correspond à la proportion de jours où
il pleut quand on considère une longue période de temps. C’est la probabilité inconditionnelle de
l’événement « pluie pendant un jour donné ».

Supposons maintenant que nous souhaitons calculer la probabilité de pluie pour demain, mais que nous
sommes au courant qu’il a plu presque en continu pendant deux jours de suite, et qu’une tempête
tropicale se dirige vers nous. Nous disposons donc d’informations supplémentaires concernant s’il
pleuvra ou pas demain et nous sommes intéressés par la probabilité conditionnelle qu’il pleuvra compte
tenu de ces informations. La probabilité conditionnelle qu’il pleuve (étant donné les conditions
mentionnées) est beaucoup plus grande que la probabilité inconditionnelle qu’il pleuve.

Définition : La probabilité conditionnelle qu’un événement A se réalise sachant qu’un événement B


s’est déjà réalisé est égale à
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = ,
𝑃(𝐵)
où l’on suppose que 𝑃(𝐵) ≠ 0

Exemple. Calculons par exemple la probabilité que le résultat du lancer d’un dé soit 1, sachant que ce
résultat est impair ; intuitivement, puisqu’il existe trois nombres impairs entre 1 et 6, on « ressent » que
cette probabilité est égale à 1/3. En utilisant la formule de la définition, on a :
121

Vérifions la cohérence de cette définition avec la notion de fréquence relative. Supposons qu’une
expérience est répétée un grand nombre N de fois, de telle sorte que les événements A et B se
produisent selon le tableau suivant :

On calcule alors approximativement les probabilités suivantes :

d’où on obtient :

Il possible que la réalisation d’un événement A ne soit pas affectée par la réalisation
ou la non-réalisation d’un événement B. Dans ce cas, il semble naturel de dire
que A et B sont indépendants.

Définition : Deux événements A et B sont indépendants (ce qu’on note 𝐴 𝐵) si l’une des équations
suivantes est vérifiée :

Dans le cas contraire, on dit que A et B sont dépendants.

La notion probabiliste d’indépendance est en accord avec notre usage quotidien du mot. On peut
s’accorder pour dire que « fumer » et « contracter un cancer du poumon » ne sont pas des événements
indépendants et estimer intuitivement que la probabilité de contracter un cancer du poumon, pour une
personne qui fume, est supérieure à la probabilité (inconditionnelle) de contracter un cancer du
poumon. En revanche, les événements « il pleut aujourd’hui » et « il a plu l’an passé à la même date »
sont peut-être bien indépendants.

Exemple. Considérons les trois événements suivants associés au lancer d’un dé :


122

A : résultat impair ;
B : résultat pair ;
C : résultat < 3
Pour déterminer si A et B sont indépendants, vérifions si les probabilités correspondantes vérifient les
conditions de la définition précédente ; on calcule :
1
𝑃(𝐴) = 𝑒𝑡 𝑃(𝐴|𝐵) = 0 𝑝𝑢𝑖𝑠𝑞𝑢𝑒 𝐴 ∩ 𝐵 = ∅
2
Donc 𝑃(𝐴) ≠ 𝑃(𝐴|𝐵) : A et B sont donc dépendants.

Faisons le même exercice pour A et C : on calcule :


𝑃(𝐴 ∩ 𝐶) 𝑃(1) 1
𝑃(𝐴|𝐶) = = =
𝑃(𝐶) 𝑃(1 𝑜𝑢 2) 2
Donc 𝑃(𝐴) = 𝑃(𝐴|𝐶) : A et C sont indépendants.

5.8 Règle des probabilités totales et formule de Bayès


On va avoir besoin du concept de partition de l’espace échantillon.

Définition : soit 𝑘 un entier positif et 𝐵1 , 𝐵2 , … , 𝐵𝑘 des sous-ensembles de l’espace d’échantillonnage


S tels que :
1. 𝑆 = 𝐵1 ∪ 𝐵2 ∪ … ∪ 𝐵𝑘
2. 𝐵𝑖 ∩ 𝐵𝑗 = ∅ pour tout 𝑖 ≠ 𝑗
Alors on appelle la collection de sous-ensembles {𝐵1 , 𝐵2 , … , 𝐵𝑘 } une partition de S.

Quand on connait une partition de S, alors tout évenement / sous-ensemble de S peut être décomposé
suivant cette partition :
𝐴 = 𝐴 ∩ 𝑆 = (𝐴 ∩ 𝐵1 ) ∪ (𝐴 ∩ 𝐵2 ) ∪ … ∪ (𝐴 ∩ 𝐵𝑘 )

Par exemple, si l’on s’intéresse au lancer d’un dé, 𝑆 = {1,2,3,4,5,6} et on peut partitionner 𝑆 en
𝑆 = {1,3,5} ∪ {2,4,6} = {𝑟é𝑠𝑢𝑙𝑡𝑎𝑡𝑠 𝑝𝑎𝑖𝑟𝑠} ∪ {𝑟é𝑠𝑢𝑙𝑡𝑎𝑡𝑠 𝑖𝑚𝑝𝑎𝑖𝑟𝑠}

Théorème (règle des probabilités totales)


Soit {𝐵1 , 𝐵2 , … , 𝐵𝑘 } une partition de S telle que 𝑃(𝐵𝑖 ) > 0 pour tout 𝑖 = 1, … , 𝑘. Alors pour tout
événement 𝐴, on a :
𝑘

𝑃(𝐴) = ∑ 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )


𝑖=1

Preuve : Puisqu’il s’agit d’une partition de S, on peut décomposer A selon les 𝐵𝑖 :


𝐴 = 𝐴 ∩ 𝑆 = (𝐴 ∩ 𝐵1 ) ∪ (𝐴 ∩ 𝐵2 ) ∪ … ∪ (𝐴 ∩ 𝐵𝑘 )
Les ensembles de cette décomposition sont disjoints 2 à 2. Donc on peut décomposer 𝑃(𝐴) en la
somme de leurs probabilités :
123

CQFD

Exemple : On considère un jeu de carte (52 cartes, 4 couleurs, 4 as). Les cartes sont supposées avoir
été bien mélangées. Quelle est la probabilité que la 2ème carte du tas est un as ?

Intuitivement, on « sent » que ça va dépendre de ce qu’on a tiré comme 1ère carte… En fait le calcul est
simplifié si on conditionne par l’événement « la 1ère carte est un as ». Notons 𝐴1 cet événement et 𝐴2
l’événement « la 2ème carte est un as ». On cherche 𝑃(𝐴2 ). On peut partitionner l’espace échantillon S
en 𝑆 = 𝐴1 ∪ ̅̅̅
𝐴1 et appliquer la règle des probabilités totales à 𝑃(𝐴2 ):

̅̅̅1 )𝑃(𝐴
𝑃(𝐴2 ) = 𝑃(𝐴2 |𝐴1 )𝑃(𝐴1 ) + 𝑃(𝐴2 |𝐴 ̅̅̅1 )

Chacune de ces probabilités est maintenant facile à calculer :


4 48
𝑃(𝐴1 ) = , 𝑃(𝐴̅̅̅1 ) = 1 − 𝑃(𝐴1 ) = ,
52 52
3 4
𝑃(𝐴2 |𝐴1 ) = , 𝑃(𝐴2 |𝐴̅̅̅1 ) =
51 51
Ce qui donne finalement :
3 4 4 48
𝑃(𝐴2 ) = ∙ ∙ ∙ = 0,076923.
51 52 51 52

Il est parfois nécessaire de « renverser » une probabilité conditionnelle, c’est-à-dire de calculer P(B|A)
alors que c’est P(A|B) qui est disponible (ou qui est facile à calculer). C’est en un sens l’objet de la
formule de Bayès.

Théorème (règle de Bayès) : Soit {𝐵1 , 𝐵2 , … , 𝐵𝑘 } une partition de l’espace échantillon S telle que
𝑃(𝐵𝑖 ) > 0 pour tout i. Alors, pour tout événement A et quel que soit 𝑗 fixé entre 1 𝑒𝑡 𝑘, on a
𝑃(𝐴|𝐵𝑗 )𝑃(𝐵𝑗 )
𝑃(𝐵𝑗 |𝐴) = 𝑘
∑𝑖=1 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )

Preuve : Cette formule découle directement de la règle des probabilités totales (résultat précédent) et
de la définition de la probabilité conditionnelle :
𝑃(𝐵𝑗 ∩ 𝐴) 𝑃(𝐴|𝐵𝑗 )𝑃(𝐵𝑗 )
𝑃(𝐵𝑗 |𝐴) = = 𝑘
𝑃(𝐴) ∑𝑖=1 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )
CQFD

Exemple : On suppose que des faux billets sont dans la circulation et un détecteur de faux billets a été
mis au point. On suppose que la probabilité qu’un billet sélectionné au hasard soit faux est de 0,5%.
On suppose que si un billet est faux, alors il sera détecté par la machine (i.e. identifié comme faux)
avec une probabilité de 99%. D’autre part, un billet authentique sera (faussement) détecté comme faux
124

par la machine avec une probabilité de 2%. Un commerçant effectue le test sur un billet au hasard.
Questions :
 Quelle est la probabilité que le billet soit classifié « faux » ?
 Supposons que le test soit positif (càd le billet est identifié comme faux par la machine).
Quelle est la probabilité que ce billet soit authentique ?

Solution :
On peut résoudre plus facilement ce genre de petit problème en construisant un arbre de probabilité :

Dans ce graphe, « F » veut dire que le billet est faux et « A » qu’il est authentique, « + » que la
machine donne un résultat positif (une détection de faux billet, test positif) et « - » qu’elle n’a rien
détecté (test négatif).

Dans ce graphe, 2ème colonne, 0.98 représente la probabilité conditionnelle 𝑃(−|𝐴), 0.01 la proba
𝑃(−|𝐹) etc.
 On cherche d’abord 𝑃(+), càd la probabilité que la machine fasse une détection de faux billet.
On applique d’abord la règle des probas totales à 𝑃(+) :
𝑃(+) = 𝑃(+|𝐴)𝑃(𝐴) + 𝑃(+|𝐹)𝑃(𝐹) = 0,02 ∙ 0,995 + 0,99 ∙ 0,005 = 2,485%

Donc malgré qu’il n’y a que 0,5% de faux billets dans la circulation, la machine va réagir (dire
qu’elle a détecté un faux billet) avec une probabilité bien plus élevée, à savoir presque 2,5%...
soit une fois tous les 40 billets, et ce car elle commet parfois des erreurs de détection.
 On cherche maintenant 𝑃(𝐴|+), càd la probabilité que sachant que la machine dit qu’un billet
est faux, qu’en fait ce billet soit quand-même authentique. Dans notre arbre, on connait 𝑃(+|𝐴)
mais pas directement 𝑃(𝐴|+)… Grâce à la règle de Bayès, on va l’obtenir :

𝑃(+|𝐴)𝑃(𝐴) 0,02 ⋅ 0,995


𝑃(𝐴|+) = = = 80,08%
𝑃(+|𝐴)𝑃(𝐴) + 𝑃(+|𝐹)𝑃(𝐹) 0,02485

La probabilité d’avoir quand-même un billet authentique malgré que la machine nous dit le
contraire est donc d’environ 80%... En d’autres termes, quand elle rejette un billet, elle va
rejeter à tort dans 80% des cas. Cela parait beaucoup, mais en fait, ce cas ne concerne que
2,485% des billets testés à la machine, un très petit nombre finalement…En clair, si la machine
125

teste 1000 billets sur une journée, elle va donner un test positif sur environ 25 billets, et parmi
ces 25, rejeter à tort environ 20 de ces billets…
126

Chapitre 6: Variables aléatoires discrètes

6.1 Variable aléatoire : définition


Définition : Une variable aléatoire est une fonction associant à tout résultat de l’expérience aléatoire
un nombre : c’est une fonction 𝑋: 𝑆 → ℝ.

C’est donc une quantité qu’on peut mesurer grâce aux éléments de S.

Exemple : on lance deux dés. On s’intéresse à la somme des résultats des deux dés. c’est une quantité
numérique que l’on peut connaître dès qu’on connait le résultat de l’expérience aléatoire (à savoir ce
qu’ont donné les deux dés)
A chaque résultat de l’expérience aléatoire (donc à chaque élément de l’espace échantillon S), on
associe un nombre :
(1,2) → 3
(4,2) → 6
(1,3) → 4
etc

Si on a une variable aléatoire, disons notée 𝑌, il est naturel de s’intéresser à la probabilité que cette
variable aléatoire prenne une valeur donnée, ou un ensemble de valeurs données. Par exemple,
l’ensemble des résultats possibles de l’expérience menant à 𝑌 = 2 ou 𝑌 ≥ 1 etc
Si 𝑎 est un nombre réel, on désignera par {𝒀 = 𝒂} l’ensemble des résultats de l’expérience tels que la
quantité Y prend la valeur 𝑎 quand ces résultats sont observés. C’est donc un événement (car sous-
ensemble de l’espace échantillon S).

Exemple : lancer de deux dés, variable aléatoire : somme des deux dés.
L’événement {𝑌 = 3} correspond à l’événement {(1,2), (2,1)} constitué de deux éléments. Sa
2 1
probabilité vaut donc 36 = 18.

Un tel événement peut être de taille importante ; supposons par exemple que l’on lance 2 dés. On peut
être intéressé par le résultat d’un seul des deux dés lancés. C’est une variable aléatoire. Et on aura :

Mathématiquement, une variable aléatoire est donc une fonction d’un espace d’échantillonnage
S dans ℝ. On associe un nombre à chaque résultat possible d’une expérience aléatoire.

On distingue deux types de variables aléatoires: les variables discrètes et les variables continues.
127

Les variables discrètes ne peuvent prendre qu’un nombre fini ou infini dénombrable de valeurs (c’est-
à-dire dont on peut dresser une liste, que l’on peut numéroter 1,2,3,… ).
Les variables continues prennent un nombre infini non dénombrable de valeurs possibles (c’est-à-dire
dont on ne peut pas dresser de liste, comme par exemple toutes les valeurs d’un intervalle réel [a,b]).

Par exemple, la somme des résultats du lancer de 4 dés, le nombre de pièces produites par une usine au
cours d’une période donnée future et la population d’un pays sont des variables discrètes. La
température du sol, la temps d’attente à un guichet et le prix d’une action à une certaine date future
sont des variables continues.

On note généralement les variables aléatoires par des majuscules, et les valeurs qu’elles prennent par
des minuscules ; Y = y signifie donc que la variable Y prend la valeur y.

6.2 Distribution d’une variable aléatoire discrète


Définition : La probabilité qu’une variable aléatoire discrète Y prenne la valeur y, P(Y = y), est
définie
comme la somme des probabilités de tous les points d’échantillonnage de S pour lesquels Y prend la
valeur y. On la note p(y) et on l’appelle fonction de probabilité de Y .

Remarque : on parle parfois de densité discrète (probability mass function en anglais).

Théorème. Soit Y une variable aléatoire discrète. Alors sa fonction de probabilité satisfait :
1. 0 ≤p(y) ≤ 1 pour tout y ;
2. ∑𝑦 𝑃(𝑦) = 1, où la somme est prise sur toutes les valeurs que peut prendre la variable aléatoire Y.

Définition : La distribution de probabilité (aussi appelée loi de probabilité) de Y est la donnée, sous
forme de formule, de tableau ou de graphe, de la fonction de probabilité de Y : P(Y = y) = p(y) pour
toutes les valeurs y que peut prendre Y .

La distribution de probabilité nous indique donc une mesure de la chance que Y prenne telle ou telle
valeur. Connaître la distribution d’une variable aléatoire revient à savoir comment elle se comporte «
en toutes circonstances ».

Exemple. Le patron d’une usine choisit au hasard deux ouvriers parmi trois hommes et trois femmes.
Soit Y le nombre de femmes sélectionnées. Calculons la distribution de Y .
Il n’est pas possible que Y prenne une valeur différente de 0, 1 ou 2 ; on a donc p(y) = 0 pour y ≠ 0; 1;
6
2. Le nombre total de façons de choisir deux ouvriers parmi six est égal à ( ) = 15. Ne sélectionner
2
aucune femme revient à sélectionner deux hommes parmi les trois :
3
( ) 3 1
𝑝(0) = 𝑃(𝑌 = 0) = 2 = = = 0,2.
15 15 5

Sélectionner une seule femme revient à choisir une femme parmi trois et un homme parmi trois :
128

3 3
( )( ) 3⋅ 3 3
𝑝(1) = 𝑃(𝑌 = 1) = 1 1 = = = 0,6
15 15 5

Sélectionner deux femmes revient à choisir deux femmes parmi les trois :
3
( ) 3 1
𝑝(2) = 𝑃(𝑌 = 2) = 2 = = = 0,2
15 15 5

6.3 Espérance et variance d’une variable aléatoire discrète


Nous avons observé que la distribution de probabilité d’une variable aléatoire est un modèle théorique
pour la distribution empirique des données associées à une population réelle ; si le modèle est une
représentation précise du monde réel, les distributions théoriques et empiriques sont équivalentes.

Nous cherchons dès lors à définir des mesures quantitatives associées aux distributions de probabilité
qui soient cohérentes avec les outils descriptifs présentés pour les populations dans le chapitre
Statistique descriptive.

Définition Soient Y une variable aléatoire et p(y) sa fonction de probabilité. Alors l’espérance de Y
est :

𝐸[𝑌] = ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦)
𝑦
où la somme est prise sur toutes les valeurs possibles de Y.

Remarquons que cette quantité n’existe pas pour toutes les variables aléatoires Y, car il faut que la
somme ci-dessus soit finie. C’est toujours le cas si Y prend un nombre fini de valeurs, mais pas
129

toujours quand Y en prend un nombre infini. Ce sera cependant le cas de la plupart des variables
aléatoires rencontrées.

On désignera sous le nom de variable centrée une variable aléatoire d’espérance nulle.

Si 𝑝(𝑦) est une description précise de la distribution empirique de la population, alors E[Y] est égale à
la moyenne de population.

Pour nous convaincre que l’espérance est cohérente avec la définition de moyenne de population,
considérons la variable aléatoire de l’exemple précédent.

Exemple. Considérons que nous répétons l’expérience liée à cette variable aléatoire quatre millions de
fois ; supposons que nous avons obtenu un million de cas où Y = 0, deux millions de cas où Y = 1 et
un million de cas où Y = 2, valeurs auxquelles on peut s’attendre approximativement au vu de la
fonction de probabilité de Y.

On peut donc calculer, sur cet échantillon, la moyenne de l’échantillon 𝑥̅ = 𝑚 (au sens de la définition
vue dans le chapitre Statistique descriptive), qui devrait être proche de la moyenne de population, que
l’on va noter µ (attention, ne pas confondre avec la médiane…) puisque nous avons considéré un
échantillon de taille très importante :

On voit donc sur cet exemple que la moyenne de la variable Y, E[Y], vaut la moyenne population.

Bien souvent, nous ne voulons pas calculer l’espérance de Y , mais d’une fonction de Y. Par exemple,
un biologiste mesure la distance par rapport au nid à laquelle il retrouve un aigle en train de chasser,
mais ce qui l’intéresse vraiment, c’est l’aire totale du disque dans lequel cet aigle chasse : il observe une
distance Y du nid, mais veut en fait étudier 𝜋𝑌 2 (= aire disque de rayon Y).

Bien évidemment, une fonction d’une variable aléatoire est aussi une variable aléatoire ; on peut donc
lui appliquer tout ce qui a été défini pour les variables aléatoires.
On a notamment le résultat suivant.

Théorème Soient Y une variable aléatoire discrète, 𝑝(y) sa fonction de probabilité et g : ℝ → ℝ une
fonction réelle. Alors on a :

𝐸[𝑔(𝑌)] = ∑ 𝑔(𝑦) ∙ 𝑝(𝑦)


𝑦

Nous pouvons dès lors utiliser ce théorème pour définir la variance d’une variable aléatoire.
130

Définition : Soient Y une variable aléatoire régulière, µ son espérance et p(y) sa fonction de
probabilité. Alors la variance de Y est :

𝑉[𝑌] = 𝐸[(𝑌 − µ)2 ] = ∑(𝑦 − µ)2 ⋅ 𝑝(𝑦)


𝑦
L’écart-type de Y est la racine carrée de sa variance.

A nouveau, cette quantité qu’est la variance n’existe pas pour toutes les variables aléatoires Y, car il
faut que la somme ci-dessus soit finie. C’est toujours le cas si Y prend un nombre fini de valeurs, mais
pas toujours quand Y en prend un nombre infini. Ce sera le cas de la plupart des variables aléatoires
rencontrées cependant.

Si 𝑝(𝑦) est une description précise de la distribution d’une population, alors V[Y] est égale à 𝑠 2 , la
variance de la population. Même remarque pour l’écart-type.

Exemple : calcul de l’espérance, variance et écart-type d’une variable aléatoire


Soit Y une variable aléatoire dont la distribution est donnée par le tableau suivant :

En appliquant les définitions, on calcule :

Propriétés de l’espérance et de la variance :

Théorème : Soit Y une variable aléatoire de moyenne E[Y] et variance V[Y], et soit 𝑐 ∈ ℝ une
constante. Alors :
1. 𝐸[𝑐𝑌] = 𝑐𝐸[𝑌]
2. 𝐸[𝑌 + 𝑐] = 𝐸[𝑌] + 𝑐
3. 𝐸[𝑐] = 𝑐
4. 𝑉[𝑐𝑌] = 𝑐 2 𝑉[𝑌]
5. 𝑉[𝑌 + 𝑐] = 𝑉[𝑌]
6. 𝑉[𝑌] = 𝐸[𝑌 2 ] − (𝐸[𝑌])2
131

Preuve :
1. 𝐸[𝑐𝑌] = ∑𝑦 𝑐𝑦 𝑃(𝑐𝑌 = 𝑐𝑦) = 𝑐 ∑𝑦 𝑦 𝑃(𝑌 = 𝑦) = 𝑐𝐸[𝑌]

2. 𝐸[𝑐] = ∑𝑦 𝑐 𝑃(𝑌 = 𝑦) = 𝑐 ∑𝑦 𝑃(𝑌 = 𝑦) = 𝑐 𝑝𝑢𝑖𝑠𝑞𝑢𝑒 ∑𝑦 𝑝(𝑦) = 1

3. 𝐸[𝑌 + 𝑐] = ∑𝑦 (𝑦 + 𝑐)𝑃(𝑌 + 𝑐 = 𝑦 + 𝑐)
= ∑𝑦 𝑦𝑃(𝑌 + 𝑐 = 𝑦 + 𝑐) + ∑𝑦 𝑐𝑃(𝑌 + 𝑐 = 𝑦 + 𝑐)
= ∑𝑦 𝑦𝑃(𝑌 = 𝑦) + ∑𝑦 𝑐𝑃(𝑌 = 𝑦)
= 𝐸[𝑌] + 𝑐 ∑𝑦 𝑃(𝑌 = 𝑦)
= 𝐸[𝑌] + 𝑐

4. 𝑉[𝑐𝑌] = 𝐸[(𝑐𝑌 − 𝐸[𝑐𝑌])2 ] = 𝐸[(𝑐𝑌 − 𝑐𝐸[𝑌])2 ] = 𝐸[𝑐 2 (𝑌 − 𝐸[𝑌])2 ] = 𝑐 2 𝐸[(𝑌 − 𝐸[𝑌])2 ] =


𝑐 2 𝑉[𝑌]

5. 𝑉[𝑌 + 𝑐] = 𝐸[(𝑌 + 𝑐 − 𝐸[𝑌 + 𝑐])2 ] = 𝐸[(𝑌 + 𝑐 − 𝐸[𝑌] − 𝑐)2 ] = 𝐸[(𝑌 − 𝐸[𝑌])2 ] = 𝑉[𝑌]

6.
𝑉[𝑌] = ∑ (𝑦 − 𝐸[𝑌])2 𝑝(𝑦)
𝑦

= ∑ 𝑦 2 𝑝(𝑦) + ∑ 𝐸[𝑌]2 𝑝(𝑦) − 2 ∑ 𝑦𝐸[𝑌] 𝑝(𝑦)


𝑦 𝑦 𝑦

= 𝐸[𝑌 2 ] + 𝐸[𝑌]2 ∑ 𝑝(𝑦) − 2𝐸[𝑌] ∑ 𝑦𝑝(𝑦)


𝑦 𝑦

= ∑ 𝐸[𝑌 2 ] + 𝐸[𝑌]2 − 2𝐸[𝑌]𝐸[𝑌] = 𝐸[𝑌 2 ] − 𝐸[𝑌]2


𝑦

CQFD

L’espérance est ce qu’on peut attendre « en moyenne » d’une variable aléatoire : lorsqu’on répète une
expérience un très grand nombre de fois et qu’on calcule la moyenne des résultats obtenus, cette
moyenne est proche de l’espérance.

Exemple. Calculons par exemple l’espérance du résultat d’un lancer de dé à six faces :

Comme l’espérance des gains d’un jeu est ce qu’on peut « espérer » gagner en jouant à ce jeu, elle
correspond au « juste prix » pour entrer dans ce jeu.

Un joueur vous propose le jeu suivant : vous lui donnez 4 €, et en échange il vous donne un montant
correspondant, en €, au résultat d’un lancer de dé à six faces. Ce jeu est-il équilibré ?
Une manière de répondre est la suivante :
L’espérance de vos gains en € dans ce jeu est égale à
𝐸[−4 + résultat du dé] = −4 + 𝐸[résultat du dé] = −0,5 < 0
132

En moyenne, si vous jouez à ce jeu, vous allez perdre 0,5 euros. Il vaut donc mieux ne pas jouer à ce
jeu !

Cette interprétation de l’espérance fait que celle-ci se retrouve dans de très nombreux aspects de la vie
économique, financière, industrielle, etc.

Exemple. La « prime pure » (c’est-à-dire sans compter les divers types de frais) d’un contrat
d’assurance (ce qu’il faut payer à l’assureur pour qu’il accepte d’assurer un bien) est égale à
l’espérance du remboursement que l’assureur devrait effectuer en cas de sinistre. Si on suppose qu’une
maison de 300.000 € à 0,05% de chances de brûler (et ainsi de disparaître complètement) sur une
année, l’espérance de l’indemnité est égale à

𝐸[𝑌] = 0€ ∙ 𝑃(la maison ne brûle pas) + 300000€ ⋅ 𝑃(la maison brûle)


= 0€ ∙ 0,9995 + 300000€ ⋅ 0,0005 = 150€

La prime pure de ce contrat d’assurance incendie est donc égale à 150 €. Notons qu’à la prime pure
l’assureur doit ajouter ses frais de fonctionnement (pour payer les salaires, les guichets, la gestion des
sinistres etc.), ainsi qu’un montant lui permettant de « ne pas faire faillite trop souvent » (chargement
de sécurité).

En fait, un résultat mathématique confirme cette interprétation. Il s’agit de la loi des grands nombres.

Puisqu’une somme de variables aléatoires est elle-même une variable aléatoire, on peut en calculer
l’espérance.

Théorème : Soient X et Y deux variables aléatoires et 𝐸[𝑋], 𝐸[𝑌] leurs espérances (supposer exister).
Alors on a
𝐸[𝑋 + 𝑌] = 𝐸[𝑋] + 𝐸[𝑌]

Preuve :

Par la définition de la probabilité conditionnelle et le théorème des probabilités totales on obtient pour
le premier terme :

Le deuxième terme se traite de la même façon. CQFD

Puisqu’un produit de variables aléatoires est lui-même une variable aléatoire, on peut en calculer
l’espérance : attention, le résultat est cependant moins évident que dans le cas de la somme !
133

Théorème : Soient X et Y deux variables aléatoire indépendantes pour lesquelles 𝐸[𝑋] 𝑒𝑡 𝐸[𝑌]
existent. Alors on a
𝐸[𝑋 ∙ 𝑌] = 𝐸[𝑋] ∙ 𝐸[𝑌]

Preuve :

CQFD

Théorème : Soient X et Y des variables aléatoires indépendantes et possédant des variances 𝑉[𝑋] et
𝑉[𝑌]. Alors la variance de leur somme vaut la somme des variances :
𝑉[𝑋 + 𝑌] = [𝑋] + 𝑉[𝑌]

Preuve :

Puisque X et Y sont indépendantes, on peut utiliser le résultat précédent pour écrire :

CQFD

6.4 La distribution uniforme discrète

Définition : Une variable aléatoire Y qui peut prendre n valeurs 𝑦1 , 𝑦2 , … , 𝑦𝑛 possède une distribution
uniforme si toutes ces valeurs sont équiprobables :

1
𝑃(𝑌 = 𝑦𝑖 ) = 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 = 1,2, … , 𝑛
𝑛
134

Exemple : le résultat d’un dé à 6 faces (équilibré) est un exemple de distribution uniforme. Dans ce cas
en effet on a que
1
𝑃(𝑌 = 1) = 𝑃(𝑌 = 2) = 𝑃(𝑌 = 3) = 𝑃(𝑌 = 4) = 𝑃(𝑌 = 5) = 𝑃(𝑌 = 6) = 6

Remarquons que ce n’est pas le cas de la somme des résultats du lancer de 2 dés : on a par exemple
P(Y=7)=1/6 alors que P(Y=2)=1/36.

6.5 La distribution binomiale


On se place dans le contexte suivant :
 On suppose qu’on répète de manière indépendante une même expérience aléatoire pouvant
mener soit à un succès, avec probabilité p (pour un certain nombre 𝑝 ∈ [0,1]), soit à un succès
(avec probabilité 𝑞 = 1 − 𝑝).
 On répète cette expérience n fois (pour un certain nombre naturel n) et on s’intéresse au nombre
total de succès observés.

Ce nombre de succès est clairement une variable aléatoire qui ne peut prendre comme valeurs que des
nombres entiers allant de 0 (aucun succès observés sur les n répétions de l’expérience) à n. C’est donc
une variable aléatoire qui peut prendre comme valeurs : 0, 1, 2, 3, …, n.

Par définition, la distribution de cette variable aléatoire est appelée distribution binomiale de
paramètres n et p.

Remarque : Déterminer si une expérience particulière est une expérience binomiale nécessite
d’examiner chacune des caractéristiques listées de l’expérience. Il est important de se rendre compte
que le terme « succès » ne désigne pas nécessairement quelque chose de « réussi », ou de « bon » : il
s’agit seulement de désigner l’un des deux résultats possibles de chacun des essais.

Pour construire la fonction de probabilité d’une telle expérience, calculons la probabilité que le nombre
de succès 𝑌 = 𝑦, où 𝑦 est un nombre naturel compris entre 0 et n. Considérons un ensemble de n essais
ayant résulté en 𝑦 succès (« S ») et 𝑛 − 𝑦 échecs (« E ») :

Puisque ces essais sont indépendants et possèdent tous la même probabilité de succès et d’échec, la
probabilité d’assister au résultat donné ci-dessus est :

Comme cette suite de succès et d’échecs n’est évidemment pas la seule à pouvoir survenir, il faut
sommer sur toutes les possibilités, qui sont toutes équiprobables, et qui correspondent chacune à un n-
135
𝑛
uple de « S » et de « E » comportant y fois un « S » ; il y en a en tout : (𝑦 ) (nombre de manière que
l’on peut sélectionner y éléments parmi n, les « éléments » étant ici le numéro de l’expérience
réalisée). On obtient donc finalement :

𝑃(𝑌 = 𝑦) = (𝑛) 𝑝 𝑦 (1 − 𝑝)𝑛−𝑦


𝑦

Définition : Une variable aléatoire Y possède une distribution binomiale basée sur n essais et une
probabilité de succès p (ce qui se note : 𝑌 ∼ ℬ(𝑛, 𝑝)) si :

𝑃(𝑌 = 𝑦) = (𝑛) 𝑝 𝑦 (1 − 𝑝)𝑛−𝑦


𝑦

Comme pour les autres distributions que nous verrons, il est possible d’obtenir une expression pour les
moments des variables aléatoires possédant une distribution binomiale.

Théorème (espérance et variance d’une variable binomiale):


Si 𝑌 ∼ ℬ(𝑛, 𝑝)) alors
𝐸[𝑌] = 𝑛𝑝 et 𝑉[𝑌] = 𝑛𝑝(1 − 𝑝) = 𝑛𝑝𝑞
(où 𝑞 = 1 − 𝑝)

Illustration de la fonction de probabilité (ou densité discrète) d’une loi binomiale :

Les coefficients de combinaison (aussi appelés coefficients binomiaux) interviennent dans la formule
du binôme de Newton:
136

On a par exemple :

Ces coefficients binomiaux peuvent être obtenus en construisant le triangle de Pascal, un triangle dans
lequel chaque nombre est la somme des deux nombres situés au-dessus de lui :

𝑛
Le coefficient binomial ( ) s’obtient à partir de ce tableau en considérant la (𝑛 + 1)ème ligne et
𝑘
(k+1)ème diagonale :

En lisant dans ce triangle, on retrouve bien les coefficients du binôme (𝑎 + 𝑏)𝑛 de la formule de
Newton.

La planche de Galton (figure ci-dessous) est une expérience-exemple illustrant cette idée.
137

Figure 36: Tableau (ou planche) de Galton.

Exemple (distribution binomiale) : approche probabiliste. L’expérience a montré que 30% des
personnes atteintes d’une certaine maladie se rétablissent. Une entreprise pharmaceutique étudie un
nouveau médicament, et fait des essais sur un groupe de dix personnes atteintes de la maladie, dont
neuf se rétablissent.

En faisant l’hypothèse que la substance qui leur a été distribuée n’est pas du tout efficace (dont que
prendre médicament est l’équivalent de ne rien prendre du tout), calculons la probabilité qu’on observe
(au moins) neuf rétablissements.

Soit Y le nombre de personnes qui guérissent, une variable aléatoire qui possède une distribution
binomiale (n = 10; p = 0,3 : chaque personne correspond à une « répétition » de l’expérience, et un
succès est sa guérison « naturelle », càd en supposant que la personne n’a pas pris de médicament). On
calcule donc :

𝑃(𝑌 ≥ 9) = 𝑃(𝑌 = 9) + 𝑃(𝑌 = 10)


10 10
= ( ) 0,32 ∙ 0,7 + ( ) 0,310
9 10
= 0,000138 + 0,000006 = 0,000144

La probabilité d’observer 9 guérisons « naturelles » est donc très faible. Ce résultat suggère donc que
soit le médicament est inefficace et qu’on a observé un événement très rare, soit le médicament est
vraiment efficace.

Exemple (distribution binomiale – moments) : On propose de jouer au jeu suivant : on lance quinze
dés à six faces, et vous recevez 3 € pour chacun des dés qui a un résultat supérieur ou égal à 5. En
échange de quelle somme est-il raisonnable d’accepter de jouer à ce jeu ?
Calculons pour répondre à cette question l’espérance des gains de ce jeu. Le nombre Y de dés parmi
les quinze dont le résultat est  5 est une variable aléatoire binomiale avec paramètres n = 15 et p =
P(dé  5) = 2/6. Son espérance vaut donc :
138

2
𝐸[𝑌] = 𝑛 ∙ 𝑝 = 15 ∙ = 5.
6
L’espérance des gains de ce jeu vaut donc, si on paie pour y jour un prix noté J,
𝐸[𝑔𝑎𝑖𝑛𝑠] = 𝐸[−𝐽 + 3 ∙ 𝑌] = −𝐽 + 3𝐸[𝑌] = −𝐽 + 3 ∙ 5 = −𝐽 + 15
Il est donc raisonnable de jouer à ce jeu si le prix est inférieur ou égal à 15 €.

En pratique le calcul de 𝑃(𝑌 = 𝑦) est assez facile. Par contre il est fastidieux de calculer P(𝑌 ≤ 𝑦).
Cela peut se faire à l’aide de stables statistiques (« table binomiale »).

6.6 La distribution de Poisson


Supposons que nous voulons calculer la distribution de probabilité du nombre d’accidents de voiture à
une intersection donnée sur une période d’une semaine. À première vue, cette expérience n’est pas une
expérience binomiale (le résultat est plus complexe que simplement succès/échec) ; on peut pourtant la
« transformer » pour que ce soit le cas. Divisons la période d’une semaine en un nombre n d’intervalles
de temps suffisamment petits pour que dans chacun de ces intervalles on ne puisse observer qu’un
accident au plus. Le nombre total d’accidents sur la semaine Y est la somme des nombres d’accidents
sur tous les petits intervalles ; si on considère que tous ces accidents sont indépendants, on a bien une
expérience binomiale.
La probabilité qu’un accident survienne sur l’un des n petits intervalles décroit bien sûr au fur à mesure
𝜆
que leur taille diminue. Fixons cette probabilité à 𝑝 = 𝑛, pour une constante 𝜆>0. La distribution de
Poisson s’obtient alors en faisant tendre le nombre d’intervalles vers l’infini :

Definition : Une variable aléatoire Y possède une distribution de Poisson de paramètre 𝜆 > 0 (ce qui se
note 𝑌 ∼ 𝒫(𝜆)) si :
𝜆𝑘 −𝜆
𝑃(𝑌 = 𝑘) = 𝑒 𝑝𝑜𝑢𝑟 𝑘 = 0,1,2, …
𝑘!
où 𝑒 ≈2, 71828 est le nombre d’Euler.

Parce que la fonction de probabilité binomiale converge vers la fonction de probabilité de Poisson, les
variables aléatoires de Poisson peuvent être utilisées pour approximer les variables aléatoires
binomiales dont les paramètres n et p sont respectivement grand et petit. Cela fait donc de la
distribution de Poisson une distribution des événements rares.

Espérance et variance d’une variable de distribution de Poisson:

Théorème : Si 𝑌 ∼ 𝒫(𝜆), alors


𝐸[𝑌] = 𝜆, 𝑉[𝑌] = 𝜆
139

Figure 37: Distribution de Poisson et distribution binomial

Exemple (moments). Pour assurer un troupeau de 50 vaches valant 1.000 € chacune, un assureur
demande une prime pure annuelle de 2.000 € (c’est-à-dire que pour ce prix-là, il remplacera à ses frais
en fin d’année les vaches mortes).
En supposant que le nombre de bêtes mortes chaque année suit une distribution de Poisson, calculons
le taux de mortalité annuel des vaches supposé par l’assureur lors de l’établissement de sa prime.
La prime pure est égale à l’espérance de l’indemnité à verser par l’assureur en cas de sinistre (en
négligeant les taux d’intérêt) :

E[indemnité] = E[nombre de morts] ∙ 1000€ = 𝜆 ∙ 1000€.

Puisque la prime vaut 2.000 €, on déduit que 𝜆= 2 : on s’attend à ce que 2 vaches meurent chaque
année. Cela donne donc un taux de mortalité dans le troupeau égal à 2/50 = 4%.
140

Chapitre 7: Variables aléatoires continues

Les variables aléatoires que nous considérons dans ce chapitre sont continues, c’est-à-dire qu’elles
prennent un nombre infini indénombrable de valeurs (c’est-à- dire dont on ne peut pas dresser de liste),
le plus souvent un intervalle réel [a,b]).

Pour comprendre ce qui change lorsqu’on passe du discret au continu, considérons une suite de
variables aléatoires prenant de plus en plus de valeurs différentes (figure ci-dessous). Par exemple, un
physicien fait passer un signal lumineux à travers une suite de lentilles et observe l’instant auquel le
dernier photon du faisceau franchit la dernière lentille. Il fait d’abord ses mesures en divisant les 60
secondes en 6 intervalles de 10 secondes. Puis il refait ses mesures en divisant la minute en 12
intervalles
de 5 secondes, puis 30 intervalles de 2 secondes, 60 intervalles d’une seconde, 120 intervalles d’une
demi seconde, etc. Si on trace des histogrammes de densité, la probabilité que l’instant d’intérêt soit
situé au milieu de la période d’observation est égale à l’aire du rectangle correspondant à l’intervalle
contenant l’instant t = 1/2. Puisque la base de ces rectangles tend vers 0, la probabilité que le dernier
photon
passe au cours de l’intervalle de temps contenant t = 1/2 tend elle aussi vers 0 ; c’est donc aussi en un
certain sens le cas de P(Y = 1/2).

Figure 38: Du discret au continu

La fonction de probabilité, qui est adaptée pour décrire les variables aléatoires discrètes prenant un
nombre fini de valeurs, n’est pas adaptée pour décrire les variables aléatoires continues.
141

Plutôt que de considérer l’événement {𝑌 = 𝑦} (à travers la fonction de probabilité : 𝑝(𝑦) = 𝑃(𝑌 = 𝑦)),
qui a toutes les chances d’être nulle), on considère dans le cas des variables aléatoires continues
l’événement {𝑌 ≤ 𝑦 (à travers la fonction de répartition, qui, elle, est a priori non nulle).

7.1 Fonction de répartition et fonction de densité d’une variable aléatoire


continue

Définition : Soit Y une variable aléatoire. La fonction de répartition de Y (en anglais cumulative
distribution function) est définie par
𝐹(𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑌 ∈] − ∞, 𝑦]).

Cette fonction existe évidemment tant pour des variables aléatoires discrètes que continues. De plus,
d’après la forme de la fonction de répartition d’une variable aléatoire, on peut identifier si elle est
discrète ou continue : si elle est discrète, ce sera une fonction en escalier.
Par exemple, pour une variable aléatoire binomiale de paramètres 𝑛 = 2, 𝑝 = 0,5 on a :

Ce qui mène au graphe suivant pour F(y) :

Figure 39: fonction de répartition d'une variable aléatoire discrète, plus précisément suivant une distrbution Bin (2, 50%)
142

Théorème (propriétés d’une fonction de répartition)


Si F est une fonction de répartition, alors elle satisfait les conditions suivantes :
1. lim𝑦→−∞ 𝐹(𝑦) = 0
2. lim𝑦→+∞ 𝐹(𝑦) = 1
3. 𝐹 est une fonction croissante : si 𝑦1 ≤ 𝑦2 , alors 𝐹(𝑦1 ) ≤ 𝐹(𝑦2 )

Voici donc à quoi ressemble une fonction de répartition d’une variable aléatoire continue :

Figure 40: Allure générale de la function de repartition d’une variable aléatoire continue

Un autre concept utile dans le cas de variable aléatoire continue est celui de fonction de densité :

Définition : Soit 𝐹 la fonction de répartition d’une variable aléatoire continue. Sa fonction de densité
(en anglais probabilité distribution function ou probability density function) est définie par :
𝑓(𝑦) = 𝐹′(𝑦)
lorsque cette dérivée 𝐹′ existe

Conséquence immédiate : la fonction de répartition est une primitive de la fonction de densité :


𝑦
𝐹(𝑦) = ∫ 𝑓(𝑥)𝑑𝑥
−∞

La fonction de répartition représente donc une probabilité, mais pas la fonction de densité. C’est l’aire
sous la courbe du graphe de la fonction de densité qui représente une probabilité.
143

Figure 41: fonction de densité: l'aire sous le graphe de la fonction de densité est la fonction de répartition, et représente une
probabilité.

Théorème (propriétés de la fonction de densité)


Si 𝑓 est la fonction de densité d’une variable aléatoire continue, alors :
1. 𝑓(𝑦) ≥ 0 pour tout 𝑦 ∈ ℝ
+∞
2. ∫−∞ 𝑓(𝑦)𝑑𝑦 = 1 = lim𝑦→+∞ 𝐹(𝑦)

On peut étendre les notions d’espérance et de variance au cas de variables aléatoires continues :

Définition :
Si Y est une variable aléatoire continue de densité 𝑓, alors :
+∞
𝐸[𝑌] = ∫ 𝑦 ∙ 𝑓(𝑦)𝑑𝑦
−∞
+∞
𝑉[𝑌] = ∫ (𝑦 − 𝐸[𝑌])2 ∙ 𝑓(𝑦)𝑑𝑦
−∞

7.2 Distribution uniforme


Définition : La variable aléatoire Y possède une distribution uniforme sur l’intervalle [a,b] ( 𝑌 ∼
𝑈[𝑎, 𝑏]) si sa densité vaut :
1
𝑠𝑖 𝑦 ∈ [𝑎, 𝑏]
𝑓(𝑦) = { 𝑏 − 𝑎

0 𝑠𝑖 𝑦 ∉ [𝑎, 𝑏]

En intégrant la fonction de densité (qui est une constante sur [a,b], et une autre constante, 0, en dehors
de cet intervalle), on voit facilement que la fonction de répartition d’une uniforme est linéaire par
morceaux :
144

0 𝑠𝑖 𝑥 < 𝑎
𝑥−𝑎
𝐹(𝑥) = { 𝑠𝑖 𝑥 ∈ [𝑎, 𝑏]
𝑥−𝑏
1 𝑠𝑖 𝑥 > 𝑏

On peut calculer l’espérance et la variance d’une telle variable aléatoire (exercice) :


𝑎+𝑏 (𝑏 − 𝑎)2
𝐸[𝑌] = , 𝑉[𝑌] =
2 12
7.3 Distribution exponentielle
Définition : La variable aléatoire continue Y possède une distribution exponentielle de paramètre
𝜆 > 0 (ce qui se note 𝑌 ∼ ℰ(𝜆)) si :
𝜆𝑒 −𝜆𝑦 𝑠𝑖 𝑦 ≥ 0
𝑓(𝑦) = {
0 𝑠𝑖 𝑦 < 0

La distribution exponentielle est très utilisée pour modéliser des temps d’attente ou des durées de vie :
on peut montrer que l’intervalle de temps qui sépare l’apparition aléatoire de deux « accidents »
modélisés par un processus de Poisson possède cette distribution.

Figure 42: Densité de la distribution exponentielle pour différentes valeurs de 𝝀

Théorème : Si 𝑌 ∼ ℰ(𝜆), alors


1 1
𝐸[𝑌] = , 𝑉[𝑌] = 2
𝜆 𝜆

Dans le cas de la distribution exponentielle, une formule fermée pour la fonction de répartition
s’obtient en intégrant directement la fonction de densité :
145

Il n’est donc pas nécessaire d’avoir recours à une table pour calculer les valeurs de F dans ce cas.

Exemple. La durée de vie Y d’un processeur d’un type particulier utilisé pour des calculs très lourds
est une variable aléatoire exponentielle. On sait que la durée de vie moyenne est de 2 ans. Quelle est la
probabilité qu’un processeur de ce type cesse de fonctionner durant sa première année de service ?
Avant de calculer cette probabilité, il faut déterminer la valeur du paramètre 𝜆 associé à Y, ce qui peut
se faire à partir de l’information donnée dans l’énoncé à propos de E[Y] :
1 1
2 ans = E[Y] = ⇒ 𝜆 = .
λ 2
On peut alors calculer 𝑃(𝑌 ≤ 1) :
𝑃(𝑌 ≤ 1) = 1 − 𝑒 −𝜆.1 = 1 − 𝑒 −0,5 = 0,3934

7.4 Distribution normale


La distribution normale a été étudiée d’abord par de Moivre puis Laplace au XVIIIème, et ensuite
Gauss au XIXème. Elle est aussi appelée distribution gaussienne. Sa fonction de densité s’appelle
« courbe en cloche ». Cette distribution se rencontre dans beaucoup de situations pratiques, et elle joue
un rôle fondamental en statistique et en probabilité.

Définition : La variable aléatoire continue Y possède une distribution normale de paramètres 𝜇 et


𝜎 (ce qui se note 𝑌 ∼ 𝑁(𝜇, 𝜎 2 )) si sa densité a la forme :
1 1 𝑦−𝜇 2
𝑓(𝑦) = 𝑒 −2( 𝜎 )
𝜎√2𝜋
où 𝑦 ∈ ℝ.
146

Figure 43: Densité de la distribution normale pour différentes valeurs de µ et σ

On peut voir que l’espérance et la variance d’une distribution normale s’expriment très simplement
à l’aide des paramètres 𝜇 et 𝜎:
𝐸[𝑌] = 𝜇, 𝑉[𝑌] = 𝜎 2

On peut voir que la fonction de répartition


𝑦
1 1 𝑥−𝜇 2
𝑒 −2( )
𝐹(𝑦) = ∫ 𝜎 𝑑𝑥
−∞ 𝜎√2𝜋

n’est pas une « fonction usuelle », càd qu’on ne la trouve pas sur la majorité des calculatrices. En fait
elle ne peut pas s’exprimer comme une combinaison de ce qu’on appelle des « fonctions
élémentaires », càd celles qu’on a « identifiées » dans les cours d’analyse comme
𝑠𝑖𝑛, 𝑐𝑜𝑠, exponentielle, logarithme, polynome, fraction rationnelle, etc. De ce fait, quand on a besoin
de valeurs particulières de 𝐹(𝑦), une possibilité est d’utiliser une table statistique. Une autre est
d’utiliser un software tel Excel, SAS, Matlab, R,…

En pratique, une table statistique de distribution normale est construite pour les valeurs 𝜇 = 1, 𝜎 = 0
(on parle de distribution normale « centrée, réduite »), et on déduit la fonction de répartition pour une
valeur quelconque de 𝜇 et 𝜎 en utilisant le fait que :
𝑌−𝜇 𝑦−𝜇 𝑦−𝜇
𝐹𝑁(𝜇,𝜎2 ) (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃 ( ≤ ) = 𝐹𝑁(0,1) ( )
𝜎 𝜎 𝜎

Il suffit donc de « centrer » (càd enlever l’espérance 𝜇) et réduire (diviser par l’écart-type 𝜎) la valeur
y en laquelle on veut calculer F(y), puis d’aller lire dans la table statistique d’une normale centrée
réduire N(0,1).

Un des intérêts de la distribution normale est dû à un résultat probabiliste appelé Théorème Central
Limite que l’on verra plus tard: quand on considère une suite infinie de variables aléatoires
𝑌1 , 𝑌2 , 𝑌3 , … ayant toutes la même distribution, prenant des valeurs indépendamment les unes des autres
(« variables indépendantes ») et possédant toutes une certaine espérance 𝜇 et un certain écart-type 𝜎,
147

alors la distribution de la somme de ces variables, ∑𝑛𝑖=1 𝑌𝑖 , lorsque 𝑛 → ∞ , va se rapprocher


arbitrairement près (si 𝑛 devient arbitrairement grand) d’une distribution normale 𝑁(𝑛𝜇, √𝑛𝜎).

De sorte que quand on considère des quantités statistiques qui apparaissent comme des sommes d’un
grand nombre de variables aléatoires indépendantes et de même distribution, on arrive très vite
« essentiellement » une distribution normale. C’est pourquoi cette distribution se rencontre
couramment dans les applications.

7.5 La distribution log-normale **


En deux mots, une variable est de distribution log-normale si quand on prend son logarithme (ln), la
nouvelle variable aléatoire ainsi obtenue est de loi normale (son log est de loi normale). En d’autres
termes, si c’est l’exponentielle d’une variable aléatoire normale.

Définition : La variable aléatoire continue Y possède une distribution log-normale de paramètres


𝜇 𝑒𝑡 𝜎 (ce qui se note 𝑌 ∼ ℒ𝒩(𝜇, 𝜎 2 ) s’il existe une variable aléatoire X de distribution 𝒩(𝜇, 𝜎 2 )telle
que
𝑌 = 𝑒𝑋
ou, de manière équivalente, si

Théorème : Si 𝑌 ∼ ℒ𝒩(𝜇, 𝜎 2 ), alors


𝜎2 2 2
𝜇+
𝐸[𝑌] = 𝑒 2, 𝑉[𝑌] = (𝑒 𝜎 − 1)𝑒 2𝜇+𝜎

Figure 44: Densité d'une distribution log-normale pour différentes valeurs des paramètres

Exemple. Le cours après un an (en supposant un prix initial unitaire) de l’indice boursier EuroStoxx50
peut être modélisé comme une variable aléatoire 𝑌 ∼ ℒ𝒩(𝜇 = 0,05, 𝜎 = 0,20) . Calculons la
probabilité qu’un investisseur double au moins son capital en investissant dans cet indice, ainsi que le
148

rendement auquel il peut s’attendre en moyenne.


Puisque Y est log-normale, on va faire apparaître la variable normale sous-jacente, X = log Y ∼
𝒩(0,05 ; 0,20).

L’investisseur a donc 16,6% de doubler sa mise en un an.

L’investisseur peut s’attendre en moyenne à un rendement égal à la moyenne de Y :


𝜎2 0,22
𝐸[𝑌] = 𝑒 𝜇+ 2 = 𝑒 0,05+ 2 = 1,0725

Plus précisément, pour 1€ investi en t=0, le rendement moyen est :


𝐸[𝑌] − 1
= 1,0725 − 1 = 0,0725 = 7,25%
1

Vous aimerez peut-être aussi