Vous êtes sur la page 1sur 209

Statistiques appliquées à la gestion

2B-gentr/2B-ingco

Syllabus théorique

Titulaire : Céline Azizieh

Année académique 2021-2022


Table des matières

Contrat didactique .....................................................................................................................................4

Chapitre 1: Introduction – données et statistiques ...............................................................................6


1.1 Qu’est-ce que la statistique ? .....................................................................................................6
1.2 Quelques applications de la statistique : ...................................................................................7
1.3 Définition formelle de la statistique ..........................................................................................8
1.4 Vocabulaire : variables statistiques, données, observations, séries etc ...................................11
1.5 La collecte des données ...........................................................................................................15
Chapitre 2: Statistique descriptive : présentation sous forme de tableaux et de graphiques..............17
2.1 Résumer des données qualitatives ...........................................................................................17
2.2 Résumer des données quantitatives discrètes ..........................................................................20
2.3 Résumer des données quantitatives discrètes – Regroupement en classes .............................24
2.4 Résumer des variables quantitatives continues .......................................................................29
2.5 Histogrammes..........................................................................................................................31
2.6 Utiliser Excel pour construire une distribution de fréquence et faire des graphiques .............37
Chapitre 3: Statistique descriptive: Les indicateurs statistiques ........................................................40
3.1 Indicateurs de tendance centrale (ou de position) ...................................................................40
3.1.1 La moyenne arithmétique ....................................................................................................41
3.1.2 La médiane ..........................................................................................................................44
3.1.3 Le mode ...............................................................................................................................45
3.1.4 Les quartiles ........................................................................................................................46
3.2 Indicateurs de dispersion (ou de variabilité) ...........................................................................48
3.2.1 Étendue ................................................................................................................................48
3.2.2 Ecart interquartile ................................................................................................................49
3.2.3 Variance ..............................................................................................................................49
3.2.4 Ecart-type ............................................................................................................................53
3.2.5 Coefficient de variation .......................................................................................................54
3.3 Indicateurs de forme : coefficients de dissymétrie et d’aplatissement ....................................54
3.4 Remarques sur les indicateurs statistiques ..............................................................................58
3.4.1 Points communs à ces différents indicateurs.......................................................................58
3.4.2 Changements de variable et indicateurs ..............................................................................58
3.5 Règle empirique et théorème de Chebychev ...........................................................................59
3.6 Boîte à moustaches (BM) ........................................................................................................63
1
3.7 Indicateurs statistiques - Utilisation du tableur Excel .............................................................64
Chapitre 4: Statistique bivariée – régressions linéaires...................................................................67
4.1 Moyennes marginales et centre de gravité ..............................................................................68
4.2 Variances et écart-types marginaux ........................................................................................68
4.3 La covariance ..........................................................................................................................69
4.4 Coefficient de corrélation ........................................................................................................73
4.5 Corrélation et causalité ............................................................................................................78
4.6 Régressions linéaires simples – méthode des moindres carrés ...............................................81
4.6.1 Paramètres de la droite de régression au sens des moindres carrés ....................................81
4.6.2 Qualité d’une régression linéaire : coefficient de détermination ........................................84
4.6.3 Applications et exemples ....................................................................................................86
Chapitre 5: Calcul des probabilités ....................................................................................................95
5.1 Introduction .............................................................................................................................95
5.2 Introduction intuitive aux probabilités ....................................................................................96
5.3 Evénement, expérience aléatoire, espace échantillon ...........................................................101
5.4 Quelques rappels de la théorie des ensembles ......................................................................103
5.5 Modèle probabiliste discret ...................................................................................................104
5.5.1 Combinaison d’événements ..............................................................................................104
5.5.2 Probabilité .........................................................................................................................105
5.5.3 Quelques règles de calcul ..................................................................................................110
5.6 Analyse combinatoire ............................................................................................................111
5.6.1 Règle multiplicative (ou règle du 𝒎 ∙ 𝒏)..........................................................................112
5.6.2 Permutations ......................................................................................................................115
5.6.3 Arrangements ....................................................................................................................116
5.6.4 Partitions............................................................................................................................117
5.6.5 Combinaisons ....................................................................................................................119
5.7 Probabilité conditionnelle et indépendance...........................................................................120
5.8 Règle des probabilités totales et formule de Bayès ...............................................................122
Chapitre 6: Variables aléatoires discrètes ........................................................................................126
6.1 Variable aléatoire : définition ................................................................................................126
6.2 Distribution d’une variable aléatoire discrète .......................................................................127
6.3 Espérance et variance d’une variable aléatoire discrète ........................................................128
6.4 La distribution uniforme discrète ..........................................................................................136
6.5 La distribution binomiale ......................................................................................................136
6.6 La distribution de Poisson .....................................................................................................142
Chapitre 7: Variables aléatoires continues .......................................................................................146
7.1 Fonction de répartition et fonction de densité d’une variable aléatoire continue .................147
7.2 Distribution uniforme ............................................................................................................149
7.3 Distribution exponentielle .....................................................................................................151

2
7.4 Distribution normale .............................................................................................................152
7.5 La distribution log-normale ...................................................................................................153
Chapitre 8: Théorèmes fondamentaux .............................................................................................155
8.1 L’inégalité de Markov ...........................................................................................................155
8.2 L’inégalité de Bienaymé Tchebytchev ..................................................................................156
8.3 La loi des grands nombres .....................................................................................................157
8.4 Stabilité de la loi normale pour l’addition .............................................................................159
8.5 Le Théorème Central Limite (TCL) ......................................................................................161

3
Contrat didactique

Activité d’enseignement : Statistique Appliquée à la Gestion

Année : 2 Heures : 60

Prérequis et articulation avec le cursus


Pour pouvoir aborder et suivre ce cours, l'étudiant doit être capable de :
• Utiliser correctement les opérations algébriques de base (additions de fractions, puissances,
manipulation d’exponentielles et de logarithmes…)
• Utiliser correctement une calculatrice scientifique
• Résoudre des équations du premier et du second degré à une inconnue
• Résoudre des systèmes linéaires de deux équations à deux inconnues
• Représenter graphiquement une fonction linéaire (du type f(x)=ax+b, où a et b sont des
constantes, et dont le graphe est une droite)
• Comprendre la signification de chaque paramètre intervenant dans l'équation d'une droite (donc
les paramètres a et b mentionnés au point précédent) ou dans une fonction linéaire
• Dériver et intégrer des fonctions élémentaires (exponentielle, logarithme, polynomes,
puissances)

Compétences de formation développées / axes de formation :


• Mesurer la complexité, synthétiser et exploiter les savoirs collectés avec la rigueur
scientifique requise
• Recueillir, analyser, confronter et interpréter des données pertinentes pour résoudre des
problématiques liées à des situations nouvelles ou inconnues dans des contextes élargis ou
pluridisciplinaires
(axe : se documenter et analyser de manière critique)

Organisation des séances de cours


Les séances de cours d’Les séances de cours seront divisées en deux groupes : les cours magistraux
(environ 50%) et les séances d’exercice (environ 50%). Les étudiants sont tenus d’arriver à l’heure ; un
étudiant en retard doit attendre l’heure suivante pour entrer dans la salle de cours. Le silence est exigé
en classe, et les téléphones doivent être éteints. Les ordinateurs portables sont tolérés à condition d’être
utilisés exclusivement pour des raisons directement liées au cours (prise de notes, lecture du syllabus,
etc.) ; il est donc interdit de consulter des sites internet ou d’autres documents n’ayant aucun rapport
avec le cours pendant celui-ci.

Trois documents importants sont disponibles sur iCampus :


1. un syllabus théorique reprenant le contenu cours ; ce syllabus doit être complété avec les notes
prises au cours par les étudiants ; les étudiants ayant manqué des cours doivent donc se rattraper
à l’aide des notes d’étudiants ayant assisté à ces cours ;
2. un syllabus d’exercices ;

4
3. un recueil de tables statistiques.
Les étudiants sont tenus de se munir de ces documents pour les séances de cours.

Outre ces documents, des notes manuscrites et fichiers Excel seront progressivement rendus disponibles.

Modalités et critères d’évaluation :


La matière d’examen correspond à tout ce qui a été couvert au cours, noté au tableau ou pas.
L’évaluation prendra la forme d’un examen écrit composé des éléments suivants :
1. un ensemble de questions de type QCM, portant sur des points de théorie, pour environ 35% du
total de l’examen (ces questions pourront être posées par ordinateur, via le système
Icampus/Moodle);
2. un ensemble d’exercices similaires à ceux qui ont été faits au cours (c’est-à-dire des exercices où
la méthode à appliquer est la même, mais dans des contextes et avec des paramètres différents),
pour environ 40% du total de l’examen ;
3. un travail d’analyse statistique pour ±25% du total de l’examen, à réaliser selon des modalités
qui suivront (groupe vs individuel, pendant l’année ou pour la date de l’examen écrit…)

A coté de cet examen écrit, un travail sera également proposé.

La durée de l’examen sera indiquée sur les feuilles ; elle ne correspond pas à la durée de réservation de
la salle dans laquelle l’examen se déroule.

Le matériel autorisé le jour de l’examen est le suivant, à l’exclusion de quoi que ce soit d’autres :
1. une carte d’étudiant ou une carte d’identité ;
2. de quoi écrire (mais pas de trousse) ;
3. une calculatrice (l’utilisation de la calculatrice des téléphones est bien entendu interdite), ainsi
qu’une pile de rechange ou une deuxième calculatrice de rechange (le prêt de calculatrice entre
étudiants est interdit) ; la mémoire des calculatrices programmables sera effacée par un
surveillant au début de l’examen;
4. une collation raisonnable.

Les couvre-chefs sont interdits le jour de l’examen, y compris les casques antibruit.
Il en va de même pour les écouteurs et les bouchons anti-bruit.

Support(s) de cours et bibliographie :


Pour suivre le cours l’étudiant doit être muni d’une calculatrice, du syllabus et de ses notes de cours.
Références recommandées :
• Statistiques pour l’économie et la gestion, Anderson, Sweeney, Williams, Camm, Cochran,
De Boeck Supérieur. 5e édition (traduction de la 7è édition).
• D. Wackerly, W. Mendenhall et R. Scheaffer, Mathematical statistics with applications,
Thomson, 2008 ;

5
Chapitre 1: Introduction – données et
statistiques

1.1 Qu’est-ce que la statistique ?


Fréquemment, on lit dans les journaux et les magazines des phrases comme :
• Le prix médian d’une maison individuelle dans la région XX s’élève à 190000 euros
• 14,1% des directeurs généraux des sociétés appartenant au classement Fortune 500 sont des
femmes (The Wall Street Journal, 30 avril 2012)
• Le découvert moyen des cartes de crédit est de 5204 dollars par personne (site de PRWeb, avril
2012)
• Le pourcentage de travailleurs américains dormant moins de six heures par nuit est de 30% (The
Wall Street Journal, 4 aout 2012)
• …

Les chiffres qui sont présents dans les phrases ci-dessous (190000 euros, 14,1% etc) sont appelés
statistiques. Dans le langage courant, le terme « statistique » recouvre les données chiffrées telles que
les moyennes, les médianes, les pourcentages et les valeurs maximales qui nous aident à comprendre par
exemple l’environnement économique.

Cependant, le contenu des statistiques inclut beaucoup plus que les chiffres ; de manière générale, on
peut définir la statistique comme l’art et la science de collecter, analyser, présenter et interpréter
des données.

La statistique a envahi de nombreux domaines : la science, l'économie, la politique, la pédagogie, la


psychologie, la médecine, les assurances, les sciences sociales, etc. Ceci est dû au fait que le monde qui
nous entoure est rempli d’incertitudes. Pour mieux le comprendre et gérer ces incertitudes, de
nombreuses données sont collectées. La statistique vise notamment à départager l’information du
« bruit » qu’on y retrouve.

A titre d’exemple, supposons que nous souhaitions étudier la population belge sous toutes ses coutures,
et que nous tentions de déterminer quel est la taille moyenne des Belges de plus de 18 ans. Pour ce faire,
il vient intuitivement à l’esprit deux méthodes, à savoir :
• le recensement, qui consiste à interroger chacun des N Belges sans exception aucune et à enregistrer
leur taille ;
• l’échantillonnage, qui consiste à prélever au hasard au sein de la population totale un échantillon de
taille n < N (par exemple 5000 personnes) puis à calculer la moyenne des tailles des individus
sélectionnés ; la moyenne calculée sur cet échantillon sera alors considérée comme un indicateur,
une approximation de la moyenne de la population totale.

Recenser représente une opération lourde, fastidieuse, lente, coûteuse et souvent de précision illusoire.
En effet, au fur et à mesure de la progression des opérations de recensement, la population change,

6
puisqu’elle se modifie par les naissances et par les décès. Des lors, nous n’obtiendrons qu’un résultat
approximatif et coûteux.

Échantillonner présente au contraire les avantages du contrôle de l’économie de la méthode et de


l’exactitude de la mesure de la moyenne de l’âge sur l’échantillon, mais présente le désavantage de
l’imprécision de l’extrapolation à la population totale de la Belgique de l’analyse effectuée sur
l’échantillon. Cela soulève déjà la question de la représentativité de l’échantillon choisi.

1.2 Quelques applications de la statistique :


• En comptabilité, les experts comptables utilisent des procédures d’échantillonnage statistique
lorsqu’ils effectuent des audits pour le compte de leurs clients. Par exemple, supposons qu’une
entreprise de comptabilité veuille déterminer si le montant du compte « fournisseurs » qui apparait
dans le bilan correspond bien au montant réel. Généralement, le nombre de fournisseurs est tellement
grand que ré-examiner et valider chaque compte individuellement serait trop long et trop couteux.
Dans de telles situations, il est courant que l’expert-comptable sélectionne un sous-ensemble de
comptes, appelé échantillon. Après avoir examiné les comptes de l’échantillon, l’expert-comptable
conclut si le montant du compte « fournisseurs » inscrit dans le bilan est acceptable ou pas.
• En finance, les analystes financiers utilisent des informations statistiques diverses pour orienter leurs
recommandations en matière d’investissement. Dans le cas de titres boursiers, on peut examiner un
certain nombre de données financières, telles le rendement en dividende. En comparant l’information
d’un titre avec la moyenne des titres du marché, l’analyste financier peut savoir si le titre est un bon
investissement.
• En marketing : les scanners des caisses enregistreuses dans les commerces collectent des données
utilisées dans de nombreuses applications de recherche en marketing. Certaines sociétés achètent les
données recueillies par les scanners de supermarchés, les exploitent et vendent ensuite les
conclusions statistiques aux fabricants. Les fabricants dépensent des centaines de milliers de dollars
ou d’euros par catégorie de produit pour obtenir ce type de données scannées ou les conclusions
statistiques relatives aux activités promotionnelles par exemples (offres spéciales dans les magasins
etc). Ce type d’analyses se révèle souvent utile pour établir les futures stratégies commerciales des
produits concernés.
• Les économistes fournissent fréquemment des précisions à propos de certains faits économiques
futurs. Ils utilisent de nombreuses informations statistiques pour effectuer ces prévisions. Par
exemple, pour prévoir le taux d’inflation, ils utilisent des indicateurs tels que l’indice des prix à la
production, le taux de chômage, et le taux d’utilisation des capacités de production. Souvent ces
indicateurs statistiques sont intégrés à des modèles de prévisions qui prévoient le taux d’inflation.
De manière générale, les économistes observent différents indices de santé économique sur une
période de temps donnée et utilisent cette information pour prédire l’évolution future de l’économie.
• Les systèmes d’information (systèmes IT) : les administrateurs de ces systèmes sont responsables
au jour le jour du fonctionnement des réseaux informatique d’une entreprise. Une grande quantité
d’information statistique permet aux administrateurs réseau d’évaluer la performance des outils
informatiques, des réseaux locaux ou à distance, de l’intranet et des autres moyens de
communications. Des statistiques telles que le nombre moyen d’utilisateurs du système, la durée
durant laquelle chaque composant du système n’est pas utilisé et la part de la bande passante utilisée
à différents moments de la journée sont des exemples d’informations statistiques qui aident
l’administrateur IT à mieux comprendre et gérer le réseau informatique.
• Journalisme : les sondages sont élaborés pour estimer les tendances électives, prévoir les résultats
des élections ;
• En médecine et pharmacie, les chercheurs mènent des expériences pour détermine l’effet des
médicaments et de certains environnements sur l’homme, dans le but de découvrir comment traiter
différentes maladies ;

7
• En gestion de la production, de nombreux graphiques de contrôle de la qualité sont utilisés pour
vérifier les caractéristiques du produit fini dans un processus de production. En particulier, un
diagramme en barres peut être utilisé pour contrôler la production moyenne. Supposons par exemple
qu’une machine remplisse des canettes de 33 cl d’une boisson de type soda. Périodiquement, un
agent de production sélectionne un échantillon de canettes et calcule la quantité moyenne contenue
dans les canettes de l’échantillon. En fonction de la réglementation, des limites supérieures et
inférieures ne peuvent pas être dépassées par les différentes canettes de l’échantillon. Le processus
de production est dit « sous contrôle » lorsque les données de l’échantillon seront toujours comprises
entre ces limites supérieure et inférieure.
Autre exemple en production : les appareils électroniques lancés sur le marché sont échantillonnés
et testés pour déterminer s’ils peuvent effectivement être envoyés aux clients ou s’il est nécessaire
de conserver le lot ;
• En assurance : Les compagnies d’assurance observent au cours des années précédentes le nombre
de sinistres et leurs montants sur les différents contrats d’assurance souscrits par leurs clients, et
tentent d’en tenir compte afin de déterminer le niveau de prime qu’un nouveau client devrait payer
étant donné son profil de risque, ses caractéristiques (ex : l’âge de l’assuré en assurance automobile).
Ces informations servent également à ajuster au cours du temps les primes des clients existant : les
« bons » clients verront leur prime diminuer et les « mauvais » leur prime augmenter en assurance
RC auto par exemple… Les statistiques ont donc un rôle central en assurance.

Avec l’avènement des nouvelles technologies, les sources de données sont de plus en plus nombreuses
et complexes. Depuis des siècles cependant, l'homme a souvent tenu une comptabilité des personnes et
des choses avec l'espoir d'utiliser les données du passé pour la résolution des problèmes du présent et la
prévision des événements futurs. Cependant, ce n'est qu'à la fin du XIXe siècle que se sont développées
des méthodes statistiques rigoureuses, permettant en particulier une bonne interprétation des données
recueillies.

Les sociétés modernes sont submergées de statistiques, et il serait difficile de bien fonctionner sans elles.
Il nous faut des résumés quantitatifs – donc, des statistiques – pour comprendre le monde et prendre des
décisions éclairées.

Presque tous les problèmes d’ordre social et de gestion sont « quantifiés » par le biais de statistiques et
tant les fonctionnaires de l’administration que les collaborateurs du secteur privé conseillant les
décideurs – en particulier dans le domaine de l’assurance – doivent être capables de comprendre une
étude statistique et d’en interpréter les résultats.

1.3 Définition formelle de la statistique


On pourrait résumer la statistique comme la science qui collecte, analyse et interprète des observations
relatives à un même phénomène ; elle étudie méthodiquement un ensemble de données numériques, ce
qui permet de faire un état de la situation présente et passée, de présenter ces données d'une manière
intelligible et synthétique, et surtout de servir de base à la prévision.

Il en résulte qu’une étude statistique se découpera généralement en trois phases :

• La collecte des informations est la phase préparatoire et probablement la plus délicate : elle
consiste à définir la population étudiée, choisir le caractère étudié, vérifier si l’échantillon choisi
est représentatif de la population. C’est de la qualité de cette collecte que dépendra la validité des
résultats trouvés.

8
• L’analyse des informations recueillies consiste à déterminer un certain nombre de
caractéristiques mathématiques/statistiques relatives à la série statistique étudiée.
• L’interprétation des résultats obtenus lors de l’analyse permet au statisticien de tirer un certain
nombre de conclusions et de suggérer les décisions à prendre.

La statistique est composée de 2 disciplines : la statistique descriptive et la statistique inférentielle

La statistique descriptive désigne l’ensemble des méthodes qui permettent de représenter les données
sous une certaine forme et de les résumer à l’aide de valeurs caractéristiques, afin de rendre ces données
immédiatement exploitables et compréhensibles.

La statistique inférentielle :
De nombreuses situations requièrent des données relatives à un vaste ensemble d’éléments (individus de
la population belge, électeurs, ménages, produits, clients, etc). A cause de considérations telles les coûts
et le temps, les données ne peuvent être collectées qu’auprès d’une petite partie du groupe concerné. Le
groupe considéré dans son ensemble est désigné par le terme population (voir plus loin) et la petite partie
du groupe par le terme échantillon (voir plus loin).

Formellement, la statistique inférentielle désigne l’ensemble des méthodes qui permettent d’étendre à
une population les propriétés d’un échantillon sélectionné au sein de celle-ci, et de valider ou d’infirmer
des hypothèses formulées a priori à son propos. Elle permet donc de prédire, avec un certain risque
d’erreur, les paramètres inconnus de la population à partir des caractéristiques d’un échantillon extrait
de cette même population.

Exemple d’inférence statistique: La société Norris fabrique des ampoules. Dans le but d’accroitre la
durée de vie des ampoules, le groupe de recherche a mis au point un nouveau filament. Dans ce cas, la
population correspond à l’ensemble des ampoules produites avec le nouveau filament. Pour évaluer les
performances de ce nouveau filament, 200 nouvelles ampoules ont été fabriquées et testées. Les données
collectées à partir de cet échantillon indiquent le nombre d’heures d’éclairage obtenues avec chaque
ampoule avant que le filament ne grille.

107 54 66 62 74 92 75 65 81 83
78 90 96 66 68 85 83 74 73 73
73 65 62 116 85 78 90 81 62 70
66 78 75 86 72 67 68 91 77 63
68 71 79 65 73 88 62 75 79 70
66 71 64 96 77 87 72 76 79 63
97 70 86 88 80 77 89 62 83 81
94 101 76 89 60 80 67 83 94 89
76 84 68 64 68 103 71 94 93 77
77 78 72 81 87 84 92 66 63 82
79 88 74 79 78 88 71 71 61 72
63 43 77 71 84 93 89 68 59 64
94 62 61 78 89 63 74 85 65 84
66 59 74 85 75 69 82 61 62 85

9
59 61 82 79 72 68 70 84 62 67
75 67 65 99 77 76 96 73 71 92
98 79 65 77 58 88 74 83 92 59
68 61 82 59 51 89 77 72 81 64
57 98 98 86 69 81 70 63 65 58
76 71 86 92 45 75 102 76 65 73

Sur base de cet échantillon, les statisticiens vont estimer la valeur moyenne de la durée de vie d’une
ampoule de la population totale (moyenne population) en calculant ce qu’on appelle la moyenne
échantillon, obtenue en prenant simplement la moyenne arithmétique des 200 valeurs de ce tableau (on
prend la somme et on divise par 200 – voir plus loin). L’utilisation de cette moyenne échantillon pour
estimer la moyenne population est déjà un processus d’inférence statistique.

Quand les statisticiens utilisent un échantillon pour estimer une caractéristique de la population, ils
définissent également la qualité ou précision de l’estimation. Dans cet exemple, le statisticien doit
préciser que l’estimation (ponctuelle) de la durée de vie moyenne des ampoules de la population est de
76 heures, avec une marge d’erreur de plus ou moins 4 heures. Ainsi l’intervalle d’estimation de la durée
de vie moyenne de toutes les ampoules produites est compris entre 72 et 80 heures avec un certain degré
de confiance (par exemple 95% : cela voudra dire qu’avec une probabilité de 95%, la vraie moyenne est
contenue dans cet intervalle).

Tout ceci est un exemple d’inférence statistique : on étudie un échantillon pour en déduire les propriétés
de la population dans son ensemble, en précisant également la qualité ou la précision des estimations.

Tout ceci nous mène à une autre discipline importante des mathématiques, jouant un grand rôle dans
l’étude de la statistique : la théorie des probabilités, avec laquelle elle forme les sciences de l’aléatoire.
D’une part, les phénomènes observés et décrits par la statistique descriptive peuvent être représentés par
des modèles ou par des lois dont la définition repose sur des notions définies dans la théorie des
probabilités. D’autre part, les méthodes de la statistique inférentielle reposent sur des résultats issus de
cette théorie. Ces deux disciplines ne sont pas fondamentalement opposées (comme on le lit trop
souvent), mais se complètent l’une l’autre.

La statistique à l’époque des « big data »


Des milliards d’euros sont dépensés chaque année par les industries et les gouvernements de tous les
pays du monde pour collecter des données, que ce soit via des expériences, des sondages ou d’autres
procédures. Ces montants gigantesques sont dépensés dans l’unique but d’obtenir des informations à
propos des phénomènes mesurables dans tous les domaines (dans les sphères économiques, scientifiques,
etc.), et donc de mieux les comprendre.

Depuis les années 2000, ce fait est encore plus vrai : les ensembles de données disponibles se multiplient,
et avec eux les efforts déployés pour récolter celles-ci. Les décideurs, depuis les entrepreneurs de PME
jusqu’aux membres des gouvernements, font face à des quantités formidables d’informations, qu’il s’agit
de comprendre et d’utiliser.

Les contributions de la statistique sont donc plus que jamais cruciales, et ce à tous les niveaux de notre
société.

10
1.4 Vocabulaire : variables statistiques, données, observations, séries etc
Données : les données sont les faits et les chiffres qui sont collectés, analysés et résumés pour pouvoir
ensuite être interprétés. Toutes les données collectées dans une étude particulière forment l’ensemble
des données.

o Exemple : le tableau suivant présente un ensemble de données contenant des informations


relatives à 60 pays qui font partie de l’Organisation mondiale du commerce (OMC, organisation
qui encourage le libre-échange au niveau international et constitue une plateforme de résolution
des conflits commerciaux).

Déficit de
Perspective
Pays Statut OMC PIB par hbt balance Note Fitch
Fitch
commerciale
Arménie Membre 5,400 2,673,359 BB- Stable
Australie Membre 40,800 -33,304,157 AAA Stable
Autriche Membre 41,700 12,796,558 AAA Stable
Azerbaïdjan Observateur 5,400 -16,747,320 BBB- Positive
Bahreïn Membre 27,300 3,102,665 BBB Stable
Belgique Membre 37,600 -14,930,833 AA+ Negative
Brésil Membre 11,600 -29,796,166 BBB Stable
Bulgarie Membre 13,500 4,049,237 BBB- Positive
Canada Membre 40,300 -1,611,380 AAA Stable
Cap Vert Membre 4,000 874,459 B+ Stable
Chili Membre 16,100 -14,558,218 A+ Stable
Chine Membre 8,400 -156,705,311 A+ Stable
Colombie Membre 10,100 -1,561,199 BBB- Stable
Costa Rica Membre 11,500 5,807,509 BB+ Stable
Croatie Membre 18,300 8,108,103 BBB- Negative
Chypre Membre 29,100 6,623,337 BBB Negative
République
Membre 25,900 -10,749,467 A+ Positive
tchèque
Danemark Membre 40,200 -15,057,343 AAA Stable
Equateur Membre 8,300 1,993,819 B- Stable
Egypte Membre 6,500 28,486,933 BB Negative
Salvadore Membre 7,600 5,019,363 BB Stable
Estonie Membre 20,200 802,234 A+ Stable
France Membre 35,000 118,841,542 AAA Stable
Géorgie Membre 5,400 4,398,153 B+ Positive
Allemagne Membre 37,900 -213,367,685 AAA Stable
Hongrie Membre 19,600 -9,421,301 BBB- Negative
Islande Membre 38,000 -504,939 BB+ Stable
Irlande Membre 39,500 -59,093,323 BBB+ Negative

11
Israël Membre 31,000 6,722,291 A Stable
Italie Membre 30,100 33,568,668 A+ Negative
Japon Membre 34,300 31,675,424 AA Negative
Kazakhstan Observateur 13,000 -33,220,437 BBB Positive
Kenya Membre 1,700 9,174,198 B+ Stable
Lettonie Membre 15,400 2,448,053 BBB- Positive
Liban Observateur 15,600 13,715,550 B Stable
Lituanie Membre 18,700 3,359,641 BBB Positive
Malaisie Membre 15,600 -39,420,064 A- Stable
Mexique Membre 15,100 1,288,112 BBB Stable
Pérou Membre 10,000 -7,888,993 BBB Stable
Les Philippines Membre 4,100 15,667,209 BB+ Stable
Pologne Membre 20,100 19,552,976 A- Stable
Portugal Membre 23,200 21,060,508 BBB- Negative
Corée du Sud Membre 31,700 -37,509,141 A+ Stable
Roumanie Membre 12,300 13,323,709 BBB- Stable
Russie Observateur 16,700 -151,400,000 BBB Positive
Rwanda Membre 1,300 939,222 B Stable
Serbie Observateur 10,700 8,275,693 BB- Stable
Les Seychelles Observateur 24,700 666,026 B Stable
Singapour Membre 59,900 -27,110,421 AAA Stable
Slovaquie Membre 23,400 -2,110,626 A+ Stable
Slovénie Membre 29,100 2,310,617 AA- Negative
Afrique du Sud Membre 11,000 3,321,801 BBB+ Stable
Suède Membre 40,600 -10,903,251 AAA Stable
Suisse Membre 43,400 -27,197,873 AAA Stable
Thaïlande Membre 9,700 2,049,669 BBB Stable
Turquie Membre 14,600 71,612,947 BB+ Positive
Royaume-Uni Membre 35,900 162,316,831 AAA Negative
Uruguay Membre 15,400 2,662,628 BB Positive
Etats-Unis Membre 48,100 784,438,559 AAA Stable
Zambie Membre 1,600 -1,805,198 B+ Stable

Autre exemple : Dans une compagnie d’assurance, les montants des sinistres enregistrés chaque année
pour les différents contrats d’assurance, mais aussi les caractéristiques des clients ou des risques assurés
de ces contrats, constituent des données statistiques.

Les éléments sont les entités auprès desquelles les données sont collectées.
o Dans l’exemple ci-dessus, chaque pays listé dans le tableau est un élément, dont le nom apparait
dans la première colonne. Puisqu’il y a 60 pays, l’ensemble des données contient 60 éléments.

Une variable (ou variable statistique) est une caractéristique des éléments à laquelle on s’intéresse.
12
o Par exemple, le tableau ci-dessus contient 5 variables :
• Le statut à l’OMC : le pays peut être membre ou observateur
• Le PIB par habitant (en USD) (PIB = production globale du pays divisée par le nombre
d’habitants, on utilise cette variable pour comparer la productivité économique des pays)
• Le déficit de la balance commerciale (en milliers de USD) : différence entre la valeur en USD
des importations et des exportations du pays
• La note Fitch : l’évaluation par l’agence de notation Fitch de la dette souveraine du pays.
• Les perspectives Fitch : indicateur de la tendance vers laquelle la note pourrait tendre dans
les 2 ans à venir (suivant les analystes de Fitch)

L’ensemble des informations obtenues pour un élément particulier correspond à une observation.

o Dans notre exemple, la première observation contient l’ensemble des informations suivantes :
Membre, 5400, 2,673,359, BB-, Stable (ces 5 valeurs correspondent donc à 1 observation). Un
ensemble de données de 60 éléments contiendra donc 60 observations.

Une série statistique est un ensemble de valeurs collectées portées sur une liste commune.
o Par exemple, l’ensemble des 60 observations contenues dans le tableau précédent.
o Autre exemple : la taille en cm des élèves d'une classe (comprenant ici 10 élèves) :
162 176 164 178 174 180 187 149 155 144
o Autre exemple : le nombre de voix obtenues par l'ensemble des personnes sur une liste électorale,
le nombre de décès par jour sur une période donnée etc.

Une série statistique est dite univariée si elle ne correspond qu’aux observations d’une seule variable.
Elle est multivariée si plusieurs variables sont observées. Une série est bivariée si elle correspond à
l’observation de deux variables. Exemples :…

On distingue deux types de variables (donnant lieu à 2 types de séries): qualitative et quantitative.

• Une variable statistique est qualitative si elle décrit des qualités, càd des valeurs qui ne peuvent
pas s’additionner, qui ne s’exprime pas comme la mesure de quelque chose.
o Dans notre exemple, le statut à l’OMC est une variable qualitative. Autres exemples : la
couleur des yeux, la marque d'une voiture, l'activité professionnelle, la nationalité etc.

• Une variable est quantitative décrit des quantités, que l’on peut additionner entre elles,
soustraire, multiplier etc.
o Dans notre exemple, le PIB par habitant est quantitative, de même que la balance
commerciale. Autres exemples : l'âge de personnes, leur poids, leur revenu annuel, l’âge
au moment du décès, le montant d’un sinistre d’un portefeuille d’assurance RC auto, la
température d’un malade, le résultat obtenu dans le lancer d’un dé etc.

Une variable quantitative peut elle-même être discrète ou continue.

• Une variable quantitative discrète peut être représentée par un nombre fini ou infini
dénombrable de valeurs.

13
o Ce sera, par exemple, le nombre d’enfants par famille, le nombre d’hospitalisations par
patient, le résultat obtenu lors du lancer d’un dé, le nombre de pétales dans une fleur, etc.
Notre exemple n’en comporte en fait pas, sauf si on décide de travailler par exemple avec
des nombres entiers, ou avec des nombres avec maximum 2 chiffres derrière la virgule.

• Une variable quantitative continue peut prendre toutes les valeurs possibles dans un intervalle
donné [a, b] de la droite réelle (càd un ensemble infini non dénombrable de valeurs).
o Par exemple, le poids, la taille, l’âge, la concentration en ozone ou en calcium, la
température d’un malade sont des variables qualitatives continues (sauf si on décide de
ne travailler par exemple qu’avec un nombre spécifique de chiffres derrière la virgule,
par exemple seulement 2). Pour le poids, toutes les valeurs possibles entre 0 et (disons)
350 sont admissibles. On dit qu’on a un « continuum » de valeurs possibles.

Une population est un ensemble soumis à une étude statistique. Plus précisément, la grande collection
d’objets, d’individus, d’éléments, etc. sur laquelle se porte notre intérêt est appelée la population. Elle
peut être réelle et finie (par exemple l’ensemble des Belges de plus de 18 ans, ou l’ensemble des pays
de l’OMC) ou infinie et virtuelle (par exemple, toutes les pièces d’un certain type qui seront produites
par une usine donnée dans le futur). Ce processus est illustré à la figure ci-dessous. Les éléments de
celle-ci sont parfois appelés unités de population.

o Autres exemples de population : l’ensemble de tous les assurés de plus de 50 ans d’une
compagnie d’assurance, l’ensemble des hommes belges ayant exercé la profession d’enseignant
dans une haute école ou à l’université, l’ensemble des femmes belges habitant en Wallonie,
l’ensemble de tous les restaurants d’une chaine…

Un échantillon est un sous-ensemble de la population (c’est cet échantillon qui servira à l’étude
statistique).
o Par exemple, on sélectionne 15 restaurants parmi tous ceux de la chaine. On sélectionne un panel
de 2000 belges en âge de voter pour effectuer un sondage.

Quelle que soit la nature de la variable il faut toujours s'assurer qu'elle est définie pour chaque individu
sans ambiguïté : pour chaque individu et chaque variable il doit y avoir une et une seule valeur.

14
Une statistique est une quantité calculée à partir des valeurs d’un échantillon. Par exemple, la
consommation moyenne de lait des ménages belges est une statistique calculée à partir d’un échantillon
de ménages belges prélevé au hasard au sein de la population belge totale.

1.5 La collecte des données


Les enquêtes par sondage ont été développées à partir des années 1930 avec l’américain Gallup,
fondateur de l’institut qui porte son nom. La technique du sondage s’applique aux sciences sociales et
politiques, mais aussi dans le domaine de l’économie et de la gestion.

Le sondage consiste à estimer la proportion d’une population dotée d’un certain caractère en mesurant
cette proportion sur une partie seulement de la population, que l’on appelle l’échantillon.

Le choix d’un échantillon n’est pas simple. Il faut décider de sa taille (le nombre d’individus) et du choix
des individus. Afin que le sondage soit utile, il faut que la valeur estimée de la variable statistique à
l’aide du sondage (relative à l’échantillon, donc) soit « suffisamment proche » de la « vraie » valeur,
inconnue (c’est justement celle que l’on cherche en faisant le sondage) de la population totale.
L’échantillon doit être assez petit pour que le sondage soit concrètement réalisable et économiquement
viable, mais pas trop petit, car il faut qu’il puisse vraiment représenter la population par rapport au
caractère statistique étudié.

Un exemple extrême : supposons que l’on veuille étudier la proportion de femmes parmi les clients
d’un magasin. Si l’on cherche à estimer cette proportion en considérant un échantillon composé d’un
seul individu, il sera constitué soit de 100% d’hommes, soit de 100% de femmes. On arrive alors à une
estimation très loin de la vraie valeur (qui n’est pas connue, mais que l’on sait différente de 100% de
clients du même sexe). Combien de clients faut-il donc prendre pour avoir un bon échantillon ?

Le choix de l’échantillon peut se faire à l’aide de deux techniques différentes : soit par la méthode des
quotas, soit par la méthode probabiliste, aussi appelée méthode aléatoire.

Selon la méthode des quotas, il faut que l’échantillon présente les mêmes proportions de certains
caractères de la population qu’il représente (on vise ici les caractères relevant pour le problème étudié…).
Par exemple, la même répartition par âge (dans le cas où la variable statistique qui nous intéresse est a
priori liée à l’âge).

Dans la méthode probabiliste ou aléatoire, le choix de l’échantillon se fait au hasard : on sélectionne


au hasard dans la population totale les éléments de l’échantillon. De cette façon, chaque membre de la
population a une chance égale de figurer dans l’échantillon.

Les avantages de la méthode des quotas sont l’économie, la rapidité et la souplesse d’utilisation,
notamment pour les enquêtes délicates. Les inconvénients dont les risques d’erreur systématique due à
la sélection dont les enquêteurs sont consciemment ou inconsciemment responsables. La méthode
probabiliste est moins souple et de coût plus élevé (notamment car il faut sélectionner davantage de
membres dans l’échantillon), mais le risque d’erreur peut être contrôlé et mesuré grâce à la théorie des
probabilités. Elle est par exemple davantage appliquée pour des sondages réalisés en entreprise (ou en
groupe d’individus réduit de manière générale). Un nouveau problème se pose cependant : celui de
pouvoir reproduire le hasard artificiellement.

15
On peut aussi combiner les avantages de la méthode probabiliste et de la méthode des quotas.

Quelle que soit la méthode choisie, souvent il faut redresser l’échantillon pour résoudre des problèmes
survenus lors du sondage proprement dit. Par exemple, si plusieurs personnes n’ont pas répondu à un
sondage par téléphone, il faut décider si l’effectif sera maintenu ou pas : il faut décider si des individus
devront être ajoutés à l’échantillon initialement prévu pour prendre la place de ceux qui n’ont pas
répondu.

Le nombre d'individus étant généralement grand, voire très grand, une série brute est difficilement lisible
et interprétable. Il est indispensable de la résumer.

Pour cela, on commence par un tri à plat, on fait un décompte des modalités ou valeurs obtenues de la
série, qui nous servira de base à la construction de tableaux et de graphiques.

Nous allons voir les choses de plus près sur des exemples dans les sections qui suivent.

16
Chapitre 2: Statistique descriptive :
présentation sous forme de tableaux et de
graphiques

Nous allons étudier comment établir des tableaux permettant de résumer l’information contenue dans
une série de données statistiques.
On s’intéressera d’abord aux données qualitatives, puis quantitatives discrètes et enfin quantitatives
continues.

2.1 Résumer des données qualitatives


2.1.1 Distribution de fréquence
Une distribution de fréquence est un résumé des données sous forme de tableau décrivant le nombre (la
fréquence, aussi appelée fréquence absolue) des observations.
Exemple 0 : Coca-Cola, Coca Light, Dr. Pepper, Pepsi et Sprite sont cinq boissons non alcoolisées
largement répandues et consommées à travers le monde. Supposons que les données présentées dans le
tableau suivant constituent un échantillon de 50 achats de boisson :
Marque achetée
Coca-Cola Coca-Cola Coca-Cola Sprite Coca-Cola
Coca Light Dr. Pepper Coca Light Dr. Pepper Coca Light
Pepsi Sprite Coca-Cola Pepsi Pepsi
Coca Light Coca-Cola Sprite Coca Light Pepsi
Coca-Cola Coca Light Pepsi Pepsi Pepsi
Coca-Cola Coca-Cola Coca-Cola Coca-Cola Pepsi
Dr. Pepper Coca-Cola Coca-Cola Coca-Cola Coca-Cola
Coca Light Sprite Coca-Cola Coca-Cola Dr. Pepper
Pepsi Coca-Cola Pepsi Pepsi Pepsi
Pepsi Coca Light Coca-Cola Dr. Pepper Sprite
Tableau 1: Données issues d’un échantillon de 50 achats de boisson non-alcoolisée

Pour développer une distribution de fréquence à partir de ces données, le nombre de fois où chaque
marque de boisson apparaît dans le tableau est comptabilisé.
Coca-Cola apparait 19 fois, Coca Light 8 fois, Dr. Pepper 5 fois etc.
On aboutit au tableau suivant, qui résume la répartition des 50 achats de boisson entre les cinq marques :
Boisson non-alcoolisée Fréquence (ou effectifs)
Coca-Cola 19
Coca Light 8
Dr. Pepper 5
Pepsi 13
Sprite 5
TOTAL 50

17
Tableau 2: Distribution de fréquence des achats de boisson non-alcoolisée. On parle aussi de « table des effectifs »

On voit déjà dans ce tableau que Cocal-Cola est le leader des ventes de boisson non-alcoolisée, Pepsi
arrive en deuxième position, Coca Light en troisième, Sprite et Dr. Pepper occupent la quatrième place
à égalité.
Cette distribution de fréquence résume les informations sur la popularité des cinq marques les plus
vendues.
Le nombre de fois qu’on a observé une valeur s’appelle donc la fréquence. Mais on parle aussi de
fréquence absolue ou d’effectif.
Les différentes valeurs observées s’appelles les modalités de la série.
Le tableau obtenu s’appelle aussi parfois la table des effectifs.

La première colonne de ce tableau contient donc les modalités de la série, et la seconde les fréquences
(ou fréquences absolues, ou encore effectifs) de chaque modalité.

La dernière ligne est écrite à titre de vérification, et contient l’effectif total de la série. Dans notre
exemple, l’effectif total est de 50.

2.1.2 Distribution de fréquence relative


La fréquence relative d’une modalité correspond à la proportion des observations correspondant à cette
modalité.
On peut aussi exprimer cette fréquence relative en pourcentage, en la multipliant par 100.
Exemple :

Boisson non-alcoolisée Fréquence relative Fréquence (relative) en


pourcentage
Coca-Cola 0,38 38
Coca Light 0,16 16
Dr. Pepper 0,10 10
Pepsi 0,26 26
Sprite 0,10 10
TOTAL 1 100

De ce tableau, on peut constater que la fréquence relative de Coca-Cola est de 19/50, càd 0,38.
Pour Coca Light, elle est de 8/50=0,16. Etc.

Les fréquences relatives sont donc obtenues comme les fréquences absolues divisées par le nombre
total d’observations, souvent noté N.

18
2.1.3 Tableau recensé
On peut aussi regrouper dans un même tableau les modalités (càd les valeurs observées, que l’on note
souvent 𝑥𝑖 ), les fréquences absolues (ou effectifs, notés 𝑛𝑖 ) et fréquences relatives (notées 𝑓𝑖 ). On obtient
alors un tableau recensé :

Boisson non-alcoolisée Fréquence (ou effectif) Fréquence relative


𝒙𝒊 𝒏𝒊 𝒇𝒊
Coca-Cola 19 0,38
Coca Light 8 0,16
Dr. Pepper 5 0,10
Pepsi 13 0,26
Sprite 5 0,10
TOTAL 50 1

2.1.4 Graphiques : diagrammes en barres et diagramme circulaire


Un diagramme en barres est un moyen graphique de décrire des données qualitatives résumées par une
distribution de fréquence absolue (effectifs), relative ou en pourcentage.
Sur l’un des axes du graphique (généralement l’axe horizontal), on note les noms des modalités. Sur
l’autre axe (généralement l’axe vertical), on note la fréquence absolue, relative ou en pourcentage.
Chaque modalité est représentée par une barre de largeur égale, et de hauteur égale à la fréquence
absolue, relative ou en pourcentage (selon le type de graphique).

Boisson non alcoolisée


20
18
16
Fréquence

14
12
10
8
6
4
2
0
Coca-Cola Coca Light Dr. Pepper Pepsi Sprite

Figure 1: Diagramme en barres des achats de boisson non-alcoolisées. Ici, ce sont les fréquences (absolues) qui sont représentées
sur l’axe y.

Le graphique a été effectué dans Excel, si on le fait à la main, on indiquera des graduations sur l’axe
vertical mais pas nécessairement des lignes horizontales sur l’entièreté du graphique comme ici (…).
Un diagramme circulaire est un autre type de graphique que l’on peut construire. Il permet de
représenter les distributions de fréquences relative et en pourcentage de données qualitatives. Pour
dessiner un tel diagramme, on commence par dessiner un cercle représentant l’ensemble des données.

19
Ensuite on se sert des fréquences relatives pour diviser le cercle en secteurs (ou en parts) qui
correspondent à la fréquence relative de chaque classe. Par exemple, puisqu’un cercle fait 360 degrés, si
Coca-Cola a une fréquence relative de 0,38, le secteur du diagramme circulaire correspondant à Coca-
Cola fait 0,38 × 360 = 136,8 degrés. Pour Coca Light : 0,16 × 360 = 57,6 degrés et ainsi de suite.

Achats de boisson non-alcoolisée

Sprite
10%

Coca-Cola
Pepsi 38%
26%

Dr.
Pepper
Coca Light
10%
16%

Figure 2: Diagramme circulaire des achats de boissons non-alcoolisées.

Ce diagramme est parfois aussi appelé diagramme en secteurs ou encore camenbert.


On peut varier les options de présentation de ce type de diagramme (choix des couleurs, utilisation de la
3D etc). En général utiliser des effets « 3D » n’apporte rien à la compréhension du graphique (voir
exemple ci-dessous).

2.2 Résumer des données quantitatives discrètes


On peut aller un peu plus loin dans le cas de données quantitatives.
2.2.1 Distribution de fréquence
Exemple 1 :
On suppose que dans un sac se trouvent 4 boules numérotées de 1 à 4.
On effectue 20 tirages successifs en remettant à chaque fois la boule tirée dans le sac. Voici les boules
tirées lors de ces 20 tirages:
1, 3, 2, 4, 3, 2, 2, 3, 4, 2, 1, 3, 1, 2, 4, 1, 3, 2, 2, 3.

On va commencer par ranger par ordre croissant les observations. La même série ordonnée s’écrit :
1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4.

Nous constatons que le caractère observé, c’est-à-dire, la boule tirée, prend des valeurs entre 1 et 4. Ce
sont les valeurs prises par la série ou modalités xi.

20
La différence entre les deux valeurs extrêmes (la plus grande et la plus petite) s'appelle l'étendue de la
série. Dans notre exemple : 4 – 1 = 3. On a donc x1 = 1 ; x2 =2 ; x3=3, x4=4. C’est un indicateur statistique
(de dispersion) sur lequel on reviendra plus tard.

Certaines valeurs xi reviennent plusieurs fois lors des 20 tirages: le nombre de fois que la valeur xi se
rencontre est nommé à nouveau fréquence, ou fréquence absolue, ou encore effectif de cette valeur.
On le note à nouveau ni.

L'ensemble des couples (xi, ni) aboutit à la distribution de fréquence, appelée aussi table des
effectifs, que l’on peut ranger dans un tableau :

Numéro de Fréquence
boule absolue
xi ni
1 4
2 7
3 6
4 3
Total 20

La première colonne de ce tableau contient donc les modalités de la série, et la seconde les effectifs (ou
fréquences absolues) de chaque modalité.

L'effectif total N est le nombre d'éléments de la population:


4

𝑁 = 𝑛1 + 𝑛2 + 𝑛3 + 𝑛4 = ∑ 𝑛𝑖
𝑖=1
Dans l’exemple présent : N = 4+7+6+3 = 20.

2.2.2 Distributions de fréquences relatives et pourcentages


La fréquence relative d’une modalité (ou d’une valeur observée) est définie comme pour les variables
qualitatives, càd comme le rapport entre sa fréquence (ou effectif) et l'effectif total.

Exemple : si l’on veut calculer la fréquence relative de la boule 2 :


𝑛2 7
𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑒 𝑑𝑒 𝑙𝑎 𝑏𝑜𝑢𝑙𝑒 2 = = 20 = 0,35 = 35%.
𝑁
Cela veut dire que 35% des tirages ont donné des boules numérotées avec le numéro 2.

De manière générale, on notera la fréquence relative d’une modalité 𝑥𝑖 par 𝑓𝑖 , et on a donc la définition:
𝑛
𝑓𝑖 = 𝑁𝑖 .
On peut indiquer également ces fréquences relatives en pourcentages, en les multipliant par 100.
En notant dans un tableau les modalités (càd les valeurs observées), les fréquences relatives et les
pourcentages, on tient un tableau de fréquence :
21
Fréquence
Fréquence (relative) en
Modalité relative pourcentage
(xi) (fi)
1 0,2 4
2 0,35 7
3 0,3 6
4 0,15 3
TOTAL 1 100

Question : Combien de fois a-t-on tiré des boules numérotées avec un numéro inférieur ou égal à 3 ? Il
s’agit donc des cas où la boule était numérotée avec 1, 2, ou 3. La réponse s’écrit :

𝑛1 + 𝑛2 + 𝑛3 = 4 + 7 + 6 = 17.
2.2.3 Effectifs (ou fréquence) cumulés et tableau recensé
Dans le cas de données quantitatives, cela a du sens de considérer également les effectifs cumulés, car
les modalités peuvent être rangées par ordre croissant.
L'effectif cumulé (ou la fréquence cumulée) d’une modalité est la somme des effectifs de toutes les
valeurs inférieures ou égales à cette valeur.
Par exemple, le nombre de fois qu’on a observé des valeurs inférieures ou égales à 1 est de 4, le nombre
de fois où on a observé des valeurs inférieures ou égales à 2 est de 4 + 7=11, etc.
On aboutit au tableau suivant (la table des effectifs cumulés).

Effectifs
Modalités cumulés
xi 𝑵𝒊
1 4
2 11
3 17
4 20

On remarque que le dernier effectif cumulé, càd celui correspondant à la plus grande modalité (ici,
correspondant à 4) est égal à l’effectif total (ici, 20).

On note en général l’effectif cumulé avec une lettre majuscule, mais un indice (pour indiquer de quelle
modalité il s’agit). Par exemple, si on note avec des minuscules 𝑛𝑖 les fréquences, on notera avec des
majuscules Ni les fréquences cumulées (ou effectifs cumulés).

22
De manière générale que l’effectif cumulé est défini comme:
𝑖

𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 = ∑ 𝑛𝑗
𝑗=1

𝑁𝑖 représente donc le nombre de fois que l'on rencontre une valeur inférieure ou égale à xi.

La fréquence relative cumulée de la valeur xi est le rapport de l'effectif cumulé à l'effectif total ; elle
est notée :
𝑁𝑖
𝐹𝑖 =
𝑁

𝑁3 17
Par exemple, on a : 𝐹3 = = 20 = 0,85, ce qui signifie que 85% des boules tirées étaient des boules
𝑁
numérotées 1, 2 ou 3.

Remarque : La convention de notation que l’on a adoptée ici est l’usage d’une minuscule pour les
fréquences absolues ou relatives non cumulées, et d’une majuscule pour les effectifs ou les fréquences
relatives cumulés. (en clair : non cumulé noté en minuscule, cumulé noté en majuscule).

Lorsque l’on met dans un même tableau les effectifs (ou fréquences), les effectifs cumulés, les
fréquences relatives, et les fréquences relatives cumulées, on obtient ce qu’on appelle un tableau
recensé.

Effectifs Fréquences
(ou fréquences, Effectifs Fréquences
relatives cumulées
Modalités ou fréquences absolues) cumulés relatives
(xi) (ni ) (Ni) (fi) (Fi)
1 4 4 0,2 0,2
2 7 11 0,35 0,55
3 6 17 0,3 0,85
4 3 20 0,15 1
Total 20 1

Un tableau recensé est le tableau obtenu en classant les valeurs de la variable (ou modalités) par ordre
croissant. De plus, il doit indiquer les effectifs (ou fréquences), les fréquences relatives, les effectifs
cumulés et les fréquences relatives cumulées de chaque valeur (ou de chaque classe).

On laisse parfois une ligne supplémentaire (comme dans le tableau ci-dessus), pour y noter les sommes
des valeurs de la colonne (ligne « Total »):
o Dans la colonne des effectifs (ou fréquences), le total correspond à l’effectif total (ici 20)
o Dans la colonne des effectifs cumulés (ou fréquences cumulées), la ligne correspondant à la
plus grande modalité est égale également à l’effectif total (20)
o Dans la colonne des fréquences relatives (et pas des fréquences cumulées !), le total donnera
toujours « 1 ».
o Dans la colonne des fréquences relatives cumulées, la ligne correspondant à la plus grande
moalité vaut toujours « 1 »

23
Indiquer le total (contenant donc les sommes de la colonne en question) peut donc être utile à titre de
vérification…

Attention : Il est possible qu’à cause des arrondis lors des calculs des fréquences relatives, la somme de
celles-ci ne soit pas égale à « 1 ». En fait elle sera toujours très proche de « 1 ». Si lors d’un
exercice/question d’examen, vous trouvez une valeur différente de « 1 », ajoutez une petite phrase pour
expliquer que vous n’avez pas « 1 » à cause des erreurs d’arrondis.

2.2.4 Graphiques : diagrammes en barres et diagramme circulaire


Les mêmes types de graphique vu dans le cas de variables qualitatives peuvent être effectués.
Dans le cas de notre exemple 1, cela donne :

8
7
Fréquence

6
5
4
3
2
1
0
1 2 3 4
Figure 3: Diagramme en barres dans le cas de l’exemple 1 (boules numérotées de 1 à 4)

4 1
15% 20%

3
30%
2
35%

Figure 4: Diagramme circulaire dans le cas de l’exemple 1 (boules numérotées de 1 à 4)

2.3 Résumer des données quantitatives discrètes – Regroupement en


classes
Lorsque l’on a affaire à des données quantitatives discrètes prenant beaucoup de valeurs différentes,
on procède généralement à un regroupement en classes avant de faire les tableaux et graphiques
résumant les données.

24
2.3.1 Regroupement en classes et distributions de fréquence absolue et relative
Exemple 2 :
48 élèves participent à un examen noté sur 40. L’ensemble des notes obtenues constitue une série
statistique quantitative discrète (car nombre fini de valeurs possibles : 0, 1, 2, …, 40).

Voici les différents résultats (les notes des 48 élèves):


24, 24, 14, 16, 24, 22, 19, 27, 8, 24, 23, 21, 22, 20, 16, 15, 20, 18, 23, 22, 22, 23, 31, 34,
19, 26, 36, 29, 19, 26, 28, 22, 20, 17, 13, 13, 21, 19, 31, 22, 33, 31, 24, 17, 30, 20, 22, 23.
Procédons comme dans l’exemple précédent et transformons ce tableau brut en un début de tableau
recensé. On voit déjà que 8 est la note minimale, et 39 la note maximale.

xi ni Ni xi ni Ni xi ni Ni
8 1 1 18 1 10 28 1 40
9 0 1 19 4 14 29 1 41
10 0 1 20 4 18 30 1 42
11 0 1 21 2 20 31 3 45
12 0 1 22 7 27 32 0 45
13 2 3 23 4 31 33 1 46
14 1 4 24 5 36 34 1 47
15 1 5 25 0 36 35 0 47
16 2 7 26 2 38 36 1 48
17 2 9 27 1 39

Ce tableau volumineux ne nous donne pas une idée très résumée de la distribution des données. Nous
allons plutôt les grouper en classes afin d’avoir une information plus synthétique (et donc plus
parlante).

Au lieu de travailler avec les notes en première colonne, on va y mettre les différentes classes. La 1re
colonne sera donc la liste des différentes classes avec leurs limites (supérieures et inférieures). Le
choix de cet intervalle dépend de l'étendue du tableau.
Créons par exemple des classes correspondant à des intervalles de cinq unités comme suit:

]7,5 ; 12,5], ]12,5 ; 17,5], ]17,5 ; 22,5], ]22,5 ; 27,5], ]27,5 ; 32,5], ]32,5; 37,5].

La 2e colonne de ce nouveau tableau précisera le centre de chaque classe : il s’agit de la moyenne


arithmétique des limites/bornes de la classe :

25
La 3e colonne : l’effectif (ou fréquence) de chaque classe (𝑛_𝑖) ;
La 4e colonne : la fréquence relative de chaque classe (fi ) ;
La 5e colonne : l’effectif cumulé de chaque classe (𝑁_𝑖) ;
La 6e colonne : la fréquence relative cumulée de chaque classe (𝐹𝑖 ).

On obtient alors le tableau suivant, plus synthétique que le précédent :

Classes 𝒄𝒊 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
]7,5 ; 12,5] 10 1 0.020833 1 0.020833
]12,5 ; 17,5] 15 8 0.166667 9 0.1875
]17,5 ; 22,5] 20 18 0.375 27 0.5625
]22,5 ; 27,5] 25 12 0.25 39 0.8125
]27,5 ; 32,5] 30 6 0.125 45 0.9375
]32,5 ; 37,5] 35 3 0.0625 48 1

Comment interpréter ce tableau ?


Prenons la ligne correspondant à la classe 3 : 17,5; 22,5.
L’effectif (ou la fréquence) de cette classe est n3=18. Cela veut dire que 18 étudiants ont eu des notes
comprises entre 17,5 (non compris) et 22,5 (compris).
La fréquence relative cumulée de cette classe est de 0,5625. Cela veut dire qu’environ 56% des élèves
ont eu une note inférieure ou égale à 22,5.
L’effectif cumulé de la classe 3 est de N3=27. L’effectif cumulé de la classe 2 vaut par contre N2=9.
Cela veut dire que, si l’on range les résultats des examens en ordre croissant, on peut dire que la
10ème cote appartenait déjà à la classe 3 : 17,5; 22,5. Donc si nous n’avons que ce tableau, nous ne
savons pas combien vaut exactement la valeur de la 10ème note, mais nous savons que cette valeur est
comprise entre 17,5 et 22,5.
Du 10ème au 27ème étudiant : les notes sont comprises dans la classe 3. Le 28ème étudiant a eu quant
à lui une note appartenant à la classe 4, donc située entre 22,5 et 27,5…

Remarques sur la construction des classes:


• Nombre de classes : les classes regroupent les observations en fonction de leurs
caractéristiques. En général, on recommande d’utiliser entre 5 et 20 classes. Lorsque le
nombre d’observations est relativement faible, 5 ou 6 classes suffisent généralement pour
répartir les données. Pour un nombre plus important d’observations, un nombre plus important
de classes est généralement nécessaire (de l’ordre de 10 ou 15). L’objectif est d’utiliser
suffisamment de classes pour souligner les divergences, ou différences qui existent entre les
données, sans toutefois obtenir un nombre excessif de classes qui se traduirait par le fait que
certaines d’entre elles ne seraient constituées que de quelques observations. Il ne faut pas
prendre trop de classes : le tableau aurait trop de lignes et il serait difficile d’y dégager des
informations utiles. Dans notre exemple (N=48), on a choisi seulement 6 classes (mais on
aurait pu en prendre 5…).

26
• Largeur des classes : la seconde étape dans la construction des classes est de déterminer leur
largeur. On recommande d’utiliser la même largeur pour toutes les classes (mais ce n’est pas
obligatoire). Ainsi, la largeur et le nombre de classes ne sont pas indépendantes mais sont
liées : plus le nombre de classes est faible, plus elles seront larges, et vice versa. Un moyen
simple pour identifier la largeur des classes est de considérer la plus petite et la plus grande
valeur observée dans l’ensemble des données. Une fois le nombre de classes spécifié, la
largeur approximative des classes est donnée par :

𝑣𝑎𝑙𝑒𝑢𝑟 𝑙𝑎 𝑝𝑙𝑢𝑠 𝑔𝑟𝑎𝑛𝑑𝑒−𝑣𝑎𝑙𝑒𝑢𝑟 𝑙𝑎 𝑝𝑙𝑢𝑠 𝑝𝑒𝑡𝑖𝑡𝑒


Largeur des classes =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠

36−8 28
Dans notre exemple cela donnerait, si on s : 6 = 6 = 4,66. On aboutit donc à une
longueur de classes entre 4 et 5… et on va l’arrondir à « 5 » (car cela donne des classes
assez parlantes).
• Les limites inférieures et supérieures des classes : elles sont choisies de sorte que toutes les
valeurs observées (toutes les modalités), appartiennent à une seule des classes (pas
d’ambiguïté, pas de double comptage par la suite). On a même précisé ici que les intervalles
correspondant aux classes sont fermés en leurs bornes supérieures, et ouverts en leurs bornes
inférieures. En général on prend les valeurs maximum et minimum mais ce n’est pas une règle
absolue.

Pour la suite du cours, on prendra en général des intervalles fermés en leurs bornes supérieures et
ouverts en leurs bornes inférieures, et on dira simplement « compris entre 17,5 et 22,5 ». On sous-
entend que le 17,5 n’est pas compris, mais que le 22,5 l’est (c’est un abus de langage).

Interprétation des fréquences cumulées dans ce tableau:


Dans ce tableau, il faut comprendre que la fréquence relative cumulée nous donne toujours la
fréquence relative observée d’obtenir une note inférieure ou égale à la borne supérieure de la classe
en question.

Par exemple, 0,5625 est la proportion d’observations menant à une note inférieure ou égale à 22,5.

C’est un peu comme si on avait attribué un « poids » de 0,5625 à l’intervalle [7,5 ; 22,5] (ou même à
l’intervalle [0 ; 22.5] , car il n’y a pas de note inférieure ou égale à 7,5)

Petit problème : quel est le nombre d’étudiants ayant eu des notes comprises entre 12,5 et 27,5 ?
On peut procéder de 2 manières un peu différentes :

Calcul par les effectifs (ou fréquences absolues) :


12,5 est la borne inférieure de la classe 2, et 27,5 est la borne supérieure de la classe 4. Les notes
comprises entre 12,5 et 27,5 correspondent donc aux notes dans les classes 2, 3 et 4. On doit donc
faire la somme des effectifs de ces classes 2, 3 et 4. Cela donne donc : n2 + n3 + n4 = 8 + 18 +12 =
38.
Attention : si l’on prenait la classe 1 (12,5 appartient à cette classe), on serait en train de compter
également tous les étudiants qui ont eu une note entre 7,5 et 12,5 , ce qui fait trop d’étudiants (on ne
veut pas ceux qui ont eu un 8 par exemple, car dans l’énoncé du problème, on cherche ceux ayant eu
une note entre 12,5 et 27,5…).
27
Calcul par les fréquences relatives cumulées (plus compliqué):
la fréquence relative cumulée donne la proportion du nombre de données inférieures ou égales à la
borne supérieure d’une classe.

Exemple : classe 2, fréquence relative cumulée F2= 0,187, donc 18,7 % des étudiants ont eu des cotes
comprises inférieures ou égales à 17,5.
Donc, pour répondre à la question « quel est le nombre d’étudiants (l’effectif) qui ont eu des cotes
comprises entre 12,5 et 27,5 ? », on soustrait la fréquence relative cumulée de la classe 4 (fréquence
d’observer des notes inférieures ou égales à 27,5), de celle de la classe 1 (elle ne nous intéresse pas).
Cela nous donne la proportion d’étudiants qui ont eu des notes appartenant aux classes 2, 3 ou 4 :
F4 – F1 = 0,8125 – 0,020833 = 0,791667
Donc 79,17% environ des étudiants ont eu des notes comprises entre 12,5 et 27,5.

Pour connaître le nombre d’étudiants ayant eu des notes entre 12,5 et 27,5, il suffit maintenant de
multiplier 0,7917 par l’effectif total (N = 48) :

0,7917 ∙ 48 ≅ 38.
On retrouve bien le 38 obtenu plus haut par la première méthode.
Remarques :
• Nous avons résolu le problème par les deux méthodes pour vérifier si nos résultats étaient
corrects. Si la méthode n’est pas précisée dans l’énoncé, vous pouvez choisir celle que vous
voulez.
• Pourquoi avons-nous soustrait la fréquence cumulée de la classe 1 et pas de la classe 2 ? Car
si l’on avait soustrait la fréquence cumulée de la classe 2, on n’aurait pas tenu compte du
pourcentage d’étudiants de la classe 2, càd ceux qui ont eu une note entre 12,5 et 17,5. On
aurait ainsi « oublié » certains étudiants.
• Le groupement en classes doit répondre à un certain nombre de critères qui relèvent surtout
du bon sens: le nombre de classes doit rester raisonnable sans quoi le groupement perd tout
son intérêt. Par contre, ce nombre ne peut pas être trop petit afin d’éviter de perdre les
spécificités de la série étudiée : la valeur de chaque caractère est remplacée par celle du centre
de la classe. Les résultats d’une étude statistique peuvent varier très fort suivant la façon dont
on a formé les classes.
• Dans certains cas spécifiques, le statisticien considérera des classes d’amplitudes différentes
(largeurs différentes). La méthode de travail ne change pas beaucoup, l’important est de
comprendre ce que l’on fait et de rester cohérent.
2.3.2 Graphiques dans le cas d’utilisation de classes : diagrammes en barres et diagramme
circulaire
Pour l’exemple 2 que l’on vient d’étudier, on peut faire à nouveau les mêmes graphiques que ceux
introduits précédemment :

28
Figure 5: Diagramme circulaire et diagramme en barres pour les notes des étudiants (exemple 2)

2.4 Résumer des variables quantitatives continues


2.4.1 Distribution de fréquence, de fréquence relative, en pourcentages, …
Le cas des variables quantitatives continues se traite toujours en utilisant un regroupement en
classes, exactement comme pour les variables quantitatives discrètes vues plus haut. On illustre cela
à partir de l’exemple 3 ci-dessous.

Exemple 3 : Hauteurs d’arbres


Lors de l’abattage des sapins (épicéas) pour les fêtes de fin d’année, les bûcherons mesurent la
hauteur des arbres afin de les classer pour la vente. Le caractère étudié est la hauteur des arbres. Ce
caractère est un caractère quantitatif continu, car a priori on peut observer n’importe quelle valeur
positive…

Il y a 400 observations. On décide de travailler avec des classes de longueur 5, et on commence avec
la classe ]159,5 ; 164,5] car cela correspond aux plus petites observations (remarque : on aurait pu
travailler avec des classes d’extrémités entières, et commencer avec [160 ; 165], càd une classe fermée
s’il y a une observation correspondant à 160…). On voit sur les données que cela nous donne 14
classes (donc un nombre de classes compris entre 5 et 20, comme recommandé plus haut).

On compte alors le nombre d’observations se situant dans chaque classe, pour obtenir les fréquences
(ou effectifs). On divise par l’effectif total, 400, pour obtenir les fréquences relatives, on indique
également les effectifs cumulés et les fréquences relatives cumulées… etc.
Exemple : le sapin qui mesure 176,3 cm appartient à l’intervalle ]174,5 ; 179,5] .

Voici le tableau recensé de 400 arbres dont la largeur des classes est de 5 cm.

Classes Centre ci ni fi Ni Fi
]159,5 ; 164,5] 162 5 0,0125 5 0,0125
]164,5 ; 169,5] 167 7 0,0175 12 0,03
]169,5 ; 174,5] 172 15 0,0375 27 0,0675
]174,5 ; 179,5] 177 25 0,0625 52 0,13
]179,5 ; 184,5] 182 37 0,0925 89 0,2225

29
]184,5 ; 189,5] 187 47 0,1175 136 0,34
]189,5 ; 194,5] 192 53 0,1325 189 0,4725
]194,5 ; 199,5] 197 57 0,1425 246 0,615
]199,5 ; 204,5] 202 49 0,1225 295 0,7375
]204,5 ; 209,5] 207 38 0,095 333 0,8325
]209,5 ; 214,5] 212 28 0,07 361 0,9025
]214,5 ; 219,5] 217 21 0,0525 382 0,955
]219,5 ; 224,5] 222 12 0,03 394 0,985
]224,5 ; 229,5] 227 6 0,015 400 1,00

De manière générale, dans le cas d’une variable quantitative continue, dresser un tableau recensé
sur base des valeurs observées sans regrouper en classes, comme dans l’exemple 1, n’aurait pas
beaucoup de sens, puisque beaucoup de valeurs observées se retrouveraient toutes seules et le tableau
n’apporterait pas beaucoup d’information. C’est pour cette raison qu’on regroupe toujours en
classes les valeurs prises par la variable, comme dans l’exemple 2 ci-dessus. La méthode de travail
est identique, et toutes les remarques énoncées plus haut (pour le cas de variables quantitatives
discrètes avec regroupement en classes) restent d’application.

On peut encore rappeler quelques règles qu’il est généralement bon de suivre (mais qui ne sont pas
universelles), déjà mentionnées plus haut:
• les intervalles ne doivent pas forcément être de la même longueur (surtout le premier et le
dernier), mais c’est plus facile à manipuler si c’est le cas ;
• l’union de ces intervalles doit couvrir l’étendue des valeurs de la variable.

2.4.2 Représentations graphiques


L’exemple 3 mène aux représentations graphiques suivantes :

Hauteurs d'arbres: fréquences (ou effectifs)


60
50
40
30
20
10
0

Figure 6: Distribution de fréquence pour l’exemple 3 (hauteurs d’arbres)

30
Figure 7: Diagramme circulaire pour l’exemple 3 (hauteurs d’arbres)

2.5 Histogrammes
Une autre représentation graphique courante des données quantitatives est l’histogramme.
Pour construire celui-ci, on reprend le tableau de la distribution de fréquence ou de fréquence relative:
les intervalles correspondent maintenant à des subdivisions de l’axe horizontal. Sur chacun de ces
intervalles, un rectangle est construit, dont la largeur est égale à la taille de l’intervalle et la hauteur
est égale respectivement à (3 types possibles d’histogrammes):

1. à l’effectif de cet intervalle (ou fréquence absolue, la somme des fréquences absolues
redonnant l’effectif total) ;
2. à la fréquence relative de données situées dans cet intervalle (la somme des fréquences
relatives étant égale à 1) ;
3. au rapport entre la fréquence relative et la largeur de l’intervalle (aussi appelé densité), de
telle sorte que la surface du rectangle soit égale à la fréquence relative, et que la somme des
surfaces des rectangles soit égale à 1 (car la somme des fréquences relatives vaut 1).

Chacun des cas considérés plus haut (1, 2, 3) correspond à un type d’histogramme : histogramme de
fréquence absolue, histogramme de fréquence relative, histogramme de densité.

Exemple 4 :
On considère une population de bébés dont on étudie le poids à la naissance [kg]. On suppose que les
valeurs obtenues sur une certaine population de bébés sont les suivantes :

Les 3 types d’histogrammes pour cet exemple sont les suivants :

31
Tableau 3: Tableau de l’histogramme de fréquence absolue pour les poids de bébés

Figure 8: graphe de l’histogramme de fréquence absolue pour les poids de bébés

Tableau 4: tableau de l’histogramme de fréquence relative pour les poids de bébés

32
Figure 9: graphe de l’histogramme de fréquence relative pour les poids de bébés

Tableau 5: tableau de l’histogramme de densité pour les poids de bébés.


La 3è colonne contient les rapports entre les fréquences relatives et
la longueur de l’intervalle correspondant.

Figure 10: graphe de l’histogramme de densité pour les poids de bébés

Insistons encore sur l’importance de choisir un nombre d’intervalles adapté à la taille de la


population considérée. Si ce nombre est trop petit (voir graphe ci-dessous), le « résumé» des données
est trop peu précis, et l’histogramme ne nous apprend pas grand-chose.

33
Figure 11: exemple d’histogramme construit sur un nombre trop faible d’intervalles
et n’apportant pas grand-chose

Si au contraire il est trop grand (voir graphe ci-dessous), la plupart des données se retrouvent seules
dans leur intervalle, et le graphe n’est pas plus utile que de regarder le tableau brut de nombres.

Figure 12: histogramme construit avec un nombre trop important d’intervalles


et n’apportant pas plus d’information que les données brutes initiales

Quelle que soit la taille de la population, on ne sélectionne en général pas moins de 5 et pas plus de
20 intervalles (environ). La plupart des logiciels statistiques (comme SAS, R, etc.) tracent
automatiquement des histogrammes qui suivent ces conseils généraux.

Remarques
• Un diagramme en barres et un histogramme de fréquence sont fondamentalement deux
choses identiques. Tous deux sont une représentation graphique des données exprimées sous
forme d’une distribution de fréquence. Un histogramme est simplement un diagramme en
barres sans séparation entre les rectangles. Pour certaines données quantitatives discrètes, une
séparation entre les rectangles est toutefois plus appropriée. Si on considère par exemple le
nombre de cours que suit un étudiant, les données ne peuvent être que des nombres entiers.
Des valeurs intermédiaires comme 12,7 ou 5,6 ne sont pas possibles. Par contre, avec des
données quantitatives continues, telles que les données sur la longueur des arbres (exemple
3), une séparation entre les rectangles n’est pas appropriée.

34
• Parfois on considère des classes « ouvertes », càd sans limite supérieure ou inférieure.
Exemple : on considère la durée du temps nécessaire pour effectuer les audits de fin d’année
des clients d’un cabinet d’experts-comptables :

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13

On aboutit au tableau de fréquence suivant :

Durée de l'audit
(jours) Fréquence
10-14 4
15-19 8
20-24 5
25-29 2
30-34 1
Total 20

On a choisi ici des classes couvrant bien toutes les valeurs possibles, mais avec des « trous »
entre les classes (il y a un trou entre l’intervalle [10,14] et [15,19]…) car toutes les valeurs
possibles sont entières. On aurait pu faire pareil avec l’exemple 2 (notes des 48 étudiants).

Supposons que l’on ait eu deux observations supplémentaires correspondant aux valeurs
observées 58 et 65, apparaissant comme « extrêmes » par rapport aux autres. Plutôt que de
continuer la liste des intervalles de 5 jours avec les classes 35-39, 40-44, etc., on peut
simplifier la distribution de fréquence en considérant une classe ouverte « 35 et plus ».

On arrive alors au tableau suivant :

Durée de l'audit
(jours) Fréquence
10-14 4
15-19 8
20-24 5
25-29 2
30-34 1
35 et plus 2
Total 22

35
Remarque* :
Dans un histogramme de densité, la somme des aires des rectangles est égale à 1. Ceci revient à dire
que l’aire qui est située sous la « courbe » formée des « côtés supérieurs » de ces rectangles
(l’intégrale) est égale à 1. On peut alors construire un autre type de graphe (voir figure ci-dessous):
• on considère une série de taille infinie ;
• on trace des histogrammes en divisant l’axe des données en des intervalles de plus en plus
petits ;
• les rectangles ont donc des largeurs de plus en plus petites, mais la somme de leurs aires est
toujours égale à 1 ;
• à la limite (quand on considère un nombre infini d’intervalles), on obtient ce qu’on appelle la
fonction de densité.

C’est un outil très important par lequel on caractérise des « familles » de populations qui se
comportent de manière similaire. La forme de la fonction de densité nous donne une information très
complète sur la manière dont la variable « se comporte aléatoirement », du type de comportement
aléatoire. Remarquons que l’intégrale de (ou l’aire sous) la fonction de densité est égale à 1.

Une distribution rencontrée souvent dans les applications est la distribution normale, ou « distribution
en cloche », correspondant à la « courbe de Gauss ».

On en reparlera dans le chapitre consacré aux probabilités.

Figure 13: de l’histogramme à la fonction de densité

36
2.6 Utiliser Excel pour construire une distribution de fréquence et faire des
graphiques
2.6.1 Distribution de Fréquence
Les étapes suivantes décrivent comment utiliser l’outil Excel « Pivot Tables » pour construire une
distribution de fréquence de l’exemple 0 (50 achats de boisson non alcoolisée).
On suppose que dans les cellules A1-A51 se trouvent les données, y compris le titre ‘marque achetée
(donc dans une colonne).

Etape 1 : Sélectionner une cellule de l’ensemble des données


Etape 2 : Cliquer sur Insert dans la barre des taches
Etape 3 : Dans Tables Group, choisir PivotTables ;
Etape 4 : Dans « Select a table or a range », sélectionner la plage de données, y compris le titre
« Marque achetée »
Etape 5 : Sélectionner « Existing worksheet » dans « Where do you want … » et indiquer la cellule
où la table va se trouver. Cliquer ensuite sur « OK »
Etape 6 : Dans la fenêtre qui apparaît « Pivot Table Field List », cocher « marque achetée »
Etape 7 : si l’on désire avoir une distribution de fréquence, il suffit de faire un « drag and drop » de
« marque achetée » dans le rectangle « ∑ 𝑣𝑎𝑙𝑢𝑒𝑠 » :

Etape 8 : Changer le titre de la cellule D3 en « Fréquence »

Si l’on désire compléter la table avec les fréquences relatives, on rajoute une colonne « Fréquence
relative » dans le tableau, que l’on complète en divisant simplement les cellules D4-D8 par la valeur
contenue dans D9 :

37
Pour cela, écrire « =D4/$D$9 » dans la cellule E4, et étirer la cellule vers le bas jusque dans E8.

2.6.2 Graphiques
Pour faire un diagramme en barres du type de celui montré dans le cadre de l’exemple 0 (boissons
non alcoolisées) :
Etape 1 : Sélectionner une cellule du tableau contenant les fréquences, obtenu par utilisation de l’outil
« Pivot Tables » d’Excel.
Etape 2 : Cliquer sur Insert dans la barre des tâches
Etape 3 : Dans Charts, cliquer sur le type de graphique désiré. On a choisi un graphique du type
« clustered column » :

Etape 4 : Une prévisualisation du graphique apparait :


38
On peut alors changer le titre du graphique en le titre que l’on souhaite avoir (cliquer sur la zone de
titre qui contient « Total » dans l’illustration, et insérer le titre qu’on veut, par exemple Achats de
boisson non-alcoolisée).

Une autre méthode consiste à utiliser l’outil « Pivot Chart » d’Excel, et de suivre exactement les
mêmes étapes que celles décrites pour construire la distribution de fréquences. A la sortie, ce qui
apparaitra sera un diagramme en barres avec la distribution de fréquence (absolue).

39
Chapitre 3: Statistique descriptive: Les
indicateurs statistiques

Dans le chapitre 2, on a discuté des méthodes graphiques et sous forme de tableaux permettant de
résumer des données. Dans ce chapitre, nous présentons plusieurs méthodes numériques de
statistiques descriptives qui permettent également de résumer des données. Par ailleurs, ces
indicateurs vont servir dans certains cas d’estimateurs de certains paramètres lorsque l’on fait de
l’inférence statistique.

Un indicateur (ou paramètre) statistique est un nombre qui donne des informations sur une série
statistique. Il s’agira donc ici – et dans les chapitres suivants – de définir, pour une série donnée, des
quantités mathématiques véhiculant de l’information à propos de cette série, et d’étudier leurs
propriétés.
On distingue plusieurs types d’indicateurs, qui répondent à des questions différentes:

• Où se situent les données ?


o Indicateurs de position (ou de tendance centrale) :
▪ moyenne (arithmétique);
▪ mode ;
▪ médiane ;
▪ quartiles ;

• Comment se répartissent les données ?


o Indicateurs de dispersion (ou de variabilité):
▪ étendue ;
▪ écart interquartile ;
▪ variance ;
▪ écart-type ;
▪ coefficient de variation ;

• Quelle forme prennent les données ?


o Indicateurs de forme :
▪ coefficient de dissymétrie ;
▪ coefficient d’aplatissement.

3.1 Indicateurs de tendance centrale (ou de position)


Les indicateurs de tendance centrale donnent une idée de « là où se situe la partie centrale des
données ». Ils donnent une idée de l'ordre de grandeur de la variable statistique étudiée.

40
3.1.1 La moyenne arithmétique
La moyenne arithmétique 𝑥̅ (couramment appelée moyenne par abus de langage) d’une série
statistique est la moyenne arithmétique de ses données.

Ci-dessous on reprend les exemples vus précédemment et on en calcule la moyenne.

Exemple 1 (boules numérotées de 1 à 4):

1+1+1+1+2+2+2+2+2+2+2+3+3+3+3+3+3+4+4+4
𝑥̅ = = 2,4
20
Donc on fait simplement la somme des valeurs observées, on et divise par le nombre d’observations.
On peut aussi utiliser la distribution des fréquences (ou table des effectifs) :
Numéro de Fréquence
boule absolue
xi ni
1 4
2 7
3 6
4 3
Total 20

La moyenne s’obtient alors en multipliant les modalités par le nombre de fois qu’on les a observées,
et en sommant ces produits, puis en divisant par le nombre d’observations :
1∙4+2∙7+3∙6+4∙3
𝑥̅ = = 2,4
20

De manière générale, on peut résumer la formule permettant de calculer la moyenne en :


𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁
𝑥̅ =
𝑁

où N est l’effectif total et où 𝑥1, 𝑥2 , … , 𝑥𝑁 désignent les différentes observations (pas nécessairement
distinctes).
On peut aussi utiliser la formule un peu plus rapide utilisant les fréquences :
𝑛1 𝑥1 + 𝑛2 𝑥2 + ⋯ + 𝑛𝑐 𝑥𝑐
𝑥̅ =
𝑁

où c est le nombre de modalités (càd de valeurs observées distinctes) et 𝑛𝑖 est la fréquence absolue
associée à la modalité 𝑥𝑖 .

Attention : dans la première formule, 𝑥𝑖 désigne une observation (les observations de notre exemple
sont 1, 3, 2, 4, 3, 2, 2, 3, 4, 2, 1, 3, 1, 2, 4, 1, 3, 2, 2, 3), alors que dans la seconde formule, il désigne
une modalité (ex : 1, 2, 3, 4 sont les 4 modalités différentes de notre exemple).

41
Exemple 2 : les notes de 48 étudiants
Les données étaient :
24, 24, 14, 16, 24, 22, 19, 27, 8, 24, 23, 21, 22, 20, 16, 15, 20, 18, 23, 22, 22, 23, 31, 34,
19, 26, 36, 29, 19, 26, 28, 22, 20, 17, 13, 13, 21, 19, 31, 22, 33, 31, 24, 17, 30, 20, 22, 23.

Si on prend la somme de toutes ces valeurs et qu’on divise par le nombre d’observations (48) cela
donne :
24 + 24 + 14 + 16 + 24 + 22 + ⋯ + 20 + 22 + 23 1073
= ≈ 22,35
48 48
Si on avait à disposition uniquement la distribution des fréquences à l’aide de classes, on aurait pu
calculer une moyenne basée sur les centres des classes. On repart alors du tableau avec regroupement
en classes :
Classes 𝒄𝒊 𝒏𝒊
]7,5 ; 12,5] 10 1
]12,5 ; 17,5] 15 8
]17,5 ; 22,5] 20 18
]22,5 ; 27,5] 25 12
]27,5 ; 32,5] 30 6
]32,5 ; 37,5] 35 3

et on calcule la moyenne comme pour l’exemple 1, en remplaçant les valeurs observées par les
centres des classes :
1 ∙ 10 + 8 ∙ 15 + 18 ∙ 20 + 12 ∙ 25 + 6 ∙ 30 + 3 ∙ 35
𝑥̅ = ≅ 22,40
48
On voit que dans notre exemple, on obtient une valeur légèrement différente par rapport à l’utilisation
de toutes les données. On privilégiera d’utiliser un maximum d’information disponibles en calculant
la moyenne, donc plutôt repartir plutôt de l’ensemble des données.

Remarque : Puisqu’elle est la somme des valeurs de la série, la moyenne s’exprime dans les mêmes
unités que la série elle-même. La moyenne d’un ensemble de prix libellés en € sera ainsi par exemple
elle-même exprimée en €.

Avantages de la moyenne:
La moyenne est le paramètre de position le plus utilisé parce qu’il est possible de la déterminer par
des calculs précis. Sa stabilité croît avec l’effectif total.

Inconvénient de la moyenne:
La moyenne peut être fortement influencée par les valeurs extrêmes et/ou aberrantes (parfois
anormales ou douteuses) ;
• Valeur aberrante : il s’agit d’une valeur observée qui contraste fort avec les autres valeurs
observées de la série, et qui s’y trouve par erreur.
42
• Valeur extrême : valeur observée qui contraste également fort avec les autres données, mais qui
ne s’y trouve pas par erreur.
Dans ce cas, la moyenne peut perdre toute signification. Il faut cependant éviter d’éliminer ces valeurs
trop systématiquement: ce serait modifier les données, donc perdre de l’information, peut-être
correcte. Sauf s’il s’agît d’une erreur de frappe, par exemple.

Exemple: les âges des étudiants du cours de statistique sont donnés par :

19 18 19 66
18 19 25 21
20 18 19 20
21 22 22 18
19 20 21 19

Parmi les étudiants, il y en a un de 66 ans. C’est une personne âgée qui a voulu suivre le cours
parce qu’elle a toujours aimé la statistique. Cette personne fait partie de la population (étudiants
de la classe de statistique). Mais il s’agit d’un cas très spécial. La présence de cet étudiant va tirer
(anormalement) la moyenne des âges des étudiants vers le haut. C’est une valeur extrême (mais
pas aberrante car correcte).

Concrètement :

Moyenne sans la valeur extrême : 19,89 ans

Moyenne avec la valeur extrême : 22,2 ans

• Robustesse d’un indicateur statistique : Un indicateur pouvant être affecté par des valeurs
aberrantes et/ou extrêmes est appelé indicateur (ou paramètre) non robuste. La robustesse d’un
indicateur est sa stabilité par rapport à des valeurs aberrantes et/ou extrêmes.

• Remarquons enfin que d’autres moyennes peuvent également être considérées :


• la moyenne géométrique :

• la moyenne harmonique :

• les moyennes pondérées :

Elles ne nous intéressent cependant pas directement ici, raison pour laquelle nous écrirons souvent
simplement « moyenne » (en anglais, mean ou average) pour désigner la moyenne arithmétique.

43
Exemple de moyenne pondérée : l’indice des prix. Un cas classique de moyenne pondérée est celui
du calcul des indices des prix, qui modélisent l’évolution dans le temps de la valeur d’un panier de
biens de consommation 𝑥1 , 𝑥2 , … , 𝑥𝑛 .
Considérons par exemple l’indice de Laspeyres, qui est utilisé par l’INSEE (Institut national de la
statistique et des études économiques) pour le calcul de l’inflation en France.
Soient 𝜋 𝑇 (𝑥𝑖 ) et 𝜅 𝑇 (𝑥𝑖 ) le prix et la quantité consommée du produit xi durant l’année T. L’indice de
prix de l’année T est alors égal à :

Le poids 𝑤𝑖 représente la « place » du produit 𝑥𝑖 dans le panier initial. L’indice I est donc la moyenne
des évolutions des biens, pondérée par leur importance dans le panier.

3.1.2 La médiane
La médiane est une autre mesure de tendance centrale pour une variable statistique, bien plus
résistante aux valeurs aberrantes que la moyenne.
Lorsque les données sont classées par ordre croissant (de la plus petite à la plus grande valeur), la
médiane correspond grosso modo à la valeur centrale, càd qui sépare les observations en deux groupes
de même taille :
• Lorsque le nombre d’observations est impair, la médiane correspond à la valeur centrale
o Exemple : 5 observations :
32, 42, 46, 46, 54.

On est en présence de 5 données (nombre impair). On voit que 46 est la valeur centrale
de cet ensemble de 5 données. C’est donc la médiane.

• Lorsque le nombre d’observations est pair, il n’y a pas une unique valeur centrale, mais
deux valeurs centrales. Dans ce cas, la convention généralement utilisée consiste à définir la
médiane comme la moyenne des valeurs des deux valeurs centrales.
o Exemple : salaires mensuels initiaux d’étudiants diplômés d’une école de commerce

3710, 3755, 3850, 3880, 3880, 3890, 3920, 3940, 3950, 4050, 4130, 4325

On a 12 observations (donc un nombre pair d’observations). Les deux valeurs


centrales sont la 6è et la 7e, càd 3890 et 3920. Si on prend la moyenne de ces deux
valeurs, cela donne :
3890 + 3920
𝑚é𝑑𝑖𝑎𝑛𝑒 = = 3905
2

Définition : La médiane est obtenue en classant d’abord les données par ordre croissant, puis :
Pour un nombre impair d’observations : la médiane est la valeur centrale
Pour un nombre pair d’observations : la médiane est la moyenne des deux valeurs centrales

Avantages de la médiane

44
La médiane est facile à déterminer.
Elle est par ailleurs peu influencée par les valeurs aberrantes ou extrêmes de la série. On dit donc
que la médiane est un paramètre robuste.

Exemple : Si l’on reprend l’exemple avec les âges de 20 étudiants d’une classe, la médiane calculée
en gardant tous les étudiants, on commence d’abord par classer les observations par ordre croissant :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
Nombre pair d’observations, donc deux valeurs centrales : la 10è et la 11e observations, càd 19 et 20.
Si l’on prend la moyenne de deux cela donne 19,5 ans (on parle d’âge médian).

Si maintenant on exclut la valeur extrême 66, on se retrouve avec :


18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25
Nombre impair d’observations (19 observations). La valeur centrale est la 10è, qui vaut 19 ans.
On voit que la différence entre la médiane avec ou sans valeur extrême est seulement de 0,5 ans, alors
que la différence entre les deux moyennes (avec ou sans valeur extrême) était de 22,2 – 19,89 = 2,31.

De manière générale, lorsqu’un ensemble de données contient des valeurs extrêmes dont on ne
veut pas tenir compte, la médiane est souvent une mesure préférable de la tendance centrale.

3.1.3 Le mode
Le mode d'une série statistique est la valeur de l’observation qui a la plus grande fréquence.

Dans le cas d’une série groupée en classes, on parle de classe modale, classe dont l'effectif est
supérieur ou égal à tout autre effectif de classes. Une série peut avoir plusieurs modes ou plusieurs
classes modales.

Lorsque la valeur observée le plus fréquemment est unique, on parle de distribution unimodale.Si les
données ont exactement 2 modes, on parle de distribution bimodale. Lorsque les données ont plus de
2 modes, on parle de distribution multimodale. Dans les cas multimodaux, le mode n’est presque
jamais utilisé car énumérer trois modes ou plus n’est pas particulièrement utile pour décrire les
données.

Figure 14: Distributions unimodale et bimodale

45
Exemples :
Le mode de l’exemple 1 est 2 : en effet, 2 comporte 7 observations, alors que les autres valeurs en ont
toujours moins de 7…

8
7
Fréquence

6
5
4
3
2
1
0
1 2 3 4
Figure 15: Diagramme en barres dans le cas de l’exemple 1 (boules numérotées de 1 à 4)

La classe modale de l’exemple 2 est la classe : ]17,5; 22,5].


La classe modale de l’exemple 3 est la classe de centre 197.

Avantage du mode:
Le mode est d’autant plus significatif qu’une valeur du caractère ou une classe domine nettement
toutes les autres.

Inconvénient du mode:
Le mode n’est pas susceptible d’une détermination par formule algébrique. Il n’est donc pas utilisable
lorsqu’on doit disposer d’expressions analytiques pour la suite des calculs.

3.1.4 Les quartiles


Les quartiles (notés Q1, Q2 et Q3, ou encore 𝑥0,25, 𝑥0.5 , 𝑥0,75 pour une série statistique notée
𝑥1 , 𝑥2, … , 𝑥𝑛 ) partagent la série en quatre groupes d'effectifs égaux.
Plus précisément, on commence par ranger par ordre croissant les observations, comme pour le calcul
de la médiane. Ensuite :
• Le premier quartile 𝑸𝟏 s’obtient en divisant le nombre total d’observations (l’effectif total)
par 4, et en prenant le premier entier qui suit ce nombre s’il n’est pas entier. Ce dernier nombre
est un entier (par exemple 5), et le premier quartile est l’observation dont l’ordre est égal à
cet entier.

o Exemple : les âges des étudiants d’une classe sont donnés par :

18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25

Il y a 19 observations. On divise alors 19 par 4 :


19
= 4,75.
4

46
Le plus petit entier qui suit 4,75 vaut 5. Le premier quartile 𝑄1 sera donc égal à la 5è
observation, càd 19. Donc 𝑄1 = 19.

• Le second quartile 𝑸𝟐 est par définition égal à la médiane

• Le troisième quartile 𝑸𝟑 s’obtient en considérant d’abord le nombre total d’observation


3
multiplié par 4, et en prenant l’entier qui suit ce nombre s’il n’est pas entier lui-même. Ce
dernier nombre est un entier (par exemple 15), et le troisième quartile est l’observation dont
l’ordre est égal à cet entier.

o Exemple : les âges des étudiants d’une classe sont donnés par :

18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25

Il y a 19 observations. On multiplie alors 19 par 3/4 :


3
19 × 4 = 14,25.
Le plus petit entier qui suit 14,25 vaut 15. Le 3è quartile 𝑄3 sera donc égal à la 15è
observation, càd 21. Donc 𝑄1 = 19.

Remarquons que le deuxième quartile se confond avec la médiane.

Rappelons qu’avec la médiane, on partageait la série en deux groupes d’effectifs égaux… Ici, on voit
que les quartiles partagent les données en quatre groupes d’effectifs (approximativement) égaux.

En effet, si on reprend l’exemple ci-dessus, on avait trouvé:

18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25

𝑄1 𝑄2 𝑄3

On a donc bien subdivision en 4 groupes d’effectifs égaux.

On peut aussi faire le lien avec les fréquences cumulées :


Le premier quartile est la plus petite valeur de x correspondant à une fréquence cumulée d’au
moins 0,25 (càd 25%, soit un quart de la série statistique).
Le troisième quartile est la plus petite valeur de x correspondant à une fréquence cumulée d’au
moins 0,75 (càd 75%, soit, trois quarts de la série statistique.

Remarque : les définitions de la médiane et des quartiles correspondent à une certaine convention
utilisée par un certain nombre d’auteurs. D’autres conventions existent, et mènent à des valeurs
légèrement différentes.
1
Exemple d’autre convention pour les quartiles : pour 𝑄1 , on considère 𝑗 = 𝑁 × , puis si ce nombre
4
𝑗 n’est pas entier, on prend le plus petit entier qui suit 𝑗, ce qui donne l’ordre des observations
correspondant au premier quartile. Mais si ce nombre 𝑗 est entier, on prendra la moyenne entre la 𝑗 è
et la (𝑗 + 1)è observation.
47
Conclusion : toujours bien faire attention à la convention utilisée lorsque vous utilisez un logiciel
pour calculer les quartiles et la médiane.

3.2 Indicateurs de dispersion (ou de variabilité)


Considérons les deux séries suivantes donnant les résultats pour une classe de 17 élèves lors de deux
contrôles notés sur 20.

Contrôle 1 : 5 6 6 8 8 8 12 12 12 12 14 14 16 16 18 18 19

Contrôle 2 : 8 9 10 10 11 11 12 12 12 12 12 13 14 14 14 15 15

Pour ces deux séries, le mode, la médiane et la moyenne valent 12.

Faut-il en conclure que les séries sont semblables ? L'examen de ces deux séries montre que les résultats du
second contrôle sont davantage resserrés autour de la moyenne que ceux du premier. On dit que la
dispersion des résultats est plus forte pour le premier contrôle que pour le second.

Graphiquement, c’est plus parlant :

Figure 16: diagramme en barres (fréquences absolues) pour les deux séries:
en bleu pour le contrôle 1 et en rouge pour le contrôle 2.

Il faut donc compléter les informations données par les indicateurs de position par des indicateurs de
dispersion qui indiqueront la façon dont la série prend des valeurs autour de ces valeurs centrales.

3.2.1 Étendue
Un premier indicateur de dispersion, facile à calculer est l’étendue.

Définition : L’étendue d’une série statistique est la différence entre la plus grande et la plus petite valeur
de la série (donc le max moins le min).

48
Avantage : Le calcul de l'étendue est très simple.
Inconvénient : Elle dépend uniquement des valeurs extrêmes de la série, qui peuvent être anormales.
L'étendue est donc un médiocre paramètre de dispersion et est peu utilisé…

Exemple : Si l’on reprend l’exemple avec l’âge des étudiants d’une classe, avec la valeur extrême « 66 »,
l’étendue vaut 66 − 18 = 48, alors que sans la valeur extrême, l’étendue vaut 25 − 18 = 7. La présence
ou non de la valeur extrême « 66 » influence donc très fort le calcul de l’étendue...

Pour l’exemple donné ci-dessus (les 2 contrôles), l’étendue de la première série est 19-5=14, alors que pour
la seconde elle vaut 15-8=3.

Dans les autres exemples étudiés précédemment, cela donne :

Exemple 1 : 4 – 1 = 3
Exemple 2 : 36 – 8 = 28

3.2.2 Ecart interquartile


Définition : L’écart interquartile d’une série statistique 𝑥1 , 𝑥2 , … , 𝑥𝑛 (noté EI) est la différence entre le
troisième et le premier quartile :
𝐸𝐼 = 𝑥0,75 − 𝑥0,25 = 𝑄3 − 𝑄1

Exemple avec les âges des étudiants : 21 – 19 = 2

3.2.3 Variance
La variance est LE paramètre de dispersion par excellence.
C’est une mesure de dispersion qui utilise toutes les observations.
Elle est basée sur la différence entre la valeur de chaque observation (𝑥𝑖 ) et la moyenne 𝑥̅ de la série.
Cette différence
𝑥𝑖 − 𝑥̅
est appelé écart par rapport à la moyenne.
On va en fait s’intéresser à l’amplitude de ces écarts sur l’entièreté des données. En effet, si ces écarts sont
grands, c’est que les données sont fort dispersées autour de la moyenne.
On pourrait imaginer de prendre la moyenne de ces écarts sur toutes les données. Or si on fait cela, on peut
voir que certains termes 𝑥𝑖 − 𝑥̅ seront négatifs, d’autres positifs, et que la somme des termes positifs
compense exactement la somme des termes négatifs… et que finalement la moyenne de ces écarts est nulle...
Donc il faut faire autrement.
Une manière de résoudre ce problème est de considérer non pas l’écart, mais l’écart quadratique par
rapport à la moyenne, càd (𝑥𝑖 − 𝑥̅ )2 . Dans ce cas, si on regarde la moyenne de ces écarts quadratiques sur
l’ensemble des données, on peut voir que l’on obtiendra jamais 0 (sauf si tous les écarts quadratiques sont
nuls, càd si la série statistique est constante). Cela aboutit à la variance.

49
Définition : La variance notée s² (ou σ² ou V) d’une série statistique (𝑥𝑖 , 𝑛𝑖 )𝑖=1,…,𝑐 est la moyenne
arithmétique des carrés des écarts des données par rapport à la moyenne arithmétique :
𝑁
2
1 2
𝑠 = ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1

Dans cette expression, N est l’effectif total et 𝑥𝑗 sont les N observations (certaines pouvant se répéter
plusieurs fois, lorsque l’on observe plusieurs fois la même valeur).

Exemple : le salaire mensuel initial d’étudiants sortant d’une école de commerce est donné par :

Salaire mensuel
Diplômés de départ ($)
1 3850
2 3950
3 4050
4 3880
5 3755
6 3710
7 3890
8 4130
9 3940
10 4325
11 3920
12 3880

On va alors calculer la variance en partant de la formule de départ (en calculant les écarts quadratiques).
On voit d’abord que la moyenne vaut 3940.
On calcule ensuite les écarts, puis les écarts quadratiques, puis la moyenne de ces écarts quadratiques :

Salaire Ecart au carré par


mensuel de Ecart par rapport à rapport à la moyenne
Diplômés départ ($) la moyenne (𝒙𝒊 − 𝒙̅) (𝒙𝒊 − 𝒙̅)𝟐
1 3850 -90 8100
2 3950 10 100
3 4050 110 12100
4 3880 -60 3600
5 3755 -185 34225
6 3710 -230 52900
7 3890 -50 2500
8 4130 190 36100
9 3940 0 0
10 4325 385 148225
11 3920 -20 400
12 3880 -60 3600
Somme =0 Somme = 301850

50
La variance vaut donc 301850 / 12 = 25154,17

Autre exemple : on repart de l’exemple avec les âges des étudiants d’une classe :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66

1. On commence par calculer la moyenne :


1 444
𝑥̅ = (18 × 4 + 19 × 6 + 20 × 3 + 21 × 3 + 22 × 2 + 25 + 26) = = 22,2
20 20

2. Ensuite on calcule les écarts par rapport à la moyenne pour chacune des valeurs observées :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
-4.2 -4.2 -4.2 -4.2 -3.2 -3.2 -3.2 -3.2 -3.2 -3.2 -2.2 -2.2 -2.2 -1.2 -1.2 -1.2 -0.2 -0.2 2.8 43.8

La ligne du bas donne les écarts par rapport à la moyenne.

3. Ensuite, on élève au carré ces écarts (ligne du bas):


18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
-4.2 -4.2 -4.2 -4.2 -3.2 -3.2 -3.2 -3.2 -3.2 -3.2 -2.2 -2.2 -2.2 -1.2 -1.2 -1.2 -0.2 -0.2 2.8 43.8

17.64 17.64 17.64 17.64 10.24 10.24 10.24 10.24 10.24 10.24 4.84 4.84 4.84 1.44 1.44 1.44 0.04 0.04 7.84 1918.44

4. Et enfin on prend la moyenne de ces écarts au carré (écarts quadratiques).


Cela donne :
1
𝑠2 = (17,64 ⋅ 4 + 10,24 ⋅ 6 + ⋯ + 7,84 + 1928,44) = 103,86
20
La variance vaut donc 103,86

Méthode simplificatrice du calcul de la variance :


Le calcul suivant montre qu’on peut calculer autrement la variance (tout en arrivant au même résultat) :
1
𝒔𝟐 = ((𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑁 − 𝑥̅ )2 )
𝑁
1
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 + 𝑥̅ 2 + 𝑥̅ 2 + ⋯ + 𝑥̅ 2 − 2𝑥1𝑥̅ − 2𝑥2 𝑥̅ − ⋯ − 2𝑥𝑁 𝑥̅ )
𝑁
1 1 2
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 ) + ⋅ 𝑁 ⋅ 𝑥̅ 2 − (𝑥1 + 𝑥2 + ⋯ 𝑥𝑁 ) ⋅ 𝑥̅
𝑁 𝑁 𝑁
1 2
= (𝑥1 + 𝑥22 + ⋯ + 𝑥𝑁2 ) + 𝑥̅ 2 − 2𝑥̅ ⋅ 𝑥̅
𝑁
1
= (𝑥12 + 𝑥22 + ⋯ + 𝑥𝑁2 ) − 𝑥̅ 2
𝑁

51
Il suffit donc de calculer la moyenne arithmétique des carrés des observations, et de retrancher le carré de
la moyenne, càd 𝑥̅ 2 . C’est donc « la moyenne des carrés moins le carré de la moyenne ». Cela simplifie
un peu les calculs dans la pratique…C’est donc une méthode alternative de calcul, qui aboutit au même
résultat.

Méthode 1 :
Variance = moyenne des carrés des écarts

Méthode 2 :
Variance = moyenne des carrés – carré de la moyenne

Illustration de la méthode simplificatrice (méthode 2) sur l’exemple ci-dessus (salaires des étudiants
diplômés):

Moyenne des salaires = 3940. Moyenne au carré = 3940² = 15 523 600.


On calcule ensuite les carrés des observations (directement, sans prendre les écarts par rapport à la
moyenne) et on en prend la moyenne de ces carrés:

Salaire mensuel de
Diplômés départ ($) Salaire mensuel carré
1 3850 14822500
2 3950 15602500
3 4050 16402500
4 3880 15054400
5 3755 14100025
6 3710 13764100
7 3890 15132100
8 4130 17056900
9 3940 15523600
10 4325 18705625
11 3920 15366400
12 3880 15054400
Somme des carrés = 186 585 050

Moyenne des carrés


= 186 585 050/12=15 548 754,2

On peut alors calculer la variance :


Variance = moyenne des carrés moins carrés de la moyenne = 15 548 754,2 - 15 523 600 = 25 154,17

L’inconvénient de cette méthode-ci est que l’on va manipuler de très grandes quantités, puis les soustraire
entre eux, ce qui peut mener à de plus grandes erreurs d’arrondis.

52
Illustration de la méthode simplificatrice sur l’exemple 1 (boules numérotées de 1 à 4):
xi ni
1 4
2 7
3 6
4 3

On peut voir que la moyenne valait 2,4. La méthode simplifiée aboutit à :


1 134
𝑠2 = (4 ∙ 12 + 7 ∙ 22 + 6 ∙ 32 + 3 ∙ 42 ) − 2,42 = − 2,4 = 0,94
20 20

Remarque :
Puisque la variance est une somme de carrés d’écarts, elle s’exprime dans les unités de la série au carré : la
variance d’une série de prix en € est donc exprimée en €², ce qui peut s’avérer délicat ou gênant pour les
interprétations en terme d’ordre de grandeur.
Le fait que les unités associées à la variance sont élevées au carré, rend difficile l’interprétation intuitive de
la valeur numérique de la variance. On recommande d’utiliser la variance comme une mesure utile pour
comparer le degré de dispersion de plusieurs séries statistiques. La série qui a la plus grande variance aura
la plus grande dispersion.
Pour cette raison notamment, on définit l’écart-type (en anglais : standard deviation).

3.2.4 Ecart-type
Définition :L’écart-type, noté « s » (parfois σ), est la racine carrée positive de la variance :

𝑠 = √𝑠 2

L'écart-type s'exprime donc dans la même unité que les valeurs xi de la variable.

Exemple 1 (boules numérotées) : 𝑠 = √0,94 ≅ 0,97

Exemple salaires des étudiants diplômés : 𝑠 = √25154,17 = 158,6

Avantage de l’écart-type:
• L’écart-type est plus facile à interpréter que la variance puisqu’il est mesuré dans les mêmes inités
que les données.
• L'écart-type constitue un excellent indicateur de dispersion, il tient compte de toutes les données
de la série statistique. Plus l’écart-type est faible, plus il y a une forte accumulation des observations
autour de la moyenne arithmétique. Plus l’écart-type est grand, plus l'étalement est grand. Il peut
donc être utilisé pour donner une idée de la variabilité d’un ensemble de données.

53
3.2.5 Coefficient de variation
Le coefficient de variation est une mesure de dispersion relative ; il mesure l’écart-type relatif à la moyenne.
Définition : Le coefficient de variation est défini comme :

𝐸𝑐𝑎𝑟𝑡 − 𝑡𝑦𝑝𝑒 𝑠
× 100 = × 100
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 𝑥̅

Il est donc mesuré en pourcentages.

Exemple (salaires des étudiants diplômés) :


Ecart-type : 158,6
Moyenne : 3940
158,6
Coefficient de variation : 3940
× 100 = 4,025
Interprétation du coefficient de variation: l’écart-type représente seulement 4,025% de la moyenne de
l’échantillon.

Avantage / utilité du coefficient de variation


En général, le coefficient de variation est une mesure utile pour comparer la dispersion de séries statistiques
qui ont des écart-types et des moyennes différentes.

3.3 Indicateurs de forme : coefficients de dissymétrie et d’aplatissement


Coefficient de dissymétrie
Deux distributions présentant les mêmes indicateurs de tendance centrale et de dispersion ne sont pas pour
autant égales.
Exemple : considérons deux séries statistiques dont les fréquences sont données dans le tableau suivant :
Série 1 Série 2
x_i n_i x_i n_i
1 2 1 1
2 4 2 7
3 8 3 5
4 4 4 5
5 2 5 2

On peut en tracer directement les histogrammes de fréquences absolues :

54
Figure 17: histogrammes de fréquence absolue de 2 séries statistiques présentant la même moyenne
et la même variance

On peut voir effectivement que ces deux séries possèdent la même moyenne et la même variance :

Série 1 :
1
𝑥̅ = (2 ∙ 1 + 4 ∙ 2 + 8 ∙ 3 + 4 ∙ 4 + 2 ∙ 5) = 3
20
1
𝑠2 = (2 ∙ 1 + 4 ∙ 22 + 8 ∙ 32 + 4 ∙ 42 + 2 ∙ 52 ) − 32 = 10,2 − 9 = 1,2
20

Série 2 :
1
𝑥̅ = (1 ∙ 1 + 7 ∙ 2 + 5 ∙ 3 + 5 ∙ 4 + 2 ∙ 5) = 3
20
1
𝑠2 = (1 ∙ 1 + 7 ∙ 22 + 5 ∙ 32 + 5 ∙ 42 + 2 ∙ 52 ) − 32 = 10,2 − 9 = 1,2
20

Or l’une a une distribution symétrique, l’autre pas…

L’un des principaux attraits d’un histogramme est de fournir des informations concernant la forme d’une
distribution. La figure ci-dessous présente quatre histogrammes construits à partir de distributions de
fréquence relative.

55
Figure 18: Histogrammes illustrant le degré d’asymétrie de quatre distributions (source : Statistiques pour l’économie et la gestion,
De Boeck, Anderson et al. )

Le cas A représente l’histogramme d’un ensemble de données modérément asymétrique (ou biaisé) à
gauche. Un histogramme est dit asymétrique à gauche si sa queue de distribution s’étend vers la gauche. Ce
type d’histogramme est caractéristique des résultats d’examens, aucune note n’étant supérieure à 100% de
bonnes réponses, la plupart des notes étant supérieures à 70% (dans les bonnes classes…).
Le cas B illustre l’histogramme d’un ensemble de données modérément asymétrique à droite. Ce type
d’histogramme se rencontre par exemple pour des données de prix de logements : quelques logements très
chers créent une asymétrie dans la queue droite de la distribution.
Le cas C représente un histogramme symétrique. Dans un tel histogramme, les queues droite et gauche ont
la même forme. Les histogrammes obtenus à partir de données réelles ne sont jamais parfairement
symétriques, mais peuvent l’être à peu près. Des données relatives au poids ou à la taille d’individus
fournissent des histogrammes relativement symétriques.
Le cas D illustre un histogramme fortement asymétrique à droite. Cela concerne par exemple les données
concernant les prix des logements, les salaires, les quantités achetées, etc

On capture le type de dissymétrie à l’aide du coefficient de dissymétrie :


Le coefficient de dissymétrie d’une série statistique (𝑥𝑖 )𝑖=1,…,𝑁 (noté par la lettre grecque gamma : 𝛾) est
égal au quotient de la moyenne des cubes des écarts par le cube de l’écart-type :

1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )3
𝛾= 𝑁
𝑠3

Sur les deux séries ci-dessus, on peut voir que ce coefficient vaut:

56
Série 1 : 𝛾 = 0; Série 2 : 𝛾 ≈ 0.2282

On peut voir que c’est le signe de ce coefficient qui détermine « de quel côté la distribution penche » :
• si > 0 , la distribution est asymétrique à gauche (cas de la série 2);
• si 𝛾 = 0, la distribution est symétrique (cas de la série 1);
• si 𝛾 < 0, la distribution est asymétrique à droite.

Notons que la division par s³ implique que cet indicateur est sans unités. Concrètement cela veut dire que
si la série est exprimée par exemple en km, et qu’on décide de l’exprimer en miles, le coefficient de
dissymétrie 𝛾 ne va pas changer.

Coefficient d’aplatissement
Deux séries statistiques peuvent en outre avoir mêmes moyennes, variances et coefficient de dissymétrie,
mais des formes malgré tout différentes :

Figure 19: series présentant mêmes moyennes, écart-type, et coefficient de dissymétrie (égal à 0 car symétriques) mais une distribution
de forme différente

Définition : Le coefficient d’aplatissement ou kurtosis d’une série statistique (𝑥𝑖 )𝑖=1…𝑁 (noté par la
lettre grecque kappa : 𝜅) est égal au quotient de la moyenne des écarts exposant 4 par l’écart-type exposant
4:
1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4
𝜅= 𝑁
𝑠4

A nouveau, la division par 𝑠 4 fait que cet indicateur est sans unité (donc il ne dépend pas de l’unité choisie
pour exprimer les valeurs de la série statistique : on peut par exemple travailler en kg ou en livres, cela ne
changera pas la valeur du kurtosis).

Si on reprend la série 1 ci-dessus, on peut voir que le kurtosis vaut 2.5.


Le kurtosis d’une série statistique très proche d’une distribution normale est très proche de 3.

57
3.4 Remarques sur les indicateurs statistiques
3.4.1 Points communs à ces différents indicateurs
La ressemblance de plusieurs de ces indicateurs est frappante :
𝑁
1 2
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒: ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1
𝑁
1 3
𝑛𝑢𝑚é𝑟𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑𝑒 𝑑𝑖𝑠𝑠𝑦𝑚é𝑡𝑟𝑖𝑒: ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1
𝑁
1 4
𝑛𝑢𝑚é𝑟𝑎𝑡𝑒𝑢𝑟 𝑑𝑢 𝑐𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑 ′ 𝑎𝑝𝑝𝑙𝑎𝑡𝑖𝑠𝑠𝑒𝑚𝑒𝑛𝑡: ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1

En fait ces quantités sont ce que l’on appelle des moments centrés :

Définition : Le moment centré d’ordre k d’une série statistique (𝑥𝑖 )𝑖=1,…,𝑁 est donné par :
𝑁
1 𝑘
𝛽𝑘 = ∑(𝑥𝑗 − 𝑥̅ )
𝑁
𝑗=1

3.4.2 Changements de variable et indicateurs


Question : Que devient la moyenne arithmétique d’une série statistique lorsqu’on retranche un même
nombre k (une constante) à chacun de ses éléments ?

Cela signifie que chaque valeur xi est remplacé par xi – C (ce qui donne lieu à une nouvelle série statistique).

La moyenne arithmétique 𝑥̅ 𝑘 de la nouvelle série translatée de k est donc :


𝑁 𝑁 𝑁
1 1 1 1
𝑥̅ 𝐶 = ∑(𝑥𝑖 − 𝐶) = ∑ 𝑥𝑖 − ∑ 𝐶 = 𝑥̅ − ⋅ 𝑁 ⋅ 𝐶 = 𝑥̅ − 𝐶
𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1

Conclusion : si l’on retranche une même constante C à tous les termes d'une série statistique, la
moyenne de la série initiale est diminuée de C.

Exemple : âge des élèves d’une classe


Données :
18 18 18 18 19 19 19 19 19 19 20 20 20 21 21 21 22 22 25 66
Si l’on calcule la moyenne, on a vu qu’on obtenait 22,2.
Supposons maintenant que l’on retranche 18 à chaque donnée.
On obtient alors les données :
0 0 0 0 1 1 1 1 1 1 2 2 2 3 3 3 4 4 7 48

Si l’on recalcule la moyenne de cette nouvelle série, on obtient en fait 4,2, càd 22,2 − 18.

58
Question : Que devient la moyenne arithmétique d’une série statistique lorsqu’on divise chacun de
ses éléments par un même nombre C différent de 0 ?

On peut à nouveau calculer la moyenne de cette nouvelle série :


𝑁 𝑁 𝑁
1 𝑥𝑖 1 1 1 𝑥̅
𝑥̅ 𝐶 = ∑ = ∑ 𝑥𝑖 = ⋅ ( ∑ 𝑥𝑖 ) =
𝑁 𝐶 𝑁𝐶 𝐶 𝑁 𝐶
𝑖=1 𝑖=1 𝑖=1

𝑥𝑖
Cela signifie que chaque valeur 𝑥𝑖 est remplacée par (ce qui donne lieu à une nouvelle série statistique).
𝐶
𝑥̅
La moyenne arithmétique de la nouvelle série est donnée par la formule : 𝑥̅ 𝐶 = 𝐶 .

Conclusion : si l’on divise par un même nombre C tous les éléments d'une série statistique, la
moyenne arithmétique de la série initiale est aussi divisée par ce nombre C.

3.5 Règle empirique et théorème de Tchebychev


Le théorème de Tchebychev nous permet de déterminer le pourcentage d’observations qui devraient se
situer à un certain nombre d’écart-types de part et d’autre de la moyenne.

Théorème de Tchebychev :
1
Au moins (1 − 𝑘 2) des observations doivent se situer au plus à 𝑘 écart-types de part et d’autre de la
moyenne, càd dans l’intervalle [𝑥̅ − 𝑘 ⋅ 𝑠, 𝑥̅ + 𝑘 ⋅ 𝑠].

Dans ce résultat, 𝑘 ≥ 1 mais n’est pas forcément un nombre entier.


En appliquant ce résultat avec 𝑘 = 2, 3, 4 on obtient :
• Au moins 75% des observations se situent au plus à 2 écart-types de part et d’autre de la moyenne
(càd dans l’intervalle [𝑥̅ − 2𝑠, 𝑥̅ + 2 𝑠])
• Au moins 89% des observations se situent au plus à 3 écart-types de part et d’autre de la moyenne
(càd dans l’intervalle [𝑥̅ − 3𝑠, 𝑥̅ + 3 𝑠])
• Au moins 94% des observations se situent au plus à 4 écart-types de part et d’autre de la moyenne
(càd dans l’intervalle [𝑥̅ − 4𝑠, 𝑥̅ + 4 𝑠])

Illustration sur l’exemple avec les salaires des étudiants diplômés :


On considère l’intervalle [𝑥̅ − 2𝑠, 𝑥̅ + 2 𝑠] ≈ [3623 ; 4257]. On regarde le nombre d’observations se
trouvant dans cet intervalle. On voit qu’il y a 11 observations situées dans cet intervalle, et une seule à
l’extérieur de l’intervalle. Cela fait une proportion de 11/12 càd de 91,7%, proportion qui est bien supérieure
à 75%.

L’un des avantages du théorème de Tchebychev est qu’il s’applique à tout ensemble de données, quelle que
soit la forme de la distribution des données. En conséquence il peut être utilisé pour toutes les distributions
rencontrées.

59
Dans la pratique cependant, de nombreux ensembles de données ont une distribution en forme de cloche,
plus spécifiquement une distribution « normale ». Dans ce cas, on peut voir que l’on a la règle empirique
suivante.

Règle empirique : Pour des données présentant une distribution approximativement normale (en cloche),
si on note 𝑥̅ la moyenne et s l’écart type, alors :
• l’intervalle [𝑥̅ - s; 𝑥̅ + s] contient à peu près 68% des données ;
• l’intervalle [𝑥̅ - 2s; 𝑥̅ + 2s] contient à peu près 95% des données ;
• l’intervalle [𝑥̅ - 3s; 𝑥̅ + 3s] contient presque toutes les données.

Exemple.
Illustrons l’utilisation de cette règle empirique par un exemple. Supposons que les résultats des étudiants à
un examen possèdent une distribution normale de moyenne 𝑥̅ = 13 et d’écart-type s = 2. Nous pouvons
donc déduire de la règle empirique qu’approximativement 68% des étudiants obtiennent un résultat entre
11, et 15,95% entre 9 et 17 et presque tous entre 7 et 19. La connaissance de la moyenne et de l’écart-type
donne donc une assez bonne idée de la distribution des résultats.

Supposons qu’un étudiant est tiré au hasard parmi ceux qui ont passé l’examen. Quelle est la probabilité
que son résultat soit situé entre 11 et 15 ? Par la règle empirique, on peut dire que 0,68 est une réponse
approchée mais satisfaisante à cette question.

Figure 20: illustration de la règle empirique.

60
Illustration de la règle empirique: Cours des actions Carrefour et Beneteau, et comparaison avec
l’indice CAC40
Returns journaliers
Lorsque l’on fait des investissements, on s’intéresse notamment au caractère « volatile » du rendement que
l’on peut obtenir sur ces investissements. Supposons que l’on investisse dans des actions. On peut
s’intéresser à ce qu’on appelle le rendement arithmétique d’une action sur une période de temps Δ𝑡 donnée
comme :
𝑆(𝑡) − 𝑆(𝑡 − Δ𝑡)
𝑟𝑡 =
𝑆(𝑡 − Δ𝑡)
Càd
𝑉𝑎𝑙𝑒𝑢𝑟 𝑑𝑒 𝑙 ′ 𝑎𝑐𝑡𝑖𝑜𝑛 𝑒𝑛 𝑓𝑖𝑛 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒 − 𝑣𝑎𝑙𝑒𝑢𝑟 𝑒𝑛 𝑑é𝑏𝑢𝑡 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒
𝑣𝑎𝑙𝑒𝑢𝑟 𝑒𝑛 𝑑é𝑏𝑢𝑡 𝑑𝑒 𝑝é𝑟𝑖𝑜𝑑𝑒

Si on prend l’exemple du cours de l’action Carrefour du 1/1/2018 au 5/2/2019, et que l’on calcule les returns
journaliers, cela donne ceci (extrait du fichier Excel) :

Close Number of Shares


Number of Trades
Turnover Currency returns
17.23 1828018 3520 31478547.7 EUR -0.0083453
17.375 1716496 3825 29756039 EUR 0.00520683
17.285 2410224 4922 41691383.3 EUR 0.00115841
17.265 1604033 3879 27684024.1 EUR -0.007188
17.39 2308459 5322 40118042.4 EUR 0.00636574
17.28 1679554 3862 29038080.8 EUR -0.0100258
17.455 2823246 5557 49145739.1 EUR 0.01364692
17.22 3035508 7002 52319512.8 EUR -0.0140281
17.465 8044906 17853 139502157 EUR 0.06917661
16.335 2275771 4557 37255678.2 EUR -0.004267
16.405 1968765 4804 32347118.2 EUR -0.0126392
16.615 4456347 8845 74027403 EUR 0.03714107
16.02 1878271 3760 30049008.9 EUR 0
16.02 2554182 4781 40757441.6 EUR 0.00691389
15.91 2458439 5452 39108515.9 EUR -0.0071763
16.025 3425929 7489 54751310.1 EUR 0.01940204
15.72 2070454 3878 32611821.3 EUR -0.0056926
15.81 2626631 5157 41378130.1 EUR -0.0025237
15.85 3036816 5836 48249200.3 EUR 0.00955414
15.7 5347595 10895 83839774.5 EUR 0.0271508
15.285 2137567 4484 32536729.2 EUR 0.01024455

Figure 21: extraits de données du cours de l’action Carrefour, et calcul de returns journaliers

Variance et écart-type des returns


Si l’on calcule la variance de la série statistique de ces returns journaliers observés sur cette période
(période d’un peu plus d’un an, donc utilisant bien plus de données que celles illustrées sur la figure ci-
dessus), on obtient 0,00029915. Numériquement cela ne nous dit pas grand-chose…

On peut faire la même chose pour une autre action, par exemple Beneteau (fabriquant de bateaux). Sur la
même période, cela donne une variance des returns journaliers de 0.00077422, soit beaucoup plus que pour
Carrefour… les investisseurs dans l’action Beneteau ont donc pu observer de grandes fluctuations de la
valeur de leur portefeuille pendant la période considérée, plus que des investisseurs dans l’action carrefour.
On voit ici que la variance nous sert déjà à comparer les deux actions.

Dans une telle situation, on dit que l’action Carrefour est moins « volatile » que l’action Beneteau sur la
période considérée.

61
Close Number of Shares
Number of Trades
Turnover Currency returns
12.66 89138 474 1124840.84 EUR 0.0128
12.5 61509 406 767507.02 EUR 0.00806452
12.4 134026 514 1660202.88 EUR -0.0127389
12.56 66539 343 836281.52 EUR 0.0048
12.5 84311 508 1060828.78 EUR -0.0141956
12.68 68227 380 872463.52 EUR -0.0139969
12.86 88018 563 1149352.42 EUR 0.01100629
12.72 105094 604 1337226.08 EUR -0.0185185
12.96 57713 390 755295.38 EUR -0.0240964
13.28 57749 412 766872.06 EUR 0.01374046
13.1 43987 330 572908.18 EUR 0.01708075
12.88 53195 358 685359.36 EUR 0.01098901
12.74 39099 261 496704.76 EUR 0.00473186
12.68 33856 240 428771.84 EUR 0.0144
12.5 60253 395 757452.08 EUR -0.0031898
12.54 54299 330 680701.86 EUR -0.0172414
12.76 75953 510 962339.82 EUR 0.00472441
12.7 93234 530 1171611.5 EUR 0.0111465
12.56 134469 644 1687766.88 EUR 0.01948052
12.32 227710 957 2791752.42 EUR 0.04054054
11.84 131926 754 1512041.92 EUR 0.07441016
11.02 92519 587 1008841.58 EUR 0.02226345
10.78 78469 460 855904.78 EUR -0.056042
11.42 80073 475 908058.46 EUR -0.0052265
11.48 41173 402 470053.86 EUR 0.04363636
11 93499 496 1019588.48 EUR 0.04961832

Figure 22 : extrait de données du cours de l’action Beneteau et calcul des returns journaliers

L’écart-type des returns journaliers (qu’on appelle dans ce cas « volatilité journalière » de l’action)
s’obtient en prenant la racine carrée des variances calculées, on obtient :
s=0,01729581 pour Carrefour, et s=0,02782489 pour Beneteau.

Remarque : Les investisseurs préfèrent cependant utiliser ce qu’on appelle la « volatilité annualisée », qui
consiste en pratique à multiplier par la racine carrée du nombre de jours ouvrables de la période considérée
(racine de 250 dans la plupart des marchés). Cela donne ici 27% environ pour Carrefour, contre 44% pour
Beneteau.
Concrètement, cette volatilité annualisée donne une idée de l’intervalle de variation que l’on peut s’attendre
à observer pour les fluctuations de la valeur de l’action sur une période d’une année. On reviendra là-dessus
avec la règle empirique. Cela nous fournit en fait une possible estimation de l’écart-type de la distribution
de probabilité des returns annuels (càd calculés en prenant Δ𝑡 = 1 𝑎𝑛).

Vérification de la règle empirique


On peut maintenant voir si la règle empirique s’applique ou non à nos actions Carrefour et Beneteau.
On peut calculer la proportion d’observations appartenant aux différents intervalles mentionnés ci-dessus.
On obtient les proportions suivantes :

Vérification règle empirique


Action / Intervalles [𝑥̅ − 𝑠, 𝑥̅ + 𝑠] [𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠] [𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠]
Beneteau 79% 96% 99%
Carrefour 81% 97% 98%
Règle empirique 68% 95% 100%

62
La règle empirique ne semble pas vraiment satisfaite par ces données, qui correspondent à des returns
journaliers. En fait, l’hypothèse principale derrière la règle empirique est d’avoir affaire à une distribution
proche d’une loi normale. Cela ne semble pas vraiment être le cas ici…

A titre d’illustration, voici ce que donne la règle empirique pour un indice boursier cette fois (en
l’occurrence le CAC40, auquel les deux actions appartiennent):

Vérification règle empirique


CAC40 72% 95% 99%

Cela fonctionne donc déjà beaucoup mieux… en fait la distribution des returns journaliers est plus proche
d’une distribution normale quand on s’intéresse à un indice boursier (ou à un fonds d’actions relativement
diversifié) que quand on regarde des actions individuelles.

3.6 Boîte à moustaches (BM)


Un graphique en « boîte à moustaches » (aussi appelé « boite à pattes », ou « diagramme en boite », en
anglais : box plot) permet de résumer la dispersion d’une série statistique en représentant sur un graphique
5 valeurs importantes : le minimum, le maximum, les 1er et 3ème quartiles et la médiane.
Il s’agît d’une façon de visualiser rapidement l’essentiel de l’information fournie par une série statistique.
En fait, cela fournit des informations sur la « dispersion » d’une série statistique : les valeurs de la série
sont-elles fort ou peu étalées, dispersées. Mais aussi sur la symétrie de la distribution. Il sert surtout à
comparer un même caractère / variable statistique sur deux populations différentes (en particulier, de taille
différentes).

Pour construire une BM, on doit d’abord calculer les 3 quartiles Q1, Q2 et Q3, respectivement, le premier
quartile, la médiane (Q2), et le troisième quartile. Une fois les valeurs calculées, on les indique sur un
segment de droite orienté et gradué. On peut alors dessiner un rectangle de hauteur arbitraire, mais dont les
abscisses des côtés coïncident avec 𝑄1 𝑒𝑡 𝑄3. On dessine ensuite un segment de droite d’abscisse Q2 (soit,
la médiane) dans ce rectangle.

Pour finir, on ajoute les « moustaches », ou « pattes », c’est-à-dire, des segments de droite qui vont des
côtés du rectangle (on part du milieu de ces côtés par rapport à leur hauteur), et vont jusqu’aux abscisses de
la valeur la plus petite de la série statistique (xmin) et de la valeur la plus grande (xmax).

63
On ne dessine pas toujours la droite orientée des abscisses. On peut remplacer les petits segments de droite
aux extrémités des « moustaches » par des flèches. Attention : si Q1 = Q2 = Q3, le rectangle est collapsé et
il ressemblera à un segment de droite vertical (et pas à un rectangle).

Ce type de graphique permet de comparer des séries statistiques et d’avoir en un coup d’œil une idée de
leurs dispersions et situations relatives.
Concrètement, on a une idée très rapide de « là où se situent les données » lorsque l’on a une telle boite à
moustache.

Exemple de comparaison de différentes séries grâce à une boite à moustaches :


On considère 3 séries statistiques X, Y et Z données dans le tableau suivant :

Après calcul des quartiles et de la médiane, on obtient les boites à moustaches suivantes :

En regardant ces 3 graphiques, on voit directement que les séries X et Y ont mêmes médianes mais que X
est beaucoup plus dispersée que Y, que Z a une médiane beaucoup plus faible et est asymétrique.

3.7 Indicateurs statistiques - Utilisation du tableur Excel


Nous présentons dans cette section les principales fonctions du tableur Excel telles qu’elles sont présentes
par défaut dans le logiciel. Nous en corrigeons certaines car elles ne correspondent pas aux définitions
données ci-dessus et qui sont pourtant standard.

Moyenne:
Dans Excel en français, elle se calcule comme: MOYENNE(nombre1 ; nombre2 ;…) où nombre1,
nombre2,… représentent les arguments numériques dont on a besoin pour obtenir la moyenne. Ce sont
toutes les valeurs observées de la série statistique, incluant les répétitions.

64
Par exemple , si on a la série statistique :
13, 14, 14, 15, 15, 16, 17
la moyenne dans Excel se calculera comme :
MOYENNE(13 ;14 ;14 ;15 ;15 ;16 ;17). Ou encore, si on a placé la série dans les cellules allant de A1
jusque A7, comme MOYENNE(A1:A7). Si on veut rajouter une valeur à la série, disons encore 17, cela
donne : MOYENNE(A1:A7 ;17).

Dans une version anglophone, sous Windows, du programme, cela donne :


AVERAGE(13,14,14,15,15,16,17).
Donc les point-virgules deviennent des virgules et la fonction s’appelle « average ».
Remarquons que si une matrice ou une référence tapée comme argument contient du texte, des valeurs
logiques ou des cellules vides, ces valeurs ne sont pas prises en compte. Par contre, les cellules contenant
explicitement la valeur « 0 » sont prises en compte.

Médiane :
La fonction MEDIANE appliquée aux mêmes valeurs que plus haut renvoie la valeur médiane des
nombres.

Exemple :
MEDIANE(1; 2; 3; 4; 5) = 3

MEDIANE(1; 2; 3; 4; 5; 6) = 3, 5

Dans la version anglophone d’Excel, cette fonction s’appelle MEDIAN.

Variance :
La fonction VAR d’Excel fournit un indicateur statistique en pratique proche de la variance telle que nous
l’avons définie précédemment, mais toutefois légèrement différente : elle utilise la formule suivante :

N
1 2
VAR = ∑(xi − x̅)
N−1
i=1
(où N désigne le nombre total d’observations). Concrètement, au lieu de diviser la somme des carrés des
écarts par N, on la divise par N-1. En effet, la variance telle que définie dans ce cours correspond à la
formule:
N
1 2
s 2 = ∑(xi − x̅)
N
i=1

L’indicateur calculé dans Excel avec la fonction VAR est souvent noté S 2 (on le lit « grand S carré ») et
est lié à la variance s 2 introduite plus haut (le « petit s carré ») par la relation :
N
S2 = s2
N−1

65
N
Il ne s’agit donc pas du même indicateur, mais lorsque la taille de l’échantillon est grande, N−1 est alors
proche de 1 et les deux indicateurs sont très proches… L’intérêt de ce nouvel estimateur est qu’il est ce
qu’on appelle un « estimateur non biaisé » de la variance théorique σ2 . On verra plus tard le concept de
variable aléatoire, une fonction numérique calculée sur base des résultats d’une expérience aléatoire. Et
pour une variable aléatoire, on peut introduire le concept de « variance », que l’on peut estimer sur base
de résultats de l’expérience aléatoire. Lorsque la taille de l’échantillon est très grand, l’estimateur S 2 aura
tendance à être plus proche de la variance théorique que notre estimateur s 2 .

On peut montrer que cette expression S 2 est aussi égale à :


N N 2
1 1
VAR = ∑ xi2 − (∑ xi )
N−1 N(N − 1)
i=1 i=1

La fonction Excel VAR.P calcule la variance telle que définie précédemment dans ce cours, càd
l’indicateur « petit s carré » s 2.

Exemple : échantillon (1345, 1301, 1368, 1322, 1310, 1370, 1318, 1350, 1303 et 1299) , valeurs
supposées stockées dans les cellules A2:A11. La fonction VAR donne :

VAR(A2 :A11)=754,3

alors que l’autre fonction , VAR.P, donne :

VAR.P(A2 :A11)=678,8.

𝑁
Dans cet exemple, la différence n’est pas si petite, car N est petit. La fraction 𝑁−1 vaut en effet environ
1.11, on a donc une différence de l’ordre de 10% entre les deux…
En résumé :
𝑉𝐴𝑅 = 𝑆 2 , 𝑉𝐴𝑅. 𝑃 = 𝑠 2

Quartiles :
La fonction QUARTILE renvoie le quartile d’une série de données.

On l’utilise comme : QUARTILE({nombre1 ; nombre2 ; … } ; quart) où quart indique quelle valeur


renvoyer :
• La valeur 0 renvoie à la valeur minimale de la série
• La valeur 1 au premier quartile
• La valeur 2 au second quartile (i.e. la médiane)
• La valeur 3 au troisième quartile
• La valeur 4 à la valeur maximale

Remarquons que pour obtenir les valeurs minimale et maximale de la série, on peut aussi utiliser les
fonctions MIN et MAX.

66
Chapitre 4: Statistique bivariée – régressions
linéaires

On va s’intéresser maintenant à l’étude non pas d’une variable statistique observée sur une population mais
de deux variables, associées aux mêmes unités statistiques, aux mêmes individus.

Par exemple, si on considère l’ensemble de la population belge, on peut s’intéresser à leur taille et leur âge,
ou encore leur poids et leur revenu annuel, etc… et se poser la question du comportement statistique de
chaque série considérée séparément, mais aussi des relations qui existeraient entre leurs comportements
statistiques respectifs.

Dans l’exemple qui suit, on a noté la taille (en cm) et le poids (en kg) de 100 enfants d’une école, puis on a
représenté ces deux variables simultanément par un graphique du type nuage de points. Ce graphique est
obtenu lorsqu’on place dans un repère cartésien les n points Mi de coordonnées (xi ; yi ) .
Remarque : dans ce chapitre, on va noter par une minuscule 𝒏 le nombre total d’observations de la
série bivariée (X,Y), et non plus par une majuscule N.

Un point (𝑥𝑖 , 𝑦𝑖 ) correspond à la valeur de la taille et du poids de l’élève numéro 𝑖. On obtient alors un
nuage de points :

Figure 23: nuage de points pour représenter une


série bivariée

L’observation de ce graphique permet de déjà de constater que le poids a tendance à augmenter avec la
taille, mais pas de façon systématique : on peut être petit et gros, ou grand et maigre.

Mais il y a un certain lien, qu’on appellera corrélation, entre les deux variables.

67
4.1 Moyennes marginales et centre de gravité
On peut considérer chaque série statistique séparément, et calculer les indicateurs que l’on a vus en
statistique descriptive univariée.

Si l’on revient à notre exemple (poids et taille), on peut d’abord calculer la taille moyenne (ici 𝑥𝑖 est la
valeur de la iè observation, avec possibilité que 2 observations correspondent à une même valeur):
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
(attention : on notera ici avec un « n » minuscule la taille de l’échantillon) et le poids moyen :
𝑛
1
𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
C’est ce qu’on appelle les moyennes marginales des deux séries statistiques.

Le point du plan 𝐺 = (𝑥̅ , 𝑦̅) est ce qu’on appellera par définition le centre de gravité du nuage de points.

Exemple : soit (X,Y) la série statistique bivariée suivante :

x_i y_i
10 40
20 10
30 18
40 20
50 57
60 14

On peut représenter cette série par un nuage de points.


Le point rouge situé « au centre » du nuage représente le centre de gravité (35 ; 26,5) :

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70

Figure 24: Nuage de points et centre de gravité

4.2 Variances et écart-types marginaux


Pour mesurer la dispersion du nuage autour de son centre de gravité G, on va calculer les écarts entre les
abscisses des points et l’abscisse de G, càd 𝑥𝑖 − 𝑥̅ et les ordonnées des points et celle de G, càd 𝑦𝑖 − 𝑦̅, et
ce pour tout point du nuage.

68
Ce qui nous intéresse est l’écart moyen entre les points du nuage et le centre de gravité.

Il y aura des écarts positifs et négatifs selon la position du point par rapport à G. Si l’on fait la somme de
tous ces écarts (pour la taille X, et puis séparément pour le poids Y), elle sera nulle. Pour éviter ce problème,
on fait la somme des carrés des écarts, comme on l’a fait dans le cas univarié.

Clairement, plus cette somme est élevée, plus les points sont dispersés autour de G. Si au contraire cette
somme est nulle, alors c’est que chaque terme est nul (car une somme de termes positifs est nulle si et
seulement si chaque terme de la somme est nul), et donc que tous les points du nuage sont en fait concentrés
en le centre de gravité G (le nuage n’est plus un nuage mais un point…).

Ceci mène au calcul des variances marginales puis des écart-types marginaux.

On obtient donc 2 quantités mesurant la dispersion de la variable X et de la variable Y :

Remarque : Il y a d’autres moyens pour résoudre le problème des signes des écarts. On aurait pu faire la
somme des valeurs absolues des écarts au lieu de prendre leur carré, par exemple. Mais il est plus facile de
travailler avec des carrés qu’avec la valeur absolue. C’était l’idée de Gauss, en 1808.

Les variances de la variable X et de Y sont données par les carrés des écarts-types : 𝑠𝑥2 = (𝑠𝑥 )2 𝑒𝑡 𝑠𝑦2 =
2
(𝑠𝑦 ) (même définition que dans le cas univarié traité au chapitre précédent).

On a donc deux quantités, l’une pour la variable X (ne tenant compte que des observations pour cette
variable), l’autre pour la variable Y, d’où le terme « marginal ».

Les liens entre les deux variables (càd ici le fait que le poids a tendance à augmenter quand la taille
augmente) ne sont pas encore reflétés par ces deux variances marginales. Ce sera l’objet de la covariance
ci-dessous.

4.3 La covariance
Pour mesurer la variation conjointe des deux variables, on utilise le produit des écarts pour X et pour Y.
On introduit la covariance des deux variables statistiques X et Y par :

𝑛
1
𝐶𝑜𝑣(𝑋, 𝑌) = 𝑠𝑥,𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1

Interprétation intuitive de la covariance :

69
• Lorsque la covariance est strictement positive, cela signifie que la moyenne des produits (𝑥𝑖 −
𝑥̅ )(𝑦𝑖 − 𝑦̅) est positive, ou encore qu’en moyenne, ces produits sont positifs, càd correspondent à
des facteurs de même signe.
o En moyenne, on a donc que (𝑥𝑖 − 𝑥̅ ) a le même signe que (𝑦𝑖 − 𝑦 ̅).
o Cela veut dire que lorsque l’observation 𝑥𝑖 est supérieure (resp. inférieure) à la moyenne 𝑥̅ ,
il en est généralement de même pour l’observation 𝑦𝑖 relativement à la moyenne 𝑦̅
▪ Exemple : C’est ce qu’on a quand on regarde le poids et la taille : en général,
quelqu’un de taille supérieure à la moyenne a aussi un poids supérieur à la moyenne
o Une covariance positive traduit donc une tendance simultanée des phénomènes derrière les
séries X et Y à se situer du même côté de leur moyennes respectives.

• Lorsque la covariance est strictement négative, cela signifie que la moyenne des produits
(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) est négative, ou encore qu’en moyenne, ces produits sont négatifs, càd
correspondent à des facteurs de signe différent.
o En moyenne, on a donc que (𝑥𝑖 − 𝑥̅ ) a un signe opposé à celui de (𝑦𝑖 − 𝑦 ̅).
o Cela veut dire que lorsque l’observation 𝑥𝑖 est supérieure (resp. inférieure) à la moyenne 𝑥̅ ,
on observe généralement que l’observation 𝑦𝑖 est inférieure (resp. supérieure) à la
moyenne 𝑦̅.
o Une covariance négative traduit donc une tendance simultanée des phénomènes X et Y à se
situer de part et d’autre de leurs moyennes respectives (quand l’une est au-dessus de sa
moyenne, l’autre est en dessous et vice-versa) et non du même coté
▪ Exemple : On observe que les gens effectuant davantage d’heure d’exercice (sport,
déplacements à vélo ou à pied etc) par semaine développent moins de maladies
cardio vasculaires au cours de leur vie. Les gens effectuant plus de sport que la
moyenne, ont moins de problèmes cardio-vasculaire que la moyenne.
▪ Exemple : on observe souvent que quand les taux d’intérêt baissent, le marché
immobilier a tendance à augmenter.

• Lorsque la covariance est nulle (ou proche de 0), c’est plus complexe.
o Il est clair qu’avoir une covariance strictement positive ou négative implique une certaine
dépendance entre les variables X et Y. En cas d’indépendance entre les variables, il doit
donc y avoir nécessairement une covariance nulle, du moins en théorie.
o En effet : si une observation de X est au-dessus de sa moyenne, comme il n’y a aucun lien
entre X et Y, a priori Y peut très bien se trouver au-dessus ou en dessous de sa moyenne.
o Donc on aura « autant » de termes (𝑥𝑖 − 𝑥̅ ) ⋅ (𝑦𝑖 − 𝑦̅) avec un signe positif qu’avec un signe
négatif, et finalement la somme est proche de 0 car il y a compensation des positifs par les
négatifs.
o On verra que l’implication (indépendance implique corrélation nulle) ne va que dans un sens.

En résumé, la covariance est positive si X et Y ont tendance à varier dans le même sens (càd quand les
valeurs observées pour de x augmentent, celles observées pour y également, comme dans notre exemple la
taille et le poids), et négative si elles ont tendance à varier en sens contraire.

Illustration :

70
taille (m) poids (kg)
Individu1 1.25 30
Individu 2 1.4 36
Individu 3 1.23 27
Individu 4 1.43 35

Poids (kg)
Individu 5 1.55 47

moyenne 1.3720 35.0000


moyenne des
carrés 1.8966 1271.8000
variances
marginales 0.0142 46.8000
écarts-types
marginaux 0.1191 6.8411 Taille (m)

On voit que plus la taille augmente, plus le poids a tendance à augmenter. On s’attend donc à ce que
quand 𝑥𝑖 − 𝑥̅ est positif (taille au-dessus de la moyenne), 𝑦𝑖 − 𝑦̅ soit positif également (poids au-dessus
de la moyenne).

On calcule ci-dessous le produit des écarts entre les observations et leur moyenne, et on voit qu’ils sont tous
positifs ou nuls. Cela traduit bien le fait que quand la taille augmente, le poids a tendance à augmenter.

Le calcul de la covariance donne :


0,61 + 0,028 + 1,136 + 0 + 2,136
𝑠𝑥,𝑦 = = 0,782
5

Remarque 1: Expression analytique équivalente pour la covariance :


On peut montrer que cette quantité est aussi égale à :
𝑛
1
𝐶𝑜𝑣(𝑋, 𝑌) = 𝑠𝑥,𝑦 = ( ∑ 𝑥𝑖 𝑦𝑖 ) − 𝑥̅ 𝑦̅
𝑛
𝑖=1

Cela se voit facilement par calcul direct:

𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
1 1 1 1 1 1
𝑠𝑥,𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑(𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅𝑥𝑖 + 𝑥̅ 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ ∑ 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖 + 𝑥̅ 𝑦̅ ∑ 1
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
1 1 1 1
= ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝑦̅𝑥̅ + 𝑥̅ 𝑦̅ 𝑛 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝑦̅𝑥̅ + 𝑥̅ 𝑦̅ = ∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Dans notre illustration (poids et taille), on peut calculer la covariance par cette nouvelle formule, pour
obtenir :

71
1
𝑠𝑥,𝑦 = (1,25 ⋅ 30 + 1,40 ⋅ 36 + 1,23 ⋅ 27 + 1,43 ⋅ 35 + 1,55 ⋅ 47) − 1,372 ⋅ 35
5
= 48,802 − 48,02 = 0,782

On voit qu’on obtient bien la même valeur qu’avant pour la covariance.

Remarque 2 : la covariance d’une série avec elle-même est égale à la variance de cette série
Si les deux séries de données sont identiques (X=Y), alors la covariance correspond en fait à la variance de
notre (unique) série statistique X. En effet, dans ce cas, pour tout individu i, 𝑥𝑖 = 𝑦𝑖 , et donc 𝑥̅ = 𝑦̅, et la
formule de la covariance ci-dessus nous donne :
𝑛 𝑛
1 1
𝐶𝑜𝑣(𝑋, 𝑋) = 𝑠𝑥,𝑥 = ( ∑ 𝑥𝑖 𝑥𝑖 ) − 𝑥̅ 𝑥̅ = ( ∑ 𝑥𝑖2 ) − 𝑥̅ 2 = 𝑉𝑎𝑟(𝑋)
𝑛 𝑛
𝑖=1 𝑖=1

Remarque 3 : La covariance ne dépend pas de l'origine choisie pour mesurer les variables X et Y, mais
dépend des unités de mesure.

On peut constater cela sur notre illustration ci-dessus : si la taille est exprimée en mètres, on aboutit aux
résultats suivants :
ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
1.25 30 -0.122 -5.000 0.610
1.4 36 0.028 1.000 0.028
1.23 27 -0.142 -8.000 1.136
1.43 35 0.058 0.000 0.000
1.55 47 0.178 12.000 2.136

moyenne 1.372 35.000 Covariance: 0.782


moyenne
des carrés 1.897 1271.800
variances
marginales 0.014 46.800
écarts-types
marginaux 0.119 6.841

Si maintenant la taille est mesurée en cm (toutes les tailles sont alors multipliées par 100), cela donne :

72
ecarts x_i - ecarts y_i - produits des
taille (cm) poids (kg) moyenne moyenne écarts
125 30 -12.200 -5.000 61.000
140 37 2.800 2.000 5.600
123 27 -14.200 -8.000 113.600
143 35 5.800 0.000 0.000
155 47 17.800 12.000 213.600

moyenne 137.200 35.200 Covariance: 78.76


moyenne
des carrés 18965.600 1286.400 Corrélation 96%
variances
marginales 141.760 47.360
écarts-types
marginaux 11.906 6.882

On voit que la covariance est multipliée elle-aussi par 100.

Si maintenant on change l’origine pour mesurer la taille (on enlève 1 m systématiquement à toutes les
tailles, càd on met l’origine à 1 et non à 0) :

taille (nombre de m au- ecarts x_i - ecarts y_i - produits des


dessus de 1m) poids (kg) moyenne moyenne écarts
0.25 30 -0.122 -5.000 0.610
0.4 36 0.028 1.000 0.028
0.23 27 -0.142 -8.000 1.136
0.43 35 0.058 0.000 0.000
0.55 47 0.178 12.000 2.136

moyenne 0.372 35.000 Covariance: 0.782


moyenne
des carrés 0.153 1271.800 Corrélation 0.96
variances
marginales 0.014 46.800
écarts-types
marginaux 0.119 6.841

On voit que la covariance ne change pas suite à ce changement d’origine.

La covariance dépend donc des unités. Or on voudrait une mesure indépendante des unités, qui serait telle
que quand on considère la valeur de cette mesure, directement on puisse dire s’il y a un lien important ou
non entre deux variables.
C'est pourquoi, pour mesurer l'aspect plus ou moins "allongé" du nuage dans une direction (donc l’intensité
avec laquelle quand x prend des grandes valeurs, y également, ou le contraire), par un coefficient sans
unité, insensible au choix des unités choisies pour mesurer X et Y, on va considérer la covariance entre les
𝑥 𝑦
séries des 𝑠 𝑖 et 𝑠 𝑖 .
𝑥 𝑦

Ceci veut dire concrètement qu’on considère toutes les valeurs observées pour la variable X et qu’on les
divise toutes par l’écart type de la série, 𝑠𝑥 , et on fait de même pour la série Y. On obtient alors 2 nouvelles
séries statistiques, et on en calcule la covariance.
C’est ce qui nous mène au concept de corrélation introduit plus bas.

4.4 Coefficient de corrélation


Comme annoncé plus haut, il s’agit de la quantité suivante :

73
𝑋 𝑌
𝝆(𝑿, 𝒀) = 𝐶𝑜𝑣 ( , )
𝑠𝑥 𝑠𝑦

Càd celle entre la série X divisée par son écart-type (série « réduite ») et Y disivée aussi par son écart-type.
Si on calcule ce que ça vaut :
𝑛 𝑛 𝑛
1 𝑥𝑖 𝑦𝑖 1 𝑥𝑖 1 𝑦
=( ∑ )−( ∑ ) ( ∑ 𝑖)
𝑛 𝑠𝑥 𝑠𝑦 𝑛 𝑠𝑥 𝑛 𝑠𝑦
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
1 1 1 1 1 1
=( ∑ 𝑥𝑖 𝑦𝑖 ) − ( ∑ 𝑥𝑖 ) ( ∑ 𝑦𝑖 )
𝑠𝑥 𝑠𝑦 𝑛 𝑠𝑥 𝑛 𝑠𝑦 𝑛
𝑖=1 𝑖=1 𝑖=1

𝑪𝒐𝒗(𝑿, 𝒀)
=
𝒔𝒙 𝒔𝒚

C’est donc la covariance de X et Y divisée par le produit des écart-types marginaux de X et de Y.

Définition : La corrélation entre deux séries X et Y est définie par :


𝐶𝑜𝑣(𝑋, 𝑌)
𝜌(𝑋, 𝑌) = 𝐶𝑜𝑟𝑟(𝑋, 𝑌) =
𝑠𝑥 𝑠𝑦

Illustration
Si l’on reprend notre exemple, on obtient ce qui suit :
𝐶𝑜𝑣(𝑋, 𝑌) = 0,782, 𝑠𝑥 = 0,119, 𝑠𝑦 = 6,641
Cov(X, Y) 0,782
ρ(X, Y) = Corr(X, Y) = = = 0,96
sx ⋅ sy 0,119 ⋅ 6,641

Propriétés de la corrélation:
• La corrélation, notée également (𝑋,), est symétrique en les variables X et Y
o si on échange les rôles de X et Y, la valeur obtenue est la même.

• La corrélation est indépendante des unités choisies pour mesurer X et Y et de l'origine


o par exemple on peut mesurer le poids en kg mais aussi en grammes ou en livres…, cela ne
va rien changer à la corrélation

Exemple : on reprend notre exemple avec le poids et la taille, et on calcule la corrélation à partir de la
taille mesurée en cm et non en m :

74
ecarts x_i - ecarts y_i - produits des
taille (cm) poids (kg) moyenne moyenne écarts
125 30 -12.200 -5.000 61.000
140 37 2.800 2.000 5.600
123 27 -14.200 -8.000 113.600
143 35 5.800 0.000 0.000
155 47 17.800 12.000 213.600

moyenne 137.200 35.200 Covariance: 78.76


moyenne
des carrés 18965.600 1286.400 Corrélation 96%
variances
marginales 141.760 47.360
écarts-types
marginaux 11.906 6.882

• On peut voir par ailleurs que la corrélation est toujours comprise entre - 1 et 1 :
𝝆(𝑿, 𝒀) ∈ [−𝟏, 𝟏]

• Elle vaut 1 si et seulement si le nuage est formé de points exactement alignés le long d'une droite
croissante (donc de coefficient angulaire positif), càd une droite d’équation :

y = a x + b, avec a > 0 .
Cela veut dire que pour tout i, la relation suivante est satisfaite :
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏

(les points (𝑥𝑖 , 𝑦𝑖 ) sont situés sur la droite, ils vérifient donc tous l’équation de la droite…).

• Le coefficient de corrélation vaut −𝟏 si et seulement si les points du nuage sont situés le long d'une
droite décroissante (donc de coefficient angulaire négatif):

yi = a xi + b , avec a < 0

• Le coefficient de corrélation 𝜌(X,Y) sera donc proche de 1 si le nuage est très allongé selon une
direction croissante : si X augmente, Y augmente aussi de façon proportionnelle et presque
systématique.

Si 𝜌 est proche de - 1, lorsque X augmente, Y diminue de façon proportionnelle, et presque


systématique.

75
Figure 25: Exemples de cas où la corrélation est proche de ou égale à 1 ou -1

Illustration sur notre exemple (poids et taille):


Dans l’exemple qui suit, les données du poids sont obtenues exactement comme 40 fois celles de la
taille moins 20 :
𝑌 = 40 𝑋 − 20.

On a donc une relation linéaire entre les deux variables (y=40x-20 est l’équation d’une droite).
On vérifie par calcul direct dans Excel que la corrélation vaut effectivement bien 1 :

Exemple où le poids est exactement une fonction linéaire de la taille


ecarts x_i - ecarts y_i - produits des
taille (m) poids (kg) moyenne moyenne écarts
1.25 30 -0.122 -4.880 0.595
1.4 36 0.028 1.120 0.031
1.23 29.2 -0.142 -5.680 0.807
1.43 37.2 0.058 2.320 0.135
1.55 42 0.178 7.120 1.267

moyenne 1.372 34.880 Covariance: 0.56704


moyenne
des carrés 1.897 1239.296 Corrélation 1.00
variances
marginales 0.014 22.682
écarts-types
marginaux 0.119 4.763

• Si 𝝆 est proche de + 1 ou de - 1, on dit que X et Y sont bien corrélées ou très corrélées entre
elles,

• Si 𝝆 est proche de 0, on dit que X et Y ne sont pas corrélées.


o Ceci a lieu en particulier lorsque X et Y sont indépendantes, c'est-à-dire si les deux variables
mesurées n'ont aucun rapport, aucune influence l’une sur l’autre
▪ les valeurs prises par l’une n’influencent aucunement les valeurs prises par l’autre ;
en d’autre termes, ce n’est pas parce que l’on sait que les valeurs prises par X sont
par exemple élevées, qu’on peut en conclure quoi ce que soit par rapport aux valeurs
prises par y…). On précisera plus tard ce concept d’indépendance.

o Mais ce n'est pas le seul cas : Y peut même être une fonction de X, mais pas via une fonction
linéaire (droite)

76
X Y
1.265412 1.601267
2.387917 5.702147
2.054919 4.222692
-3.85791 14.88346
-1.32154 1.746466
0.284884 0.081159
Figure 26: Exemple de cas où la corrélation est proche de 0
4.913138 24.13893
• Voir exemple dans Excel : Exemple: 0.130502 0.017031
– Série X simulée suivant 2.177393 4.741039
une variable uniforme sur [-5,5] (voir plus loin : cela correspond à
des nombres entre -5 et-1.11527
5, répartis1.243832
uniformément sur cet intervalle)
-0.1534 0.023531
– Série Y obtenue comme 𝑌 = 𝑋 2 (on prend le carré des valeurs obtenues pour X)
2.39312 5.727023
– On peut voir que 𝜌(𝑋, -4.61068 𝑌) = 0,002896 sur cet échantillon, càd quasi égale à 0
21.25836
X Y -0.95725 0.916325
1.265412 1.601267 4.760721 22.66446
2.387917 5.702147 -2.86758 8.223016
2.054919 4.222692 -4.68611 21.9596
-3.85791 14.88346 -0.98123 0.962819
-1.32154 1.746466 -1.08339 1.17373
0.284884 0.081159 1.328783 1.765665
4.913138 24.13893 -0.96943 0.939792
0.130502 0.017031 -2.03597 4.145173
2.177393 4.741039 3.162157 9.999238
-1.11527 1.243832 0.729681 0.532434
-0.1534 0.023531 3.37844 11.41386
2.39312 5.727023 -3.00083 9.004986
-4.61068 21.25836 1.70142 2.89483
-0.95725 0.916325 -2.63274 6.931344
4.760721 22.66446 0.910985 0.829894
-2.86758
Figure 8.223016
27: simulations des séries X et Y
-4.68611 21.9596
-0.98123 0.962819
-1.08339 1.17373
1.328783 1.765665
-0.96943 0.939792
-2.03597 4.145173
3.162157 9.999238
0.729681 0.532434
3.37844 11.41386
-3.00083 9.004986
1.70142 2.89483
-2.63274 6.931344
0.910985 0.829894
Figure 28: Nuage de points de la série bivariée (X,Y). La corrélation entre X et Y est quasi égale à 0. En fait il existe une relation directe
entre X et Y, mais pas linéaire (pas une droite, mais une parabole)

En fait la corrélation mesure la dépendance linéaire entre deux variables. Elle exprime dans quelle
mesure Y est une fonction linéaire de X, càd dans quelle mesure on peut écrire :
𝑌 = 𝑎𝑋 + 𝑏 + 𝑒𝑟𝑟𝑒𝑢𝑟

77
pour certaines constantes 𝑎, 𝑏 bien choisies (voir plus loin dans les régressions linéaires), avec une certaine
erreur commise en remplaçant Y par la fonction linéaire de X, 𝑎𝑋 + 𝑏, erreur que l’on espère petite.

Remarque : Remarquons que si l’on considère deux séries statistiques tout à fait identiques (on a
« recopié » la même série et on considère le tout comme deux séries, même s’il s’agit en fait de deux fois
la même…), dans ce cas la corrélation vaudra toujours 1 : (X,X)=1

4.5 Corrélation et causalité


Une bonne corrélation signifie qu'il existe une relation presque linéaire entre X et Y, mais pas
nécessairement de relation de cause à effet ! (parfois oui, mais pas toujours… )

Exemple de mauvaise interprétation en terme de causalité:


Le schéma ci-dessous représente en X l’évolution des effectifs de l'enseignement supérieur au cours du
temps, et Y le nombre de chômeurs au Canada sur cette même période (donc à différents moments). On
peut voir que le coefficient de corrélation vaut 0.94, donc une valeur proche de 1.

On voit que les deux quantités ont augmenté conjointement, mais en fait c'est surtout parce que la population
globale du Canada a beaucoup augmenté. Plus d’habitants implique plus de chômeurs (on parle ici du
nombre absolu de chômeurs, pas du pourcentage qu’ils représentent dans la population…), mais aussi plus
d’étudiants dans l’enseignement supérieur. L'enseignement supérieur ne crée pas forcément des chômeurs!

Figure 29: nombre de chômeurs et nombre d’habitants au Canada à différentes périodes

Autre exemple de mauvaise interprétation des corrélations:


On constate qu’il y a une corrélation positive entre le nombre de jours de vacances passés aux sports d’hiver
et le montant du loyer payé par les familles non propriétaires de leur logement (on ne s’intéresse ici qu’aux
familles payant un loyer, pas à celles qui ont déjà acheté leur habitation). La raison de cette corrélation étant
évidemment que les familles à revenu plus élevé ont tendance à payer un loyer plus élevé également (car
elles en ont les moyens), et à partir plus souvent en vacances aux sports d’hiver (à nouveau car elles en ont
les moyens), que les familles à revenu plus modeste. Càd à la présence d’un troisième facteur, le revenu.

Une interprétation erronée de cette corrélation positive entre vacances aux sports d’hiver et montant du
loyer consisterait à dire que ce qui fait que les gens peuvent partir aux sports d’hiver est le montant de leur
loyer : payer un loyer élevé leur permettrait de pouvoir partir plus facilement aux sports d’hiver. La
conclusion qu’on en tirerait est que si l’on veut « démocratiser » les sports d’hiver dans un pays, il suffirait
d’inciter les propriétaires du pays à augmenter les loyers… Cela n’a évidemment aucun sens.

Relations d’effets conjoints

78
En fait, dans beaucoup de situations, on a des phénomènes se comportant de manière liée sans qu’il y ait
une relation de causalité entre l’un et l’autre. C’est le cas de deux actions dont les évolutions sont parallèles
(ou presque) sans que les variations de l’une provoquent les variations de l’autres, où les variations des
deux suivent en fait les variations générales du marché dans son ensemble.

Dans une telle situation, on parle d’effets conjoints : les causes génératrices d’évolution des deux séries
statistiques sont extérieures : on a une ou plusieurs causes extérieures agissant simultanément sur les deux
phénomènes X et Y.

Conclusion : Corrélation entre deux variable X et Y ne veut pas dire relation de causalité entre ces deux
variables !! Ce sont deux choses différentes.

Il existe un autre coefficient auquel on peut s’intéresser : le coefficient de détermination, qui est donné
par le carré du coefficient de corrélation :
2 2
𝑅2 = (𝜌(𝑋, 𝑌)) = (𝑐𝑜𝑟𝑟(𝑋, 𝑌))

Il est toujours positif. Il intervient dans les régressions linéaires, traitées dans la section suivante.

Exemple : covariance et corrélation entre les returns observés sur différentes actions
On peut reprendre les données d’évolution des cours des actions Carrefour et Beneteau étudiées plus haut.
Le calcul de la covariance et de la corrélation entre les deux séries de returns, sur la période s’étalant du
1/1/2018 au 5/2/2019 nous fournit une covariance d’environ 7,15 *𝟏𝟎−𝟓 (très faible car l’ordre de
grandeur des returns journaliers est faible, et car la covariance dépend des unités de mesures, d’où l’intérêt
d’utiliser la corrélation !), mais une corrélation d’environ 15%. Les deux actions sont donc faiblement
positivement corrélées.
On peut également s’intéresser aux liens éventuels entre les rendements de ces actions et les rendements
d’un indice boursier, représentatif du marché dans son ensemble. Dans le cas présent, comme les deux
actions sont toutes deux des actions françaises, on peut s’intéresser à l’indice CAC40, regroupant les
principales actions d’entreprises françaises.

Figure 30: illustration de l’évolution de l’indice CAC 40 de 2017 à début 2019 (source : www.euronext.com)

79
CAC40 : Les caractéristiques statistiques de cet indice boursier considéré sur la même période
(essentiellement l’année 2018) sont les suivantes :

Moyenne des returns journaliers : -0.01634%


Ecart-type des returns journaliers : 0.874859%
Ecart-type des returns journaliers annualisé (ou volatilité annualisée) : 13.83%

Covariance et correlation entre le CAC40 et les deux actions ci-dessus :

Carrefour Beneteau
Covariance avec CAC40 4.44137E-05 0.00012854
Correlation avec CAC40 29.35% 52.80%

Remarquons que l’on peut disposer dans un tableau à 2 dimensions ces différentes covariances et
corrélations :

Carrefour Beneteau CAC40

Carrefour 0.0002991452 0.0000714656 0.0000444137

Beneteau 0.0000714656 0.0007742247 0.0001285371

CAC40 0.0000444137 0.0001285371 0.0000765378

C’est ce que les statisticiens appellent la matrice variance-covariance des différente séries statistiques.
(On est en fait déjà en train de faire de la statistique multivariée avec plus que 2 séries…). Cette matrice
n’est pas très parlante, toutes les valeurs sont très petites, car les ordres de grandeur sont petits lorsqu’on
regarde des variations de cours d’un jour à l’autre.

Dans ce tableau, sur la diagonale on a en fait repris les variances des returns des différentes actions et de
l’indice, puisqu’on a vu que la covariance d’une série statistique avec elle-même correspondait en fait à la
variance de cette série.

La matrice de corrélation est donnée ci-dessous :


Carrefour Beneteau CAC40
Carrefour 100.0% 14.8% 29.4%
Beneteau 14.8% 100.0% 52.8%
CAC40 29.4% 52.8% 100.0%

80
4.6 Régressions linéaires simples – méthode des moindres carrés
Le nuage de points du début de ce chapitre est composé des points (taille ; poids). La première valeur (la
taille) donne l’abscisse du point, et la deuxième valeur (le poids), son ordonnée. Pour construire le nuage
on a simplement représenté ces couples de valeurs (taille ; poids) par des points ayant ces coordonnées. Si
l’on veut connaître le poids pour une certaine taille, il suffit d’aller chercher la valeur de l’ordonnée pour le
point dont l’abscisse est la taille donnée.

Mais, supposons qu’on veuille connaître le poids pour une taille qui ne correspond à aucun point du
graphique (nuage de points). Dans ce cas, si l’on arrive à approximer le nuage de points par le graphe
d’une fonction, le problème est résolu : on peut utiliser la fonction pour calculer le poids correspondant à
n’importe quelle taille. En langage mathématique, cela s’écrit :

poids = f(taille).

pour une certaine fonction f. Cela veut dire que le poids est une certaine fonction de la taille. Si l’on veut
trouver le poids qui correspond à la taille de 123 cm, il suffit de faire le calcul : poids=f(123).

Le problème est que nous ne connaissons pas a priori cette fonction (nous ne connaissons pas « f »).
4.6.1 Paramètres de la droite de régression au sens des moindres carrés
Essayons de résoudre ce problème :
La première idée qui vient à l’esprit est de s’intéresser à des fonctions très simples, càd de type linéaire1 :
𝑓(𝑥) = 𝑎𝑥 + 𝑏 pour certaines constantes a et b (que l’on doit déterminer).

On représente les valeurs (xi ; yi ) dans un graphique à deux dimensions Dans certains cas, le nuage de
points représentant une série statistique double (X ; Y) est tel que ses points ont l’air de de disposer assez
près d’une certaine droite D.

Supposons que cette droite ait pour équation y = a x + b , où a est la pente de la droite et b est son
terme indépendant. Le terme indépendant est l’ordonnée du point d’intersection de la droite avec l’axe des
ordonnées.

À chaque point (xi ; yi ) de ce nuage de points, on peut faire correspondre un point P i de la droite D ayant
la même abscisse que (xi ; yi ), c’est à dire, xi , mais d’ordonnée 𝑎𝑥𝑖 + 𝑏 :

1
On appelle cela une fonction linéaire car son graphe est une droite (càd une « ligne »)

81
L’ « erreur » associée à une telle modélisation Y=aX+b apparaît alors comme l’ écart (la distance) entre
les points (𝒙𝒊 , 𝒚𝒊 ) et leurs projections verticales Pi= (𝒙𝒊 , 𝒂𝒙𝒊 + 𝒃). On appelle également ces écarts les
résidus.
Ces écarts sont donnés par la longueur du segment joignant ces deux points. Ces 2 points ont même
abscisse 𝑥𝑖 , donc la distance est simplement donnée par la différence des ordonnées:
é𝑐𝑎𝑟𝑡𝑖 = ei = 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏.

Si ces écarts sont petits, alors cela signifie que les points initiaux du nuage (𝑥𝑖 , 𝑦𝑖 ) sont proches des Pi, du
point de vue de la variable Y, c’est à dire, la droite est très proche des « vrais » points.
Pour avoir une idée de l’erreur totale sur l’ensemble des points, on agrège ces erreurs 𝑒𝑖 en une erreur
totale 𝑬𝑻 ou somme des carrés des résidus (𝑆𝐶𝑟𝑒𝑠 ) :
𝑛 𝑛

𝐸𝑇 = 𝑆𝐶𝑟𝑒𝑠 = ∑ 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏 = ∑ écart i .


𝑖=1 𝑖=1
Cela correspond au choix de Gauss pour la résolution de ce type de problème. Les erreurs sont rendues
positives grâce à la mise au carré et sont cumulées par simple sommation. Des raisons analytiques sont à la
base du choix du carré, car celui-ci conduit à des expressions simples et facilement manipulables (la
fonction 𝑥 2 est plus facile à dériver que la fonction valeur absolue par exemple, avec laquelle on aurait
aussi pu travailler). Remarquons que les mises au carré amplifie les écarts les plus grands et donne donc
aux valeurs éloignées de la tendance une importance démesurée.

On va chercher la droite la plus proche (le modèle « le meilleur »), au sens de celui qui va minimiser
l’erreur totale 𝑬𝑻 ou la somme des carrés des résidus. On parlera de droite au sens des moindres carrés.
Il y a plusieurs manières de procéder a priori pour prendre en compte tous les écarts..

Soit 𝐸𝑇 = 𝐸𝑇(𝑎, 𝑏) la somme des carrés des écarts:

𝐸𝑇(𝑎, 𝑏) = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)2


𝑖=1

Cette somme dépend de a et b, donc on peut la voir comme une fonction de ces 2 variables a et b, d’où la
notation 𝑬𝑻(𝒂, 𝒃). On veut que 𝐸𝑇(𝑎, 𝑏) soit le plus petit possible (cela veut dire une droite le plus proche
possible des vrais points en moyenne).

82
Résolution du problème
On va introduire deux artifices de calcul qui permettent l’obtention d’une solution analytique simple
utilisant les indicateurs statistiques usuels.
1
Au lieu de chercher à minimiser ET, cherchons plutôt à minimiser 𝑛 𝐸𝑇. Les valeurs de a et b qui réalisent
ce minimum sont évidemment les mêmes que celles qui minimisent ET. Ensuite, on
introduit artificiellement les écarts entre les observations et leurs moyennes respectives 𝑥̅ , 𝑦̅. On a alors :

Si l’on développe le carré parfait ci-dessus, on obtient une somme de trois termes :

(1)

Or,
𝑛 𝑛 𝑛
1 1 1 1
∑(𝑦𝑖 − 𝑦̅) = ∑ 𝑦𝑖 − ∑ 𝑦̅ = 𝑦̅ − 𝑛𝑦̅ = 0.
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

Le 5ème terme de (1) est donc nul, et il en est de même pour le 6ème de (1).

On arrive donc au résultat :

(2)
càd la somme de 2 fonctions :
o une fonction du second degré de la seule variable a, facilement minimisable (il suffit de la
dériver et de trouver le point où la dérivée s’annule), et
o une fonction à deux variables a et b prenant la forme particulière d’un carré parfait, prenant
donc son minimum là où elle s’annule.

Or, quel que soit a, ce dernier terme peut être annulé par un choix judicieux de b : il suffit de prendre
𝒃=𝒚 ̅−𝒂𝒙 ̅.

83
Ceci nous fournit le choix de b (qui dépendra donc du choix de a).
Il suffit donc de trouver le paramètre a qui minimise le premier terme, et de l’injecter dans l’expression ci-
dessus pour obtenir le paramètre b qui convient également.

Il reste donc seulement à trouver ce paramètre a. Notons 𝑓(𝑎) la fonction d’une seule variable
correspondant à ce premier terme :
𝑓(𝑎) = 𝑠𝑦2 + 𝑎2 𝑠𝑥2 − 2𝑎 𝑠𝑥,𝑦

Si on calcule la dérivée de cette fonction f par rapport à la variable a, cela donne :


𝑓 ′ (𝑎) = 2𝑎𝑠𝑥2 − 2𝑠𝑥,𝑦
Cette dérivée s’annule si et seulement si :
𝑠𝑥,𝑦 𝐶𝑜𝑣(𝑋, 𝑌)
2𝑎𝑠𝑥2 − 2𝑠𝑥,𝑦 = 0 ⇔ 𝑎 = =
𝑠𝑥2 𝑉𝑎𝑟(𝑋)
1
En résumé, les paramètres minimisant la somme des carrés des écarts 𝑛 𝐸𝑇, valent donc :

𝒔𝒙,𝒚 𝑪𝒐𝒗(𝑿, 𝒀)
𝒂= =
𝒔𝟐𝒙 𝑽𝒂𝒓(𝑿)

̅−𝒂𝒙
𝒃=𝒚 ̅.

La droite D d’équation y = a x + b ainsi obtenue (avec a,b comme ci-dessus) est appelée droite de
régression.
4.6.2 Qualité d’une régression linéaire : coefficient de détermination
Une mesure de la qualité d’une régression linéaire est obtenue en considérant le coefficient de
détermination:

𝑹𝟐 = 𝝆𝟐

défini comme le carré de la corrélation entre les deux variables statistiques X et Y.

En effet, la valeur minimale de l’écart quadratique ET que l’on a minimisé ci-dessus est donnée par :

𝐸𝑇𝑚𝑖𝑛 = 𝑛 . 𝑓(𝑎) = 𝑛. (𝑠𝑦2 + 𝑎2 𝑠𝑥2 − 2𝑎 𝑠𝑥,𝑦 ) = 𝑛. (𝑉𝑎𝑟(𝑌) + 𝑎2 𝑉𝑎𝑟(𝑋) − 2𝑎𝐶𝑜𝑣(𝑋, 𝑌))


𝑠𝑥,𝑦 𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= =
𝑠𝑥2 𝑉𝑎𝑟(𝑋)

En remplaçant a par cette valeur dans l’expression de ET , on obtient:

84
𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌) − 𝐶𝑜𝑣(𝑋, 𝑌)2
𝐸𝑇𝑚𝑖𝑛 =𝑛 = 𝑛 𝑉𝑎𝑟(𝑌)(1 − 𝜌2 )
𝑉𝑎𝑟(𝑋)

𝐶𝑜𝑣(𝑋,𝑌)2
puisque 𝜌2 = 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌).

De ceci il apparait clairement que plus 𝜌2 est proche de 1, plus l’écart quadratique moyen est proche de 0
(indépendamment de la variabilité de Y capturée par Var(Y)).

En d’autres termes également, si on note 𝑦̂𝑖 = 𝑎𝑥𝑖 + 𝑏, on a la relation :

𝐸𝑇𝑚𝑖𝑛 = ∑(𝑦̂𝑖 − 𝑦𝑖 )2 = (1 − 𝜌2 ) ∑(𝑦𝑖 − 𝑦̅)2


𝑖 𝑖

1
ou encore (exercice, il suffit de développer les carrés ci-dessous et d’utiliser le fait que 𝑛 ∑𝑖 𝑦𝑖 = 𝑦̅):
∑𝑖(𝑦𝑖 − 𝑦̅)2 − ∑𝑖 (𝑦̂𝑖 − 𝑦𝑖 )2 ∑𝑖 (𝑦̂𝑖 − 𝑦̅)2
𝑅 2 = 𝜌2 = =
∑𝑖 (𝑦𝑖 − 𝑦̅)2 ∑𝑖 (𝑦𝑖 − 𝑦̅)2

Ceci s’interprète comme :


𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑒 𝑌 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑝𝑎𝑟 𝑙𝑎 𝑟é𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛
𝑅2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒 𝑌

Donc une indication de la pertinence d’une régression linéaire (et donc d’un modèle linéaire, dans
lequel on a tenté d’expliquer Y à l’aide d’une fonction linéaire de X, et donné par le coefficient de
détermination 𝑹𝟐 . Cela donne une indication du fait que la droite de régression colle bien aux données.

Que fait-on quand ça ne marche pas bien ?


Il se peut qu’une droite ne représente pas « bien » le nuage de points. En d’autres termes que le nuage ne
ressemble en rien à une droite. On trouvera dans ces cas-là une valeur de 𝑅2 assez petite (disons inférieure
à 30%). Dans ce cas, on peut essayer de modifier les variables du problème et chercher une relation linéaire
non pas entre les séries X et Y mais entre X et une fonction de Y.

Par exemple, si le nuage de points (ti ; gi) n’a pas l’allure d’une droite, ou peut vérifier l’allure de (ti2; gi).

Pour analyser si une droite est une bonne approximation du nuage de points, on étudie le coefficient de
corrélation 𝜌 ou le coefficient de détermination 𝑅2 . Mais attention, cette étude ne suffit pas.

Souvent, on teste différentes droites de régression / différents modèles de régression (en partant d’abord
des deux séries de départ, puis des fonctions de celles-ci) et on les compare entre-elles pour choisir la plus
pertinente, c'est-à-dire, celle qui représente mieux le nuage de points. En général on se base sur le carré de
la corrélation

85
Par exemple, on peut comparer les coefficients de corrélation de la droite de régression pour (ti ; gi) avec
celui obtenu pour (ti2 ; gi) pour étudier la pertinence de ces fonctions.

4.6.3 Applications et exemples


Les régressions linéaires peuvent servir à construire des modèles pour l’évolution dans le temps de certaines
quantités observées, notamment des variables de marché ou macro-économiques.
4.6.3.1 Exemple 1: variation des taux d’intérêt en fonction du temps
Le graphe suivant illustre une régression linéaire entre deux séries statistiques X et Y, où :
• X est le taux d’intérêt (taux sans risque à 3 mois) observé tous les jours pendant une certaine période,
et
• Y est le taux d’intérêt observé tous les jours mais avec un décalage de 1 jour dans le futur

En clair :
• 𝑥𝑖 = taux au jour i
• 𝑦𝑖 = taux au jour i+1

On « voit » sur ce graphe que les points s’alignent quasiment sur la droite de régression. Cela veut dire que
le taux observé un jour est quasiment une fonction linéaire du taux observé la veille, et cela tous les jours
avec la même fonction linéaire (la relation est la même tous les jours).
-3
x 10 Regression
3.5

2.5
Rate observed
2
Regression
1.5
1.8 2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6
-3
x 10
-4
x 10 Residuals
2

-2

-4
0 50 100 150 200 250 300 350 400

(Note : nous ne donnons pas ici ni les coefficients de la régression ni le coefficient de détermination).

En fait cette estimation sert de base à l’estimation des paramètres d’un modèle de type « AR(1) » (auto-
régressif d’ordre 1), càd du type :
𝑥𝑖 = 𝑎𝑥𝑖−1 + 𝑏 + 𝜖𝑖

(où 𝜖𝑖 sont des nombres aléatoires indépendants et identiquement distribués, i.i.d. , voir plus loin), modèle
qui apparait assez pertinent pour l’évolution dans le temps des taux d’intérêt par exemple.

86
4.6.3.2 Taux de décès à la naissance en fonction du temps
On s’intéresse aux taux de décès pour 1000 naissances des enfants de moins d’un an en Belgique depuis
1900 :
Année (“x”) Décès avant 1 an pour
1000 naissances (« y »)
1900 178.2
1930 99.5
1950 53.45
1970 21.09
1980 12.14
1990 7.75
2000 4.9
2010 3.7
2017 3.1

Les indicateurs statistiques usuels (moyennes, variances, covariance…) se calculent facilement :

𝑥̅ = 1971,89
𝑠𝑥2 = 1341,88
𝑦̅ = 42,65
𝑠𝑦2 = 3204,72
𝑠𝑥,𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) = −1947,8791
𝜌 = −93,93%, 𝑅2 = 88,23%

Le coefficient de corrélation est proche de 1, un modèle obtenu par régression linéaire est donc a priori
indiqué. Cependant, une modélisation linéaire pour des taux de décès est suspecte, car ces taux doivent
toujours rester positifs (on a un « pallier » , ou un « floor », à 0 !). Or, les données et la droite de régression
(le modèle linéaire, donc) se présentent comme suit :
• Droite de régression : 𝑦 = −1,45 𝑥 + 2905,06

Où les coefficients sont obtenus comme :


1947,879
• 𝑎=− = −1,45
1341,88
• 𝑏 = 𝑦̅ − 𝑎𝑥̅ = 42,65 − (−1,45 ∗ 1971,89)

87
Nombre de décès la première année pour 1000
naissances
200

150

100

50

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

-50

Figure 31: Modèle linéaire pour l'évolution dans le temps du nombre de décès à la naissance en Belgique

On constate que malgré une corrélation relativement proche de -1 (et un coefficient de détermination
également assez proche de 1), le modèle linéaire (en temps que modèle de prévision) n’a pas beaucoup de
sens car il se traduit par des nombres de décès négatifs à partir de 2010… Par ailleurs, les points n’ont pas
vraiment l’air de se disposer le long d’une droite…

On va alors faire une transformation des données en passant aux coordonnées semi-logarithmiques pour les
nombres de naissances. Cela revient à transformer la série Y en une nouvelle série correspondant aux
logarithmes de Y : Y’=ln(Y) :

Année (X) Décès avant 1 an pour Ln (Y)


1000 naissances (Y)
1900 178.2 5.18290652
1930 99.5 4.60015764
1950 53.45 3.97874664
1970 21.09 3.04879899
1980 12.14 2.49650579
1990 7.75 2.04769284
En considérant non plus 2000 4.9 1.58923521 Y mais 𝑌 ′ = ln(𝑌), on
peut recalculer tous les 2010 3.7 1.30833282 indicateurs statistiques
univariés et bivariés : 2017 3.1 1.13140211
𝑥̅ = 1971,89
𝑠𝑥2 = 1341,88
̅ = 2,82
𝑦′
2
𝑠𝑦′ = 1,9444
𝐶𝑜𝑣(𝑋, 𝑌′) = −50,58
𝜌 = −99,02%, 𝑅2 = 98,05%

On voit que la corrélation est devenue beaucoup plus proche de -1, de même que le coefficient de
détermination.

88
Une régression linéaire de ln(Y) sur les années (X) nous donne comme droite de régression:

𝑦′ = −0,038 𝑥 + 77,15

Graphiquement cela donne :

Nombre de décès la première année pour 1000 naissances


6

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

Figure 32: Modèle linéaire construit sur les logarithmes du nombres de décès (modèle en coordonnées semi-logarithmiques).

Le nouveau modèle linéaire ainsi obtenu nous donne donc une modélisation du logarithme du nombre de
décès avant un an (sur 1000 naissances) comme :

ln(𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 𝑝𝑜𝑢𝑟 1000 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠) = −0,037694 ∗ 𝑎𝑛𝑛é𝑒 + 77,1488648

càd que l’on suppose implicitement que les données vérifient :


𝑙𝑛(𝑦𝑖 ) = 𝑦𝑖′ = −0,037694 𝑥𝑖 + 77,1488648 + 𝑒𝑖′
càd :
𝑥𝑖 +77,1488648+𝑒𝑖′
𝑦𝑖 = 𝑒 −0,037694
Ce nouveau modèle se réécrit encore :

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑑é𝑐è𝑠 𝑝𝑜𝑢𝑟 1000 𝑛𝑎𝑖𝑠𝑠𝑎𝑛𝑐𝑒𝑠 = 𝑒 −0,037694∗𝑎𝑛𝑛é𝑒+77,1488648

càd une fonction exponentielle du temps, avec un coefficient négatif.


Il s‘agit donc d’un modèle exponentiel. On modélise le nombre de décès par l’exponentielle d’une fonction
linéaire du temps.

Le premier modèle consistait en fait à supposer implicitement :


𝑦𝑖 = −1,4516083 𝑥𝑖 + 2905,05807 + 𝑒𝑖
ce qui est une relation fondamentalement différente…

89
En faisant un graphique des nombres de décès (tels quels, sans prendre le logarithme) en fonction du temps
et en représentant les valeurs obtenues en appliquant ce modèle exponentiel on obtient ce qui suit :

Nombre de décès la première année pour 1000 naissances


300

250

200

150

100

50

0
1880 1900 1920 1940 1960 1980 2000 2020 2040

Figure 33: Comparaison données et modèle pour le modèle exponentiel

4.6.3.3 Evolution de la balance commerciale aux USA


On repart de données concernant la balance commerciale aux USA sur une période relativement courte (5
ans sulement) :

On peut facilement calculer les paramètres statistiques de ces deux séries (en prenant à nouveau le temps
comme première série) :

𝑥̅ = 1995

𝑠𝑥2 = 2
𝑦̅ = −136,6
𝑠𝑦2 = 687,44
𝑠𝑥,𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) = −34,8
𝜌 = −93,85%
Le graphique suivant représente les données ainsi que la droite de régression (Y en fonction de X) sur ces
données.

90
Cet exemple nous permet d’illustrer la non robustesse de la méthode de régression linéaire par moindres
carrés. Imaginons que l’année 1997 ait été erronée, et ne comprenne le déficit que pour les 6 premiers mois.
Les données deviennent alors :

Et une régression linéaire sur ces données erronées donne une droite de régression très différente:

Avec ces nouvelles données, le modèle linéaire est radicalement différent : il présente une tendance à la
hausse alors que l’ancien modèle annonçait une tendance à la baisse… L’effet est évidemment très marqué
ici car on n’a considéré que 5 points de données.
En conclusion, la méthode des moindres carrés n’est pas toujours très robuste : l’impact de données
aberrantes peut être très grand et modifier complètement le modèle linéaire.
4.6.3.4 Evolution dans le temps des températures à Paris
Un dernier exemple consiste à regarder en fonction du temps l’évolution des températures mesurées à Paris
en fonction du temps.

91
Plus précisément, on repart des données de températures moyennes mesurées par l’observatoire Monsouris
à Paris, de 1900 à 2018. Une illustration des données est fournie ci-dessous.
Témpératures moyennes à Paris - observatoire Montsouris
janv Juillet moyenne année
1900 5 22.2 11.5
1901 2.7 20.5 10.5
1902 4.5 18.8 10.3
1903 3.7 18.3 10.7
1904 1.9 21.8 10.9
1905 2 20.7 10.5
1906 5 19.4 11.1
1907 3 17.1 10.7
1908 0.3 19.1 10.4
1909 2 16.5 10.2
1910 4.1 17.1 10.9
1911 1.3 21.9 11.8
1912 4.5 19.4 11
1913 5.6 16.9 11.3
1914 0.1 18.3 11.1
1915 4 17.9 10.9
1916 7 18 11
1917 0.5 18.9 9.9
1918 3 19.2 11.1
1919 2.9 15.9 10.4
etc … … …

On n’utilisera que la colonne « moyenne année » dans l’analyse qui suit.


On va considérer à nouveau comme variable X le temps (les années) et comme variable Y la température
moyenne.
On peut calculer les moyennes marginales, écart-types marginaux et covariance :
MOYENNE temp sur 1900-2018 Moyenne années: 𝑥̅ =1959
𝑦̅ =11.71
VARIANCE temp sur 1900-2018 Variance années : 𝑠𝑥2 =1180
𝑠𝑦2 = 0.74

Corrélation : 77,61% ,
𝑅2 = 60,23

En applicant les formules vues dans la section précédente, on obtient la droite de régression estimée:

92
y=0,01946 x – 26,4231
dans laquelle on peut remarquer que le coefficient de x est positif…indiquant une tendance à
l’augmentation des températures moyennes en fonction du temps.

Si on représente le nuage de points (reliés par des segments de droite) et la droite de régression (en rouge)
estimée sur 1900-2018 , on obtient ce qui suit :

Ceci en se basant sur l’historique total, allant de 1900 à 2018.


Ce modèle implique qu’en moyenne, il faut 51,38 années pour une augmentation de 1 degré de la
température moyenne à Paris.
Mais on aurait aussi pu varier la période historique sur laquelle on se place : considérer par exemple
uniquement les données après la seconde guerre mondiale : de 1946 à 2018.
Dans ce cas, on peut voir qu’on obtient la droite de régression suivante :
𝑦=0,02631 𝑥−40,0448
et une corrélation et un coefficient de détermination égaux à :
𝜌=70,14% et 𝑅^2=49,23%

Basé sur ce nouvel historique, le modèle est à première vue de “moins bonne qualité” (la droite colle moins
bien aux données). Mais le coefficient de x est plus important : les températures augmentent plus vite.
Il indique aussi qu’il ne faut plus que 38 ans environ pour observer une hausse de 1 degré de la température
moyenne. Il semble donc indiquer une accélération après la seconde guerre de l’augmentation de
température en fonction du temps.

On montre dans un cours de statistique plus avancé que les modèles construits ci-dessus sur base des
températures sont en fait « statistiquement significatifs », ce qui veut dire intuitivement que le coefficient
de « x » (la vitesse d’augmentation de la température) est « réellement » différent de 0 et que ce n’est pas
par chance, càd que ce n’est pas dû au « bruit contenu dans les données ». Si on avait pu sélectionner un
autre échantillon pour estimer le même modèle (ce qui n’est pas possible en pratique car on ne peut pas
reproduire l’expérience aléatoire), on aurait encore mesuré un coefficient différent de 0.

Pour mieux comprendre ce concept de statistiquement significatif, voici un exemple de mesures qui sont
dues au « hasard » :
On lance un dé 6 fois et on mesure le nombre de fois qu’on a eu une valeur paire :

93
• Premier lancer : 1, 4, 5, 4, 3, 1 → nombre de fois qu’on a eu une valeur paire : 2
• Second lancer : 3, 2, 6, 2, 6, 5 → nombre de fois qu’on a eu une valeur paire : 4
Si on regarde seulement le premier lancer, on a l’impression qu’on a 2 chances sur 6 d’avoir un résultat
pair, donc si on avait parié sur pair, on aurait eu un gain moyen négatif sur l’ensemble des parties.
Par contre si on regarde le second, on a l’impression du contraire : qu’on a 4 chances sur 6 d’avoir un
résultat pair, donc si on avait parié sur pair, on aurait eu un gain moyen positif sur l’ensemble des parties.
Or on peut voir que le gain espéré – si le dé est équilibré – est nul (car on a autant de chance d’avoir un
résultat pair que impair). Or, basé sur ces deux (petits) échantillons, la première estimation du gain moyen
est négative, la seconde est positive. En fait la « vraie » valeur est nulle, et le fait d’avoir obtenu la première
fois une valeur négative est juste due au hasard, en changeant d’échantillon, on peut obtenir des valeurs
positives ou négatives (ou nulles). On est en présence ici d’un coefficient qui n’est pas statistiquement
différent de 0.
On peut montrer que ce n’est pas le cas du coefficient des régressions linéaires de notre exemple.

Il existe des techniques de statistiques qui permettent d’identifier quand une mesure statistique (comme
notre gain moyen avec les dés, ou le coefficient de la régression linéaire avec les températures) est
statistiquement différente de 0, càd que le fait d’avoir trouvé une valeur (par ex.) positive n’est pas due au
hasard comme dans notre petit exemple avec les dés. Que même en changeant d’échantillon (extrait de la
même population) on aurait eu une valeur positive.

Si on revient à notre exemple avec les températures, ces techniques montrent un coefficient statistiquement
différent de 0 et positif, cela veut dire qu’il y a réellement une tendance au réchauffement à Paris, que ce
n’est pas dû à des fluctuations « normales » autour d’une température moyenne qui serait stable dans le
temps… Ces techniques sortent du cadre de ce cours.

94
Chapitre 5: Calcul des probabilités

5.1 Introduction
Dans la vie de tous les jours, le terme « probabilité » désigne une mesure de la confiance qu’on a en la
réalisation d’un événement futur.
La théorie des probabilités est née de questions posées par le Chevalier de Méré à son ami Blaise Pascal.
France – XVIIè siècle. Le Chevalier de Méré (de son vrai nom Antoine Gombaud, 1607-1684) est un
libertin, grand amateur de vin, de femmes et de jeux de hasard. Blaise Pascal est mathématicien,
philosophe, physicien (avant de se tourner entièrement vers la religion, abandonnant tout le reste).
Méré joue énormément aux dés. Quand un dé est bien équilibré (et donc non truqué), on ne peut pas
évidemment savoir sur quelle face il va tomber (on est en présence de ce qu’on appelle une « expérience
aléatoire »), mais Méré sait que chacune des six faces tend à revenir une fois sur six.
Méré sait qu’il lui arrivera de tirer le même chiffre, par exemple le 6, deux, ou trois, ou même quatre
fois de suite. Mais il a constaté qu’à long terme, en lançant beaucoup de fois le dé, le 6 revenait une fois
sur six, comme chacune des autres faces du dé, qui revenaient elles aussi une fois sur 6.

Il avait tiré de cette observation une règle à lui, qu’il pensait correcte, et qu’il trouvait très utile. S’il
lance un dé, il a une chance sur six de sortir un 6. Supposons que ce soit le 6 qui l’intéresse, et qu’il lance
son dé non pas une fois mais quatre fois de suite. Il se disait alors qu’il avait « quatre fois une chance sur
1 2
six de tirer un 6 », càd 4 × 6 = 3. On verra plus tard que ce raisonnement est erroné (et cela peut se
vérifier expérimentalement en répétant l’expérience de lancer quatre fois de suite un dé…).
En attendant, Méré y croyait. Cependant Méré jouait à des jeux qui se jouent non pas avec un dé, mais
deux dés distincts. Il s’est donc demandé quelles chances il avait de tirer deux 6 en lançant ces deux dés.
Pour le découvrir il avait raisonné comme suit.
Il a d’abord établit la liste de toutes les possibilités (tous les « cas possibles ») que l’on pouvait trouver
en lançant deux dés. Par exemple si le premier dé est un 1, le second lui peut prendre les 6 possibilités :

95
valoir 1, ou 2, ou 3, etc. Cela fait 6 cas possibles correspondant à avoir un 1 pour le premier dé. Idem
quand le premier dé vaut 2… et en tout cela fait 6+6+6+6+6+6 = 6 × 6 = 36 car possibles.
Les différents cas sont illustrés ci-dessous :

Figure 34: les 36 possibilités (ou les 36 cas possibles) correspondant aux résultats du lancer de 2 dés.

Une seule de ces possibilités intéresse le chevalier de Méré : celle où l’on a deux fois un 6. Quelle est la
chance re sortir un double 6 avec deux dés lancés une fois ? Réponse : 1 sur 36. Mais supposons
maintenant qu’on lance les deux dés 24 fois. Méré raisonne comme tout à l’heure et conclut à « 24 fois
1 2
une chance sur 36 », ce qui fait 24 × 36 = 3, càd à nouveau 2/3, comme ci-dessus. Nous verrons qu’à
nouveau ce raisonnement est erroné…
Il en concluait qu’il avait exactement les mêmes chances (2/3) de sortir un 6 quatre fois de suite en
lançant quatre fois un dé que de sortir un double 6 en lançant 24 fois deux dés… Pourtant, quand il parie
en se fiant à son raisonnement exposé ci-dessus, les dés refusent de se comporter comme le raisonnement
le prédit : le Chevalier perd plus souvent avec les deux dés qu’avec un seul, pour lequel il gagnait un peu
plus souvent… Or il s’attendait à gagner en moyenne (chance 2/3 de gagner).
Cela le met hors de lui, il perd de l’argent. Ce problème l’obsède, et il décide de consulter son ami Blaise
Pascal.
C’est de la réflexion de Pascal sur ces problèmes et de la correspondance avec Pierre de Fermat (1601-
1665) qui s’ensuivit qu’est née la théorie des probabilités.

5.2 Introduction intuitive aux probabilités


Revenons à notre tableau qui représente l’ensemble des 36 résultats possibles de notre expérience
aléatoire (lancer deux dés de couleur différente). On supposera que chacune de ces issues a la même
chance que toutes les autres d’apparaître (càd que le dé est équilibré).
Prenons un de ces résultats au hasard : par exemple obtenir un 2 pour le premier dé et un 3 pour le second,
qu’on peut représenter par le couple (2,3).
Quelle est sa probabilité ? intuitivement quelle est la fréquence vers laquelle la fréquence relative
d’apparition de (2,3) va tendre si on répète beaucoup de fois l’expérience de lancer les deux dés ?
1
Ce résultat apparait 1 fois sur nos 36 possibilités, donc ce sera 1 sur 36, càd 36 = 0,02778.

On exprime souvent les probabilités de cette façon : par une fraction dont le numérateur correspond au
cas favorable et le dénominateur l’ensemble des cas possibles. En faisant cela, on voit que la probabilité
est toujours comprise entre 0 et 1.

Par exemple, la probabilité que la somme des résultats des deux dés valle 13 est 0 : il n’y a aucun cas
favorable menant à une somme qui vaut 13… Celle de tirer deux chiffres dont la somme est entre 2 et
12 est de 1 (car tous les cas possibles sont des cas favorables : les 36 possibilités mènent à une somme
96
qui vaut entre 2 et 12…). Donc on peut avoir des probabilités qui valent 0 et des probabilités qui valent
1.
Chacune des 36 possibilités du tableau a une probabilité de 1/36, et la somme de ces probabilités vaut 1,
1
puisque si on somme 36 fois 1/36 avec lui-même, on obtient 36 × 36 = 1 … La somme des probabilités
de tous les résultats de l’expérience aléatoire vaut donc 1.

Allons plus loin : considérons cette fois un événement, càd quelque chose qui peut se produire à l’aide
d’éventuellement plusieurs cas possibles. Par exemple, l’événement que la somme des deux dés valle
3. C’est un événement.

Quelle est la probabilité de cet événement ? Pour le savoir, il faut se demander combien de cas possibles
réalisent l’événement. On va voir dans le tableau :

On voit qu’il y a deux cas possibles qui mènent à la réalisation de l’événement : la somme des deux dés
vaut 3 : c’est (1,2) et (2,1). Comme la probabilité de chacun des deux cas est de 1/36, et qu’ils ne peuvent
1 1 2
pas se produire en même temps, la probabilité de notre événement vaut donc 36 + 36 = 36.
Notation : Notons cela plus clairement.
Pour un événement A, on notera sa probabilité P(A). Dans notre exemple, on a P(A)=2/36.

Combiner des événements :


Il est possible de combiner des événements pour obtenir de nouveaux événements: on peut
s’intéresser par exemple à la réalisation simultanée de deux événements E et F.
Cela veut dire qu’on a « E et F ».
Par exemple, si 𝐸 et F correspondent à :
• E : la somme des deux dés vaut 5 → 𝐸 = {(1,4), (2,3), (3, 2), (4, 1)}.
Il y a 4 éléments (4 cas possibles) dans E.
• F : le premier dé (le dé noir) est pair → 𝐹 =
{(2,1), (2,2), (2,3), … , (2,6), (4,1), (4,2), … , (6,1), (6,2), … , (6,6)}
Il y a en fait 6+6+6=18 éléments dans F.
Alors la réalisation simultanée des deux événements mène à :
{(2,3), (4,1)}
On voit que pour arriver à cela, on a pris l’intersection des deux ensembles E et F.

97
"E et F" 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑 à 𝐸 ∩ 𝐹:
l'intersection des deux ensembles associés à E et F

On peut aussi regarder l’événement correspondant à la réalisation de E ou de F (avec la possibilité aussi


que les deux se produisent en même temps). Càd « E ou F ».
Cela veut dire qu’on s’intéresse à E sans avoir F, à F sans avoir E, et aussi à E et F en même temps.
Regardons cela sur notre exemple :
• La réalisation de E ou de F correspond à obtenir un des cas possibles se trouvant dans E ou un
des cas se trouvant dans F. Combien de cas possibles cela fait-il ?
• On en a 4 dans E, on en a 18 dans F. Si on fait la somme des deux : 4+18=22, on en a compté
trop… car on a compté deux fois ceux qui sont à la fois dans E et dans F : cela concerne (2,3) et
(4,1).
• Si on regarde les éléments se trouvant dans E ou dans F, càd dans la réunion des deux ensembles
E et F, on arrive à :

• Nombre d’éléments dans la réunion de E et F :


4 + 18 − 2 = 20
Càd le nombre d’éléments dans E, plus ceux dans F, moins le nombre d’éléments dans
l’intersection…car on les a compté deux fois en prenant 4 + 18…
• La probabilité de « E ou F » vaut donc
20
𝑃(𝐸 𝑜𝑢 𝐹 ) =
36

• Càd la probabilité de E (4/36) plus celle de F (18/36) moins celle de « E et F » (2/36) :


20 4 18 2
𝑷(𝑬 𝒐𝒖 𝑭) = = + − = 𝑷(𝑬) + 𝑷(𝑭) − 𝑷(𝑬 ∩ 𝑭)
36 36 36 36

Si l’on a affaire à deux événements mutuellement exclusifs, càd qui ne peuvent pas se produire en
même temps, càd dont l’intersection est vide, alors dans ce cas (et uniquement dans ce cas !) :
𝑷(𝑬 𝒐𝒖 𝑭) = 𝑷(𝑬) + 𝑷(𝑭) si et seulement si 𝑬 ∩ 𝑭 = ∅

98
On peut aussi s’intéresser à la non-réalisation d’un événement, càd « non E ».
Par exemple, E pourrait être l’événement qui consiste à obtenir un double 1 dans le lancer de deux dés.
On a alors : 𝐸 = {(1,1)}.
La non réalisation de E consiste alors à ne pas avoir un double 1, càd à avoir l’une des 35 autres
possibilités du tableau. La probabilité de « non E » vaut donc 35/36, càd 1 − 𝑃(𝐸).
De manière générale :
𝑃(𝑛𝑜𝑛 𝐸) = 1 − 𝑃(𝐸)

On doit encore comprendre les règles concernant la probabilité de l’intersection/de la réalisation


simultanée de 2 événements : "𝑬 𝒆𝒕 𝑭".
Pour cela on a besoin de la notion de « probabilité conditionnelle ».

Exemple :
Supposons que l’on s’intéresse à avoir une somme des deux dés égale à 3. On a vu que la probabilité
de cet événement (événement A). On a vu que sa probabilité, P(A), valait 2/36.
Supposons maintenant qu’on lance d’abord le dé noir, qu’on observe son résultat puis qu’on lance
l’autre dé, le blanc. Supposons que le dé noir soit tombé d’abord sur « 1 ». P(A) a-t-il encore une
probabilité de 2/36 ? Non. Si le premier dé a donné 1, la probabilité d’avoir une somme égale à 3 a
évidemment augmenté : elle vaut 1/6, et correspond au cas où le résultat du dé blanc est « 2 » (ce qui
vaut 1/6).
Appelons B l’événement d’avoir un 1 avec le premier dé, le dé noir.
La réalisation de B influence la probabilité de A : si B s’est produit, on a plus de chance que A se
produise. On appelle cette probabilité la probabilité conditionnelle et on la note : 𝑃(𝐴|𝐵).
Elle se lit : « Probabilité de A sachant B ».
C’est la chance de réalisation de A sachant que B s’est réalisé.
Si deux événements sont combinés avec « et » et qu’ils sont dépendants, càd que la réalisation de l’un
influence celle de l’autre, alors on a :
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) × 𝑃(𝐵)
Intuitivement c’est assez clair :
• Pour que A et B se réalise, il faut d’abord que B se réalise (proba P(B)) puis que , sachant que
B s’est réalisé, A se réalise aussi (proba P(A|B) )

Lorsque la réalisation de B n’influence pas celle de A (ni le contraire), on dit que A et B sont
indépendants, et on a alors :
𝑃(𝐴|𝐵) = 𝑃(𝐴)
Le fait que B s’est réalisé ou non (« sachant B »), la probabilité que A se réalise à son tour est la même
(elle vaut P(A) : proba que A se réalise, peu importe que B se réalise ou pas).

Si les événements A et B sont indépendants :


𝑃(𝐴 ∩ 𝐵 ) = 𝑃(𝐴) × 𝑃(𝐵 )

99
En résumé :
𝑃(𝐴 𝑜𝑢 𝐵) = 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
𝑃(𝑛𝑜𝑛 𝐴) = 1 − 𝑃(𝐴)
𝑃(𝐴 𝑒𝑡 𝐵) = 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵) × 𝑃(𝐵)
Et si A et B sont indépendants :
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵).

Résolution du problème de Méré par Pascal :


Le raisonnement de Méré ne valait pas un clou. Montrons-le en utilisant les règles vues jusqu’à présent.
• Nommons E l’événement qui consiste à obtenir (au moins un) 6 en quatre lancers d’un dé.
On peut en fait facilement calculer la probabilité que E ne se réalise pas, càd P(non E).
Non E = ne pas avoir de 6 au cours d’aucun des lancers.
Càd
Ne pas avoir de 6 au premier lancer, ni au second, ni au troisième, ni au quatrième.
On s’intéresse donc à la probabilité de l’intersection entre 4 événements.
Or les différents lancers sont indépendants (les résultats de l’un n’influencent pas ceux des
autres).
Donc la probabilité de cette intersection vaut le produit des probabilités de chacun d’eux.

5
Or, ne pas avoir de 6 lors d’un lancer a une probabilité 6
Donc ne pas avoir de 6 ni au premier, ni au second, ni au troisième ni au quatrième vaut :
5 5 5 5 5 4
× × × = ( ) = 0,482 = 𝑃(𝑛𝑜𝑛 𝐸)
6 6 6 6 6
Donc :
𝑃(𝐸) = 1 − 𝑃(𝑛𝑜𝑛 𝐸) = 1 − 0,482 = 0,518.
Méré croyait que ceci valait 2/3…

• Pour deux dés lancés 24 fois, on s’intéressait à la probabilité d’avoir au moins une fois (sur les
24) un double 6.
L’événement complément, càd ne pas avoir une seule fois sur les 24 lancers un double 6 vaut :
35 24
( ) = 0,509
36
C’est le même raisonnement qu’avant : ne pas avoir un double 6 lors du lancer de 2 dés vaut
35/36. Et comme les différents lancers sont indépendants, on multiplie les probabilités….
Donc la probabilité d’avoir au moins un double 6 lors de 24 lancers de 2 dés vaut 1 moins cette
proba :
1 − 0,509 = 0,491.

Le premier événément a une proba de 0,518, le second de 0,491… ni l’une ni l’autre ne vaut 2/3.

100
On comprend pourquoi le Chevalier gagnait avec un dé (cela se produisait un peu plus qu’une fois sur
2, car proba de 0,518) mais perdait avec deux (cela se produisait un peu moins qu’une fois sur 2, car
proba de 0,491…).

Le concept de probabilité est nécessaire pour manipuler des phénomènes physiques, biologiques, mais
aussi sociaux et économiques qui génèrent des observations qui ne peuvent être prédites avec certitude.
Par exemple, la pression artérielle d’une personne à un moment donné ne peut pas être prédite avec
certitude, et nous ne connaissons jamais la charge exacte qu’un pont pourra supporter avant de
s’effondrer dans une rivière. On ne connait pas avec certitude quel sera dans une semaine ou dans un
mois le prix d’une action cotée ou le taux de change entre l’Euro et le US Dollar.
De tels événements ne peuvent être prédits avec certitude, mais la fréquence relative avec laquelle ils se
produisent dans une longue série d’essais est souvent (mais pas toujours !) remarquablement stable. Les
événements possédant cette propriété sont appelés aléatoires, ou stochastiques.
La nécessité de disposer d’une théorie des probabilités qui fournisse une méthode rigoureuse pour
trouver un nombre (une probabilité) qui est en accord avec la fréquence relative réelle d’occurrence d’un
événement dans une longue série d’essais est évident si l’on imagine un résultat différent pour
l’échantillon produit par le joueur.

Reprenons l’exemple du lancer d’un dé équilibré à 6 faces. On a une probabilité de 1/6 d’avoir un « 1 »,
de même pour un « 2 », un « 3 » et ainsi de suite.
Supposons qu’on lance le dé 10 fois et qu’on obtienne un « 1 » 10 fois de suite. Intuitivement, cela nous
laisse douter du caractère équilibré du dé… il est probablement truqué.
Supposons, par exemple, qu’au lieu de dix « 1 », on ait observé cinq « 1 », deux « 2 », un « 3 », un « 4 »
et un « 6 ». Est-ce un résultat « suffisamment improbable » pour rejeter notre hypothèse selon laquelle
le dé est équilibré et conclure qu’il est déséquilibré ? De nombreux résultats expérimentaux tombent
dans une « zone grise » où une évaluation rigoureuse de la probabilité qu’ils se réalisent doit être
effectuée. C’est pour cette raison que doit être développée une théorie rigoureuse des probabilités qui
permet de calculer la probabilité d’observer des résultats donnés.

5.3 Evénement, expérience aléatoire, espace échantillon


On supposera toujours qu’on est en présence d’une expérience aléatoire , càd un processus dont les
observations, les résultats, ne sont pas prévisibles à l’avance.
Par exemple :
• Le lancer d’un dé équilibré → l’ensemble des résultats possibles de l’expérience : 1, 2, 3, 4, 5, 6.
Il peut se voir comme l’ensemble {1, 2, 3, 4, 5, 6}.
• Le lancer d’une de pièce de monnaie → 2 résultats possibles : face ou pile → ensemble des
résultats possible : {P,F}
• Le cours boursier d’une action cotée (par ex. Ageas) à une date future → toutes les valeurs
possibles sont dans le demi-intervalle [0,+∞[
• La température à un endroit à une date future : valeurs possibles : [-272, +∞[
• Le nombre de clients dans un supermarché pendant une période d’une semaine : 0, 1, 2, 3, ….
• etc.

De manière générale, l’ensemble des résultats possibles d’une expérience aléatoire s’appelle l’espace
échantillon ou encore l’espace d’échantillonnage (sample space en anglais).
C’est la première chose à déterminer lorsqu’on est en présence d’une expérience aléatoire : quel est
l’espace échantillon.
101
Souvent on le notera par la lettre « S ».

Exemple : on lance deux fois une pièce de monnaie :


• 1er jeu : F, 2è jeu : P → on va représenter cela par le couple (F,P)
• 1er jeu : F, 2è jeu : F → (F,F)
Etc

• S={(F,P), (F,F), (P,P), (P,F)}


Ici, on voit qu’il y a 4 éléments dans S, et c’est normal car on a 2 possibilités pour le premier jeu, et pour
chacune de ces possibilités, on en a 2 pour le second. Cela fait 2 fois 2 = 4…
On reviendra sur cette règle (la règle multiplicative).

Exemple : prix de l’action Ageas dans une semaine. Elle ne peut prendre que des valeurs positives ou
nulles. Donc ici S=[0, +∞[.

Lorsqu’on effectue une expérience aléatoire, on peut s’intéresser à ce qu’on appelle un événement (que
l’on notera par des lettres majuscules).
Exemples d’événements dans l’expérience consistant à lancer un dé à six faces :
• A : obtenir un résultat impair ;
• B : obtenir un résultat < 5 ;
• C : obtenir un 2 ou un 3 ;
• 𝐸1 : obtenir un 1 ; 𝐸2 : obtenir un 2 ; 𝐸3 : obtenir un 3 ; 𝐸4 : obtenir un 4 ; 𝐸5 : obtenir un 5 ; 𝐸6 :
obtenir un 6.
On voit que certains événements correspondent à un seul cas possible :
𝐸1 = {1}, 𝐸2 = {2} 𝑒𝑡𝑐
Ces événements ne correspondent qu’à un seul résultat de l’expérience. C’est ce qu’on appelle un
événement simple.
Par contre si on observe l’événement A (un nombre impair), on voit que
𝐴 = {1,3,5}
A se réalise si on a un 1, un 3 ou un 5…
On appelle un tel événement un événement composé.
On voit, en terme d’ensembles, que :
𝐴 = 𝐸1 ∪ 𝐸3 ∪ 𝐸5
càd que A peut s’obtenir en combinant des événements simples (il est en fait composé de 3 événements
simples).
Un événement simple ne peut se produire que d’une seule manière, alors qu’un événement composé peut
se produire de plusieurs manières distinctes.
Certains concepts de la théorie des ensembles seront utiles pour exprimer les relations entre les
événements associés à une expérience.
On voit déjà ici que mathématiquement, un événement correspond à un sous-ensemble de l’espace
échantillon :
Exemple : lancer de dé : A=résultat impair = {1,3,5}. A est un sous-ensemble de S={1,2,3,4,5,6} :
𝐴 ⊂ 𝑆.

102
Dans l’exemple avec le dé, l’espace échantillon comporte un nombre fini d’éléments / de résultats
possibles pour l’expérience aléatoire (un nombre fini de points d’échantillonnage possibles).
Dans l’exemple avec l’action, au contraire il y en a un nombre infini… et non dénombrable (on ne peut
pas les numéroter 1, 2, 3, …). Par contre, si on regarde l’ensemble des clients qui visiteront un
supermarché pendant une semaine, on a :
𝑆 = {0,1,2,3,4, … } = ℕ
l’ensemble des nombres naturels.

Définition : On dire qu’un espace d’échantillonnage est discret s’il contient soit un nombre fini, soit
un nombre infini dénombrable de points d’échantillonnage distincts.

Le but est de pouvoir parler (et manipuler de manière cohérente) de la probabilité qu’un événement se
produise.
Exemple : la probabilité d’avoir un résultat impair.
La probabilité sera donc un nombre qui représentera en pratique dans les applications la « chance de
survenance » de cet événement.
Donc mathématiquement, on aura besoin d’une fonction qui associe à tout sous-ensemble A de S (S =
l’ensemble de tous les résultats possibles) un nombre P(A), qui devra satisfaire certaines propriétés.

Une des propriétés sera que la somme des probabilités de tous les résultats possibles sera égale à 1 :
Exemple : si le dé est équilibré,
1 1
𝑃[{1}] = , 𝑃[{2}] = , 𝑒𝑡𝑐
6 6
Donc
1 1 1
𝑃[{1}] + 𝑃[{2}] + ⋯ + 𝑃[{6}] = + + ⋯ + = 1.
6 6 6
Avant de voir les différentes propriétés qu’on exigera à une telle fonction, voyons quelques rappels de
théorie des ensembles.

5.4 Quelques rappels de la théorie des ensembles


Pour pouvoir élaborer une théorie des probabilités rigoureuse, nous avons besoin d’une base de théorie
des ensembles. Nous utiliserons des lettres majuscules, A, B, C, … pour désigner des ensembles de
points. Si les éléments de l’ensemble A sont 𝑎1 , 𝑎2 , 𝑎3 , nous écrirons

𝐴 = {𝑎1 , 𝑎2 , 𝑎3 }

Soit S l’ensemble de tous les éléments considérés (dans un contexte donné…par exemple l’ensemble de
tous les nombres naturels, ou l’ensemble de tous les humains sur la Terre, … ), c’est-à-dire que S est
l’ensemble univers. Pour deux ensembles A et B, nous dirons que A est un sous-ensemble de
B, ou A est contenu dans B (noté 𝐴 ⊂ 𝐵), si chaque point dans A est également dans B.

L’ensemble vide, noté ∅, est l’ensemble ne comportant aucun point ; ainsi, ∅ est un sous-ensemble de
tous les ensembles (au sens de la notion de sous-ensemble introduite juste avant).

103
L’union de deux ensembles A et B, notée 𝐴 ∪ 𝐵, est l’ensemble de tous les points dans A ou B ou les
deux, c’est-à-dire que l’union de A et B contient tous les points qui se trouvent dans au moins un des
ensembles. L’opérateur logique associé à l’union est « ou » puisque 𝑥 ∈ 𝐴 ∪ 𝐵 si 𝑥 ∈ 𝐴 ou 𝑥 ∈ 𝐵.

L’intersection de A et B, notée 𝐴 ∩ 𝐵, est l’ensemble de tous les points se trouvant à la fois dans A et
dans B. L’opérateur logique associé à l’intersection est « et » puisque 𝑥 ∈ 𝐴 ∩ 𝐵 si 𝑥 ∈ 𝐴 et 𝑥 ∈ 𝐵.

Si A est un sous-ensemble de S, alors le complément de A, noté 𝐴̅ ou 𝐴𝐶 , est l’ensemble des points qui
sont dans S mais pas dans A. On remarque que 𝐴 ∪ 𝐴̅ = 𝑆 et 𝐴 ∩ 𝐴̅ = ∅.

Deux ensembles A et B sont disjoints ou mutuellement exclusifs si 𝐴 ∩ 𝐵 = ∅ ; les ensembles


mutuellement exclusifs n’ont pas de points communs.

Exemple : Considérons le problème de la section précédente. Soit S l’ensemble de tous les résultats
possibles d’un unique lancer de dé :
𝑆 = {1, 2, 3, 4, 5, 6}
Soient les ensembles
𝐴 = {1, 2}, 𝐵 = {1, 3} 𝑒𝑡 𝐶 = {2, 4, 6}:

On calcule facilement que

Notons également que B et C s’excluent mutuellement (sont disjoints), alors que ce n’est pas le cas de
A et C.

Sans en donner la démonstration, donnons quatre règles de calcul très utiles (que l’on retrouve
facilement en faisant des diagrammes de Venn)

D’abord les règles de distributivité :

Ensuite les règles de De Morgan :

5.5 Modèle probabiliste discret


5.5.1 Combinaison d’événements
On va supposer que l’espace échantillon correspondant à notre expérience est discret.
On dira que deux événements sont disjoints s’ils correspondent à des ensembles disjoints ou
mutuellement exclusifs.
Exemple : Lancer d’un dé. Les événements
104
A=avoir un résultat pair , et B=avoir un résultat impair
sont disjoints. En effet, on voit que
𝐴 = {1,3,5}, 𝐵 = {2,4,6}
𝐴∩𝐵 =∅
Ils sont donc disjoints.

Exemple : Tous les événements simples correspondent à des ensembles résultats différents de
l’expérience sont toujours disjoints/mutuellement exclusifs. Par exemple, 𝐸1 = {1} et 𝐸2 = {2} sont
disjoints.

La réalisation simultanée de deux événements A et B correspondra à leur intersection.


Exemple : S={1,2,3,4,5,6} (résultats du lancer d’un dé), A={1,3,5} (résultat impair) et
B={4,5,6} (résultat supérieur ou égal à 4).
L’événement « avoir un résultat pair supérieur ou égal à 4 » correspond à {4,6}, qui est bien égal
à 𝐴 ∩ 𝐵:
𝐴 ∩ 𝐵 = {2,4,6} ∩ {4,5,6} = {4,6}.

La réalisation de l’un ou de l’autre événément correspond à leur réunion, 𝑨 ∪ 𝑩.


Exemple : S={1,2,3,4,5,6} (résultats du lancer d’un dé), A={1,3,5} (résultat impair) et
B={4,5,6} (résultat supérieur ou égal à 4).
L’événement « avoir un résultat pair ou supérieur ou égal à 4 » correspond à {2,4,5,6}, qui est
bien égal à 𝐴 ∪ 𝐵:
𝐴 ∪ 𝐵 = {2,4,6} ∪ {4,5,6} = {2,4,5,6}.

Les événements composés peuvent se voir comme des réunions d’événements simples.
Par exemple, dans le cas du lancer d’un dé, l’événement A (observer un nombre impair) se produira si
et seulement si l’un des événements simples 𝐸1 , 𝐸3 𝑜𝑢 𝐸5 se produit :

𝐴 = {1, 3, 5} = 𝐸1 ∪ 𝐸3 ∪ 𝐸5 .

De même l’événement B, observer un nombre inférieur à 5, peut être écrit comme :

𝐵 = {1, 2, 3, 4} = 𝐸1 ∪ 𝐸2 ∪ 𝐸3 ∪ 𝐸4

̅ ou 𝑨𝒄 .
La non réalisation d’un événement A correspond à son complément : 𝑺\𝑨 notée 𝑨
Exemple : A = avoir un résultat pair={2,4,6}. La non réalisation de A correspond en fait à avoir un
résultat impair, càd {1,3,5}, que l’on peut voir comme {1,2,3,4,5,6} ∖ {2,4,6} = {1,3,5}.

5.5.2 Probabilité
On supposera qu’on est en présence d’une expérience aléatoire avec un espace échantillon S fini ou infini
dénombrable (ex : l’ensemble des nombres naturels, l’ensemble des réels positifs arrondis à 2 décimales
après la virgule).

105
Mathématiquement, une probabilité définie sur un espace échantillon S (ou mesure de probabilité)
sera une fonction envoyant tout sous-ensemble de S sur un nombre, et qui vérifiera certaines propriétés
« naturelles », et qui représentera dans les applications une mesure de notre confiance en la réalisation
de l’événement sur une seule répétition de l’expérience, de telle sorte qu’il soit conforme à notre intuition
tout en étant rigoureux et utile.

Comment définir mathématiquement une probabilité ?


Il y a plusieurs manières de définir la probabilité.
On a déjà vu la définition introduite pas Pascal et Fermat au XVIIème siècle pour le Chevalier de Méré.
Les problèmes posés à cette époque relevaient essentiellement des jeux de hasard, et plus précisément
des jeux de dés, de cartes et de roulette dont les deux principales caractéristiques sont les suivantes :
1. ils ne contiennent qu’un ensemble fini de résultats possibles ;
2. les événements simples correspondants ont les mêmes chances de se réaliser.

Pour ce genre de problème concret, il était naturel de considérer le rapport entre le nombre de cas
favorables au joueur et le nombre de cas possibles comme une mesure des chances de gain du joueur:

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠


𝑃(𝐴) =
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒𝑠

Exemple : on lance 2 fois un dé équilibré. Quelle est la probabilité d’avoir au moins un 6 parmi les 2
lancers ?
On a déjà vu qu’il y avait 36 cas possibles dans notre expérience.
Combien de cas favorables ? Etablissons la liste de ces cas favorables :
(6,1), (6,2), (6,3), (6,4), (6, 5), (6, 6),
(1,6), (2,6), (3,6), (4,6), (5,6)
ce qui fait 11 cas favorables.
La probabilité d’avoir au moins un 6 au cours des 2 lancers est donc de : 11/36.

Cette définition fonctionne bien pour les jeux de hasard, pour lesquels tous les résultats possibles ont la
même chance de survenance (« équiprobables »). Cela ne fonctionne plus si le dé n’est pas équilibré…
De manière générale, cette définition, suffisante pour les jeux de hasard, est cependant insatisfaisante :
1. elle n’est utilisable que si l’espace d’échantillonnage est fini : si celui-ci est infini, il est
impossible de calculer le nombre de cas possibles (et parfois le nombre de cas favorables) ;
2. elle ne convient que pour des cas où les événements simples sont équiprobables, càd ont tous
la même « chance » de se réaliser : on ne peut dès lors pas calculer de probabilité dès qu’un
événement simple a plus ou moins de chances de se réaliser que les autres événements simples,
une situation qui se rencontre assez souvent (penser à un dé pipé, à la disparité
hommes/femmes, etc.).

Il faut donc trouver une autre façon de définir la probabilité. La bonne façon de poser cette définition
est de penser à la notion de fréquence relative: la probabilité doit être définie de telle sorte qu’elle
corresponde à la fréquence relative observée lorsque l’expérience correspondant à l’événement en
question est répétée un très grand nombre de fois.

106
Cette fréquence relative, stable à long terme, fournit une mesure de notre confiance en la réalisation d’un
événement aléatoire qui est intuitivement valable si nous voulons effectuer une prédiction de la
survenance future de cet événement.

Tentons d’attribuer une probabilité « empirique » à un événement quelconque ; pour ce faire, on va


répéter l’expérience un grand nombre N de fois. On va noter k(N) le nombre de fois que l’événement se
𝑘(𝑁)
réalise. La fréquence relative de l’événement vaut donc 𝑁 . Nous constatons une certaine stabilité ou
régularité au fur et à mesure que N grandit. De cette stabilité statistique, nous pouvons tirer une
conclusion très importante en énonçant la définition empirique de la probabilité.

Définition empirique :
Soient S un espace d’échantillonnage et A un événement. La probabilité que A se réalise (notée P(A))
est la limite de la fréquence de survenance de A lorsque N, le nombre de répétitions de l’expérience
aléatoire, tend vers l’infini :

𝑘(𝑁)
𝑃(𝐴) = lim = lim 𝑓𝐴 (𝑁)
𝑁→∞ 𝑁 𝑁→∞

où nous avons noté 𝑓𝐴 (𝑁) la fréquence relative de A après N répétitions de l’expérience.

La figure ci-dessous illustre la convergence de la fréquence relative d’obtenir 6 sur un dé


équilibré vers la probabilité correspondante :

Cette définition est une définition empirique : elle est utile pour comprendre la notion et s’en forger
une intuition, mais elle n’est pas indépendante de l’expérience elle-même, et requiert implicitement la
convergence de cette fréquence relative vers une limite. Telle quelle elle ne mène pas à grand-chose
mathématiquement.

Pour obtenir une définition mathématiquement rigoureuse, nous allons prendre le problème à l’envers:
1. lister les propriétés désirables que la probabilité empirique possède ;
107
2. définir la probabilité comme un objet mathématique ayant ces propriétés en ne fixant pas la valeur
que doit prendre la probabilité dans la majorité des cas ;

En analysant la notion de fréquence relative, nous constatons que trois conditions doivent être
respectées :
1. la fréquence relative d’un événement doit être supérieure ou égale à zéro. Une fréquence
relative négative n’a pas de sens ;
2. la fréquence relative de l’espace d’échantillonnage S doit être égale à 1. En effet, comme tout
résultat possible de l’expérience est un point de S, il s’ensuit que S se produit chaque fois que
l’expérience est effectuée, donc 𝑘(𝑁) = 𝑁, et la fréquence relative de S vaut tout le temps 1….
Donc aussi à la limite;
3. si deux événements sont disjoints, la fréquence relative de leur union est la somme de leurs
fréquences relatives respectives : 𝑓𝐴∪𝐵 = 𝑓𝐴 + 𝑓𝐵 dès que 𝐴 ∩ 𝐵 = ∅.

Voyons cela sur un exemple : lancer d’un dé équilibré. A={2,4,6}, 𝐵 = {1}. On répète 12
fois l’expérience (N=12). On suppose qu’on obtient :
1,2,3,5,2,1,3,4,6,6,1,1
On calcule les fréquences relatives de A et B : on a observé 5 fois la réalisation A et 4
fois celle de B. Donc :
5 4
𝑓𝐴 = , 𝑓𝐵 = ,
12 12
Maintenant, on voit aussi que 𝐴 ∪ 𝐵 s’est produit en tout 9 fois. Donc :
9 4 5
𝑓𝐴∪𝐵 = = + = 𝑓𝐴 + 𝑓𝐵
12 12 12

On aboutit à la définition suivante du concept de probabilité.

Définition : Soit S un espace d’échantillonnage associé à une expérience. La probabilité 𝑃 est une
fonction qui associe un nombre à chaque événement A de l’espace échantillon S de telle sorte que les
conditions suivantes soient satisfaites :
1. 𝑃(𝐴) ≥ 0
2. 𝑃(𝑆) = 1
3. Si 𝐴1 , 𝐴2 , … , 𝐴𝑛 , … est une famille dénombrable d’événements disjoints de S (càd 𝐴𝑖 ∩ 𝐴𝑗 = ∅
pour tout 𝑖 ≠ 𝑗) alors

𝑃(𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 ∪ … ) = ∑ 𝑃(𝐴𝑗 )
𝑗=1

Ces 3 conditions sont ce que l’on appelle les axiomes de Kolmogorov.

Conséquences de cette définition


• La 3ème condition implique la propriété suivante : si 𝐴1 , 𝐴2 , … , 𝐴𝑛 est une collection finie
d’événements disjoints (ou mutuellement exclusifs), alors

𝑃(𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 ) = ∑ 𝑃(𝐴𝑗 )
𝑗=1
108
(pour voir que ceci est une conséquence de la 3ème condition, considérer dans cette condition pour
les n premiers ensembles 𝐴1 , 𝐴2 , … , 𝐴𝑛 , et pour les suivants l’ensemble vide ∅). La probabilité
de la réunion d’événements disjoints est donc la somme des probabilités de chaque
événement.

Exemple : dé non équilibré


1 1
𝑃[{1}] = , 𝑃[{2}] = 𝑃[{3}] = 𝑃[{4}] = 𝑃[{5}] = 𝑃[{6}] =
2 10
On voit effectivement que 𝑃[𝑆], qui vaut 1 (car c’est l’espace échantillon), peut se réécrire :
1 1 1 1 1 1
𝑃[𝑆] = 𝑃[{1}] + 𝑃[{2}] + ⋯ + 𝑃[{6}] = + + + + + =1
2 10 10 10 10 10

Attention : ceci ne marche plus si les événements ne sont plus disjoints…

• Autre conséquence immédiate de cette définition : 𝑷(𝑨) ∈ [𝟎, 𝟏] : la probabilité d’un


événement est toujours comprise entre 0 et 1.

Pour voir cela, on repart d’un événement A et on considère son complément, 𝐴 , ou encore 𝐴̅ ,
qui est aussi un événement, tel que 𝐴 ∩ 𝐴̅ = ∅. Ce sont donc deux événements disjoints. Or, leur
réunion vaut S tout entier :
𝐴 ∪ 𝐴̅ = 𝑆
Donc en appliquant les propriétés de la définition et le point précédent, on a :
𝑃[𝑆] = 1 = 𝑃[𝐴 ∪ 𝐴̅] = 𝑃[𝐴] + 𝑃[𝐴̅]
Ce qui implique
𝑃[𝐴] = 𝑃[𝑆] − 𝑃[𝐴̅] ≤ 𝑃[𝑆]
(car 𝑃[𝐴̅] ≥ 0). Or P[S]=1. Donc
𝑃[𝐴] ≤ 1
Par ailleurs P[A]≥ 0 par la premiere condition de la définition. Donc
𝑃[𝐴] ∈ [0,1].

Comme annoncé, cette définition n’explique pas comment fixer la probabilité d’un événement
particulier : c’est juste la définition d’un objet mathématique, sur lequel une théorie peut être
construite, des résultats peuvent être démontrés. Cela signifie que toutes les manières de fixer cette
probabilité sont conformes à cette définition mathématique ; cependant, celles qui ne reflètent pas la
notion de fréquence relative sont inutiles d’un point de vue pratique, puisqu’elles mènent à des résultats
qui n’ont rien à voir avec le monde réel.

Pour les espaces d’échantillonnage discrets, il suffit d’assigner des probabilités à chaque événement
simple et de s’arranger pour que la somme des probabilités valle 1. En effet, tout événement composé
est une union disjointe d’événements simples, et par la 3ème condition, on peut donc en déduire aussi sa
probabilité.

109
Exemple : lancer d’un dé équilibré à 6 faces
Si un dé équilibré est utilisé pour l’exemple du lancer de dé, il semble raisonnable de supposer que tous
les événements simples auront la même fréquence relative à long terme. Nous attribuerons donc une
probabilité de 1/6 à chaque événement simple :
1
𝑃(𝐸𝑖 ): = 𝑝𝑜𝑢𝑟 𝑖 = 1, … ,6
6
Cette attribution de probabilités est conforme à la condition 1.
A partir de ceci, la probabilité de tout événement composé peut être obtenue si l’on impose à P que la
3eme condition doit être satisfaite (sinon P n’est pas une probabilité au sens de la définition
mathématique ci-dessus). En particulier,

𝑃(𝑆) = 𝑃{1,2,3,4,5,6} = 𝑃(𝐸1 ∪ 𝐸2 ∪ 𝐸3 ∪ 𝐸4 ∪ 𝐸5 ∪ 𝐸6 )


1 1 1 1 1 1
= 𝑃(𝐸1 ) + 𝑃(𝐸2 ) + ⋯ + 𝑃(𝐸6 ) = + + + + + = 1
6 6 6 6 6 6

Donc on a bien que la 2ème condition 𝑃(𝑆) = 1 est satisfaite par la fonction P ainsi définie.
Conclusion : C’est bien une probabilité au sens mathématique du terme.

La condition 3 nous dit aussi qu’on peut calculer la probabilité d’un événement en additionnant les
probabilités des événements simples dont il est composé (rappelons que des événements simples distincts
sont toujours mutuellement exclusifs/disjoints). L’événement A (observer un nombre impair) est donc
associé à la probabilité suivante :

Un grand nombre d’événements intéressants dans le monde réel (que ce soit pour le généticien, pour
l’ingénieur ou pour l’homme d’affaires) s’expriment comme des nombres. Ils incluent par exemple le
nombre de patients présentant une mutation donnée et développant une maladie particulière, la valeur
du taux de change euro - dollar à un instant donné, le prix du pétrole à une date future…

C’est la valeur que prend cette variable (disons Y) qui nous intéresse, valeur qui dépend du résultat d’une
expérience aléatoire ; on formalise mathématiquement cette notion à l’aide du concept de variable
aléatoire.

5.5.3 Quelques règles de calcul

Théorème : si A est un événement, et 𝐴̅ son complément, alors


𝑃(𝐴̅) = 1 − 𝑃(𝐴)

Preuve : On peut décomposer l’espace d’échantillonnage S selon A et son complément :


𝑆 = 𝐴 ∪ 𝐴̅.
Comme 𝐴 et 𝐴̅ sont disjoints, on a que 𝑃(𝑆) = 𝑃(𝐴 ∪ 𝐴̅) = 𝑃(𝐴) + 𝑃(𝐴̅). Mais on sait par ailleurs que
𝑃(𝑆) = 1. On en déduit donc que 𝑃(𝐴) + 𝑃(𝐴̅) = 1, ou encore 𝑃(𝐴̅) = 1 − 𝑃(𝐴).
CQFD
Ce résultat est utile dans les situations où il est plus facile de calculer 𝑃(𝐴̅) plutôt que 𝑃(𝐴).
110
On déduit de ce résultat en particulier que 𝑃(∅) = 0 (appliquer ce résultat en choisissant comme
événement A l’ensemble S tout entier).

Théorème : La probabilité de l’union de deux événements A et B est donnée par la formule :


𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

Preuve : On peut démontrer cela en traçant un diagramme de Venn et en remarquant que :

𝐴 ∪ 𝐵 = (𝐴\𝐵) ∪ (𝐵\𝐴) ∪ (𝐴 ∩ 𝐵)

A\B A∩B B\A

Ces 3 sous-ensembles sont clairement disjoints. Donc


𝑃[𝐴 ∪ 𝐵] = 𝑃[𝐴\𝐵] + 𝑃[𝐴 ∩ 𝐵] + 𝑃[𝐵\𝐴]

Or, on peut aussi écrire (en utilisant le même raisonnement):


𝑃[𝐴] = 𝑃[𝐴\𝐵] + 𝑃[𝐴 ∩ 𝐵]
𝑃[𝐵] = 𝑃[𝐵\𝐴] + 𝑃[𝐴 ∩ 𝐵]
Donc
𝑃[𝐴] + 𝑃[𝐵] = 𝑃[𝐴\𝐵] + 𝑃[𝐵\𝐴] + 2𝑃[𝐴 ∩ 𝐵] = 𝑃[𝐴 ∪ 𝐵] + 𝑃[𝐴 ∩ 𝐵]
Ce qui implique (en faisant passer 𝑃[𝐴 ∩ 𝐵] dans le premier membre) que :
𝑃[𝐴] + 𝑃[𝐵] − 𝑃[𝐴 ∩ 𝐵] = 𝑃[𝐴 ∪ 𝐵].
CQFD

Remarque : Dans le cas particulier où A et B sont mutuellement exclusifs / disjoints :


𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
mais comme 𝐴 ∩ 𝐵 = ∅ et que 𝑃(∅) = 0, il ne reste que P(𝐴) + 𝑃(𝐵).
On retrouve donc une propriété déjà vue : la proba de la réunion est la somme des probabilités si les
événements sont disjoints.

5.6 Analyse combinatoire


Nous nous tournons maintenant vers l’analyse combinatoire afin d’acquérir quelques outils nous
permettant de compter le nombre d’éléments dans l’espace échantillon dans beaucoup de situations
concrètes, et donc de calculer des probabilités.
L’analyse combinatoire, ou techniques de dénombrement, permet compter le nombre d’éléments d’un
ensemble fini comportant beaucoup d’éléments. Dans certains cas en effet, le nombre total d’éléments
de l’espace échantillon S est très important, et l’énumération manuelle est alors impossible. De même
que pour certains événements, qui sont des sous-ensembles de S.
111
Ce sera surtout utile dans le cas équiprobable (càd quand tous les événements simples ont la même
chance de survenir). Dans ce cas, la probabilité sera simplement le nombre d’éléments que comporte
l’événement auquel on s’intéresse (le nombre de cas favorables) divisé par le nombre total d’éléments
de S (le nombre de cas possibles) . En d’autres termes,
#𝐴
𝑃(𝐴) =
#𝑆
où #A désigne le nombre d’éléments se trouvant dans A (« cardinal de A »).

5.6.1 Règle multiplicative (ou règle du 𝒎 ∙ 𝒏)


C’est la règle la plus importante, car tous les problèmes peuvent souvent d’une manière ou d’une autre
s’y ramener. On verra d’autres règles par la suite, mais on utilise la règle multiplicative pour les obtenir.
Théorème : soit 𝐴 = {𝑎1 , 𝑎2 , … , 𝑎𝑚 } un ensemble comportant m éléments, et 𝐵 = {𝑏1 , 𝑏2 , … , 𝑏𝑛 } un
ensemble comportant n éléments. Alors il est possible de former 𝑚. 𝑛 paires ordonnées du type (𝑎𝑖 , 𝑏𝑗 ),
contenant un élément 𝑎𝑖 de A et un élément 𝑏𝑗 de B.

Preuve : Il suffit de tracer une grille carrée de côtés m et n pour se convaincre de ce résultat. CQFD

L’ensemble des paires (ou couples) correspondantes s’appelle le produit cartésien des ensembles A et
B, et est noté 𝑨 × 𝑩.

Ce résultat se généralise à un nombre quelconque d’ensembles à « croiser » : par exemple le nombre


total de triplets construits sur 3 ensembles A, B, C, donc du type {𝑎𝑖 , 𝑏𝑗 , 𝑐𝑘 }. Le nombre de tels triplets
sera égal à 𝑚. 𝑛. 𝑝, où le nombre d’éléments de A est m, de B est n et de C est p. Le nombre d’éléments
de 𝐴 × 𝐵 × 𝐶 est donc ce produit 𝑚. 𝑛. 𝑝.

Ce résultat permet de dénombrer facilement le nombre de résultats possibles (le nombre d’éléments dans
l’espace échantillon) d’une expérience aléatoire.

Exemple : lancer de 2 dés


Considérons l’expérience qui consiste à lancer deux dés à six faces et dénombrons l’espace échantillon
S correspondant. Un résultat de cette expérience peut être représenté symboliquement comme un couple
ordonné de nombres représentant les résultats sur le premier dé et sur le deuxième dé respectivement.
Ainsi, (4; 5) représente l’événement « le premier dé a donné un 4 et le deuxième un 5».

L’espace échantillon S consiste en l’ensemble de toutes les paires possibles (x; y), où x et y sont tous
deux des nombres entiers entre 1 et 6, donc de la forme (𝑎𝑖 , 𝑏𝑗 ) où 𝑎𝑖 ∈ {1,2,3,4,5,6} et 𝑏𝑗 ∈
{1,2,3,4,5,6}. S est donc le produit ensembliste de 2 ensembles comportant chacun 6 éléments :
𝑆 = {1,2,3,4,5,6} × {1,2,3,4,5,6}
En appliquant le résultat précédent en prenant 𝑚 = 𝑛 = 6, on en déduit que S comporte 6.6=36 éléments.
On retrouve en fait le nombre d’éléments qu’on avait dans le tableau de l’introduction :

112
Figure 35: illustration du nombre d’éléments dans l’espace échantillon correspondant au lancer de deux dés. Ce tableau recense
tous les cas possibles. Il comporte 36 éléments, obtenu comme 𝟑𝟔 = 𝟔 ⋅ 𝟔

Exemple : probabilité de trouver 2 personnes ayant la même date d’anniversaire


Calculons la probabilité que, dans un groupe de 20 personnes sélectionnées au hasard, toutes aient des
dates d’anniversaire différentes (en ne tenant pas compte des années de naissance et en négligeant les
années bissextiles).

Numérotons les jours de l’année de 1 à 365 ; un point d’échantillonnage pour cette expérience consiste
en un 20-uple de nombres entiers entre 1 et 365, le premier nombre représentant la date d’anniversaire
de la première personne, le deuxième nombre celle de la deuxième personne, etc.).

En appliquant plusieurs fois le théorème précédent, on a 365 possibilités pour la première personne, fois
365 pour la seconde, fois 365 pour la troisième etc… on obtient que l’espace échantillon S contient N =
36520 points d’échantillonnage (ce qui est très grand : 1,7614 . 1051, soit un nombre entier avec 52
chiffres : 1 761 400 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000). C’est le nombre
de cas possibles dans notre problème.

Si on note A l’événement « tous ont des dates d’anniversaires différentes », nous devons maintenant
calculer le nombre d’éléments de A (le nombre de cas favorables).
Un événement simple se trouvant dans A est un 20-uple de nombres entiers entre 1 et 365 tous différents.
Le premier nombre de ce 20-uple peut donc être choisi librement, soit dans un ensemble de taille 365; le
second élément est lui aussi librement choisi, mais sous la contrainte qu’il est différent du premier, et
donc dans un ensemble de taille 364. Et ainsi de suite.
1𝑒𝑟𝑒 𝑑𝑎𝑡𝑒: 365 𝑐ℎ𝑜𝑖𝑥
2è 𝑑𝑎𝑡𝑒: 364 𝑐ℎ𝑜𝑖𝑥
3è 𝑑𝑎𝑡𝑒: 363 𝑐ℎ𝑜𝑖𝑥
𝑒𝑡𝑐

En répétant ce raisonnement, on obtient que le nombre d’éléments de A, noté 𝑁𝐴 vaut :

𝑁𝐴 = 365 ∙ 364 ∙ … ∙ 346

On obtient donc finalement la probabilité suivante :

𝑁𝐴 365 ∙ 364 ∙ … ∙ 346


𝑃(𝐴) = = = 0,5886
𝑁 36520

113
La probabilité de trouver (au moins) 2 personnes avec la même date d’anniversaire vaut donc

1 − 𝑃(𝐴) = 1 – 0,5886 = 0,4114.

Donc dans un groupe de 20 personnes, on a finalement plus de 40% de chance de trouver 2 personnes
ayant la même date d’anniversaire, ce qui est beaucoup… Il est donc courant que dans un groupe de cette
taille on trouve 2 personnes nées le même jour.

A titre d’information, voici ce que devient cette probabilité (4 chiffres significatifs derrière la virgule)
en fonction de la taille du groupe considéré :

Taille Probabilité
du
groupe
2 0.0027
5 0.0271
10 0.1169
15 0.2529
20 0.4114
25 0.5687
30 0.7063
40 0.8912
50 0.9704
60 0.9941
70 0.9992
80 0.9999

Dans un groupe de 50 personnes, on est déjà « quasi-certain» de trouver 2 personnes avec la même date
d’anniversaire (probabilité de 97%)…

Exemple : plaques d’immatriculation.

On s’intéresse aux plaques d’immatriculation du type :

𝑋𝑋𝑋𝑌𝑌𝑌

Où « X » désigne une des 26 lettres de l’alphabet, et où « Y » désigne un chiffre entre 0 et 9.

Le nombre de plaques d’immatriculation que l’on peut construire de cette manière revient au nombre de
6-uples du type « (𝑎1 𝑎2 𝑎3 𝑎4𝑎5 , 𝑎6 ) » où 𝑎1 , 𝑎2 , 𝑎3 ∈ { 𝐴, 𝐵, 𝐶, … , 𝑋, 𝑌, 𝑍} (un ensemble de 26 éléments)
et 𝑎4 , 𝑎5 , 𝑎6 ∈ {0,1,2, … ,8,9} (un ensemble de 10 éléments).

Par la règle multiplicative, le nombre de possibilités est donné par :

26 ⋅ 26 ⋅ 26 ⋅ 10 ⋅ 10 ⋅ 10

ce qui fait 17 576 000.

114
On peut donc immatriculer plus de 17 millions de voitures de cette manière-là sans épuiser les numéros
de plaques. Pour un pays comme la Belgique (un peu moins de 6 millions de voitures privées en 2018),
ce format est donc adapté. Il ne l’est pas pour la France (parc automobile estimé à plus de 39 millions de
véhicules début 2017, y compris les autocars, utilitaires etc. Plus de 32 millions de voitures privées).

5.6.2 Permutations
Les résultats d’une expérience aléatoire peuvent souvent être représentés symboliquement comme une
suite de nombres ou de symboles. Dans certains cas, il est clair que le nombre total de points
d’échantillonnage est égal au nombre de manières distinctes selon lesquelles ces symboles peuvent être
disposés l’un à la suite de l’autre.

Définition : Une permutation est une disposition ordonnée de n éléments distincts.

Classer n objets distincts dans n catégories distinctes revient à faire une permutation.

Exemple : on considère les éléments 1,2,3,4. Une permutation de ces 4 éléments est donnée par :
(1,3,2,4)
Une autre permutation est donnée par :
(4,3,2,1)
Donc ce qui est important dans une permutation c’est que l’ordre a de l’importance, et que tous les
éléments ont été sélectionnés.

Théorème : Le nombre de permutations d’un ensemble de n objets est égal à la factorielle de n :


𝑃𝑛 = 𝑛! = 𝑛 ∙ (𝑛 − 1) ∙ (𝑛 − 2) ∙ … ∙ 2 ∙ 1

Preuve : En appliquant la règle m.n, nous voyons que le premier objet peut être librement choisi parmi
les n objets totaux. Après le premier choix, le second peut être choisi parmi les (n -1) restant, le troisième
parmi les (n - 2), et le nème doit être placé dans la dernière place (on n’a plus le choix pour le dernier
restant). Par conséquent, le nombre total de permutations distinctes est égal à 𝑛! . CQFD

Exemple. Calculons le nombre d’anagrammes du mot math. Puisque toutes les lettres sont différentes, il
s’agit d’une permutation sans répétition, et on a donc : 𝑃4 = 4! = 4.3.2.1= 24. Vérifions ce résultat en
énumérant « à la main » ces anagrammes :

Exemple* : 4 femmes et 6 hommes doivent s’asseoir sur un même banc, mais ils doivent rester groupés
par genre. Combien de dispositions sont-elles possibles ?

115
Solution : nombre de genres : 2 (femme et homme). Soit on met d’abord les femmes, puis les hommes,
soit le contraire. Donc on a le choix entre l’ordre femmes, puis hommes, ou hommes, puis femmes.
Cela fait 2. Pour chacun de ces cas, on a 4! possibilités pour les femmes, et 6! pour les hommes. En tout
cela fait le produit 2.4!6!=34560.

5.6.3 Arrangements
Définition : Un arrangement est une disposition ordonnée de r objets distincts parmi n (avec 𝑛 ≥ 𝑟).

Cela revient à sélectionner r objets distincts parmi n, et à les classer/disposer dans un certain ordre.
L’ordre dans lequel on dispose ces r objets a donc de l’importance dans un arrangement.

Exemple : on considère les éléments 1,2,3,4. Un arrangement de 3 éléments parmi ces 4 éléments est
donné par :
(1,3,2)
Un autre arrangement est donné par :
(3,2,1)
Un autre arrangement est donné par :
(1,4,2)
Donc ce qui est important dans un arrangement c’est que l’ordre a de l’importance, et mais que tous
les éléments ne sont pas nécessairement sélectionnés (on n’en prend en général qu’une partie, c’est le
cas si r est strictement plus petit que n : r < n).
Théorème : Le nombre d’arrangements de r objets parmi un ensemble total de n objets est égal à :

Preuve : Nous voulons compter le nombre de façons de remplir r positions avec n objets distincts. En
appliquant la règle m.n, nous voyons que le premier objet peut être librement choisi parmi les n objets
totaux. Après le premier choix, le second peut être choisi parmi les (n - 1) restant, le troisième parmi les
(n - 2), et le rème parmi les (n - r + 1). Par conséquent, le nombre total d’arrangements distincts est
donc égal à :

CQFD
Exemple. Les noms de 3 employés sont tirés au hasard d’une urne contenant les noms des 30 employés
d’une petite entreprise (on ne remet pas les noms déjà tirés dans l’urne).
La personne dont le nom est tiré en premier reçoit 100 €, et les personnes dont les noms sont tirés en
deuxième et en troisième reçoivent respectivement 50 € et 25 €. Combien de points d’échantillonnage
sont associés à cette expérience ?

Puisque que les prix attribués sont différents, le nombre de points d’échantillonnage est le nombre
d’arrangements ordonnés de r = 3 noms parmi le total de n = 30 noms possibles.

Ainsi le nombre total de points d’échantillonnage dans S est :

116
Concrètement, il y a 24 360 manières différentes de sélectionner 3 noms dans un certain ordre parmi
30.

Exemple : un couple possède 20 amis différents mais n’a qu’une table à 6 places. Il ne peut donc
inviter que 4 personnes. Si on suppose que ce couple a ses habitudes et désire garder ses places
habituelles à table, le nombre de manière qu’il peut inviter 4 amis et les installer aux 4 places restant
vides est donné par le nombre d’arrangements de 4 parmi 20, càd :
𝐴20
4 = 20 ⋅ 19 ⋅ 18 ⋅ 17 = 116 280

5.6.4 Partitions
Définition : Une partition de n objets distincts en k groupes est une façon de diviser ces n objets en k
groupes contenant chacun respectivement 𝑛1 , 𝑛2 , … , 𝑛𝑘 objets (avec 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛)

Classer n objets distincts dans k catégories distinctes de telle sorte que chacune reçoit un certain nombre
𝑛𝑖 (pour le groupe i) de ces objets revient à faire une partition.

Théorème : Le nombre de partitions de n objets en k groupes de 𝑛1 , 𝑛2 , … , 𝑛𝑘 objets est égal à

Avant de passer à la preuve, essayons de retrouver cette formule sur un exemple :


On suppose qu’on a 10 objets en tout (N=10) et que l’on désire constituer une partition en 3 groupes de
5, 3 et 2 objets.
• On constitue d’abord le groupe de 5 objets :
On a 10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 choix, mais comme l’ordre n’a pas d’importance, il faut diviser par le
nombre de manière dont les 5 objets sélectionner peuvent changer d’ordre , càd peuvent permuter
entre eux. Cela donne :
10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6
choix pour le premier groupe
5!
• Pour chaque premier groupe constitué, on peut construire un second groupe. Maintenant il ne
reste plus que 5 objets car 5 ont déjà été sélectionnés… Cela donne pour le second groupe de 3
objets :
5⋅4⋅3
manières de sélectionner 3 objets parmi 5, et de les ranger dans un certain ordre. Or l’ordre n’a
pas d’importance donc on doit diviser ce nombre par le nombre de manières de permuter les 3
objets sélectionnés, càd par 3!=3.2 .1. Cela donne :
5⋅4⋅3
3!
• On construit ensuite le dernier groupe. Il reste 2 objets parmi 2, sans que l’ordre n’ait
d’importance. Il n’y a qu’une seule possibilité de sélectionner un groupe de 2 objets parmi 2 sans
les ranger dans un certain ordre : c’est de prendre tout le groupe lui-même. Donc le dernier facteur
vaut 1.

117
• Au total , on a obtenu :
10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 5 ⋅ 4 ⋅ 3
⋅ ⋅1
5! 3!
Ce qui peut se réécrire :
10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 5 ⋅ 4 ⋅ 3 2 ⋅ 1 10!
⋅ ⋅ =
5! 3! 2! 5! ⋅ 3! ⋅ 2!
c’est-à-dire la formule annoncée.

Preuve : le nombre de partitions cherché est le nombre de permutations de n objets distincts sous une
contrainte particulière : à l’intérieur de chacun des k groupes dans lesquels sont disposés les objets, les
permutations ne comptent pas (l’ordre ne compte pas). Si l’on effectue cette division en k groupes puis
qu’on permute les éléments de chacun de ces groupes, on obtient une permutation simple de l’ensemble
de n objets, soit 𝑃𝑛 = 𝑛! (par la sous-section 5.6.2 sur les permutations). On a donc

𝑃𝑛 = 𝑁 ∙ (𝑛1 ! ∙ 𝑛2 ! ∙ … ∙ 𝑛𝑘 !) = 𝑛!

et en isolant N, on obtient le résultat cherché. CQFD

Exemple. Un patron assigne 20 ouvriers à 4 chantiers différents, qui nécessitent respectivement 6, 4, 5


et 5 travailleurs. Les quatre plus jeunes ouvriers réclament : le patron déclare que la répartition a été
décidée de manière aléatoire, mais ils ont tous les quatre été assignés au premier chantier, le plus pénible.
Calculons la probabilité de cette répartition afin de voir si leur plainte est fondée ou pas.

Calculons d’abord la taille de l’espace d’échantillonnage. Il s’agit d’une partition de n = 20 ouvriers dans
4 groupes de taille 𝑛1 = 6, n2 = 4, n3 = 5 et n4 = 5. Par le théorème précédent on a donc

20!
𝑁=
6! 4! 5! 5!

Calculons maintenant la taille NA de l’événement A : « les 4 plus jeunes sont affectés au chantier 1 »
(c’est l’événement qui s’est réalisé). Nous devons donc compter le nombre de partitions des 20 ouvriers
dans lesquelles les 4 jeunes sont affectés au chantier 1.

Une fois les quatre jeunes placés dans le chantier 1, il reste 16 ouvriers à répartir dans des groupes de
taille 2, 4, 5 et 5 (cela correspond aux places à « combler »). NA correspond donc au nombre de manière
de répartir ces 16 ouvriers dans ces 4 groupes de 2, 4, 5 et 5, càd

16!
𝑁𝐴 =
2! 4! 5! 5!

par le théorème que nous venons de voir. On obtient donc finalement la probabilité :

118
Vu que cette probabilité est très faible, il est très peu probable que la répartition ait réellement été faite
de manière aléatoire… les ouvriers ont donc raison de réclamer.

5.6.5 Combinaisons

Définition: une combinaison est une sélection de r objets dans un groupe de n objets.

En d’autres termes, cela correspond à considérer un sous-ensemble de taille r dans un ensemble de taille
n. L’ordre n’a donc pas d’importance.
Une combinaison peut se voir comme un sous-ensemble de l’ensemble de départ.

Exemple : Une combinaison de 3 nombres parmi 1,2,3,4 est donnée par :


{1,2,3}.
Une autre combinaison est donnée par
{1,2,4}
Les deux arrangements suivants :
(1,2,3) 𝑒𝑡 (3,2,1)
Correspondent en fait à la même combinaison :
{1,2,3}
Remarquons que dans cet exemple on a utilisé la notation avec les crochets {, , , , } pour les combinaisons
(comme pour énumérer les éléments d’un ensemble) alors qu’on a utilisé la notation avec les parenthèses
(, , , ,) pour les arrangements (comme pour un n-uple, car l’ordre a de l’importance).
Il y a donc beaucoup plus d’arrangements de r objets parmi n que de combinaisons de r objets parmi n.
La différence entre les deux est donnée par les permutations des r éléments : l’ordre n’a pas d’importance
dans les combinaisons.

Théorème : Le nombre de combinaisons de r objets parmi n est donné par :

Preuve : on sait qu’il y a plusieurs arrangements correspondant à la même combinaison. Pour une même
combinaison correspondent 𝑟! arrangements différents formés avec les mêmes éléments.
𝐴𝑛
Donc 𝐶𝑟𝑛 = 𝑟
. CQFD
𝑟!

𝑛
Les nombres du type ( ) sont appelés coefficients binomiaux, en référence à la formule du binôme de
𝑘
Newton, donnant la nè puissance de la somme de deux nombre (un binôme) :
𝑛
𝑛
(𝑥 + 𝑦) = ∑ ( ) 𝑥 𝑘 𝑦 (𝑛−𝑘) .
𝑛
𝑘
𝑘=0
Exemple d’application de cette formule : (𝑥 + 𝑦) = 𝑥 2 + 2𝑥𝑦 + 𝑦 2.
2

119
𝑛
En anglais, on lit ( ) « n choose k » car cela correspond au nombre de manières de choisir k éléments
𝑘
dans un ensemble de cardinal n, càd le nombre de sous-ensembles de cardinal k dans un ensemble de
cardinal n (utile si vous voulez programmer cela dans un langage de programmation associé à un logiciel
comme R ou Matlab ou encore Excel VBA).

Exemple. Calculons la probabilité de gagner le gros lot au Lotto (tirage des six bons numéros, parmi 45
numéros numérotés de 1 à 45).
L’événement A : « gros lot » n’est composé que d’un seul point d’échantillonnage : #𝐴 = 1.
Pour calculer le nombre total de possibilités d’un jeu de lotto (le nombre de manières de sélectionner 6
numéros parmi 45, càd le nombre d’éléments dans l’espace échantillon, #𝑆), on est devant le problème
de devoir sélectionner un sous-ensemble de 6 éléments dans un ensemble de 45 éléments.
L’ordre n’a pas d’importance.
Il faut donc pour cela utiliser une combinaison, puisqu’il s’agit de choisir 6 numéros parmi 45 :
45 45!
( )= = 8 145 060
6 6! 39!

La probabilité de gagner le gros lot au Lotto est donc de moins de 1 sur 8 millions...

5.7 Probabilité conditionnelle et indépendance


La réalisation d’un événement – et donc la probabilité qui lui est associée – dépend parfois de la
réalisation d’autres événements. Par exemple, les pêcheurs amateurs s’intéressent à la probabilité qu’il
pleuve au cours de leurs séances de pêche. La probabilité qu’il pleuve pendant un jour donné, si on ignore
les conditions atmosphériques et tous les autres facteurs, correspond à la proportion de jours où il pleut
quand on considère une longue période de temps. C’est la probabilité inconditionnelle de l’événement «
pluie pendant un jour donné ».

Supposons maintenant que nous souhaitons calculer la probabilité de pluie pour demain, mais que nous
sommes au courant qu’il a plu presque en continu pendant deux jours de suite, et qu’une tempête
tropicale se dirige vers nous. Nous disposons donc d’informations supplémentaires concernant s’il
pleuvra ou pas demain et nous sommes intéressés par la probabilité conditionnelle qu’il pleuvra compte
tenu de ces informations. La probabilité conditionnelle qu’il pleuve (étant donné les conditions
mentionnées) est beaucoup plus grande que la probabilité inconditionnelle qu’il pleuve.

Définition : La probabilité conditionnelle qu’un événement A se réalise sachant qu’un événement B


s’est déjà réalisé est égale à
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = ,
𝑃(𝐵)
où l’on suppose que 𝑃(𝐵) ≠ 0

Exemple. Calculons par exemple la probabilité que le résultat du lancer d’un dé soit 1, sachant que ce
résultat est impair ; intuitivement, puisqu’il existe trois nombres impairs entre 1 et 6, on « ressent » que
cette probabilité est égale à 1/3. En utilisant la formule de la définition, on a :

120
Vérifions la cohérence de cette définition avec la notion de fréquence relative. Supposons qu’une
expérience est répétée un grand nombre N de fois, de telle sorte que les événements A et B se produisent
selon le tableau suivant :

On calcule alors approximativement les probabilités suivantes :

d’où on obtient :

Il possible que la réalisation d’un événement A ne soit pas affectée par la réalisation
ou la non-réalisation d’un événement B. Dans ce cas, il semble naturel de dire
que A et B sont indépendants.

Définition : Deux événements A et B sont indépendants (ce qu’on note 𝐴 𝐵) si l’une des équations
suivantes est vérifiée :

Dans le cas contraire, on dit que A et B sont dépendants.

La notion probabiliste d’indépendance est en accord avec notre usage quotidien du mot. On peut
s’accorder pour dire que « fumer » et « contracter un cancer du poumon » ne sont pas des événements
indépendants et estimer intuitivement que la probabilité de contracter un cancer du poumon, pour une
personne qui fume, est supérieure à la probabilité (inconditionnelle) de contracter un cancer du poumon.
En revanche, les événements « il pleut aujourd’hui » et « il a plu l’an passé à la même date » sont peut-
être bien indépendants.

Exemple. Considérons les trois événements suivants associés au lancer d’un dé :


121
A : résultat impair ;
B : résultat pair ;
C : résultat < 3
Pour déterminer si A et B sont indépendants, vérifions si les probabilités correspondantes vérifient les
conditions de la définition précédente ; on calcule :
1
𝑃(𝐴) = 𝑒𝑡 𝑃(𝐴|𝐵) = 0 𝑝𝑢𝑖𝑠𝑞𝑢𝑒 𝐴 ∩ 𝐵 = ∅
2
Donc 𝑃(𝐴) ≠ 𝑃(𝐴|𝐵) : A et B sont donc dépendants.

Faisons le même exercice pour A et C : on calcule :


𝑃(𝐴 ∩ 𝐶) 𝑃(1) 1
𝑃(𝐴|𝐶) = = =
𝑃(𝐶) 𝑃(1 𝑜𝑢 2) 2
Donc 𝑃(𝐴) = 𝑃(𝐴|𝐶) : A et C sont indépendants.

5.8 Règle des probabilités totales et formule de Bayès


On va avoir besoin du concept de partition de l’espace échantillon.

Définition : soit 𝑘 un entier positif et 𝐵1 , 𝐵2 , … , 𝐵𝑘 des sous-ensembles de l’espace d’échantillonnage S


tels que :
1. 𝑆 = 𝐵1 ∪ 𝐵2 ∪ … ∪ 𝐵𝑘
2. 𝐵𝑖 ∩ 𝐵𝑗 = ∅ pour tout 𝑖 ≠ 𝑗
Alors on appelle la collection de sous-ensembles {𝐵1, 𝐵2 , … , 𝐵𝑘 } une partition de S.

Quand on connait une partition de S, alors tout évenement / sous-ensemble de S peut être décomposé
suivant cette partition :
𝐴 = 𝐴 ∩ 𝑆 = (𝐴 ∩ 𝐵1 ) ∪ (𝐴 ∩ 𝐵2 ) ∪ … ∪ (𝐴 ∩ 𝐵𝑘 )

Par exemple, si l’on s’intéresse au lancer d’un dé, 𝑆 = {1,2,3,4,5,6} et on peut partitionner 𝑆 en
𝑆 = {1,3,5} ∪ {2,4,6} = {𝑟é𝑠𝑢𝑙𝑡𝑎𝑡𝑠 𝑝𝑎𝑖𝑟𝑠} ∪ {𝑟é𝑠𝑢𝑙𝑡𝑎𝑡𝑠 𝑖𝑚𝑝𝑎𝑖𝑟𝑠}

Théorème (règle des probabilités totales)


Soit {𝐵1 , 𝐵2 , … , 𝐵𝑘 } une partition de S telle que 𝑃(𝐵𝑖 ) > 0 pour tout 𝑖 = 1, … , 𝑘. Alors pour tout
événement 𝐴, on a :
𝑘

𝑃(𝐴) = ∑ 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )


𝑖=1

Preuve : Puisqu’il s’agit d’une partition de S, on peut décomposer A selon les 𝐵𝑖 :


𝐴 = 𝐴 ∩ 𝑆 = (𝐴 ∩ 𝐵1 ) ∪ (𝐴 ∩ 𝐵2 ) ∪ … ∪ (𝐴 ∩ 𝐵𝑘 )
Les ensembles de cette décomposition sont disjoints 2 à 2. Donc on peut décomposer 𝑃(𝐴) en la somme
de leurs probabilités :

122
CQFD

Exemple : On considère un jeu de carte (52 cartes, 4 couleurs, 4 as). Les cartes sont supposées avoir été
bien mélangées. Quelle est la probabilité que la 2ème carte du tas est un as ?

Intuitivement, on « sent » que ça va dépendre de ce qu’on a tiré comme 1ère carte… En fait le calcul est
simplifié si on conditionne par l’événement « la 1ère carte est un as ». Notons 𝐴1 cet événement et 𝐴2
l’événement « la 2ème carte est un as ». On cherche 𝑃(𝐴2 ). On peut partitionner l’espace échantillon S en
𝑆 = 𝐴1 ∪ ̅̅̅
𝐴1 et appliquer la règle des probabilités totales à 𝑃(𝐴2 ):

̅̅̅1 )𝑃(𝐴
𝑃(𝐴2 ) = 𝑃(𝐴2 |𝐴1 )𝑃(𝐴1 ) + 𝑃(𝐴2 |𝐴 ̅̅̅1 )

Chacune de ces probabilités est maintenant facile à calculer :


4 48
𝑃(𝐴1 ) = , 𝑃(𝐴̅̅̅1 ) = 1 − 𝑃(𝐴1 ) = ,
52 52
3 4
𝑃(𝐴2 |𝐴1 ) = , 𝑃(𝐴2 |𝐴̅̅̅1 ) =
51 51
Ce qui donne finalement :
3 4 4 48
𝑃(𝐴2 ) = ∙ ∙ ∙ = 0,076923.
51 52 51 52

Il est parfois nécessaire de « renverser » une probabilité conditionnelle, c’est-à-dire de calculer P(B|A)
alors que c’est P(A|B) qui est disponible (ou qui est facile à calculer). C’est en un sens l’objet de la
formule de Bayès.

Théorème (règle de Bayès) : Soit {𝐵1 , 𝐵2 , … , 𝐵𝑘 } une partition de l’espace échantillon S telle que
𝑃(𝐵𝑖 ) > 0 pour tout i. Alors, pour tout événement A et quel que soit 𝑗 fixé entre 1 𝑒𝑡 𝑘, on a
𝑃(𝐴|𝐵𝑗 )𝑃(𝐵𝑗 )
𝑃(𝐵𝑗 |𝐴) =
∑𝑘𝑖=1 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )

Preuve : Cette formule découle directement de la règle des probabilités totales (résultat précédent) et de
la définition de la probabilité conditionnelle :
𝑃(𝐵𝑗 ∩ 𝐴) 𝑃(𝐴|𝐵𝑗 )𝑃(𝐵𝑗 )
𝑃(𝐵𝑗 |𝐴) = = 𝑘
𝑃(𝐴) ∑𝑖=1 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )
CQFD

Exemple : On suppose que des faux billets sont dans la circulation et un détecteur de faux billets a été
mis au point. On suppose que la probabilité qu’un billet sélectionné au hasard soit faux est de 0,5%. On
suppose que si un billet est faux, alors il sera détecté par la machine (i.e. identifié comme faux) avec une

123
probabilité de 99%. D’autre part, un billet authentique sera (faussement) détecté comme faux par la
machine avec une probabilité de 2%. Un commerçant effectue le test sur un billet au hasard. Questions :
• Quelle est la probabilité que le billet soit classifié « faux » ?
• Supposons que le test soit positif (càd le billet est identifié comme faux par la machine). Quelle
est la probabilité que ce billet soit authentique ?

Solution :
On peut résoudre plus facilement ce genre de petit problème en construisant un arbre de probabilité :

Dans ce graphe, « F » veut dire que le billet est faux et « A » qu’il est authentique, « + » que la machine
donne un résultat positif (une détection de faux billet, test positif) et « - » qu’elle n’a rien détecté (test
négatif).

Dans ce graphe, 2ème colonne, 0.98 représente la probabilité conditionnelle 𝑃(−|𝐴), 0.01 la proba
𝑃(−|𝐹) etc.
• On cherche d’abord 𝑃(+), càd la probabilité que la machine fasse une détection de faux billet.
On applique d’abord la règle des probas totales à 𝑃(+) :
𝑃(+) = 𝑃(+|𝐴)𝑃(𝐴) + 𝑃(+|𝐹)𝑃(𝐹) = 0,02 ∙ 0,995 + 0,99 ∙ 0,005 = 2,485%

Donc malgré qu’il n’y a que 0,5% de faux billets dans la circulation, la machine va réagir (dire
qu’elle a détecté un faux billet) avec une probabilité bien plus élevée, à savoir presque 2,5%...
soit une fois tous les 40 billets, et ce car elle commet parfois des erreurs de détection.
• On cherche maintenant 𝑃(𝐴|+), càd la probabilité que sachant que la machine dit qu’un billet
est faux, qu’en fait ce billet soit quand-même authentique. Dans notre arbre, on connait 𝑃(+|𝐴)
mais pas directement 𝑃(𝐴|+)… Grâce à la règle de Bayès, on va l’obtenir :

𝑃(+|𝐴)𝑃(𝐴) 0,02 ⋅ 0,995


𝑃(𝐴|+) = = = 80,08%
𝑃(+|𝐴)𝑃(𝐴) + 𝑃(+|𝐹)𝑃(𝐹) 0,02485

La probabilité d’avoir quand-même un billet authentique malgré que la machine nous dit le
contraire est donc d’environ 80%... En d’autres termes, quand elle rejette un billet, elle va rejeter
à tort dans 80% des cas. Cela parait beaucoup, mais en fait, ce cas ne concerne que 2,485% des
billets testés à la machine, un très petit nombre finalement…En clair, si la machine teste 1000

124
billets sur une journée, elle va donner un test positif sur environ 25 billets, et parmi ces 25, rejeter
à tort environ 20 de ces billets…

125
Chapitre 6: Variables aléatoires discrètes

6.1 Variable aléatoire : définition


Définition : Une variable aléatoire est une fonction associant à tout résultat de l’expérience aléatoire un
nombre : c’est une fonction 𝑋: 𝑆 → ℝ.

C’est donc une quantité qu’on peut mesurer grâce aux éléments de S.

Exemple : on lance deux dés. On s’intéresse à la somme des résultats des deux dés. c’est une quantité
numérique que l’on peut connaître dès qu’on connait le résultat de l’expérience aléatoire (à savoir ce
qu’ont donné les deux dés)
A chaque résultat de l’expérience aléatoire (donc à chaque élément de l’espace échantillon S), on
associe un nombre :
(1,2) → 3
(4,2) → 6
(1,3) → 4
etc

Si on a une variable aléatoire, disons notée 𝑌, il est naturel de s’intéresser à la probabilité que cette
variable aléatoire prenne une valeur donnée, ou un ensemble de valeurs données. Par exemple,
l’ensemble des résultats possibles de l’expérience menant à 𝑌 = 2 ou 𝑌 ≥ 1 etc
Si 𝑎 est un nombre réel, on désignera par {𝒀 = 𝒂} l’ensemble des résultats de l’expérience tels que la
quantité Y prend la valeur 𝑎 quand ces résultats sont observés. C’est donc un événement (car sous-
ensemble de l’espace échantillon S).

Exemple : lancer de deux dés, variable aléatoire : somme des deux dés.
L’événement {𝑌 = 3} correspond à l’événement {(1,2), (2,1)} constitué de deux éléments. Sa
2 1
probabilité vaut donc 36 = 18.

Un tel événement peut être de taille importante ; supposons par exemple que l’on lance 2 dés. On peut
être intéressé par le résultat d’un seul des deux dés lancés. C’est une variable aléatoire. Et on aura :

Mathématiquement, une variable aléatoire est donc une fonction d’un espace d’échantillonnage S
dans ℝ. On associe un nombre à chaque résultat possible d’une expérience aléatoire.

On distingue deux types de variables aléatoires: les variables discrètes et les variables continues.
126
Les variables discrètes ne peuvent prendre qu’un nombre fini ou infini dénombrable de valeurs (c’est-
à-dire dont on peut dresser une liste, que l’on peut numéroter 1,2,3,… ).
Les variables continues prennent un nombre infini non dénombrable de valeurs possibles (c’est-à-dire
dont on ne peut pas dresser de liste, comme par exemple toutes les valeurs d’un intervalle réel [a,b]).

Par exemple, la somme des résultats du lancer de 4 dés, le nombre de pièces produites par une usine au
cours d’une période donnée future et la population d’un pays sont des variables discrètes. La température
du sol, la temps d’attente à un guichet et le prix d’une action à une certaine date future sont des variables
continues.

On note généralement les variables aléatoires par des majuscules, et les valeurs qu’elles prennent par des
minuscules ; Y = y signifie donc que la variable Y prend la valeur y.

6.2 Distribution d’une variable aléatoire discrète


Définition : La probabilité qu’une variable aléatoire discrète Y prenne la valeur y, P(Y = y), est définie
comme la somme des probabilités de tous les points d’échantillonnage de S pour lesquels Y prend la
valeur y. On la note p(y) et on l’appelle fonction de probabilité de Y .

Remarque : on parle parfois de densité discrète (probability mass function en anglais).

Théorème. Soit Y une variable aléatoire discrète. Alors sa fonction de probabilité satisfait :
1. 0 ≤p(y) ≤ 1 pour tout y ;
2. ∑𝑦 𝑃(𝑦) = 1, où la somme est prise sur toutes les valeurs que peut prendre la variable aléatoire Y.

Définition : La distribution de probabilité (aussi appelée loi de probabilité) de Y est la donnée, sous
forme de formule, de tableau ou de graphe, de la fonction de probabilité de Y : P(Y = y) = p(y) pour
toutes les valeurs y que peut prendre Y .

La distribution de probabilité nous indique donc une mesure de la chance que Y prenne telle ou telle
valeur. Connaître la distribution d’une variable aléatoire revient à savoir comment elle se comporte « en
toutes circonstances ».

Exemple. Le patron d’une usine choisit au hasard deux ouvriers parmi trois hommes et trois femmes.
Soit Y le nombre de femmes sélectionnées. Calculons la distribution de Y .
Il n’est pas possible que Y prenne une valeur différente de 0, 1 ou 2 ; on a donc p(y) = 0 pour y ≠ 0; 1;
6
2. Le nombre total de façons de choisir deux ouvriers parmi six est égal à ( ) = 15. Ne sélectionner
2
aucune femme revient à sélectionner deux hommes parmi les trois :
3
( ) 3 1
𝑝(0) = 𝑃(𝑌 = 0) = 2 = = = 0,2.
15 15 5

Sélectionner une seule femme revient à choisir une femme parmi trois et un homme parmi trois :
3 3
( )( ) 3⋅3 3
𝑝(1) = 𝑃(𝑌 = 1) = 1 1 = = = 0,6
15 15 5
127
Sélectionner deux femmes revient à choisir deux femmes parmi les trois :
3
( ) 3 1
𝑝(2) = 𝑃(𝑌 = 2) = 2 = = = 0,2
15 15 5

Fonction de probabilité p(y)


0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 1 2

6.3 Espérance et variance d’une variable aléatoire discrète


Nous avons observé que la distribution de probabilité d’une variable aléatoire est un modèle théorique
pour la distribution empirique des données associées à une population réelle ; si le modèle est une
représentation précise du monde réel, les distributions théoriques et empiriques sont équivalentes.

Nous cherchons dès lors à définir des mesures quantitatives associées aux distributions de probabilité
qui soient cohérentes avec les outils descriptifs présentés pour les populations dans le chapitre Statistique
descriptive.

Définition Soient Y une variable aléatoire et p(y) sa fonction de probabilité. Alors l’espérance de Y
est :

𝐸[𝑌] = ∑ 𝑦 ∙ 𝑃(𝑌 = 𝑦)
𝑦

où la somme est prise sur toutes les valeurs possibles de Y.

Remarquons que cette quantité n’existe pas pour toutes les variables aléatoires Y, car il faut que la
somme ci-dessus soit finie. C’est toujours le cas si Y prend un nombre fini de valeurs, mais pas toujours

128
quand Y en prend un nombre infini. Ce sera cependant le cas de la plupart des variables aléatoires
rencontrées.

Exemple
On considère Y, la variable aléatoire précédente :

Son espérance vaut :


𝐸[𝑌] = 0 ⋅ 0,2 + 1 ⋅ 0,6 + 2 ⋅ 0,2 = 1

Exemple : résultat du lancer d’un dé équilibré


On considère le lancer d’un dé équilibré. Soit X la variable aléatoire du résultat du dé. C’est bien une
variable aléatoire (quantité numérique associée au résultat d’une expérience aléatoire, il se trouve qu’ici
le résultat lui-même est déjà numérique, on peut donc le garder tel quel). Elle est discrète (6 valeurs
possibles seulement, donc un nombre fini).
La fonction de probabilité de X vaut donc :
x p(x)
1 1
6
2 1
6
3 1
6
4 1
6
5 1
6
6 1
6
Et son espérance vaut :
1 1 1 1 1 1 1 21
𝐸[𝑋] = 1 ⋅ + 2 ⋅ + 3 ⋅ + 4 ⋅ + 5 ⋅ + 6 ⋅ = (1 + 2 + 3 + 4 + 5 + 6) ⋅ = = 3,5
6 6 6 6 6 6 6 6

On désignera sous le nom de variable centrée une variable aléatoire d’espérance nulle.
Concrètement, si X est une variable aléatoire d’espérance 𝐸[𝑋], alors la nouvelle variable aléatoire
𝑋 − 𝐸[𝑋]
est une variable aléatoire centrée.

Exemple de variable centrée

129
Dans le cas du lancer du dé équilibré considéré ci-dessus, 𝐸[𝑋] = 3,5, et donc la variable aléatoire
centrée
𝑋 − 3,5
aura la fonction de probabilité suivante :
x p(x)
-2,5 1
6
-1,5 1
6
-0,5 1
6
0,5 1
6
1,5 1
6
2,5 1
6

1
Et si on fait le calcul, 𝐸[𝑋] = (−2,5 − 1,5 − 0,5 + 0,5 + 1,5 + 2,5) ⋅ 6 = 0.

Si 𝑝(𝑦) est la description précise de la distribution empirique de la population, alors E[Y] est égale à la
moyenne de population.
Pour nous convaincre que l’espérance est cohérente avec la définition de moyenne de population,
considérons la variable aléatoire de l’exemple précédent.

Exemple : cohérence entre moyenne population et espérance


Supposons que nous répétions l’expérience liée à cette variable aléatoire Y quatre millions de fois ;
supposons que nous avons obtenu un million de cas où Y = 0, deux millions de cas où Y = 1 et un
million de cas où Y = 2, valeurs auxquelles on peut s’attendre approximativement au vu de la fonction
de probabilité de Y.

On peut donc calculer, sur cet échantillon, la moyenne de l’échantillon 𝑥̅ = 𝑚 (au sens de la définition
vue dans le chapitre Statistique descriptive : indicateurs statistiques), qui devrait être proche de la
moyenne de population, que l’on va noter µ (attention, ne pas confondre avec la médiane…) puisque
nous avons considéré un échantillon de taille très importante :

On voit donc sur cet exemple que l’espérance de la variable Y, E[Y], vaut la moyenne population.

130
Bien souvent, nous ne voulons pas calculer l’espérance de Y , mais d’une fonction de Y. Par exemple,
un biologiste mesure la distance par rapport au nid à laquelle il retrouve un aigle en train de chasser,
mais ce qui l’intéresse vraiment, c’est l’aire totale du disque dans lequel cet aigle chasse : il observe une
distance Y du nid, mais veut en fait étudier 𝜋𝑌 2 (= aire disque de rayon Y).

Bien évidemment, une fonction d’une variable aléatoire est aussi une variable aléatoire ; on peut
donc lui appliquer tout ce qui a été défini pour les variables aléatoires.
On a notamment le résultat suivant.

Théorème Soient Y une variable aléatoire discrète, 𝑝(y) sa fonction de probabilité et g : ℝ → ℝ une
fonction réelle. Alors on a :

𝐸[𝑔(𝑌)] = ∑ 𝑔(𝑦) ∙ 𝑝(𝑦)


𝑦

Exemple :
On revient à la variable X, le résultat d’un dé équilibré.
On peut aussi s’intéresser au carré du résultat, càd à la variable 𝑋 2 . Il s’agit d’une fonction de X (à savoir
la fonction « élever au carré »).
La distribution de 𝑋 2 est donnée par :
𝑥2 p(x)
1 1
6
4 1
6
9 1
6
16 1
6
25 1
6
36 1
6

L’espérance de cette nouvelle variable aléatoire vaut :


1 91
𝐸[𝑋 2 ] = (1 + 4 + 9 + 16 + 25 + 36) ⋅ = = 15,1667
6 6

On voit en particulier sur cet exemple que en général :


𝑬[𝑿𝟐 ] ≠ (𝑬[𝑿])𝟐

En effet, (𝐸[𝑋])2 = 3,52 = 12,25 , alors que 𝐸[𝑋 2 ] = 15,1667 .

131
En réalité, on peut voir que le seul cas où on a égalité entre carré de l’espérance et espérance du carré,
est le cas où la variable aléatoire est dégénérée en une constante, càd ne peut prendre qu’une seule
valeur possible, avec probabilité 1.

Plus généralement, si 𝑔(𝑥) est une fonction quelconque, en général


𝑬[𝒈(𝑿)] ≠ 𝒈(𝑬[𝑿])

Nous pouvons dès lors utiliser le théorème précédent pour définir la variance d’une variable aléatoire.

Définition : Soient Y une variable aléatoire régulière, µ son espérance et p(y) sa fonction de probabilité.
Alors la variance de Y est :

𝑉[𝑌] = 𝐸[(𝑌 − µ)2 ] = ∑(𝑦 − µ)2 ⋅ 𝑝(𝑦)


𝑦
L’écart-type de Y est par définition la racine carrée de sa variance.

A nouveau, cette quantité qu’est la variance n’existe pas pour toutes les variables aléatoires Y, car il faut
que la somme ci-dessus soit finie. C’est toujours le cas si Y prend un nombre fini de valeurs, mais pas
toujours quand Y en prend un nombre infini. Ce sera le cas de la plupart des variables aléatoires
rencontrées cependant.

Si 𝑝(𝑦) est une description précise de la distribution d’une population, alors V[Y] est égale à 𝑠 2 , la
variance de la population. Même remarque pour l’écart-type.

Exemple : calcul de l’espérance, variance et écart-type d’une variable aléatoire


Soit Y une variable aléatoire dont la distribution est donnée par le tableau suivant :

En appliquant les définitions, on calcule :

132
Propriétés de l’espérance et de la variance :

Théorème : Soit Y une variable aléatoire de moyenne E[Y] et variance V[Y], et soit 𝑐 ∈ ℝ une
constante. Alors :
1. 𝐸[𝑐𝑌] = 𝑐𝐸[𝑌]
2. 𝐸[𝑌 + 𝑐] = 𝐸[𝑌] + 𝑐
3. 𝐸 [𝑐 ] = 𝑐
4. 𝑉[𝑐𝑌] = 𝑐 2 𝑉[𝑌]
5. 𝑉[𝑌 + 𝑐] = 𝑉[𝑌]
6. 𝑉[𝑌] = 𝐸[𝑌 2 ] − (𝐸[𝑌])2

Preuve :
1. 𝐸[𝑐𝑌] = ∑𝑦 𝑐𝑦 𝑃(𝑐𝑌 = 𝑐𝑦) = 𝑐 ∑𝑦 𝑦 𝑃(𝑌 = 𝑦) = 𝑐𝐸[𝑌]

2. 𝐸[𝑐] = ∑𝑦 𝑐 𝑃(𝑌 = 𝑦) = 𝑐 ∑𝑦 𝑃(𝑌 = 𝑦) = 𝑐 𝑝𝑢𝑖𝑠𝑞𝑢𝑒 ∑𝑦 𝑝(𝑦) = 1

3. 𝐸[𝑌 + 𝑐] = ∑𝑦 (𝑦 + 𝑐)𝑃(𝑌 + 𝑐 = 𝑦 + 𝑐)
= ∑𝑦 𝑦𝑃(𝑌 + 𝑐 = 𝑦 + 𝑐) + ∑𝑦 𝑐𝑃(𝑌 + 𝑐 = 𝑦 + 𝑐)
= ∑𝑦 𝑦𝑃(𝑌 = 𝑦) + ∑𝑦 𝑐𝑃(𝑌 = 𝑦)
= 𝐸[𝑌] + 𝑐 ∑𝑦 𝑃(𝑌 = 𝑦)
= 𝐸[𝑌] + 𝑐

4. 𝑉[𝑐𝑌] = 𝐸[(𝑐𝑌 − 𝐸[𝑐𝑌])2 ] = 𝐸[(𝑐𝑌 − 𝑐𝐸[𝑌])2 ] = 𝐸[𝑐 2 (𝑌 − 𝐸[𝑌])2 ] = 𝑐 2 𝐸[(𝑌 − 𝐸[𝑌])2 ] =


𝑐 2 𝑉[𝑌]

5. 𝑉[𝑌 + 𝑐] = 𝐸[(𝑌 + 𝑐 − 𝐸[𝑌 + 𝑐])2 ] = 𝐸[(𝑌 + 𝑐 − 𝐸[𝑌] − 𝑐)2 ] = 𝐸[(𝑌 − 𝐸[𝑌])2 ] = 𝑉[𝑌]

6.
𝑉[𝑌] = ∑ (𝑦 − 𝐸[𝑌])2 𝑝(𝑦)
𝑦

= ∑ 𝑦 2 𝑝(𝑦) + ∑ 𝐸[𝑌]2 𝑝(𝑦) − 2 ∑ 𝑦𝐸[𝑌] 𝑝(𝑦)


𝑦 𝑦 𝑦

= 𝐸[𝑌 2 ] + 𝐸[𝑌]2 ∑ 𝑝(𝑦) − 2𝐸[𝑌] ∑ 𝑦𝑝(𝑦)


𝑦 𝑦

= ∑ 𝐸[𝑌 2 ] + 𝐸[𝑌]2 − 2𝐸[𝑌]𝐸[𝑌] = 𝐸[𝑌 2 ] − 𝐸[𝑌]2


𝑦

CQFD

133
L’espérance est ce qu’on peut attendre « en moyenne » d’une variable aléatoire : lorsqu’on répète une
expérience un très grand nombre de fois et qu’on calcule la moyenne des résultats obtenus, cette moyenne
est proche de l’espérance.

Exemple. Calculons par exemple l’espérance du résultat d’un lancer de dé à six faces :

Comme l’espérance des gains d’un jeu est ce qu’on peut « espérer » gagner en jouant à ce jeu, elle
correspond au « juste prix » pour entrer dans ce jeu.

Un joueur vous propose le jeu suivant : vous lui donnez 4 €, et en échange il vous donne un montant
correspondant, en €, au résultat d’un lancer de dé à six faces. Ce jeu est-il équilibré ?

Une manière de répondre est la suivante :


L’espérance de vos gains en € dans ce jeu est égale à
𝐸[−4 + résultat du dé] = −4 + 𝐸[résultat du dé] = −0,5 < 0

En moyenne, si vous jouez à ce jeu, vous allez perdre 0,5 euros. Il vaut donc mieux ne pas jouer à ce
jeu!

Cette interprétation de l’espérance fait que celle-ci se retrouve dans de très nombreux aspects de la
vie économique, financière, industrielle, etc.

Exemple. La « prime pure » d’un contrat d’assurance (ce qu’il faut payer à l’assureur pour qu’il
accepte d’assurer un bien, sans compter les divers types de frais que l’assureur doit par ailleurs supporter)
est égale à l’espérance de la somme d’argent (prestation) que l’assureur devrait verser en cas de
sinistre à l’assuré.
Si on suppose qu’une maison de 300.000 € a 0,05% de chances de brûler (et ainsi de disparaître
complètement) sur une année, l’espérance de l’indemnité associée à un tel événement est égale à

𝐸[𝑌] = 0€ ∙ 𝑃(la maison ne brûle pas) + 300000€ ⋅ 𝑃(la maison brûle)


= 0€ ∙ 0,9995 + 300000€ ⋅ 0,0005 = 150€

La prime pure de ce contrat d’assurance incendie est donc égale à 150 €. Notons qu’à la prime pure
l’assureur doit ajouter ses frais de fonctionnement (pour payer les salaires, les guichets, la gestion des
sinistres etc.), ainsi qu’un montant lui permettant de « ne pas faire faillite trop souvent » (chargement de
sécurité).

En fait, un résultat mathématique confirme cette interprétation. Il s’agit de la loi des grands nombres
(voir plus loin).

Puisqu’une somme de variables aléatoires est elle-même une variable aléatoire, on peut en calculer
l’espérance.

Théorème : Soient X et Y deux variables aléatoires et 𝐸[𝑋], 𝐸[𝑌] leurs espérances (supposer exister).
Alors on a
𝐸[𝑋 + 𝑌] = 𝐸[𝑋] + 𝐸[𝑌]

134
Preuve :

Par la définition de la probabilité conditionnelle et le théorème des probabilités totales on obtient pour
le premier terme :

Le deuxième terme se traite de la même façon. CQFD

Puisqu’un produit de variables aléatoires est lui-même une variable aléatoire, on peut en calculer
l’espérance : attention, le résultat est cependant moins évident que dans le cas de la somme !

Théorème : Soient X et Y deux variables aléatoire indépendantes pour lesquelles 𝐸[𝑋] 𝑒𝑡 𝐸[𝑌]
existent. Alors on a
𝐸[𝑋 ∙ 𝑌] = 𝐸[𝑋] ∙ 𝐸[𝑌]

Preuve :

CQFD

Théorème : Soient X et Y des variables aléatoires indépendantes et possédant des variances 𝑉[𝑋] et
𝑉[𝑌]. Alors la variance de leur somme vaut la somme des variances :
𝑉[𝑋 + 𝑌] = [𝑋] + 𝑉[𝑌]

Preuve :

135
Puisque X et Y sont indépendantes, on peut utiliser le résultat précédent pour écrire :

CQFD

Nous allons maintenant étudier certains types de distributions discrètes, que l’on rencontre dans
certaines situations courantes.

6.4 La distribution uniforme discrète

Définition : Une variable aléatoire Y qui peut prendre n valeurs 𝑦1 , 𝑦2 , … , 𝑦𝑛 possède une distribution
uniforme si toutes ces valeurs sont équiprobables :

1
𝑃(𝑌 = 𝑦𝑖 ) = 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 = 1,2, … , 𝑛
𝑛

Exemple : le résultat d’un dé à 6 faces (équilibré) est un exemple de distribution uniforme. Dans ce
cas en effet on a que
1
𝑃(𝑌 = 1) = 𝑃(𝑌 = 2) = 𝑃(𝑌 = 3) = 𝑃(𝑌 = 4) = 𝑃(𝑌 = 5) = 𝑃(𝑌 = 6) = 6

Remarquons que ce n’est pas le cas de la somme des résultats du lancer de 2 dés : on a par exemple
P(Y=7)=1/6 alors que P(Y=2)=1/36.

6.5 La distribution binomiale


On se place dans le contexte suivant (appelé « l’expérience binomiale »):
• On suppose qu’on répète de manière indépendante une même expérience aléatoire pouvant mener
soit à un succès, avec probabilité p (pour un certain nombre 𝑝 ∈ [0,1]), soit à un échec (avec la
probabilité complémentaire 𝑞 = 1 − 𝑝).
• On répète cette expérience n fois (pour un certain nombre naturel n) et on s’intéresse au nombre
total de succès observés sur l’ensemble de ces n répétitions.

Ce nombre de succès est clairement une variable aléatoire qui ne peut prendre comme valeurs que des
nombres entiers allant de 0 (aucun succès observés sur les n répétions de l’expérience) à n (succès
observé sur toutes les n répétitions).
C’est donc une variable aléatoire qui peut prendre comme valeurs : 0, 1, 2, 3, …, n.

136
Par définition, la distribution de cette variable aléatoire est appelée distribution binomiale de paramètres
n et p.

Figure 36. Arbre de probabilité assocé à une experience binomiale (n=3). Source: Wikipedia

Remarque : Déterminer si une expérience particulière est une expérience binomiale nécessite
d’examiner chacune des caractéristiques listées de l’expérience. Il n’y a pas de connotation morale aux
termes succès et échec. Un « succès » ne désigne pas nécessairement quelque chose de « réussi », ou de
« bon » : il s’agit seulement de désigner l’un des deux résultats possibles de chacun des essais.

Exemple d’expérience binomiale


On sélectionne au hasard à la sortie d’une chaine de montage 100 objets d’un certain type fabriqués dans
cette chaine. Certains sont défectueux, d’autres pas. On sait par ailleurs que la probabilité d’avoir un
objet défectueux est de 10%.
Dans ce cas, le nombre d’objets défectueux observés parmi les 100 objets sélectionnés au hasard est une
variable aléatoire (quantité numérique associée à une expérience aléatoire, l’expérience ici étant la
sélection au hasard de 100 objets) de distribution binomiale de paramètres 𝑛 = 100 et 𝑝 = 10%.
U « succès » correspond à avoir sélectionné un objet défectueux, et un « échec » correspond à avoir
sélectionné un objet conforme.

On va voir que la distribution binomiale peut s’obtenir à l’aide d’une formule générale faisant
intervenir les coefficients binomiaux (d’où le nom de la loi). C’est ce qu’on explique ci-dessous.
Pour construire la fonction de probabilité d’une telle expérience, calculons la probabilité que le nombre
de succès 𝑌 = 𝑦, où 𝑦 est un nombre naturel compris entre 0 et n. Considérons un ensemble de n essais
ayant résulté en 𝑦 succès (« S ») et 𝑛 − 𝑦 échecs (« E ») :

137
Puisque ces essais sont indépendants et possèdent tous la même probabilité de succès et d’échec, la
probabilité d’assister au résultat donné ci-dessus est :

Comme cette suite de succès et d’échecs n’est évidemment pas la seule à pouvoir survenir, il faut sommer
sur toutes les possibilités, qui sont toutes équiprobables, et qui correspondent chacune à un n-uple de
𝑛
« S » et de « E » comportant y fois un « S » ; il y en a en tout : (𝑦) (nombre de manière que l’on peut
sélectionner y éléments parmi n, les « éléments » étant ici le numéro de l’expérience réalisée). On obtient
donc finalement :

𝑃(𝑌 = 𝑦) = (𝑛 ) 𝑝 𝑦 (1 − 𝑝)𝑛−𝑦
𝑦

Figure 37. Représentation de la loi binomial sous forme d’un arbre. Source: Wikipedia

Définition : Une variable aléatoire Y possède une distribution binomiale basée sur n essais et une
probabilité de succès p (ce qui se note : 𝑌 ∼ ℬ(𝑛, 𝑝)) si :
𝑛!
𝑃(𝑌 = 𝑦) = (𝑛) ⋅ 𝑝 𝑦 ⋅ (1 − 𝑝)𝑛−𝑦 = ⋅ 𝑝 𝑦 ⋅ (1 − 𝑝)1−𝑦
𝑦 𝑦! (𝑛 − 𝑦)!

Exemple
On lance 5 fois de suite un dé équilibré, et on s’intéresse au nombre total de fois où on a obtenu un « 6 »
sur ces 5 lancers. Ce nombre peut se voir comme une variable aléatoire X de distribution binomiale de
1
paramètres 𝑛 = 5 (le nombre de fois qu’on lance le dé) et 𝑝 = (la probabilité d’avoir un « 6 » à chaque
6
lancer).
On peut alors calculer la probabilité d’avoir obtenu exactement 4 fois un « 6 » au cours de ces 5 lancers :

138
6! 1 4 5 2
𝑃[𝑋 = 3] = ( ) ( ) = 15 ⋅ 0,0007716 ⋅ 0,69444444 = 0,00803755
4! 2! 6 6

Comme pour les autres distributions que nous verrons, il est possible d’obtenir une expression pour les
moments des variables aléatoires possédant une distribution binomiale.

Théorème (espérance et variance d’une variable binomiale):


Si 𝑌 ∼ ℬ(𝑛, 𝑝)) alors
𝐸[𝑌] = 𝑛𝑝 et 𝑉[𝑌] = 𝑛𝑝(1 − 𝑝) = 𝑛𝑝𝑞
(où 𝑞 = 1 − 𝑝)

Illustration de la fonction de probabilité (ou densité discrète) d’une loi binomiale :

0.35 n=5, p=0,5 0.45

0.4
0.3 n=5, p=0,2
0.35

0.25
0.3

0.2 0.25

0.2
0.15

0.15
0.1
0.1

0.05
0.05

0 0
0 1 2 3 4 5 0 1 2 3 4 5

0.35
0.25

n=10, p=0,5 0.3

0.2 n=10, p=0,2


0.25

0.15 0.2

0.15
0.1

0.1

0.05
0.05

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

139
0.15 0.18

0.16

n=30, p=0,5 0.14 n=30, p=0,2


0.1 0.12

0.1

0.08

0.05 0.06

0.04

0.02

0 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30

Les coefficients de combinaison (aussi appelés coefficients binomiaux) interviennent dans la formule du
binôme de Newton:

On a par exemple :

Ces coefficients binomiaux peuvent être obtenus en construisant le triangle de Pascal, un triangle dans
lequel chaque nombre est la somme des deux nombres situés au-dessus de lui :

Figure 38. Le triangle de Pascal

𝑛
Le coefficient binomial ( ) s’obtient à partir de ce tableau en considérant la (𝑛 + 1)ème ligne et (k+1)ème
𝑘
diagonale :

140
En lisant dans ce triangle, on retrouve bien les coefficients du binôme (𝑎 + 𝑏)𝑛 de la formule de Newton.

La planche de Galton (figure ci-dessous) est une expérience-exemple illustrant cette idée.

Figure 39: Tableau (ou planche) de Galton.

Exemple (distribution binomiale) : approche probabiliste. L’expérience a montré que 30% des
personnes atteintes d’une certaine maladie se rétablissent. Une entreprise pharmaceutique étudie un
nouveau médicament, et fait des essais sur un groupe de dix personnes atteintes de la maladie, dont neuf
se rétablissent.

En faisant l’hypothèse que la substance qui leur a été distribuée n’est pas du tout efficace (dont que
prendre médicament est l’équivalent de ne rien prendre du tout), calculons la probabilité qu’on observe
(au moins) neuf rétablissements.

Soit Y le nombre de personnes qui guérissent, une variable aléatoire qui possède une distribution
binomiale (n = 10; p = 0,3 : chaque personne correspond à une « répétition » de l’expérience, et un succès
est sa guérison « naturelle », càd en supposant que la personne n’a pas pris de médicament). On calcule
donc :

141
𝑃(𝑌 ≥ 9) = 𝑃(𝑌 = 9) + 𝑃(𝑌 = 10)
10 10
= ( ) 0,32 ∙ 0,7 + ( ) 0,310
9 10
= 0,000138 + 0,000006 = 0,000144

La probabilité d’observer 9 guérisons « naturelles » est donc très faible. Ce résultat suggère donc que
soit le médicament est inefficace et qu’on a observé un événement très rare, soit le médicament est
vraiment efficace.

Exemple (distribution binomiale – moments) : On propose de jouer au jeu suivant : on lance quinze
dés à six faces, et vous recevez 3 € pour chacun des dés qui a un résultat supérieur ou égal à 5. En
échange de quelle somme est-il raisonnable d’accepter de jouer à ce jeu ?
Calculons pour répondre à cette question l’espérance des gains de ce jeu. Le nombre Y de dés parmi les
quinze dont le résultat est  5 est une variable aléatoire binomiale avec paramètres n = 15 et p = P(dé 
5) = 2/6. Son espérance vaut donc :
2
𝐸[𝑌] = 𝑛 ∙ 𝑝 = 15 ∙ = 5.
6
L’espérance des gains de ce jeu vaut donc, si on paie pour y jour un prix noté J,
𝐸[𝑔𝑎𝑖𝑛𝑠] = 𝐸[−𝐽 + 3 ∙ 𝑌] = −𝐽 + 3𝐸[𝑌] = −𝐽 + 3 ∙ 5 = −𝐽 + 15
Il est donc raisonnable de jouer à ce jeu si le prix est inférieur ou égal à 15 €.

En pratique le calcul de 𝑃(𝑌 = 𝑦) est assez facile. Par contre il est fastidieux de calculer P(𝑌 ≤ 𝑦). Cela
peut se faire à l’aide de stables statistiques (« table binomiale »).

6.6 La distribution de Poisson


Cette distribution est utilisée typiquement pour décrire le nombre d’occurrences au cours d’un certain
intervalle de temps ou d’espace bien défini :
• Le nombre d’arrivées de clients dans un magasin pendant 30 minutes (intervalle de temps)
• Le nombre de réparations nécessaires pour 10 km d’autoroute (intervalle d’espace)
• Le nombre de fuites sur 100 km de pipeline
• Le nombre de sinistres observés sur un certain portefeuille d’assurance pendant une période
d’une année
• Le nombre de tremblement de terre observés dans une certaine région pendant un certain
intervalle de temps
• …
On parle en fait d’expérience de Poisson 2 : il s’agit d’un processus dans lequel on s’intéresse à
l’occurrence d’événements (au cours du temps ou sur une portion de l’espace), de sorte que :
1. La probabilité d’une occurrence est la même dans 2 intervalles de même longueur (stationnarité)
2. L’occurrence ou la non occurrence d’un événement dans un intervalle est indépendante de
l’occurrence ou la non occurrence de cet événement dans un autre intervalle (indépendance entre
intervalles disjoints)

2
Le nom de cette distribution vient du mathématicien-ingénieur-physicien français Siméon Poisson (1781-1840)
142
Definition : Une variable aléatoire Y possède une distribution de Poisson de paramètre 𝜆 > 0 (ce qui se
note 𝑌 ∼ 𝒫(𝜆)) si :
𝜆𝑘 −𝜆
𝑃(𝑌 = 𝑘) = 𝑒 𝑝𝑜𝑢𝑟 𝑘 = 0,1,2, …
𝑘!
où 𝑒 ≈2, 71828 est le nombre d’Euler.

En fait, on peut montrer que la fonction de probabilité binomiale converge vers la fonction de probabilité
de Poisson :
𝜆𝑘
(𝑛) ⋅ 𝑝𝑘 ⋅ (1 − 𝑝)𝑛−𝑘 = 𝑒 −𝜆
lim
𝑛→ ∞,𝑝→0 𝑘 𝑘!
où le paramètre 𝜆 est en fait la limite du produit 𝑝. 𝑛 lorsque p tend vers 0 et n tend vers l’infini.
Les variables aléatoires de Poisson peuvent être utilisées pour approximer les variables aléatoires
binomiales dont les paramètres n et p sont respectivement grand et petit. Cela fait donc de la distribution
de Poisson une distribution des événements rares.
Illustration de la convergence de la loi binomiale vers la loi de Poisson

Figure 40: Distribution de Poisson et distribution binomiale

143
Espérance et variance d’une variable de distribution de Poisson:

Théorème : Si 𝑌 ∼ 𝒫(𝜆), alors


𝐸[𝑌] = 𝜆, 𝑉[𝑌] = 𝜆

Exemple (moments d’une distribution de Poisson). Pour assurer un troupeau de 50 vaches valant
1.000 € chacune, un assureur demande une prime pure annuelle de 2.000 € (c’est-à-dire que pour ce prix-
là, il remplacera à ses frais en fin d’année les vaches mortes).
En supposant que le nombre de bêtes mortes chaque année suit une distribution de Poisson, calculons le
taux de mortalité annuel des vaches supposé par l’assureur lors de l’établissement de sa prime.
La prime pure est égale à l’espérance de l’indemnité à verser par l’assureur en cas de sinistre (en
négligeant les taux d’intérêt) :

E[indemnité] = E[nombre de morts] ∙ 1000€ = 𝜆 ∙ 1000€.

Puisque la prime vaut 2.000 €, on déduit que 𝜆= 2 : on s’attend à ce que 2 vaches meurent chaque année.
Cela donne donc un taux de mortalité dans le troupeau égal à 2/50 = 4%.

Exemple : Le nombre de patrouilles de police effectuées dans un quartier donné est supposé suivre une
loi de Poisson de paramètre 𝜆, avec une moyenne de 2 par heure. La probabilité que le quartier ne soit
pas visité du tout pendant une heure vaut alors :
𝑃(𝑌 = 0)
où 𝑌 ∼ 𝒫(2). Donc :
𝑒 −2 20
𝑃(𝑌 = 0) = ≈ 0,1353
0!
Et la probabilité d’être visité 3 fois en une heure vaut :

144
𝑒 −2 23
𝑃(𝑌 = 3) = ≈ 0,1804
3!

145
Chapitre 7: Variables aléatoires continues

Les variables aléatoires que nous considérons dans ce chapitre sont continues, c’est-à-dire qu’elles
prennent un nombre infini indénombrable de valeurs (c’est-à- dire dont on ne peut pas dresser de liste),
le plus souvent un intervalle réel [a,b]).

Pour comprendre ce qui change lorsqu’on passe du discret au continu, considérons une suite de variables
aléatoires prenant de plus en plus de valeurs différentes (figure ci-dessous). Par exemple, un physicien
fait passer un signal lumineux à travers une suite de lentilles et observe l’instant auquel le dernier photon
du faisceau franchit la dernière lentille. Il fait d’abord ses mesures en divisant les 60 secondes en 6
intervalles de 10 secondes. Puis il refait ses mesures en divisant la minute en 12 intervalles
de 5 secondes, puis 30 intervalles de 2 secondes, 60 intervalles d’une seconde, 120 intervalles d’une
demi seconde, etc. Si on trace des histogrammes de densité, la probabilité que l’instant d’intérêt soit situé
au milieu de la période d’observation est égale à l’aire du rectangle correspondant à l’intervalle contenant
l’instant t = 1/2. Puisque la base de ces rectangles tend vers 0, la probabilité que le dernier photon
passe au cours de l’intervalle de temps contenant t = 1/2 tend elle aussi vers 0 ; c’est donc aussi en un
certain sens le cas de P(Y = 1/2).

Figure 41: Du discret au continu

La fonction de probabilité, qui est adaptée pour décrire les variables aléatoires discrètes prenant un
nombre fini de valeurs, n’est pas adaptée pour décrire les variables aléatoires continues.

146
Plutôt que de considérer l’événement {𝑌 = 𝑦} (à travers la fonction de probabilité : 𝑝(𝑦) = 𝑃(𝑌 = 𝑦)),
qui a toutes les chances d’être nulle), on considère dans le cas des variables aléatoires continues
l’événement {𝑌 ≤ 𝑦 (à travers la fonction de répartition, qui, elle, est a priori non nulle).

7.1 Fonction de répartition et fonction de densité d’une variable aléatoire


continue

Définition : Soit Y une variable aléatoire. La fonction de répartition de Y (en anglais cumulative
distribution function) est définie par
𝐹(𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑌 ∈] − ∞, 𝑦]).

Cette fonction existe évidemment tant pour des variables aléatoires discrètes que continues. De plus,
d’après la forme de la fonction de répartition d’une variable aléatoire, on peut identifier si elle est discrète
ou continue : si elle est discrète, ce sera une fonction en escalier.
Par exemple, pour une variable aléatoire binomiale de paramètres 𝑛 = 2, 𝑝 = 0,5 on a :

Ce qui mène au graphe suivant pour F(y) :

Figure 42: fonction de répartition d'une variable aléatoire discrète, plus précisément suivant une distrbution Bin (2, 50%)

147
Théorème (propriétés d’une fonction de répartition)
Si F est une fonction de répartition, alors elle satisfait les conditions suivantes :
1. lim 𝐹(𝑦) = 0
𝑦→−∞
2. lim 𝐹(𝑦) = 1
𝑦→+∞
3. 𝐹 est une fonction croissante : si 𝑦1 ≤ 𝑦2 , alors 𝐹(𝑦1 ) ≤ 𝐹(𝑦2 )

Voici donc à quoi ressemble une fonction de répartition d’une variable aléatoire continue :

Figure 43: Allure générale de la function de repartition d’une variable aléatoire continue

Un autre concept utile dans le cas de variable aléatoire continue est celui de fonction de densité :

Définition : Soit 𝐹 la fonction de répartition d’une variable aléatoire continue. Sa fonction de densité
(en anglais probabilité distribution function ou probability density function) est définie par :
𝑓 (𝑦) = 𝐹′(𝑦)
lorsque cette dérivée 𝐹′ existe

Conséquence immédiate : la fonction de répartition est une primitive de la fonction de densité :


𝑦
𝐹(𝑦) = ∫ 𝑓(𝑥)𝑑𝑥
−∞

La fonction de répartition représente donc une probabilité, mais pas la fonction de densité. C’est l’aire
sous la courbe du graphe de la fonction de densité qui représente une probabilité.
Par contre, pour calculer la probabilité que Y prenne des valeurs dans un intervalle ]𝑥, 𝑦] , il faut
calculer :

148
Figure 44: fonction de densité: l'aire sous le graphe de la fonction de densité est la fonction de répartition, et représente une
probabilité.

Théorème (propriétés de la fonction de densité)


Si 𝑓 est la fonction de densité d’une variable aléatoire continue, alors :
1. 𝑓(𝑦) ≥ 0 pour tout 𝑦 ∈ ℝ
+∞
2. ∫−∞ 𝑓(𝑦)𝑑𝑦 = 1 = lim 𝐹(𝑦)
𝑦→+∞

On peut étendre les notions d’espérance et de variance au cas de variables aléatoires continues :

Définition :
Si Y est une variable aléatoire continue de densité 𝑓, et g une fonction réelle, alors on définit:
+∞
𝐸[𝑌] = ∫ 𝑦 ∙ 𝑓(𝑦)𝑑𝑦
−∞
+∞
𝐸[𝑔(𝑌)] = ∫ 𝑔(𝑦) ∙ 𝑓(𝑦)𝑑𝑦
−∞

+∞
𝑉[𝑌] = ∫ (𝑦 − 𝐸[𝑌])2 ∙ 𝑓(𝑦)𝑑𝑦
−∞

7.2 Distribution uniforme


Définition : La variable aléatoire Y possède une distribution uniforme sur l’intervalle [a,b] ( 𝑌 ∼
𝑈[𝑎, 𝑏]) si sa densité vaut :
1
𝑠𝑖 𝑦 ∈ [𝑎, 𝑏]
𝑓(𝑦) = {𝑏 − 𝑎
0 𝑠𝑖 𝑦 ∉ [𝑎, 𝑏]

149
En intégrant la fonction de densité (qui est une constante sur [a,b], et une autre constante, 0, en dehors
de cet intervalle), on voit facilement que la fonction de répartition d’une uniforme est linéaire par
morceaux :
0 𝑠𝑖 𝑥 < 𝑎
𝑥−𝑎
𝐹(𝑥) = { 𝑠𝑖 𝑥 ∈ [𝑎, 𝑏]
𝑥−𝑏
1 𝑠𝑖 𝑥 > 𝑏

On peut calculer l’espérance et la variance d’une telle variable aléatoire (exercice) :


𝑎+𝑏 (𝑏 − 𝑎)2
𝐸[𝑌] = , 𝑉[𝑌] =
2 12

0.25

0.2

0.15

0.1

0.05

0
-1 0 1 2 3 4 5 6

Figure 45. Fonction de densité d'une uniforme sur [0,4]. L’aire sous ce rectangle vaut 1.

Exemple : Les arrivées des clients à un guichet suivent une distribution uniforme.
On sait que, pendant une période de 30 minutes donnée, un client est arrivé au guichet.
Calculons la probabilité que le client soit arrivé durant les 5 dernières minutes de la demi-heure en
question.
L’heure d’arrivée est donc une variable aléatoire 𝑌 ∼ 𝑈(0 ; 30) (si on exprime le passage du temps en
minutes), de telle sorte que la fonction de densité est :

On a donc :

La distribution uniforme est très intuitive, et le résultat obtenu peut se déduire directement de l’énoncé,
puisque les 5 dernières minutes de la demi-heure correspondent à 1/6 de cette période.

150
7.3 Distribution exponentielle
Définition : La variable aléatoire continue Y possède une distribution exponentielle de paramètre 𝜆 >
0 (ce qui se note 𝑌 ∼ ℰ(𝜆)) si :
𝜆𝑒 −𝜆𝑦 𝑠𝑖 𝑦 ≥ 0
𝑓(𝑦) = {
0 𝑠𝑖 𝑦 < 0

La distribution exponentielle est très utilisée pour modéliser des temps d’attente ou des durées de vie:
on peut montrer que l’intervalle de temps qui sépare l’apparition aléatoire de deux « accidents »
modélisés par un processus de Poisson possède cette distribution.

Figure 46: Densité de la distribution exponentielle pour différentes valeurs de 𝝀

Théorème : Si 𝑌 ∼ ℰ(𝜆), alors l’espérance et la variance de Y valent :


1 1
𝐸[𝑌] = , 𝑉[𝑌] = 2
𝜆 𝜆

Dans le cas de la distribution exponentielle, une formule fermée pour la fonction de répartition s’obtient
en intégrant directement la fonction de densité :

Il n’est donc pas nécessaire d’avoir recours à une table pour calculer les valeurs de F dans ce cas.

Exemple. La durée de vie Y d’un processeur d’un type particulier utilisé pour des calculs très lourds est
une variable aléatoire exponentielle. On sait que la durée de vie moyenne est de 2 ans. Quelle est la
151
probabilité qu’un processeur de ce type cesse de fonctionner durant sa première année de service ?
Avant de calculer cette probabilité, il faut déterminer la valeur du paramètre 𝜆 associé à Y, ce qui peut
se faire à partir de l’information donnée dans l’énoncé à propos de E[Y] :
1 1
2 ans = E[Y] = ⇒ 𝜆 = .
λ 2
On peut alors calculer 𝑃(𝑌 ≤ 1) :
𝑃(𝑌 ≤ 1) = 1 − 𝑒 −𝜆.1 = 1 − 𝑒 −0,5 = 0,3934

7.4 Distribution normale


La distribution normale a été étudiée d’abord par de Moivre puis Laplace au XVIIIème, et ensuite Gauss
au XIXème. Elle est aussi appelée distribution gaussienne. Sa fonction de densité s’appelle « courbe en
cloche ». Cette distribution se rencontre dans beaucoup de situations pratiques (notamment dans les
données biométriques), et elle joue un rôle fondamental en statistique et en probabilité (notamment grâce
au théorème central limite – voir plus loin)

Définition : La variable aléatoire continue Y possède une distribution normale de paramètres 𝜇 et 𝜎 (ce
qui se note 𝑌 ∼ 𝑁(𝜇, 𝜎 2 )) si sa densité a la forme :
1 1 𝑦−𝜇 2
𝑓(𝑦) = 𝑒 −2( 𝜎 )
𝜎√2𝜋
où 𝑦 ∈ ℝ.

Figure 47: Densité de la distribution normale pour différentes valeurs de µ et σ

On peut voir que l’espérance et la variance d’une distribution normale s’expriment très simplement
à l’aide des paramètres 𝜇 et 𝜎:
𝐸[𝑌] = 𝜇, 𝑉[𝑌] = 𝜎 2

On peut voir que la fonction de répartition


𝑦 1 𝑥−𝜇 2
1
𝐹(𝑦) = ∫ 𝑒 −2( 𝜎 ) 𝑑𝑥
−∞ 𝜎√2𝜋
152
n’est pas une « fonction usuelle », càd qu’on ne la trouve pas sur la majorité des calculatrices. En fait
elle ne peut pas s’exprimer comme une combinaison de ce qu’on appelle des « fonctions élémentaires »,
càd celles qu’on a « identifiées » dans les cours d’analyse comme 𝑠𝑖𝑛, 𝑐𝑜𝑠, exponentielle, logarithme,
polynome, fraction rationnelle, etc. De ce fait, quand on a besoin de valeurs particulières de 𝐹(𝑦), une
possibilité est d’utiliser une table statistique. Une autre est d’utiliser un software tel Excel, SAS, Matlab,
R,…

En pratique, une table statistique de distribution normale est construite pour les valeurs 𝜇 = 1, 𝜎 = 0
(on parle de distribution normale « centrée, réduite »), et on déduit la fonction de répartition pour une
valeur quelconque de 𝜇 et 𝜎 en utilisant le fait que :
𝑌−𝜇 𝑦−𝜇 𝑦−𝜇
𝐹𝑁(𝜇,𝜎2 ) (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃 ( ≤ ) = 𝐹𝑁(0,1) ( )
𝜎 𝜎 𝜎

Il suffit donc de « centrer » (càd enlever l’espérance 𝜇) et réduire (diviser par l’écart-type 𝜎) la valeur y
en laquelle on veut calculer F(y), puis d’aller lire dans la table statistique d’une normale centrée réduire
N(0,1).

Un des intérêts de la distribution normale est dû à un résultat probabiliste appelé Théorème Central
Limite que l’on verra plus tard: quand on considère une suite infinie de variables aléatoires
𝑌1 , 𝑌2 , 𝑌3 , … ayant toutes la même distribution, prenant des valeurs indépendamment les unes des autres
(« variables indépendantes ») et possédant toutes une certaine espérance 𝜇 et un certain écart-type 𝜎,
alors la distribution de la somme de ces variables, ∑𝑛𝑖=1 𝑌𝑖 , lorsque 𝑛 → ∞ , va se rapprocher
arbitrairement près (si 𝑛 devient arbitrairement grand) d’une distribution normale 𝑁(𝑛𝜇, √𝑛𝜎).

De sorte que quand on considère des quantités statistiques qui apparaissent comme des sommes d’un
grand nombre de variables aléatoires indépendantes et de même distribution, on arrive très vite
« essentiellement » une distribution normale. C’est pourquoi cette distribution se rencontre couramment
dans les applications.

7.5 La distribution log-normale


En deux mots, une variable est de distribution log-normale si quand on prend son logarithme (ln), la
nouvelle variable aléatoire ainsi obtenue est de loi normale (son logarithme est de loi normale). En
d’autres termes, si c’est l’exponentielle d’une variable aléatoire normale.

Définition : La variable aléatoire continue Y possède une distribution log-normale de paramètres 𝜇 𝑒𝑡 𝜎


(ce qui se note 𝑌 ∼ ℒ𝒩(𝜇, 𝜎 2 ) s’il existe une variable aléatoire X de distribution 𝒩(𝜇, 𝜎 2 )telle que
𝑌 = 𝑒𝑋
ou, de manière équivalente, si

Théorème : Si 𝑌 ∼ ℒ𝒩(𝜇, 𝜎 2 ), alors


𝜎2 2 2
𝐸[𝑌] = 𝑒 𝜇+ 2 , 𝑉[𝑌] = (𝑒 𝜎 − 1)𝑒 2𝜇+𝜎

153
Figure 48: Densité d'une distribution log-normale pour différentes valeurs des paramètres

Exemple. Le cours après un an (en supposant un prix initial unitaire) de l’indice boursier EuroStoxx50
peut être modélisé comme une variable aléatoire 𝑌 ∼ ℒ𝒩(𝜇 = 0,05, 𝜎 = 0,20) . Calculons la
probabilité qu’un investisseur double au moins son capital en investissant dans cet indice, ainsi que le
rendement auquel il peut s’attendre en moyenne.
Puisque Y est log-normale, on va faire apparaître la variable normale sous-jacente, X = log Y ∼
𝒩(0,05 ; 0,20).

L’investisseur a donc 16,6% de doubler sa mise en un an.

L’investisseur peut s’attendre en moyenne à un rendement égal à la moyenne de Y :


𝜎2 0,22
𝐸 [𝑌] = 𝑒 𝜇+ 2 = 𝑒 0,05+ 2 = 1,0725

Plus précisément, pour 1€ investi en t=0, le rendement moyen est :


𝐸[𝑌] − 1
= 1,0725 − 1 = 0,0725 = 7,25%
1

154
Chapitre 8: Théorèmes fondamentaux

Ce chapitre aborde des théorèmes généraux de probabilité qui ont différentes applications en statistique.
Ces résultats permettent de mieux interpréter les concepts de moyenne et de variance (échantillon), et
aussi d’avoir une idée de la précision d’une estimation de l’espérance et de la variance d’une variable
aléatoire sur base d’un échantillon. En particulier, cela permet de répondre à la question : quelle doit
être la taille d’un échantillon pour pouvoir estimer l’espérance et la variance (population) suffisamment
précisément.

8.1 L’inégalité de Markov


Théorème Soit X une variable aléatoire positive. Alors pour tout 𝑎 > 0,
𝐸[𝑋]
𝑃(𝑋 ≥ 𝑎) ≤
𝑎

Preuve : Introduisons la fonction indicatrice suivante :


1 𝑠𝑖 𝑋 ≥ 𝑎
𝕀𝑋≥𝑎 (𝑥) = {
0 𝑠𝑖𝑛𝑜𝑛.

On a évidemment 𝑋 ≥ 𝑎𝕀𝑋≥𝑎 , et donc , si on suppose d’abord que X est continue (X a une densité 𝑓𝑋 ):
+∞ +∞
𝐸[𝑋] ≥ 𝐸[𝑎𝕀𝑋≥𝑎 ] = 𝑎𝐸[𝕀𝑋≥𝑎 ] = 𝑎 ∫ 𝕀𝑋≥𝑎 (𝑥)𝑓𝑋 (𝑥)𝑑𝑥 = 𝑎 ∫ 𝑓𝑋 (𝑥)𝑑𝑥 = 𝑎𝑃(𝑋 ≥ 𝑎).
0 𝑎
Si ce n’est pas le cas, la preuve est similaire. CQFD

Exemple d’application de l’inégalité de Markov:


Soit X la variable aléatoire correspondant aux résultats de 100 étudiants lors d’un examen coté sur 20,
qui est clairement positive puisque le résultat le plus bas est égal à 0 ; supposons également que la classe
est d’un niveau médiocre et que le résultat moyen est 4.
Appliquons à X l’inégalité de Markov pour a = 10 :
4
𝑃(𝑋 ≥ 10) ≤ = 0,4
10
Ceci veut dire que si l’on sélectionne un étudiant au hasard parmi les 100, il aura une note au-dessus de
la moyenne avec une probabilité inférieure à 40%, à cause de la faible moyenne. En d’autres termes,
plus de 40% des étudiants environ ont raté leur examen.

Intuitivement, cela peut se comprendre comme suit: comme la moyenne par étudiant est de 4, la somme
des notes des 100 étudiants est de 400. Si 40% des étudiants (c’est-à-dire 40 étudiants) ont 10/20, la
somme de leurs résultats vaut déjà 400 ; tous les autres ont forcément obtenu 0 puisqu’il n’est pas
possible d’obtenir un résultat négatif. Il est donc absolument impossible (sur cette population de 100
étudiants) que 41 étudiants aient obtenu 10/20, puisqu’alors on ne pourrait pas observer une moyenne
de 4/20.

155
8.2 L’inégalité de Bienaymé Tchebytchev
Nous avons vu dans ce chapitre des exemples de distributions qui n’ont pas du tout une forme de cloche.
La règle empirique énoncée dans le chapitre 1 ne s’applique donc pas bien pour ces distributions.
Par exemple, considérons une population de distribution géométrique (avec p =0,5) : on peut voir que
seules 43% des données se situent dans l’intervalle :

Le résultat suivant donne une estimation similaire (bien que seulement sous la forme d’une borne) sans
faire aucune hypothèse sur la distribution :
Théorème Soit X une variable aléatoire d’espérance 𝜇 et de variance 𝜎 2 . Alors pour tout 𝑘 > 0,
1
𝑃(|𝑋 − 𝜇| ≥ 𝑘𝜎) ≤ 2
𝑘

En prenant dans ce résultat k=1, 2 ou 3, on obtient les résultats suivants :

Le théorème de B-T se démontre en appliquant l’inégalité de Markov avec « X »=(𝑋 − 𝜇)2, et 𝑎 = 𝑘 2 .

Une autre manière d’énoncer le théorème est la suivante :


Théorème Soit X une variable aléatoire d’espérance 𝜇 et de variance 𝜎 2 . Alors pour tout 𝑘 > 0,
1
𝑃(𝜇 − 𝑘𝜎 ≤ 𝑋 ≤ 𝜇 + 𝑘𝜎) ≥ 1 − 2
𝑘

Concrètement ce résultat nous donne une borne inférieure pour la probabilité qu’une variable
aléatoire prenne des valeurs dans un intervalle centré autour de son espérance et de demi-longueur
égale à k fois son écart-type, càd un intervalle du type [𝝁 − 𝒌 𝝈, 𝝁 + 𝒌 𝝈].
Plus l’intervalle est grand (grand intervalle autour de l’espérance, parce que k est grand), plus cette borne
inférieure est proche de 1, càd plus il y a de chance que la variable aléatoire prenne ses valeurs dans cet
intervalle quand on réalise l’expérience aléatoire.
En particulier, si k=3 ce résultat nous dit qu’une variable aléatoire prend ses valeurs dans l’intervalle
centré en son espérance et de demi-longueur égale à 3 écart-types avec une probabilité d’au moins 89%.
Cela donne donc une nouvelle interprétation intuitive de l’espérance et de l’écart-type : quand on
vous donne l’écart-type et l’espérance d’une variable aléatoire, vous pouvez vous représenter
mentalement dans quel intervalle de valeurs vous pouvez vous attendre à observer les valeurs de cette
variable aléatoire. Et ce quelle que soit la distribution de la variable aléatoire.

Exemple : une enquête a montré que les habitants d’un pays avaient un nombre d’heures de sommeil par
jour d’espérance 6 heures et d’écart-type 0.5 heures. Concrètement cela veut dire que la plupart des gens
de ce pays vont effectivement dormir entre 4,5 et 7,5 heures par nuit. Le terme vague la plupart devant
156
en fait se comprendre plus précisément comme : au moins 89% des gens de ce pays dorment entre 4,5 et
7,5 heures par nuit.

Exemple : Le service marketing d’un grand supermarché a observé que le nombre Y de clients par jour
faisant leur course dans ce magasin est une variable aléatoire de moyenne 𝜇= 500 et d’écart-type 50.
La distribution de probabilité de Y n’est cependant pas connue. Que peut-on dire de la probabilité que,
demain, le supermarché accueille entre 400 et 600 clients ?
Par le théorème de Bienaymé-Tchebychev, on a pour tout k > 0 :

La valeur absolue à l’intérieur de la probabilité ci-dessus peut se réécrire :

En choisissant k=2, on obtient que la probabilité que, demain, le supermarché accueille entre 400 et 600
clients est plus grande que 75%.

8.3 La loi des grands nombres


Le théorème de Bienaymé-Tchebytchev permet d’obtenir un résultat fondamental en statistique : la loi
des grands nombres. Ce résultat est important car il permet de faire le pont entre les statistiques et les
probabilités. Il dit que quand le nombre d’observations considérées dans un échantillon devient de plus
en plus grand, alors la moyenne empirique (calculée sur ces observations) tend vers l’espérance.

Il est fondamental en assurance : sans lui l’activité d’assurance n’existerait pas car il est à la base du
principe de mutualisation des risques. Il n’y aurait pas de compagnies d’assurance sans la loi des grands
nombres…

Théorème Soit 𝑌1 , 𝑌2 , … , 𝑌𝑛 , … une suite de variables aléatoires indépendantes de même moyenne 𝜇 et


de même variance. Alors, pour tout ϵ > 0,

𝑌1 + 𝑌2 + ⋯ + 𝑌𝑛
lim 𝑃 (| − 𝜇| ≥ 𝜖) = 0.
𝑛→∞ 𝑛

157
Commentaires :
𝑌 +𝑌 +⋯+𝑌
1. Intuitivement, ce résultat veut dire que 1 2𝑛 𝑛 − 𝜇 a une probabilité importante d’être très petit,
d’autant plus que n est grand. Càd qu’en gros, on peut considérer sans trop se tromper que quand n est
suffisamment grand, la moyenne sur n réalisations de l’expérience d’un certaine quantité aléatoire
𝒀 +𝒀 +⋯+𝒀𝒏
Y, 𝟏 𝟐 , sera très proche de 𝝁, l’espérance de cette variable aléatoire Y.
𝒏

2. Par ailleurs, ce résultat appuie en quelque sorte a posteriori le choix de la définition fréquentiste de la
probabilité (càd probabilité définie comme la limite de la fréquence relative).

Pour voir cela, considérons un événement A quelconque, répétons l’expérience associée à cet événement
et nous considérons la suite de variable aléatoire définie par :


𝑌𝑖 = {1 𝑠𝑖 𝐴 𝑠 𝑒𝑠𝑡 𝑟é𝑎𝑙𝑖𝑠é à 𝑙𝑎 𝑖è𝑚𝑒 𝑟é𝑝é𝑡𝑖𝑡𝑖𝑜𝑛 𝑑𝑒 𝑙′𝑒𝑥𝑝é𝑟𝑖𝑒𝑛𝑐𝑒
0 𝑠𝑖𝑛𝑜𝑛

L’espérance de 𝑌𝑖 vaut :

∑ 𝑦𝑃(𝑌𝑖 = 𝑦) = 1. 𝑃(𝐴 𝑠 ′ 𝑒𝑠𝑡 𝑟é𝑎𝑙𝑖𝑠é à 𝑙𝑎 𝑖𝑒𝑚𝑒 𝑟é𝑝é𝑡𝑖𝑡𝑖𝑜𝑛 )


𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒𝑠 𝑦

+0. 𝑃(𝐴 𝑛𝑒 𝑠 ′ 𝑒𝑠𝑡 𝑝𝑎𝑠 𝑟é𝑎𝑙𝑖𝑠é à 𝑙𝑎 𝑖𝑒𝑚𝑒 𝑟é𝑝é𝑡𝑖𝑡𝑖𝑜𝑛)

= 𝑃(𝐴 𝑠 ′ 𝑒𝑠𝑡 𝑟é𝑎𝑙𝑖𝑠é à 𝑙𝑎 𝑖𝑒𝑚𝑒 𝑟é𝑝é𝑡𝑖𝑡𝑖𝑜𝑛)

= 𝑃(𝐴)

vu qu’il s’agit de répétitions identiques et indépendantes d’une même expérience.

La moyenne empirique obtenue sur les n réalisations/observations de l’expérience (celle du chapitre


« statistique descriptive ») vaut :
𝑌1 + 𝑌2 + ⋯ + 𝑌𝑛
𝑋𝑛 = = 𝑓𝐴 (𝑛)
𝑛
où 𝑓𝐴 (𝑛) désigne la fréquence relative de A sur les n expériences (vu que 𝑌𝑖 prend la valeur 1 lorsque A
se réalise à la ieme expérience, la somme ∑𝑛𝑖=1 𝑌𝑖 donne le nombre d’expériences où A s’est réalisé, et si
on divise cette somme par n, on a la fréquence relative de réalisation de l’événement A… voir ou revoir
la section « statistique descriptive »).

La loi des grands nombres montre donc que


lim 𝑓𝐴 (𝑛) = 𝑃(𝐴)
𝑛→∞
Voir illustration dans Excel.

Ce résultat implique concrètement qu’une estimation de l’espérance d’une variable aléatoire peut
être obtenue en répétant un grand nombre de fois l’expérience aléatoire et en prenant la moyenne

158
de toutes les observations de la variable aléatoire sur ces réalisations. On parle d’estimation
« ponctuelle » car on obtient une seule valeur (et pas tout un intervalle de valeurs).

En deux mots que l’espérance peut être estimée grâce à la moyenne des observations de la variable
aléatoire sur plein de réalisations indépendantes de l’expérience aléatoire.

8.4 Stabilité de la loi normale pour l’addition


Cette section n’est pas dédiée à un théorème fondamental mais à une propriété qui sera utilisée pour
montrer le théorème central limite, mais aussi obtenir la distribution de la moyenne échantillon dans le
cas normal.
Si X et Y sont deux variables aléatoires (définies sur un même espace échantillon), alors leur somme,
X+Y, nous définit une nouvelle variable aléatoire.

La distribution normale jouit d’une propriété très commode : si X et Y sont toutes deux de distribution
normale, alors leur somme est encore de distribution normale :

Théorème : Soient X et Y deux variables aléatoires normales. Alors X+Y est aussi normale :
𝑋 ∼ 𝒩(𝜇𝑋 , 𝜎𝑋2 ) 𝑒𝑡 𝑌 ∼ 𝒩(𝜇𝑌 , 𝜎𝑌2 ) ⇒ 𝑋 + 𝑌 ∼ 𝒩(𝜇𝑋 + 𝜇𝑌 , 𝜎𝑋2 + 𝜎𝑌2 )

Figure 49: Illustration de la densité de la somme de 2 variables aléatoires normales. Les graphes représentent les densités des 3
variables X, Y, et X+Y.

Remarquons que ce théorème n’est plus vrai qu’en partie si les variables aléatoires X et Y sont
dépendantes. Dans ce cas, la variance de la somme X+Y ne sera plus égale à la somme des variances
mais fera aussi intervenir la covariance entre les deux variables, où 𝐶𝑜𝑣[𝑋, 𝑌] = 𝐸[𝑋 ⋅ 𝑌] − 𝐸[𝑋] ⋅ 𝐸[𝑌].

La preuve de ce résultat utilise la fonction génératrice des moments de la variable aléatoire X, qui
est aussi très utile dans d’autres contextes :
Définition : la fonction génératrice des moments, 𝑀𝑋 (𝑡), d’une variable aléatoire X est définie par :
𝑀𝑋(𝑡) = 𝐸[𝑒 𝑡𝑋 ]
où t est un nombre réel.

159
Son nom provient du fait qu’elle permet de retrouver tous les moments de la variable X en la dérivant
en l’origine 0:

De sorte qu’en évaluant cette dérivée en 0 on obtient :

Et donc :

𝑑𝑀𝑋 (𝑡)
pour n=1 : 𝐸[𝑋] = |
𝑑𝑡 𝑡=0
𝑑 2 𝑀𝑋 (𝑡) 𝑑𝑀𝑋 (𝑡) 2
pour n=2 : 𝑉[𝑋] = 𝐸[𝑋 2 ] − 𝐸[𝑋]2 = | −( | )
𝑑𝑡 2 𝑡=0 𝑑𝑡 𝑡=0

On calcule alors facilement 𝑀𝑋 dans le cas où 𝑋 ∼ 𝒩(0,1) :

On en déduit alors facilement la fonction génératrice des moments 𝑀𝑌 (𝑡) pour 𝑌 ∼ 𝒩(𝜇, 𝜎 2 ) en
𝑌−𝜇
passant par 𝑋 = 𝜎 ∼ 𝒩(0,1) :
𝜎2 𝑡 2
𝑡(𝜎𝑋+𝜇) 𝑡𝜎𝑋 𝜇] 𝜇 𝑡𝜎𝑋 ] 𝜇+ 2
𝑀𝑌 (𝑡) = 𝐸[𝑒 ] = 𝐸[𝑒 𝑒 = 𝑒 𝐸[𝑒 = 𝑒 .

Preuve : On fera la preuve dans le cas où l’on suppose que X et Y sont indépendantes.
Comme la fonction génératrice des moments contient toute l’information d’une distribution, il suffit,
pour montrer que X + Y est normale, de montrer que sa fonction génératrice des moments est bien
celle d’une normale :

160
CQFD

Conséquence de ce résultat : distribution de la moyenne d’échantillonnage


Proposition : Soit 𝑌1 , 𝑌2 , … , 𝑌𝑛 , … une suite de variables aléatoires indépendantes et identiquement
distribuées (iid) de loi Normale d’espérance 𝜇 et de variance 𝜎 2 . Alors la distribution de la moyenne
d’échantillonnage est donnée par :
𝒀𝟏 + 𝒀𝟐 + ⋯ + 𝒀𝒏 𝝈𝟐
̅=
𝒀 ~ 𝑵 (𝝁, )
𝒏 𝒏
En particulier, la variance de 𝑌̅ tend vers 0 si la taille n de l’échantillon tend vers l’infini, et à une
vitesse en 1/n. Plus la variance 𝜎 2 est petite, plus cette vitesse de convergence sera rapide.

8.5 Le Théorème Central Limite (TCL)


Il s’agit du dernier théorème fondamental que l’on verra dans ce cours.
La distribution normale apparaît absolument partout dans le monde réel, et ce pour une bonne raison, qui
est exprimée dans le résultat suivant :

Théorème : Soit 𝑌1 , 𝑌2 , … , 𝑌𝑛 , … une suite de variables aléatoires indépendantes et identiquement


distribuées (iid) d’espérance 𝜇 et de variance 𝜎 2 . Alors la distribution de leur somme tend vers une
distribution normale :
∑𝑛𝑖=1 𝑌𝑖 − 𝜇 ℒ
→ 𝒩(0,1)
𝜎 √𝑛

Ce résultat, qui est connu depuis longtemps (démontré en 1733 pour un cas particulier par de Moivre,
puis dans le cas général en 1809 par Laplace), doit son nom étrange à un article du mathématicien
hongrois Pólya de 1920 intitulé : Sur le théorème central du calcul probabiliste, parmi ceux ayant
rapport à la notion de limite, et le problème des moments.

Comme nous le verrons dans les applications, ce résultat asymptotique est surtout utilisé pour
approximer la distribution de sommes d’un grand nombre de variables indépendantes iid :

161
si n est assez grand.

Concrètement, la distribution de la somme de n variables aléatoires indépendantes et de même


distribution sera proche d’une loi normale (d’espérance égale à n fois l’espérance de départ, et
variance égale à n fois la variance de départ), et ce quelle que soit la distribution de départ de Y.

Donc quand on prend des « grandes sommes » de variables aléatoires de même distribution (même
type d’aléa) et indépendantes (pas de lien entre elles), à la fin on se retrouve avec une loi normale,
même si au départ on avait autre chose. La loi normale apparait donc « naturellement » dans
énormément de phénomènes (rendement d’actions sur une longue période, données biométriques,…).
C’est la distribution de probabilité par excellence, d’où son nom, ‘loi normale’.

La preuve du TCL utilise la fonction génératrice des moments.

Le graphe suivant montre l’évolution de la fonction de probabilité du nombre de fois que le joueur obtient
pile dans un jeu à pile ou face, en fonction du nombre de lancers.

162
Exemple d’application. Les durées nécessaires pour servir les clients qui se présentent à un guichet sont
des variables aléatoires indépendantes de moyenne 1; 5 minutes et d’écart-type 1 minute. Calculons une
approximation de la probabilité que 100 clients puissent être servis en moins de 2 heures. Pour cela,
définissons la variable aléatoire 𝑌𝑖 qui représente le temps nécessaire pour servir le ième client ; nous
voulons calculer :

100

𝑃 (∑ 𝑌𝑖 ≤ 120).
𝑖=1
Faisons apparaître la suite de variables aléatoires sur laquelle porte le théorème central limite en centrant
et en réduisant ∑100
𝑖=1 𝑌𝑖 :

En notant 𝑍 ∼ 𝒩(0,1), on peut dès lors approximer à l’aide du théorème central limite:

163
L’énoncé du théorème concerne une somme de variables aléatoires, mais il peut facilement être
transformé pour concerner la moyenne correspondante (il suffit de diviser le numérateur et dénominateur
par 1/n):

Commentaire : utilité du TCL


Lorsqu’il s’agit d’estimer la moyenne d’une population, le TCL peut donc nous servir à choisir la taille
de l’échantillon qui sera sélectionné pour inférer cette moyenne. Dans ce cas, on prend le problème à
l’envers, et on essaie de déterminer un n assez grand pour que notre estimation soit assez précise. Cette
application du théorème central limite joue un rôle très important dans beaucoup de sciences
expérimentales, puisqu’elle indique au chercheur appliquant la méthode scientifique quelle est la taille
de l’échantillon qu’il doit considérer en fonction du degré de précision qu’il veut atteindre avec une
certaine probabilité.

Exemple d’application: Considérons par exemple un biologiste qui désire calculer le taux de croissance
moyen d’un certain type de levure sous l’effet d’une réactif donné ; il sait que l’écart-type de ses mesures
est égal à 2 pm/jour. Il veut que son estimation soit proche de la moyenne de population : il accepte que
la déviation par rapport à celle-ci soit plus petite que 0,5 pm/jour avec une probabilité de 95%. Calculons
le nombre de boîtes de Petri qu’il doit préparer pour obtenir une telle estimation.
Nous souhaitons donc déterminer pour quel n on a :

1
Pour cela on écrit (en notant 𝑌̅ 𝑛 = ∑𝑛𝑖=1 𝑌𝑖 ) :
𝑛

qui peut être approximée en utilisant le théorème central limite. En notant 𝑍 ∼ 𝒩(0,1), il suffit dès
lors de trouver le n tel que

Une consultation de la table normale permet de le trouver :


0,25√𝑛 = 1,96 ⇔ 𝑛 = 61,46 ⇒ il suffit de prendre 𝑛 = 62.
164
Chapitre

Estimation

9.1 Qu’est-ce qu’une estimation ?


Nous sommes régulièrement confrontés à l’analyse de populations dont la taille
est telle qu’il nous est impossible de connaître réellement certaines de leurs caracté-
ristiques. Il nous faudra donc nous contenter d’estimer celles-ci.
Par exemple, si nous devons, pour diverses raisons, obtenir une estimation de
l’âge moyen des Belges, il nous vient naturellement à l’esprit de prélever, dans la po-
pulation des Belges d’effectif N , un échantillon d’effectif n et d’utiliser l’information
contenue dans l’échantillon pour estimer la ou les caractéristiques de la population
étudiée.

Figure 9.1 : Processus d’échantillonnage et d’estimation

Supposons que nous devons étudier une certaine caractéristique d’une popula-
tion, modélisée par une variable aléatoire que nous noterons X. Cette variable aléa-

165
Statistiques appliquées à la gestion

toire possède une moyenne de population, aussi appelée espérance mathématique,


µX = E [X] et une variance de population σX 2
= V [X]. Ces deux paramètres sont
considérés comme inconnus et comme des constantes (par opposition à des variables
aléatoires).
Pour estimer ces deux paramètres, il est naturel d’extraire, de cette population,
un échantillon représentatif de taille n et de considérer
• que la moyenne d’échantillon X donne une estimation de la moyenne de po-
pulation µX ;
• que la variance d’échantillon s2X donne une estimation de la variance de po-
pulation σX
2
.
Au contraire de µX et σX 2
, X et s2X sont des variables aléatoires (appelées variables
d’échantillonnage) dont la réalisation sera connue lorsque l’échantillon sera prélevé.
Pour se convaincre de ce fait, remarquons que si trois statisticiens prélèvent aléa-
toirement trois échantillons indépendants, ils obtiendront des valeurs de X et s2X
différentes par le simple fait du hasard, alors que les paramètres de la population
µX et σX2
sont bien évidemment les mêmes dans les trois cas.
L’un des domaines d’application de l’estimation les plus importants pour les
sciences économiques et financières est la calibration de modèles. Un modèle est une
représentation de la réalité à laquelle on applique des techniques mathématiques,
dans le but d’apprendre des choses (ou d’effectuer des prédictions) sur le monde
réel. Dans le cas particulier de la statistique, un modèle prend le plus souvent la
forme suivante :
Y = M (X, p),
où Y est un vecteur de variables modélisées (output du modèle), X est un vecteur
de variables explicatives (input du modèle) et p est un vecteur de paramètres.
Il faut donc fixer des valeurs pour les paramètres p : cette étape possède bien
sûr une importance cruciale, puisque s’il on veut que le modèle soit utile, il faut
qu’il reproduise aussi bien que possible la réalité observée. Le processus consistant
à chercher les paramètres qui font en sorte que le modèle colle le mieux possible à
la réalité s’appelle la calibration du modèle.
Exemple. Par exemple, considérons qu’on veut prédire le cours C d’une action sur
le marché boursier sur l’année prochaine (figure 9.2).
On choisit pour cela un modèle ; on suppose que les rendements logarithmiques
de ce cours sont distribués selon une normale dont la moyenne dépend de l’inflation :
Ct
log ∼ N (µ + inflation, σ 2 ).
Ct−1
Pour pouvoir se servir de ce modèle, il faut calibrer les deux paramètres : pour cela,
on choisit un ensemble de données issues du monde réel (des cours de l’action en
question) et on estime la valeur de µ et σ 2 qui « colle » le mieux à ces données.
Pour effectuer des projections, il ne reste ensuite plus qu’à prédire des valeurs
pour l’inflation, et les prédictions pour le cours de l’action suivront.

166
Chapitre 9

Figure 9.2 : Processus de calibration d’un modèle (ici financier)

9.2 Les estimateurs et leurs propriétés

Définition 9.1 Un estimateur est une règle, souvent exprimée comme une for-
mule, qui explique comment calculer la valeur d’une estimation en fonction des
mesures contenues dans un échantillon.

On note souvent l’estimateur en rajoutant au symbole de la quantité θ qu’on


veut estimer un accent circonflexe : θ̂ ; on note souvent explicitement la dépendance
de l’estimateur en la taille de l’échantillon : θ̂n (on s’attend à ce que l’estimateur
devienne de plus en plus précis lorsque n augmente).
De nombreux estimateurs différents peuvent être obtenus pour le même para-
mètre de population ; cette multiplicité n’est pas surprenante : si on demande à dix
ingénieurs d’estimer le coût d’un même travail de construction, il est tout à fait
imaginable qu’ils utilisent des méthodes d’estimation différentes et arrivent à des
estimations différentes du coût total.
Ces ingénieurs, qui peuvent être considérés comme des estimateurs dans l’indus-
trie de la construction, basent leurs estimations sur des lignes directrices et des
intuitions personnelles ; chaque estimateur représente une règle subjective unique
qui permet d’obtenir une estimation unique. Cela nous amène à un point très im-
portant : certains estimateurs sont considérés comme bons et d’autres, mauvais.
La gestion d’une entreprise de construction doit définir ce qui est bien et ce qui
est mal en ce qui concerne l’estimation du coût d’un travail ; nous allons faire de
même pour les estimateurs statistiques.

Définition 9.2 Le biais de l’estimateur θ̂n est la quantité


h i
biais(θ̂ ) = E θ̂ − θ.
n

Un estimateur non biaisé est tel que biais(θ̂n ) = 0.

Un estimateur non biaisé ne se trompe pas « en moyenne ».

167
Statistiques appliquées à la gestion

Définition 9.3 Un estimateur θ̂n de θ est convergent (on dit aussi parfois
consistent) si h i
lim V θ̂n = 0.
n→∞

La variance d’un estimateur est son degré de précision ; un estimateur convergent


devient de plus en plus précis (jusqu’à être parfaitement précis) lorsque la taille de
l’échantillon augmente.

Définition 9.4 Soient θ̂1n et θ̂2n deux estimateurs de θ. θ̂1n est plus efficace que
θ̂2n si h i h i
V θ̂1n < V θ̂2n .

Exemple. Supposons que nous devons mesurer un champ carré de taille µ2 afin d’en
estimer la surface ; la mesure d’un côté est une variable aléatoire X d’espérance µ
et d’écart-type σ.
Nous prenons par précaution deux mesures indépendantes, X1 et X2 , et décidons
d’utiliser ces deux mesures pour estimer la surface du champ X 2 de trois manières
différentes :
 2
X1 + X2
θ̂1 =
2
X + X22
2
θ̂2 = 1
2
θ̂3 = X1 · X2 .

Déterminons quel est le meilleur estimateur de µ2 ; pour cela, calculons


" 2 #
h i X1 + X 2 1 
= E X12 + 2X1 X2 + X22

E θ̂1 = E
2 4
1  1
2E X 2 + 2µ2 = σ 2 + µ2
 
=
4 2
X12 + X22

h i 1
2E X 2 = σ 2 + µ2
 
E θ̂2 = E =
2 2
h i
E θ̂3 = E [X1 · X2 ] = E [X1 ] E [X2 ] = µ2 .

Les biais de ces estimateurs sont donc égaux respectivement à σ 2 /2, σ 2 et 0 : seul
le troisième estimateur est donc non biaisé, et c’est par conséquent le meilleur des
trois. ♦

168
Chapitre 9

9.3 Estimation ponctuelle de la moyenne


L’estimateur qui nous intéresse plus particulièrement ici est la moyenne d’échan-
tillon X, estimateur de la moyenne de population µ. On parle d’estimateur ponctuel
parce qu’il s’agit d’estimer µ à l’aide d’un seul nombre.

Théorème 9.1 X est un estimateur non biaisé de µ.

Preuve : On calcule, en utilisant les propriétés de l’espérance,


" n #
  1X
E X =E Xi
n i=1
n
1X
= E [Xi ]
n i=1
n E [X]
=
n
= E [X]

Théorème 9.2 X est un estimateur convergent de µ.

Preuve : On calcule, en utilisant les propriétés de la variance,


" n #
  1X
V X =V Xi
n i=1
n
1 X
= 2 V [Xi ]
n i=1
n V [X]
=
n2
V [X]
=
n
qui tend vers 0 lorsque n → ∞. 
On peut aussi montrer (mais c’est plus technique) que X est un estimateur assez
efficace, c’est-à-dire que sa variance est modérée : dans la plupart des cas, la moyenne
empirique possède une variance plus petite que la médiane, et constitue donc un
estimateur plus efficace que celle-ci.
Exemple. Comparons par exemple, dans le cas n = 2, les deux estimateurs suivants :

X1 + X2 X1 + 2X2
X= et X̃ = .
2 3
169
Statistiques appliquées à la gestion

On sait que X est non biaisé ; il en est de même pour X̃ puisque


h i E [X + 2X ] E [X] + 2E [X]
1 2
E X̃ = = = E [X] .
3 3
Par contre, X est plus efficace que X̃, puisque
h i V [X + 2X ] V [X] + 4V [X] 5 1
1 2  
V X̃ = = = V [X] > V [X] = V X .
9 9 9 2

Nous pouvons conclure que X est un bon estimateur de µ puisqu’il est non biaisé,
convergent et efficace. Néanmoins, estimer µ par une seule valeur numérique X pose
le problème du manque de précision de l’estimation. En effet, dans la majorité des
cas, la probabilité que µ soit strictement égale à l’estimation qu’en donne X est
nulle.
Comparons le processus d’estimation à un coup de revolver sur une cible. Utiliser
un estimateur ponctuel revient à tirer des balles qui sont des points, c’est-à-dire qui
n’ont pas de dimension (leur section est nulle, elles sont infiniment fines). Atteindre
le centre de la cible dans ce cas signifie que la balle arrive exactement sur ce centre ;
on comprend aisément que cet événement ne se réalise que « très rarement ». Pour
avoir plus de chances de faire mouche, remplaçons les balles sans dimensions par des
fléchettes à ventouse dont l’embout possède une certaine surface : il est intuitivement
plus probable que le centre de la cible soit atteint. Utiliser des fléchettes à ventouse
revient à construire un autre type d’estimation, les intervalles de confiance.

9.4 Intervalle de confiance pour la moyenne (grand


échantillon)
En 1774, Pierre-Simon de Laplace effectue des estimations du taux de natalité
dans quelques paroisses françaises (à partir des registres de baptêmes), et en infère la
population totale de la France à partir du nombre total de naissances ; il va cependant
plus loin et joint à cette estimation de la population moyenne une estimation de
l’erreur commise : les intervalles de confiance sont nés.
Un estimateur est généralement une variable aléatoire, et il possède donc une
distribution de probabilité ; si nous connaissons cette distribution de probabilité, il
est possible de construire un intervalle dans lequel le paramètre estimé a une certaine
probabilité de se trouver.

Définition 9.5 Un intervalle de confiance au niveau 0 < 1 − α < 1 pour le


paramètre θ sur base de l’estimateur θ̂ est un intervalle [ρinf ; ρsup ] tel que
 
P ρinf ≤ θ ≤ ρsup θ̂ = 1 − α.

170
Chapitre 9

On peut déterminer les bornes ρinf et ρsup pour divers estimateurs sous diverses
hypothèses.
Remarquons que nous avons ici défini un intervalle de confiance bilatéral ; il est
aussi possible de définir des intervalles de confiance unilatéraux :
   
P θ ≤ ρsup θ̂ = 1 − α et P θ ≥ ρinf θ̂ = 1 − α

Nous nous intéressons ici à l’estimateur X de µ ; il est assez intuitif de penser que
la distribution de probabilité de X est semblable à la distribution de probabilité de
la variable X de la population.
Deux cas de figure se présentent dès lors, en fonction de la distribution de la
variable X :
1. si X est normale, la stabilité de la distribution normale pour l’addition permet
d’affirmer que X est normale, puisque la somme de variables normales est elle-
même normale ;
2. si X n’est pas normale, il n’est pas possible d’établir la distribution exacte
de X, mais le théorème central limite vient à notre secours, et nous permet
d’affirmer que X est asymptotiquement normale ; en pratique, dès que la taille
n de l’échantillon est supérieure ou égale à 30, nous utiliserons l’approximation
normale pour la distribution de X.

Théorème 9.3 Supposons que nous connaissons le paramètre σ 2 et que X peut


être considérée comme normale (c’est-à-dire qu’au moins une des deux conditions
suivantes est remplie : X est elle-même normale ou n ≥ 30). Alors on a
 
N σ N σ
P X − Q1−α/2 √ ≤ µ ≤ X + Q1−α/2 √ X = 1 − α,
n n

où QN
1−α/2 = φ (1 − α/2) est le (1 − α/2)-quantile de la normale.
−1

Preuve : Comme d’habitude, on considère une version centrée et réduite de la


moyenne empirique :
 
N X −µ N
P Qα/2 ≤ √ ≤ Q1−α/2 X = 1 − α.

σ/ n
La figure 9.3 illustre ce calcul. Il suffit maintenant de remarquer que QN α/2 =
−Q1−α/2 (distribution symétrique) et d’isoler µ à l’intérieur de la probabilité dans
N

cette expression :
   
N X −µ N N µ−X N
P −Q1−α/2 ≤ √ ≤ Q1−α/2 X = P −Q1−α/2 ≤ √ ≤ Q1−α/2 X

σ/ n σ/ n
 
N σ N σ
= P X − Q1−α/2 √ ≤ µ ≤ X + Q1−α/2 √ X .
n n

171
Statistiques appliquées à la gestion

Densité

1−α

α 2 α 2

QNα 2 0 QN1−α 2

Figure 9.3 : Intervalle de confiance pour la moyenne dans le cas normal

Exemple. Une brigade de police effectue des mesures de la vitesse moyenne des
véhicules qui traversent un pont donné. Le radar a pris 200 mesures, dont la moyenne
empirique est égale à 60 km/h. En supposant que l’écart-type de ces mesures est
égal à 5 km/h, estimons la précision de l’estimateur de la vitesse moyenne.
On choisit pour cela le niveau 1 − α = 0 , 95, qui correspond à α/2 = 0 , 025
et 1 − α/2 = 0 , 975. La table normale nous donne la valeur QN N
1−α/2 = Q0,975 =
1 , 959964 ≈ 1 , 96 = −QNα/2 . L’intervalle de confiance vaut donc

 
5 5
60 − 1, 96 · √ ; 60 + 1, 96 · √ = [59, 30; 60, 70].
200 200

Il y a 95% de chances que la véritable moyenne des véhicules passés sur le pont soit
située dans cet intervalle. ♦

9.5 Estimation ponctuelle de la variance


Dans ce qui précède nous avons supposé que nous connaissions la variance de
population σ 2 . Ce cas de figure est évidemment plutôt rare.
La solution intuitive à ce problème est de remplacer la variance de population σ 2
par la variance d’échantillon (ou empirique) :
n
2 1X
s = (Xi − X)
n i=1

Or, au même titre que la moyenne d’échantillon X, la variance d’échantillon est une
variable aléatoire. Puisque s2 est un estimateur de σ 2 , il est, comme nous l’avons
fait pour X, essentiel de se poser la question de la qualité de cet estimateur : est-il
biaisé, est-il convergent ?
172
Chapitre 9

Théorème 9.4 s2 est un estimateur biaisé de σ 2 :


  n−1 2
E s2 = σ .
n

Preuve : On a
" n # " n #
 2 1X 2 2 1X 2 h 2i
E s =E X −X =E X −E X .
n i=1 i n i=1 i

Le premier terme est égal à


" n # n
1 X
2 1 X  2 1
E Xi = n E X 2 = E X 2 = µ2 + σ 2 .
   
E Xi =
n i=1 n i=1 n

Le deuxième quant à lui vaut


h 2i  2 1
E X = E X + V X = µ2 + σ 2 .
 
n
On a donc au total
 
 2 2 2 2 1 2 n−1 2
E s =µ +σ − µ + σ = σ .
n n

Pour corriger ce biais, on remplace l’estimateur s2 par :
n
2 n 2 1 X
S = s = (Xi − X)
n−1 n − 1 i=1

L’existence d’un biais pour l’estimateur s2 provient du fait que l’estimation de la


variance nécessite l’estimation d’un paramètre supplémentaire, l’espérance de X,
réalisée dans la formule de s2 par X. Cette correction du biais tient compte du fait
que l’estimation de l’espérance de X introduit une incertitude supplémentaire. On
montre d’ailleurs le résultat suivant.

Théorème 9.5 L’estimateur


n
2 1X
s̃ = (Xi − µ)2
n i=1

est non biaisé.

Preuve : On refait le même calcul que dans la preuve précédente, mais en rempla-
çant l’estimateur X par la moyenne de population µ. Le deuxième terme devient

173
Statistiques appliquées à la gestion

alors simplement E [µ2 ] (la variance de µ est nulle, puisqu’il s’agit d’un paramètre
connu et non d’une variable aléatoire).
On obtient donc en rassemblant les deux termes

E s 2 = µ2 + σ 2 − µ2 = σ 2 .
 

Théorème 9.6 L’estimateur S 2 est convergent :


1 n−3
V S 2 = µ4 − µ3
 
→ 0.
n n(n − 1)

Nous passerons la preuve de ce résultat.


Maintenant que nous disposons d’un « bon » estimateur de σ 2 (c’est-à-dire un
estimateur non biaisé et convergent), nous pouvons considérer que S 2 est très proche
de σ et effectuer le remplacement dans l’expression de l’intervalle de confiance pour
la moyenne.

Théorème 9.7 Si la taille de l’échantillon est assez grande (n ≥ 30), on a


 
N S N S 2
P X − Q1−α/2 √ ≤ µ ≤ X + Q1−α/2 √ X, S = 1 − α.
n n

9.6 Intervalle de confiance pour la variance (petit


échantillon)
Notre objectif est de trouver une relation statistique entre σ 2 et son estimateur
S , à l’instar de celle établie entre µ et X précédemment. Lorsque nous aurons établi
2

cette relation, il nous sera aisé de calculer, par le même principe, un intervalle de
confiance pour S 2 .
Nous faisons une hypothèse importante : nous supposons que l’échantillon est
tiré d’une population distribuée selon une normale : Xi ∼ N (µ , σ 2 ). Intuitivement,
l’estimateur s̃2 est donc la somme du carré de n variables normales centrées (divisée
par n − 1) :
n
2 1X
s̃ = (Xi − µ)2 .
n i=1

Il est donc légitime d’étudier la distribution correspondante.

174
Chapitre 9

Définition 9.6 La variable aléatoire Y possède une distribution χ2 à d degrés de


liberté (ce qui se note Y ∼ χ2 (d)) si elle est égale en distribution à la somme du
carré de d variables normales centrées et réduites Ni ∼ N (0 , 1) indépendantes :
d
X
Y = Ni2 ,
i=1

ou, de manière équivalente, si, pour y > 0,


2
y d/2−1 e−y /2
f (y) = d/2
2 Γ(d/2)

(la densité est nulle pour y ≤ 0), où


Z z
Γ(z) = xz−1 e−x dx
0

est la fonction gamma, aussi appelée fonction eulérienne de seconde espèce, qui
est telle que
Γ(z) = (z − 1) Γ(z − 1).

L’utilisation de tables est bien entendu nécessaire pour calculer les valeur de la
fonction de répartition de la loi χ2 .

Théorème 9.8 Si Y ∼ χ2 (d), alors

E [Y ] = d et V [Y ] = 2d.

Le premier de ces deux moments est facile à calculer :

" d # d d d
X X   X  X
Ni2 = E Ni2 = E Ni2 − E [Ni ]2 =
 
E [Y ] = E V [Ni ] = d.
i=1 i=1 i=1 i=1

Théorème 9.9 Soient X ∼ χ2 (d) et Y ∼ χ2 (e) deux variables aléatoires indé-


pendantes. Alors X + Y ∼ χ2 (d + e).

Ce résultat de stabilité est très intuitif, puisque la somme d’une somme de d carrés
de normales indépendantes d’une part et de e carrés de normales indépendantes
d’autre part (qui sont indépendantes entre elles) est égale à la somme de d + e carrés
de normales indépendantes.

175
Statistiques appliquées à la gestion

d=1
d=2
1.4 d=3
d=5
1.2
1
Densité
0.8
0.6
0.4
0.2
0

0 1 2 3 4 5

Figure 9.4 : Densité de la distribution χ2

Théorème 9.10 Soit Y1 , Y2 , . . . , Yn une suite de variables aléatoires telles que


Yi ∼ χ2 (i). Alors on a
Yi − n L
√ −
→ N (0, 1).
2n

Si on le multiplie par le bon facteur, l’estimateur s̃2 est bien distribué selon une
loi χ2 (n) : !
n n  2
n 2 n 1X 2
X Xi − µ
s̃ = 2 (Xi − µ) = .
σ2 σ n i=1 i=1
σ
On peut dès lors utiliser cette distribution pour construire des intervalles de confiance
pour s̃2 .

Théorème 9.11 Supposons que nous connaissons le paramètre µ et que la po-


pulation X est normale. Alors on a
!
n s̃2 n s̃ 2
P ≤ σ 2 ≤ χ2 (n) s̃2 = 1 − α,

χ2 (n)
Q1−α/2 Qα/2

où Qα/2 et Q1−α/2 sont les quantiles de la χ2 (n).


χ2 (n) χ2 (n)

176
Chapitre 9

Preuve : Puisqu’il distribué selon une χ2 (n), l’estimateur s̃2 normalisé est tel que
n s̃2
 
χ2 (n) χ2 (n) 2
P Qα/2 ≤ 2 ≤ Q1−α/2 s̃ = 1 − α.
σ
La figure 9.5 illustre ce calcul. Il suffit d’inverser la double inégalité à l’intérieur
Densité

1−α
α 2

α 2

χ2 χ2
Qα 2 Q1−α 2

Figure 9.5 : Intervalle de confiance pour la moyenne dans le cas χ2

de la probabilité et de multiplier par n s̃2 pour conclure. 


Il est cependant assez rare que la moyenne de population soit connue de manière
exacte. Il semble donc raisonnable de remplacer µ par l’estimateur ponctuel X, et
ainsi de transformer s̃2 en S 2 . Mais ce remplacement n’est pas sans conséquences ;
ce faisant, on introduit une relation linéaire entre les variables aléatoires Xi , puisque
n
Xi .
P
nX =
i=1
Alors que s̃2 est une « vraie » somme de n carrés de normales indépendantes, ce
n’est plus tout à fait le cas pour S 2 , puisqu’il existe dans celle-ci un lien entre ces
variables indépendantes.

Théorème 9.12 La variance empirique débiaisée est distribuée selon une χ2 à


n − 1 degrés de liberté :

(n − 1) S 2
∼ χ2 (n − 1).
σ2

Preuve : Partons de s̃2 et décomposons-le :


n n 2
(Xi − µ)2
P P
2 (Xi − X) + (X − µ)
n s̃ i=1 i=1
= =
σ2 σ2 σ2
n
P 2   2
Xi − X + 2 Xi − X X −µ + X −µ
i=1
=
σ2

177
Statistiques appliquées à la gestion

Le double produit est nul :

n
X n
  X 
2 Xi − X X −µ =2 X −µ Xi − X = 0.
i=1 i=1

On obtient donc
n
P 2
2 Xi − X n  2 2
(n − 1) S 2

n s̃ i=1
X X −µ X −µ
= + = + .
σ2 σ2 i=1
σ σ2 σ/n

Puisque X est une normale, sommes devant une décomposition du type

χ2 (n) = χ2 (?) + χ2 (1).

Puisque la distribution χ2 est stable pour l’addition, nous obtenons n − 1 degrés de


liberté pour le premier terme du membre de droite (une preuve plus rigoureuse de
cette étape utilise la fonction génératrice des moments). 
On peut donc obtenir de nouveaux intervalles de confiance.

Théorème 9.13 Supposons que la population X est normale. Alors on a


!
(n − 1) S 2 (n − 1) S 2
≤ σ2 ≤
2
P χ2 (n−1) χ2 (n−1)
S = 1 − α,
Q1−α/2 Qα/2

où Qα/2 et Q1−α/2 sont les quantiles de la χ2 (n − 1).


χ2 (n−1) χ2 (n−1)

Le même raisonnement permet d’écrire un intervalle de confiance sur base de


l’estimateur biaisé s2 :
!
n s2 2 n s2 2
P χ2 (n−1)
≤ σ ≤ χ2 (n−1) s = 1 − α.
Q1−α/2 Qα/2

9.7 Intervalle de confiance pour la variance (grand


échantillon)
Lorsque nous sommes en présence d’un échantillon de grande taille, nous pouvons
approximer la distribution χ2 (n − 1) par une normale, en vertu du théorème central
limite (voir le théorème 9.10). Nous obtenons dès lors un intervalle de confiance pour
σ 2 sans que la population X soit normale.

178
Chapitre 9

Théorème 9.14 Si la taille n de l’échantillon est assez grande, on a l’intervalle


de confiance suivant :
!
(n − 1) S 2 (n − 1) S 2
≤ σ2 ≤
2
P N
p
N
p S
(n − 1) + Q1−α/2 2(n − 1) (n − 1) − Q1−α/2 2(n − 1)
= 1 − α.

Preuve : Comme d’habitude, on transforme la variable d’intérêt en une normale


centrée et réduite :
(n − 1) S 2 (n − 1) S 2 (n − 1) S 2
   
2
∼ χ (n − 1) ⇒ E = n − 1 et V = 2(n − 1),
σ2 σ2 σ2
d’où
(n−1) S 2
!
σ2
− (n − 1)
P −QN
1−α/2 ≤ ≤ QN X = 1 − α.

p 1−α/2
2(n − 1)
Il suffit alors d’isoler σ 2 . 

9.8 Intervalle de confiance pour la moyenne (petit


échantillon)
Nous avons vu précédemment que, lorsque l’échantillon est petit, c’est-à-dire
lorsque sa taille est inférieure à 30, le simple remplacement de σ 2 par S 2 mène
à une estimation qui n’est pas assez précise : il est nécessaire de trouver une autre
solution.
C’est William Gosset qui introduisit cette solution, sous la forme d’une nouvelle
distribution ; comme il travaillait alors à la brasserie Guinness à Dublin et qu’on
lui interdisait de publier sous son propre nom, c’est sous le pseudonyme de Student
qu’il publia en 1908 un article intitulé The probable error of a mean. La distribution
prit dès lors le nom de distribution t de Student (par opposition à d’autres distri-
butions introduites elles aussi par Gosset). Avant d’obtenir l’intervalle de confiance
correspondant, il faut étudier les caractéristiques de celle-ci.

Définition 9.7 La variable aléatoire Y possède une distribution t de Student à


d degrés de liberté (ce qui se note Y ∼ t(d)) si elle est égale en distribution à une
normale centrée et réduite, divisée par la racine carrée d’une somme normalisée
du carré de d variables normales centrées et réduites Ni ∼ N (0 , 1) indépendantes
(et indépendantes de X) :
X
Y =s ,
d
1
Ni2
P
d
i=1

179
Statistiques appliquées à la gestion

ou, de manière équivalente, si


−(d+1)/2
Γ d+1
 
2 y2
fY (y) = √  1+ .
πd Γ d2 d

La distribution de probabilité de Student ressemble fort à la distribution nor-


male ; elle est également centrée en 0, mais présente un étalement légèrement plus
important, puisque sa variance est supérieure à 1.
L’utilisation de tables est bien entendu nécessaire pour calculer les valeur de la
fonction de répartition de la loi t.
0.4

d=1
d=2
d=3
d=5
d = 10
Densité
0.2
0

−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 9.6 : Densité de la distribution t de Student

Théorème 9.15 Si Y ∼ t(d) avec d > 2, alors

d
E [Y ] = 0 et V [Y ] = .
d−2

Pour d ≤ 1, l’espérance n’existe pas ; pour d ≤ 2, la variance est infinie.

180
Chapitre 9

Théorème 9.16 Soient X ∼ t(d) et Y ∼ t(e) deux variables aléatoires indé-


pendantes. Alors X + Y ∼ t(d + e).

Théorème 9.17 Soit Y1 , Y2 , . . . , Yn une suite de variables aléatoires telles que


Yi ∼ t(i). Alors on a
Y L
p nn − → N (0, 1).
n−2

En supposant que la population X est normale, nous savons que le quotient


X −µ
∼ N (0, 1).
√σ
n

Puisque nous considérons que nous ne connaissons pas le paramètre σ 2 et qu’il n’est
pas possible de le remplacer simplement par un de ses estimateurs, il faut le faire
disparaître d’une autre façon ; notre méthode doit forcément ne faire usage que
de quantités dont nous connaissons la distribution, afin de garder un contrôle sur
celles-ci et parvenir à construire des intervalles de confiance.
L’idée est donc de diviser le quotient par la racine carré du quotient de (n −
1) S 2 /σ 2 (dont nous connaissons la distribution en vertu du théorème 9.12) par son
nombre de degrés de liberté :
X−µ
N (0, 1) √σ
n X −µ
t(n − 1) ∼ q 2 ∼r = .
χ (n−1) (n−1) S 2 √S
σ2
n
n−1
n−1

Maintenant que nous connaissons la bonne quantité à manipuler, obtenir un in-


tervalle de confiance n’est pas très difficile.

Théorème 9.18 Si la population X est normale, on a l’intervalle de confiance


suivant :
 
t(n−1) S t(n−1) S

2
P X − Q1−α/2 √ ≤ µ ≤ X + Q1−α/2 √ X, S = 1 − α.
n n

Preuve : Par le développement précédent, on sait que


!
t(n−1) X −µ
t(n−1) 2
P Qα/2 ≤ S ≤ Q1−α/2 X, S = 1 − α.

n

Il suffit dès lors de remarquer que Qα/2 = −Q1−α/2 (distribution symétrique) puis,
t(n−1) t(n−1)

comme d’habitude, d’isoler la quantité d’intérêt. 


Les intervalles de confiance que nous avons obtenus pour la moyenne sont résumés
dans le tableau 9.1.

181
Statistiques appliquées à la gestion

Condition Intervalle de confiance Théo-


rème
σ 2 connu et soit population nor- X ± QN √σ
1−α/2 n 9.3
male, soit grand échantillon

σ 2 inconnu et grand échantillon X ± QN √S


1−α/2 n 9.7

σ 2 inconnu, population normale 9.18


t(n−1)
X ± Q1−α/2 √Sn
et petit échantillon

Table 9.1 : Résumé des intervalles de confiance obtenus pour la moyenne

9.9 Intervalle de confiance pour la probabilité bi-


nomiale
De la même façon qu’il est possible, comme nous l’avons fait, de construire des
intervalles de confiance pour la moyenne et pour la variance, des intervalles de
confiance peuvent être obtenus pour toutes sortes de paramètres statistiques. C’est
par exemple le cas du paramètre λ (le taux de réalisation moyen) d’une distribution
de Poisson, ou du paramètre p (la probabilité des événements) d’une distribution
binomiale.
À titre d’exemple, et parce que c’est sans doute le plus utile dans les applications,
intéressons-nous aux intervalles de confiance pour p. L’estimateur le plus naturel de
p est la portion de succès parmi les n répétitions de l’expérience :

X
= p̂.
n
L’utilisation d’un accent circonflexe au-dessus du nom d’un paramètre (on lit « p
chapeau ») pour désigner son estimateur est conventionnelle en statistique.
Puisque le nombre de succès X d’une expérience binomiale suit justement une
distribution binomiale, les moments de p̂ peuvent être facilement obtenus.

Théorème 9.19 L’estimateur p̂ est sans biais et convergent.

Preuve : On calcule
 
X E [X] np V [X] np(1 − p) p(1 − p)
E [p̂] = E = = =p et V [p̂] = 2
= 2
= → 0.
n n n n n n


On peut dès lors appliquer le théorème central limite et construire des intervalles
de confiance.

182
Chapitre 9

Théorème 9.20 Si la taille n de l’échantillon est assez grande, on a l’intervalle


de confiance suivant :
r r !
p̂(1 − p̂) p̂(1 − p̂)
P p̂ − QN ≤ p ≤ p̂ − QN p̂ = 1 − α.

1−α/2 α/2
n n

Preuve : La preuve suit le schéma habituel, à savoir écrire la quantité asymptoti-


quement normale, puis isoler le paramètre :
 
p̂ − p
P QN α/2 ≤ q ≤ QN1−α/2 p̂ = 1 − α.

p̂(1−p̂)
n

9.10 Intervalles unilatéraux


En ne considérant qu’un des deux côtés de la distribution, on obtient facilement
(en utilisant la même méthode de construction) :
• pour la moyenne avec un grand échantillon (équivalent du théorème 9.3) :
   
N σ N σ
P X − Q1−α √ ≤ µ X = P µ ≤ X + Q1−α √ X = 1 − α ;

n n

• pour la variance avec un petit échantillon (équivalent du théorème 9.13) :


! !
(n − 1) S 2
2 2 2 (n − 1) S 2 2
P χ2 (n−1)
≤σ S =P σ ≤ χ2 (n−1)
S =1−α ;
Q1−α Qα

• pour la variance avec un grand échantillon (équivalent du théorème 9.14) :


!
(n − 1) S 2
P ≤ σ 2 S 2

p
(n − 1) + QN1−α 2(n − 1)
!
2
(n − 1) S
= P σ2 ≤ S 2 = 1 − α ;

p
(n − 1) − QN 1−α 2(n − 1)

• pour la moyenne avec un petit échantillon (équivalent du théorème 9.18) :


 
t(n−1) S

2
P X − Q1−α √ ≤ µ X, S

n
 
t(n−1) S

2
= P µ ≤ X + Q1−α √ X, S = 1 − α ;
n

183
Statistiques appliquées à la gestion

• pour la probabilité binomiale avec un grand échantillon (équivalent du théo-


rème 9.20) :
r !
p̂(1 − p̂)
P p̂ − QN ≤ p p̂

1−α
n
r !
p̂(1 − p̂)
=P p ≤ p̂ + QN
1−α p̂ = 1 − α.
n

9.11 Comparaison de deux populations


En utilisant des techniques très similaires, il est possible de construire des in-
tervalles de confiance pour la différence entre les moyennes de deux populations
différentes.
En effet, sous le même genre d’hypothèses que précédemment, la différence des
deux moyennes empiriques X − Y jouit des mêmes propriétés que la simple moyenne
empirique.

Théorème 9.21 Si les deux échantillons X1 , X2 , . . . , Xm et Y1 , Y2 , . . . , Yn


sont indépendants et de taille suffisante (n ≥ 30 et m ≥ 30), alors on a l’inter-
valle de confiance suivant :

P X − Y − QN
1−α/2 ΣX,Y ≤ µX − µY

≤ X − Y + QN Σ X, Y , S 2
, S 2
= 1 − α,

1−α/2 X,Y X Y

où r
2
SX S2
ΣX,Y = + Y.
m n

Dans le cas d’un petit échantillon, nous faisons l’hypothèse que σX = σY . On


considère l’estimateur non biaisé SX,Y
2
de X − Y suivant :

2
+ (n − 1)SY2 (m − 1)σ 2 + (n − 1)σ 2
 
 2  (m − 1)SX
E SX,Y = E = = σ2.
m+n−2 m+n−2

Lorsque les population correspondantes sont normales, on a

2 m 2 n  2
(m + n − 2)SX,Y 2
+ (n − 1)SY2

(m − 1)SX X Xi − X X Yj − Y
= = +
σ2 σ2 i=1
σ j=1
σ
∼ χ2 (m − 1) + χ2 (n − 1) = χ2 (m + n − 2).

Tous les ingrédients sont réunis pour construire l’intervalle de confiance.

184
Chapitre 9

Théorème 9.22 Si les deux échantillons X1 , X2 , . . . , Xn et Y1 , Y2 , . . . , Ym


sont indépendants, possèdent la même variance σ 2 et sont issus de population
normales, alors on a l’intervalle de confiance suivant :
r
t(m+n−2) 1 1
P X − Y − Q1−α/2 SX,Y + ≤ µX − µY
m n
r !
t(m+n−2) 1 1 2
≤ X − Y + Q1−α/2 SX,Y + X, Y , SX , SY2 = 1 − α.
m n

185
Statistiques appliquées à la gestion

186
Chapitre

10

Tests d’hypothèse

10.1 Le principe général des tests d’hypothèse


À de nombreuses reprises, la méthode scientifique amène à tester une hypothèse
que le chercheur se pose afin de vérifier la vraisemblance de celle-ci.
Les exemples sont innombrables, et recouvrent tous les domaines des sciences
quantitatives : un puits donné produit-il moins d’eau qu’un autre ? Un médicament
donné est-il efficace pour guérir une certaine maladie ? Les revenus d’une classe
sociale sont-ils plus bas que ceux qu’une autre ? Le vocabulaire des œuvres de Mo-
lière est-il différent de celui des œuvres de Corneille ? Les cours des actions et des
obligations sont-il indépendants ? La roulette d’un casino est-elle équilibrée ?
Considérons par exemple un test statistique dont l’objectif est de tester une hypo-
thèse concernant les valeurs d’un ou plusieurs paramètres de la population observée.
Nous avons alors généralement une théorie – une hypothèse de recherche – sur le(s)
paramètre(s) que nous souhaitons confirmer ou infirmer.
Par exemple, supposons qu’un candidat politique, Dupont, affirme qu’il obtien-
dra plus de 50% des votes lors des élections municipales et qu’il en sera le gagnant.
Si nous ne croyons pas à cette assertion, nous pourrions chercher à démontrer l’hy-
pothèse de recherche selon laquelle Dupont n’est pas soutenu par plus de 50% de
l’électorat.
Confirmer cette hypothèse de recherche, également appelée l’hypothèse alternative
et notée H1 , est possible en montrant (en utilisant les données de l’échantillon comme
preuve) que l’inverse de l’hypothèse alternative, appelée l’hypothèse nulle et notée
H0 , est fausse :

H0 : Dupont est le favori de l’élection,


H1 : Dupont n’est pas le favori de l’élection.

Ainsi, nous confirmons une hypothèse théorique en infirmant les hypothèses théo-
riques opposées, ce qui en un sens est une preuve par contradiction. En termes
mathématiques, nous étudions p, la probabilité qu’un électeur choisi au hasard soit

187
Statistiques appliquées à la gestion

favorable à Dupont. Si nous pouvons montrer que les données appuient le rejet de
l’hypothèse nulle p = 0 , 5 (la valeur minimale nécessaire pour être élu) en faveur de
l’hypothèse alternative p < 0 , 5, nous avons atteint notre objectif de recherche

H0 : p = 0, 5,
H1 : p < 0, 5.

Bien qu’il soit fréquent de dire qu’on teste l’hypothèse nulle, l’objectif d’un test
est souvent de montrer que l’hypothèse alternative est correcte. Dans notre cas, c’est
p < 0 , 5 qui nous importe, et pas p = 0 , 5. Ce choix peut d’ailleurs paraître étrange à
première vue : pourquoi n’avons-nous pas défini H0 : p ≥ 0 , 5, puisque c’est comme
cela qu’on peut définir la victoire pour le candidat Dupont ?

H0 : p ≥ 0, 5,
H1 : p < 0, 5.

En réalité, comme nous allons le voir, au cours du test nous allons faire l’hypothèse
que H0 est vraie, et il est bien plus facile de travailler avec l’hypothèse p = 0 , 5
qu’avec l’hypothèse p ≥ 0 , 5. Puisque de toute façon, c’est H1 qui nous intéresse,
autant choisir H0 de telle sorte que les calculs soient simples !
Comment utilisons-nous les données observées pour décider quelle hypothèse est
correcte, l’hypothèse nulle ou l’hypothèse alternative ?
Supposons que n = 15 électeurs aient été sélectionnés au hasard parmi la ville
et qu’on ait enregistré Y , le nombre d’électeurs parmi ces n qui sont favorables à
Dupont. Si aucun électeur de l’échantillon ne favorise Dupont (Y = 0), que pouvons-
nous conclure à propos de l’assertion de Dupont ? Si Dupont est réellement le favori
de plus de 50% de l’électorat, il n’est pas impossible d’observer Y = 0 dans un
échantillon de taille n = 15, mais c’est très improbable. Il est beaucoup plus pro-
bable que nous observions Y = 0 si l’hypothèse alternative est vraie. Ainsi, nous
rejetterions l’hypothèse nulle (H0 : p = 0 , 5) en faveur de l’hypothèse alternative
(H1 : p < 0 , 5). Si nous observons Y = 1 (ou n’importe quelle autre petite valeur de
Y ), un raisonnement analogue nous conduirait à la même conclusion.
Tous les tests statistiques d’hypothèses fonctionnent exactement de la même ma-
nière et se composent des mêmes éléments essentiels :

1. une hypothèse nulle, H0 ;

2. une hypothèse alternative, H1 ;

3. une statistique de test ;

4. une zone de rejet.

La statistique du test (de la même façon qu’un estimateur) est fonction des mesures
de l’échantillon (Y dans notre exemple) sur lesquelles la décision statistique sera
basée.

188
Chapitre 10

La zone de rejet, qui sera dorénavant désignée par ZR, spécifie les valeurs de
la statistique de test pour laquelle l’hypothèse nulle doit être rejetée en faveur de
l’hypothèse alternative.
Si pour un échantillon particulier, la valeur calculée de la statistique de test tombe
dans la zone de rejet ZR, nous rejetons l’hypothèse nulle H0 et acceptons l’hypothèse
alternative H1 . Si la valeur de la statistique de test n’est pas située dans ZR, nous
acceptons H0 .
Comme indiqué précédemment, pour notre exemple, les petites valeurs de Y nous
conduiraient à rejeter H0 ; par conséquent, une région de rejet que nous pourrions
envisager est l’ensemble de toutes les valeurs de Y inférieures ou égales à 2 : ZR =
[0 ; 2].
Insistons sur le fait que déterminer une zone de rejet est l’étape cruciale dans
l’élaboration d’un test, qui peut parfois s’avérer difficile.
Il est clair que même si H0 est vraie, il existe une probabilité pour que la sta-
tistique de test tombe dans la zone de rejet de H0 , et cela par le simple fait du
hasard.

Définition 10.1 Le risque de première espèce est celui de rejeter H0 alors


qu’elle est vraie. La probabilité associée à ce risque est appelée le niveau du
test (ou niveau de significativité du test) et est notée α :

α = P (H1 |H0 ).

De la même façon, on peut faire l’erreur inverse.

Définition 10.2 Le risque de seconde espèce est celui d’accepter H0 alors qu’elle
est fausse. La probabilité associée au risque de seconde espèce est notée β :

β = P (H0 |H1 ).

On appelle puissance du test la probabilité d’accepter H1 alors qu’elle est vraie,


qui est égale à 1 − β.

Monde réel
Décision H0 H1
H0 1 − α = P (H0 |H0 ) β = P (H0 |H1 )
H1 α = P (H1 |H0 ) 1 − β = P (H1 |H1 )

Table 10.1 : Probabilités liées aux résultats d’un test d’hypothèse

Exemple. Calculons d’abord le niveau du test α dans le cas de l’élection de Dupont :

α = P (risque de première espèce) = P (H1 |H0 ) = P (Y ≤ 2|p = 0, 5).

189
Statistiques appliquées à la gestion

H0 : pas de grossesse,
H1 : grossesse.

Figure 10.1 : Les deux espèces de risques liés aux tests d’hypothèse (source : open-
textbc.ca)

Or, Y est une variable binomiale avec n = 15 ; on peut donc calculer


2  
X 15
α= 0, 5y · 0, 515−y
y=0
y
     
15 0 15 15 14 15
= 0, 5 · 0, 5 + 0, 5 · 0, 5 + 0, 52 · 0, 513 = 0, 004
0 1 2
en utilisant la table binomiale. Donc, en utilisant la zone de rejet [0 ; 2], nous nous
exposons à un très petit risque (0 , 4%) de conclure que Dupont va perdre alors qu’en
fait il est gagnant.
Calculons ensuite la probabilité du risque de seconde espèce ; si la vraie valeur de
p = 0 , 3 (qui est inférieure à 0 , 5, c’est-à-dire que H0 est fausse et H1 est vraie) :
β = P (risque de seconde espèce) = P (H0 |H1 ) = P (Y > 2|p = 0, 3)
15  
X 15
= 0, 3y · 0, 715−y = 0, 873.
y=3
y

Donc, en utilisant la zone de rejet [0 ; 2], notre test suggère que Dupont perdra,
même avec une vraie valeur de p aussi petite que 0 , 3.
Plus la vraie valeur de p est éloignée de la valeur qu’il prend sous H0 (ici 0 , 5),
plus β est petit. Par exemple, pour p = 0 , 1 :
15  
X 15
β = P (Y > 2|p = 0, 1) = 0, 1y · 0, 915−y = 0, 184.
y=3
y

190
Chapitre 10

Les calculs que nous venons d’effectuer pour l’exemple de Dupont montrent que le
test utilisant ZR = [0 ; 2] garantit un faible risque de première espèce (α = 0 , 004),
mais il n’offre pas une protection adéquate contre le risque de seconde espèce.
Une façon d’améliorer le test est d’équilibrer α et β en changeant de zone de rejet.
Si nous agrandissons ZR en une nouvelle zone de rejet ZR∗ (c’est-à-dire que nous
choisissons ZR ⊂ ZR∗ ), le test utilisant ZR∗ nous obligera à rejeter H0 plus souvent.
Si α∗ et α désignent les probabilités de risque de première espèce (les niveaux des
tests) lorsque nous utilisons respectivement ZR∗ et ZR comme zones de rejet, alors,
puisque ZR ⊂ ZR∗ ,

α∗ = P (la statistique de test ∈ ZR∗ |H0 ) ≥ P (la statistique de test ∈ ZR|H0 ) = α.

De la même façon,

β ∗ = P (la statistique de test 6∈ ZR|H1 ) ≥ P (la statistique de test 6∈ ZR∗ |H1 ) = β ∗ .

Étendre ZR en ZR∗ fait donc simultanément croître α et décroître β ; inversement,


diminuer la taille de ZR fait décroître α et croître β.
Notons cependant que, le plus souvent, le niveau du test α est un paramètre que
nous fixons avant d’effectuer le test d’hypothèse, et que la zone de rejet est calculée
en fonction une fois α fixé. Fixer α avant d’effectuer le test revient donc à définir la
probabilité de se tromper (risque de première espèce) qu’on trouve acceptable : par
exemple, fixer α = 5% revient à accepter de rejeter H0 alors qu’elle est vraie une
fois sur 20.
Exemple. Calculons, dans le cas du sondage de Dupont, α et β (quand p = 0 , 3)
pour la nouvelle zone de rejet ZR∗ = [0 ; 5] :
5  
X 15
α = P (H1 |H0 ) = P (Y ≤ 5|p = 0, 5) = 0, 5y · 0, 515−y = 0, 151
y=0
y
15  
X 15
β = P (H0 |H1 ) = P (Y > 5|p = 0, 3) = 0, 3y · 0, 715−y = 0, 278.
y=6
y

Résumons les valeurs obtenues pour les deux tests :

Zone de rejet
Risque [0; 2] [0; 5]
Première espèce : α = 0, 004 0, 151
Deuxième espèce (p = 0, 3) : β = 0, 873 0, 278

Nous sommes donc parvenus à rééquilibrer les risques de première et de deuxième


espèces, mais ceux-ci restent assez élevés.
La seule manière de faire baisser ces probabilités simultanément, c’est d’aug-
menter la quantité d’information dont nous disposons à propos de la population,
c’est-à-dire augmenter la taille de l’échantillon ! ♦

191
Statistiques appliquées à la gestion

On distingue différents types de tests, en fonction du but qu’ils cherchent à at-


teindre :

• les tests de conformité effectuent la comparaison entre un paramètre calculé


sur base de l’échantillon considéré et une valeur donnée a priori (le test que
nous avons mentionné au début de ce chapitre, mis en œuvre pour décider si
Dupont est le candidate favori de l’élection, est de ce type) ;

• les tests de comparaison effectuent la comparaison entre les distributions de


deux (ou plus) populations (et bien souvent comparent les paramètres associés
à ces populations ; on peut par exemple se demander si deux populations ont
la même moyenne) ;

• les tests d’adéquation vérifient si la population est compatible avec une distri-
bution donnée a priori (on peut par exemple se demander si un jeu de casino
est biaisé ou équilibré) ;

• les tests d’indépendance vérifient s’il existe un lien entre deux populations (on
peut par exemple se demander si la mortalité humaine est liée à l’évolution
des taux d’intérêts).

Il faut cependant noter que certains tests sont difficiles à classer dans une seule de
ces catégories.

10.2 Les tests de conformité


Nous avons examiné jusqu’à présent le cas où la question qu’on se pose est uni-
latérale : est-ce que la probabilité qu’un électeur choisi au hasard soit favorable à
Dupont est inférieure à 0 , 5 ?
Le test correspondant est appelé unilatéral. Il existe aussi des tests bilatéraux,
lorsqu’on se demande si une quantité est égale à une valeur donnée, par exemple.
Considérons par exemple que nous souhaitons tester un distributeur automatique
de café, que nous venons d’acheter pour l’installer sur le campus, dont le vendeur
prétend que le contenu de chaque gobelet de café contient en moyenne 25 cl. Nous
sommes l’acheteur et nous ne sommes pas obligés de croire le vendeur : si la machine
débite en moyenne des gobelets de 20 cl, nos propres clients vont venir contester
notre honnêteté ; si le contenu est bien supérieur, si sa moyenne est égale à 40 cl par
exemple, nous courrons à la faillite puisque notre prix est fixé pour un débit espéré
de 25 cl. Nous devons donc tester cette hypothèse selon laquelle le contenu espéré
des gobelets est de 25 cl, contre l’hypothèse alternative selon laquelle le contenu est
différent de 25 cl :

H0 : E [contenu] = 25,
H1 : E [contenu] 6= 25.

192
Chapitre 10

L’exemple du distributeur de café est emblématique d’une catégorie de tests


d’hypothèse : ceux qui résonnent avec les intervalles de confiance que nous avons
construits dans le chapitre précédent. En effet, lorsqu’il s’agit (et le cas se présente
souvent) de vérifier si la moyenne, la variance ou la probabilité binomiale d’une
population est égale à une valeur donnée a priori :
( ( (
H0 : µ = µ0 H0 : σ 2 = σ02 H0 : p = p0
ou ou ,
H1 : µ 6= µ0 H1 : σ 2 6= σ02 H1 : p 6= p0

la construction de la zone de rejet (ou de la zone d’acceptation, son complémentaire)


du test est très similaire à celle de l’intervalle de confiance correspondant.
Supposons que nous voulons tester l’hypothèse sur le contenu des gobelets de café
et que pour cela, nous en faisons couler n = 50. La moyenne des contenus obtenus est
égale à 23 , 4. Or nous savons que, puisque la taille de l’échantillon est importante,
et en supposant que H0 : µ = 25 est vraie :
!
X − 25 X − 25
S
∼ N (0, 1) ⇒ P −QN 1−α/2 ≤ S
≤ QN 1−α/2 = 1 − α.
√ √
n n

La zone d’acceptation (et donc la zone de rejet) de notre test est donc toute trouvée :

X − 25 23, 4 − 25
= = −1, 41 ∈ [−1, 96; 1, 96] ⇒ on accepte H0 .
√S √8
n 50

Supposons que nous voulons tester l’hypothèse suivante :


(
H0 : θ = θ0 ,
H1 : θ 6= θ0 .

Le processus de test constitue une raisonnement par l’absurde qui peut être résumé
de la manière suivante (figure 10.2) :

1. on fixe le niveau α du test ;

2. on fait l’hypothèse que H0 est vraie, c’est-à-dire qu’on considère que θ = θ0 ;

3. on calcule la statistique de test K (qui dépend de θ0 : K = K(θ0 )) ;

4. on construit la zone d’acceptation [ρinf ; ρsup ] en utilisant la distribution de


probabilité de K ;

5. on vérifie si la statistique de test se situe dans la zone d’acceptation :

• si K 6∈ [ρinf ; ρsup ], on rejette H0 ;


• si K ∈ [ρinf ; ρsup ], on ne rejette pas H0 .

193
Statistiques appliquées à la gestion

Sous H0
Densité

zone d'acceptation

zone zone
de rejet de rejet

ρinf ρsup

Figure 10.2 : Zones de rejet et d’acceptation d’un test d’hypothèse

Dans le cas où le test est unilatéral (H1 : θ > θ0 ou H1 : θ < θ0 ), la zone d’acceptation
est une demi-droite réelle (K < ρsup ou K > ρinf ).
Il est évidemment possible de manipuler la statistique de test pour que la vé-
rification se fasse par rapport à un intervalle de confiance et pas par rapport aux
quantiles d’une loi standard : si on teste H0 : µ = µ0 , on vérifie
 
X − µ0  N N
 N S N S
∈ −Q1−α/2 ; Q1−α/2 ⇔ X ∈ µ0 − Q1−α/2 √ ; µ0 + Q1−α/2 √
√S n n
n

Notons que le second intervalle est similaire à un intervalle de confiance, mais qu’il
est centré autour de la valeur d’hypothèse µ0 et pas de l’estimateur X.
Cette autre façon de voir le test permet de l’interpréter différemment : on rejette
l’hypothèse H0 : µ = µ0 si l’estimation qu’on possède pour µ, X, est trop éloigné
de µ0 ; au contraire, on accepte H0 si elle en est proche (en prenant en compte la
variabilité de l’estimateur).
Lorsque la statistique de test est située dans la zone de rejet, la décision est
relativement facile : en faisant l’hypothèse H0 , nous obtenons un résultat « trop
extrême » pour le niveau de confiance choisi et nous pouvons donc rejeter H0 .
La situation est plus ambigüe lorsque la statistique de test est située dans la
zone d’acceptation (c’est-à-dire en dehors de la zone de rejet) : a priori, ce résultat
implique seulement que nous ne sommes pas en mesure de rejeter H0 . Dans ce cas,
accepter H0 revient à s’exposer au risque de deuxième espèce H0 |H1 ! La probabilité
du risque de deuxième espèce β constitue donc une mesure de la probabilité de se
tromper en acceptant H0 .
On peut donc conclure que, si K ∈ [ρinf ; ρsup ], il faut calculer la probabilité β
pour savoir si on peut accepter H0 (dans le cas où β est suffisamment petit) ou
simplement ne pas rejeter H0 (dans le cas où β est trop grand). Malheureusement,
l’expérimentateur n’a a priori pas de contrôle sur β : c’est α, le niveau du test, qui
est fixé au début de la procédure.
De plus, si calculer α n’est pas compliqué (puisqu’on utilise pour ce faire l’hypo-
thèse nulle), calculer β est généralement plus difficile : très souvent, H1 est « plus

194
Chapitre 10

complexe » que H0 .

Test générique avec un grand échantillon

On suppose : Y1 , Y2 , . . . , Yn constitue un grand échantillon (n ≥ 30)


H0 : θ = θ0
(alternative unilatérale supérieure)

θ > θ 0

H1 : θ < θ0 (alternative unilatérale inférieure)
(alternative bilatérale)

θ 6= θ0

θ̂ − θ0
Statistique de test : K= h i ∼ N (0 , 1) sous H0
V θ̂

(queue droite)


 ]QN1−α ; +∞[





Zone de rejet : ] − ∞; −QN 1−α [ (queue gauche)




(queue double)

] − ∞; −QN
 N
1−α/2 [ ∪ ]Q1−α/2 ; +∞[

Test pour la moyenne avec un grand échantillon

On suppose : Y1 , Y2 , . . . , Yn constitue un grand échantillon (n ≥ 30)


H0 : µ = µ0
(alternative unilatérale supérieure)

µ > µ 0

H1 : µ < µ0 (alternative unilatérale inférieure)
(alternative bilatérale)

µ 6= µ0

Y − µ0
Statistique de test : K= √ ∼ N (0 , 1) sous H0
S/ n
(queue droite)


 ]QN1−α ; +∞[





Zone de rejet : ] − ∞; −QN 1−α [ (queue gauche)




(queue double)

] − ∞; −QN

[ ∪ ]QN ; +∞[
1−α/2 1−α/2

Exemple. Un fabricant de billes destinées à des roulements à billes prétend que


ses billes présentent en moyenne un diamètre de 15 mm ; à partir d’un échantillon
prélevé au hasard de 49 billes, on observe un diamètre moyen de 14 , 8 mm et un
écart-type débiaisé de 0 , 5 mm.

195
Statistiques appliquées à la gestion

La déclaration du fabricant quant au diamètre moyen de ses billes est-elle confir-


mée à un seuil de 5% ? Pour répondre à cette question, nous mettons en œuvre le
test d’hypothèse suivant :

H0 : µ = 15
H1 : µ 6= 15.

Puisque l’échantillon est assez grand (n = 49 > 30), en faisant l’hypothèse que H0
est vraie, nous calculons

Y − 15 14, 8 − 15
K= = 0,5 = −2, 8.
√S
n 7

On a donc

0,975 ; Q0,975 [ = ] − 1, 96; 1, 96[ (zone d’acceptation)


K 6∈ ] − QN N

ou de manière équivalente

K ∈ ] − ∞; −1, 96[ ∪ ]1, 96; +∞[ (zone de rejet)

et nous rejetons par conséquent H0 : la déclaration du fabricant est incorrecte ! ♦

Test pour la moyenne avec un petit échantillon

On suppose : Y1 , Y2 , . . . , Yn constitue un échantillon issu d’une popula-


tion normale Y avec E [Y ] = µ
H0 : µ = µ0
(alternative unilatérale supérieure)

µ > µ 0

H1 : µ < µ0 (alternative unilatérale inférieure)
(alternative bilatérale)

µ 6= µ0

Y − µ0
Statistique de test : K= √ ∼ t(n − 1) sous H0
S/ n
(queue droite)
 t(n−1)

 ]Q1−α ; +∞[





Zone de rejet : t(n−1)
] − ∞; −Q1−α [ (queue gauche)




(queue double)

] − ∞; −Qt(n−1) [ ∪ ]Qt(n−1) ; +∞[

1−α/2 1−α/2

Exemple. Un biologiste a découvert ce qu’il pense être une nouvelle espèce de


corbeau, qu’il croit plus légère que l’espèce de référence, le grand corbeau. Pour
vérifier si le poids de la nouvelle espèce est effectivement inférieur à celui du grand
corbeau (1,2 kg) il a pesé huit individus :

196
Chapitre 10

1,202 1,170 1,174 1,186 1,198 1,202 1,175 1,162

Ces huit essais permettent-ils de confirmer (à un niveau de 2 , 5%) l’idée du cher-


cheur ?
On met donc en œuvre le test d’hypothèse suivant :

H0 : µ = 1, 2
H1 : µ < 1, 2.

On suppose que les poids sont distribués normalement, et on calcule Y = 1 , 1836,


S = 0 , 01564 et la statistique de test (sous H0 )

Y − 1, 2 1, 1836 − 1, 2
K= = 0,01564 = −2, 966.
√S √
n 8

On sait que la statistique de test est distribuée selon une loi t de Student à n − 1 = 7
degrés de liberté. La consultation de la table permet de voir que −Q0,975 = −2 , 364.
t(7)

On a donc
K ∈ ] − ∞; −2, 364[ (zone de rejet)
et nous rejetons par conséquent H0 : d’après l’échantillon constitué par le biologiste,
il a effectivement découvert une nouvelle espèce de corbeau. ♦

Test pour la variance avec un petit échantillon

On suppose : Y1 , Y2 , . . . , Yn constitue un échantillon issu d’une popula-


tion normale Y avec E [Y ] = µ et V [Y ] = σ 2
H0 : σ 2 = σ02
(alternative unilatérale supérieure)

2 2
σ > σ 0

H1 : σ 2 < σ02 (alternative unilatérale inférieure)
(alternative bilatérale)

 2
σ 6= σ02
(n − 1)S 2
Statistique de test : K= 2
∼ χ2 (n − 1) sous H0
σ0
(queue droite)
 χ2 (n−1)

 ]Q1−α ; +∞[





Zone de rejet : χ2 (n−1)
]0; Qα [ (queue gauche)





(queue double)
χ2 (n−1) χ2 (n−1)

]0; Qα/2 [ ∪ ]Q1−α/2 ; +∞[

Exemple. Une entreprise produit des pièces de moteur usinées qui sont censées
avoir une variance de diamètre inférieure à 0 , 0002 (les diamètres sont mesurés en
centimètres).

197
Statistiques appliquées à la gestion

Un échantillon aléatoire de dix pièces présente une variance de 0 , 0003. Testons,


au niveau de 5%,
H0 : σ 2 = 0, 0002
H1 : σ 2 > 0, 0002.
On suppose que les diamètres sont distribués normalement, et on calcule la statis-
tique de test (sous H0 )
(n − 1)S 2 9 · 0, 0003
K= 2
= = 13, 5.
σ0 0, 0002
On sait que la statistique de test est distribuée selon une loi χ2 à n − 1 = 9 degrés
de liberté. La consultation de la table permet de voir que Q0,05 = 16 , 919. On a
χ2 (9)

donc
K 6∈ ]16, 919; +∞[ (zone de rejet)
et nous ne rejetons par conséquent pas H0 : on ne peut donc pas dire que la variance
est plus petite que cette qui est annoncée. ♦

10.3 Les tests de comparaison


Test pour µX − µY avec un grand échantillon

On suppose : les deux échantillons X1 , X2 , . . . , Xm et Y1 , Y2 , . . . , Yn


possèdent des effectifs de taille suffisante (m ≥ 30 et n ≥
30)
H0 : µX − µY = D0
(alternative unilatérale supérieure)

µ X − µ Y > D 0

H1 : µX − µY < D 0 (alternative unilatérale inférieure)
(alternative bilatérale)

µX − µY 6= D0

X − Y − D0
Statistique de test : K= q 2 2
∼ N (0 , 1) sous H0
σX σY
m
+ n

(queue droite)
 N (0,1)

 ]Q1−α ; +∞[





Zone de rejet : N (0,1)
] − ∞; −Q1−α [ (queue gauche)




] − ∞; −QN (0,1) [ ∪ ]QN (0,1) ; +∞[ (queue double)


1−α/2 1−α/2

Puisqu’une proportion n’est jamais que la moyenne d’une variable de Bernoulli,


le test de comparaison de deux proportions est un corollaire du test de comparaison
de deux moyennes.

198
Chapitre 10

Test pour pX − pY avec un grand échantillon

On suppose : les deux échantillons X1 , X2 , . . . , Xm et Y1 , Y2 , . . . , Yn


possèdent des effectifs de taille suffisante (m et n ≥ 30),
et on a observé au moins 5 succès et 5 échecs au sein de
chacun d’eux
H0 : pX − pY = p0
(alternative unilatérale supérieure)

p X − p Y > p 0

H1 : pX − pY < p 0 (alternative unilatérale inférieure)
(alternative bilatérale)

pX − pY 6= p0

pˆX − pˆY − p0
Statistique de test : K=q ∼ N (0 , 1) sous H0
pˆX (1−pˆX ) pˆY (1−pˆY )
m
+ n

(queue droite)
 N (0,1)

 ]Q1−α ; +∞[





Zone de rejet : N (0,1)
] − ∞; −Q1−α [ (queue gauche)




(queue double)

] − ∞; −QN (0,1) [ ∪ ]QN (0,1) ; +∞[

1−α/2 1−α/2

Test pour µX − µY avec un petit échantillon

On suppose : X1 , X2 , . . . , Xm et Y1 , Y2 , . . . , Yn constituent deux


échantillons issus de populations normales X et Y avec
2
σX = σY2
H0 : µX − µY = 0
(alternative unilatérale supérieure)

µ X − µ Y > 0

H1 : µX − µY < 0 (alternative unilatérale inférieure)
(alternative bilatérale)

µX − µY 6= 0

X −Y
Statistique de test : K= q ∼ t(m + n − 2) sous H0 ,
SX,Y m1 + n1
s
2
(m − 1)SX + (n − 1)SY2
où SX,Y =
m+n−2
(queue droite)
 t(m+n−2)

 ]Q1−α ; +∞[





Zone de rejet : t(m+n−2)
] − ∞; −Q1−α [ (queue gauche)




(queue double)

] − ∞; −Qt(m+n−2) [ ∪ ]Qt(m+n−2) ; +∞[

1−α/2 1−α/2

199
Statistiques appliquées à la gestion

Exemple. La direction d’une compagnie fabriquant des pneus pour avions veut
comparer la rapidité avec laquelle deux de ses usines (l’une en Europe, l’autre en
Asie) travaillent. Elle a demandé à l’une et l’autre de chronométrer le temps total
de fabrication de 9 trains de pneus (en heures) :

Europe Asie
effectif 9 9
moyenne empirique 35,22 31,56
somme des écarts au carré 195,56 160,22

On met donc en œuvre le test d’hypothèse suivant à un niveau α = 5% :

H0 : µEurope = µAsie
H1 : µEurope 6= µAsie .

On suppose que les durées sont distribuées normalement, et on calcule


r
195, 56 + 160, 22 p
SX,Y = = 22, 24 = 4, 716
9+9−2
et la statistique de test (sous H0 )

X −Y 35, 22 − 31, 56
K= q = q = 1, 65.
SX,Y m1 + 1
n
1
4, 716 9 + 9 1

On sait que la statistique de test est distribuée selon une loi t de Student à m+n−2 =
16 degrés de liberté. La consultation de la table permet de voir que Q0,975 = 2 , 12.
t(16)

On a donc
K 6∈ ] − ∞; −2, 12[ ∪ ]2, 12; +∞[ (zone de rejet)
et nous ne rejetons par conséquent pas H0 : l’échantillon ne permet pas d’affirmer
qu’une des deux usines travaille plus vite que l’autre. ♦

10.4 La significativité statistique ou p-valeur


Comme indiqué précédemment, la probabilité α du risque de première espèce est
souvent appelée le niveau de significativité ou, plus simplement, le niveau du test.
Bien que de petites valeurs de α soient souvent recommandées, la valeur réelle de α
à utiliser dans une analyse est plutôt arbitraire.
Un expérimentateur peut choisir de mettre en œuvre un test avec α = 0 , 05 alors
qu’un autre expérimentateur pourrait préférer α = 0 , 01. Il est donc possible pour
deux personnes d’analyser les mêmes données et d’arriver à des conclusions opposées,
l’une concluant que l’hypothèse nulle doit être rejetée au niveau de signification
α = 0 , 05 et l’autre décidant que l’hypothèse nulle ne doit pas être rejetée avec
α = 0 , 01.

200
Chapitre 10

En outre, les valeurs α de 0,05 ou 0,01 sont souvent utilisées par habitude ou par
commodité plutôt que par un examen attentif des ramifications de la réalisation du
risque de première espèce. Pour cette raison, on utilise souvent une autre manière
de présenter les résultats d’un test : on transforme un résultat binaire (oui / non :
H0 rejetée / H0 non rejetée) en un niveau de probabilité p.

Définition 10.3 La p-valeur est le plus petit niveau α pour lequel les données
observées indiquent que l’hypothèse nulle doit être rejetée.

La p-valeur est donc la probabilité d’obtenir, avec des données semblables à celles
qui sont analysées, la même valeur ou une valeur plus extrême pour la statistique
de test, en considérant que l’hypothèse nulle était vraie. Plus la p-valeur est petite,
plus la preuve que l’hypothèse nulle doit être rejetée est convaincante.
La règle est donc la suivante :
• si la valeur souhaitée de α est supérieure ou égale à la p-valeur, l’hypothèse
nulle est rejetée pour cette valeur de α (on dit alors que le test est significatif ) ;
• si α est inférieur à la p-valeur, l’hypothèse nulle ne peut pas être rejetée.
De nombreuses revues scientifiques exigent que les chercheurs renseignent les p-valeurs
associées aux tests statistiques qu’ils effectuent dans les recherches qu’ils publient,
car ces valeurs fournissent au lecteur plus d’information qu’une simple indication
que l’hypothèse nulle a été rejetée ou non rejetée pour une valeur de α choisie par
le chercheur.
En un sens, la p-valeur permet au lecteur de l’article de recherche d’évaluer dans
quelle mesure les données observées sont en désaccord avec l’hypothèse nulle. En
particulier, la p-valeur permet à chaque lecteur d’utiliser son propre choix de α pour
décider si les données observées devraient conduire au rejet de l’hypothèse nulle.
Exemples. Calculons la p-valeur de l’exemple de l’élection de Dupont (n = 15,
H0 : p = 0 , 5 et H1 : p < 0 , 5) en considérant que la statistique de test Y = 3.
Puisque H0 est ici rejetée pour les petites valeurs de Y , la p-valeur est égale à
P (Y ≤ 3 | H0 ) = P (Y ≤ 3|p = 0, 5) = 0, 018
en consultant la table binomiale. La règle est donc claire : si le test est effectué à un
niveau α < 1 , 8% (par exemple α = 1%), l’hypothèse nulle ne doit pas être rejetée ;
si au contraire le test est effectué à un niveau α > 1 , 8% (par exemple α = 5%),
l’hypothèse nulle doit être rejetée.
Calculons la p-valeur de l’exemple de l’espèce de corbeau (n = 8, H0 : µ = 1 , 2
et H1 : µ < 1 , 2) :
! !
Y − µ0 Y − 1, 2
P < −2, 96 H0 = P < −2, 96 = Ft(7) (−2, 96) = 0, 0104.

√S S√
n n

Ce résultat est cohérent avec la conclusion que nous avions tirée précédemment :
puisque nous avions alors choisi α = 2 , 5% > 1 , 04% = p-valeur, H0 doit être
rejetée.

201
Statistiques appliquées à la gestion

Calculons la p-valeur de l’exemple des roulements à billes (n = 49, H0 : µ = 15


et H1 : µ 6= 15). Dans ce cas, puisqu’il s’agit d’un test bilatéral, la statistique peut
être plus extrême des deux côtés de la distribution :

! !
Y − µ Y − 15 Y − 15
< −2, 8 ou
0
P S > 2, 8 H0 = P > 2, 8

√n √S √S
n n
! !
Y − 15 Y − 15
=P < −2, 8 +P > 2, 8
√S √S
n n

= 2Φ(−2, 8) = 0, 005.

Calculons la p-valeur de l’exemple des deux usines (n = 9, H0 : µX = µY et


H1 : µX 6= µY ) :

 

X − Y − (µX − µY )
P  q > 1, 65 H0  = 2Ft(16) (−1, 65) = 0, 1184.
SX,Y m1 + n1

10.5 Les tests d’adéquation


Lorsqu’on considère une variable aléatoire Y ayant pris les valeurs y1 , y2 , . . . , yn ,
on peut s’interroger sur la nature de la distribution de Y .
Supposons que cette variable aléatoire suive une loi de probabilité (notée L),
la distribution de ses réalisations observées (la distribution empirique) ne devrait
« pas trop » s’écarter de la distribution théorique. Si les écarts entre la distribution
théorique et la distribution observée sont suffisamment faibles, nous admettrons
qu’ils sont imputables aux effets du hasard et uniquement aux effets du hasard. Par
contre, si les écarts sont importants, nous conclurons que le phénomène aléatoire ne
suit pas la loi théorique présupposée.
Nous pouvons donc élaborer le test d’hypothèse suivant :

H0 : la loi de probabilité dont est issu l’échantillon est L,


H1 : la loi de probabilité dont est issu l’échantillon n’est pas L.

Considérons d’abord le cas discret fini, c’est-à-dire celui où la variable aléatoire


qui nous intéresse ne prend qu’un nombre fini de valeurs.

202
Chapitre 10

Test d’adéquation à une distribution dans le cas discret

On suppose : la variable que nous considérons ne prend que A va-


leurs différentes (que nous noterons 1 , 2 , . . . , A) ; la
loi L consiste donc en A P probabilités : P (Y = i) =
pi (i = 1 , 2 , . . . , A) avec Ai=1 pi = 1.

H0 : Y ∼L
H1 : Y 6∼ L
A
(np̂i − npi )2
Statistique de test : ∼ χ2 (A−1) sous H0 , où p̂i est la
X
K=
i=1
np i
proportion de valeurs de l’échantillon qui sont égales
à i (probabilité empirique que Y = i)
Zone de rejet :
χ2 (A−1)
]Q1−α ; +∞[

Le nombre de degrés de libertés de la distribution χ2 se comprend intuitivement,


puisque les A quantités manipulées pˆ1 , pˆ2 , . . . , pˆA sont liées par une relation li-
néaire :
X A
p̂i = 1.
i=1

Lorsque les A − 1 premières sont connues, la dernière est alors aussi connue.
Exemple. Avant de commencer à jouer à un jeu de hasard, un joueur veut tester le
dé qui sera lancé et sur le résultat duquel il va parier.
Pour cela, il lance le dé 150 fois et obtient les résultats suivants :

1 2 3 4 5 6
21 24 22 29 20 34

Vérifier si le dé est équilibré revient à vérifier que le résultat obtenu suit une distri-
bution uniforme :

H0 : le résultat du dé est une variable uniforme,


H1 : le résultat du dé n’est pas une variable uniforme.

Fixons le niveau de confiance α = 0 , 01 et calculons la statistique de test :


(21 − 25)2 (24 − 25)2 (22 − 25)2 (29 − 25)2 (20 − 25)2 (34 − 25)2
K= + + + + +
25 25 25 25 25 25
= 5, 92

puisque 150 · 1/6 = 25. La table de la distribution χ2 (5) donne Q0,99 = 15 , 08.
χ2 (5)

On a donc
K 6∈ ]15, 08; +∞[ (zone de rejet)

203
Statistiques appliquées à la gestion

ce qui signifie que nous ne rejetons pas H0 : le joueur ne peut donc pas conclure que
le dé est pipé. ♦
Dans le cas où la variable d’intérêt prend plus qu’un nombre fini de valeurs, on
peut se ramener au cas précédent en regroupant ces valeurs en un nombre fini de
classes.
Pour une distribution discrète dénombrable (par exemple la loi de Poisson), on
crée généralement une classe contenant toutes les valeurs supérieures à un seuil
donné :
C1 = {0, 1, 2} ; C2 = {3, 4} ; C3 = {5, 6, 7} ; C4 = {8, 9, ...}.
Pour une distribution continue (par exemple la loi normale), on crée des classes en
formant des intervalles :
C1 =] − ∞; −2[ ; C2 = [−2; −1[ ; C3 = [−1; 1[ ;
C4 = [1; 4[ ; C5 = [4; +∞[.
Une règle existe pour la construction des classes : toutes doivent contenir au moins
cinq valeurs.
Lorsque les paramètres de la distribution théorique sont inconnus, il faut les
estimer à partir de l’échantillon de données. Néanmoins, comme dans le cas des
estimateurs de la variance, utiliser des paramètres estimés plutôt que des paramètres
connus introduit une relation entre les valeurs observées ; il faut donc dans ce cas
retirer le nombre correspondant de degrés de libertés à la distribution χ2 .
Si on utilise A classes et que la distribution théorique sur laquelle on fait l’hy-
pothèse possède B paramètres qui ont été estimés à l’aide des données, on a donc,
sous H0 ,
K ∼ χ2 (A − B − 1)

Exemple. Pour optimiser la façon dont les files sont gérées, le gérant d’un grand
magasin veut effectuer toutes sortes de calculs sur le nombre de clients qui se pré-
sentent aux caisses. Pour cela, il doit vérifier préalablement que cette quantité est
distribuée selon une loi de Poisson.
Il fait des observations pendant deux heures et obtient les mesures suivantes (en
nombre de clients par minute) :

0 1 2 3 4
42 52 18 7 1
Pour obtenir des classes suffisamment peuplées, on groupe les valeurs 3 et 4 en
une classe « 3 ou plus ». En calculant la moyenne de l’échantillon, on obtient une
estimation du paramètre de la loi de Poisson : λ = 1 , 06. On peut dès lors calculer
les probabilités théoriques associées à chacune des classes (les pi ) :

0 1 2 3 et +
0, 35 0, 37 0, 19 0, 09

204
Chapitre 10

Fixons α = 5%. La statistique de test vaut :

(42 − 0, 35 · 120)2 (52 − 0, 37 · 120)2 (18 − 0, 19 · 120)2 (8 − 0, 09 · 120)2


K= + + +
0, 35 · 120 0, 37 · 120 0, 19 · 120 0, 09 · 120
= 3, 47.

Puisque Q0,95 = 5 , 99, la statistique n’est pas située dans la zone de rejet et on ne
χ2 (2)

rejette pas l’hypothèse nulle : il est vraisemblable que le nombre de clients arrivant
aux caisses suive une loi de Poisson. ♦

Exemple. Un professeur d’université veut vérifier (à un niveau α = 10%) que les


résultats à ses examens sont normalement distribués.
Il rassemble les résultats de quatre années consécutives (en faisant l’hypothèse
que les examens étaient identiques) et les répartit en dix classes :

[0; 2[ [2; 4[ [4; 6[ [6; 8[ [8; 10[ [10; 12[ [12; 14[ [14; 16[ [16; 18[ [18; 20]
5 29 70 151 196 207 162 117 44 19

Les paramètres correspondants valent µ = 10 , 53 et σ 2 = 12 , 73, et les probabilités


théoriques :

] − ∞; 2[ [2; 4[ [4; 6[ [6; 8[ [8; 10[


0, 01 0, 03 0, 07 0, 14 0, 20

[10; 12[ [12; 14[ [14; 16[ [16; 18[ [18; +∞[
0, 22 0, 17 0, 10 0, 04 0, 02

La statistique de test vaut K = 7 , 96. Puisque Q0,90 = 12 , 01.


χ2 (7)

On a donc
K 6∈ ]12, 01; +∞[ (zone de rejet)
ce qui signifie que nous ne rejetons pas H0 . ♦
Certains tests d’adéquation sont spécialisés et permettent de vérifier que les don-
nées sont distribuées selon une seule distribution, le plus souvent la normale en
raison de son énorme importance.
C’est le cas du test de Jarque-Bera, qui teste l’hypothèse H0 : les données sont
normalement distribuées. Pour ce faire, il compare le coefficient d’asymétrie et la
kurtosis de l’échantillon de données (centrées et réduites) avec les valeurs de ces
deux paramètres pour une normale standard. Cette procédure est assez intuitive :
parmi les caractéristiques de la distribution normale, sa symétrie et l’épaisseur de
ses queues sont les plus remarquables et les plus souvent soulignées (ou remises en
cause, le cas échéant).

205
Statistiques appliquées à la gestion

Ce test manipule donc le coefficient d’asymétrie d’échantillon


1
Pn 3
µ̂3 n i=1 (yi − Ȳ )
U= 3 =
s 2 3/2
1
Pn 
n i=1 (yi − Ȳ )

et la kurtosis d’échantillon
1
Pn 4
µ̂4 n i=1 (yi − Ȳ )
V = 4 =  ,
2 2
Pn
s 1
(y − Ȳ )
n i=1 i

en notant µ3 et µ4 les moments centrés d’ordre 3 et 4.


Pour une normale standard, U = 0 et V = 3.

Test de Jarque-Bera

H0 : Y ∼ N (but) ou plutôt H0 : U = 0 et V = 3
(réalité)
H1 : Y 6∼ N (but) ou plutôt H0 : U 6= 0 ou V 6= 3
(réalité)
(K − 3)2 L 2
 
n
Statistique de test : K= 2
S + → χ (2) sous H0

6 4
Zone de rejet :
χ2 (2)
]Q1−α ; +∞[

D’autres tests de normalité existent :

• le test de Shapiro-Wilk compare la série des quantiles empiriques et ceux de


la loi normale ;

• le test de Lilliefors est similaire au test du χ2 ;

• le test d’Anderson-Darling fait à peu près de même en valeur logarithmique ;

• le test de D’Agostino est similaire au test de Jarque-Bera ;

• ...

10.6 Les tests d’indépendance


On considère deux variables X et Y qui ne prennent qu’un nombre fini de valeurs
et dont le tableau de contingence (en fréquence relative) est le suivant : L’idée du
test d’indépendance est de calculer l’écart entre la probabilité jointe des variables et
le produit des probabilités marginales des variables.
On sait en effet que si X Y,
|=

P (X = x, Y = y) = P (X = x)P (Y = y).

206
Chapitre 10

Y
X y1 y2 ... yN total
x1 p1,1 p1,2 ... p1,N p1,•
x2 p2,1 p2,2 ... p2,N p2,•
... ... ... ... ...
xM pM,1 pM,2 ... pM,N pM,•
total p•,1 p•,2 ... p•,N 1

Table 10.2 : Tableau de contingence

Test du χ2 d’adéquation

On suppose : les deux variable que nous considérons ne prennent


respectivement que M et N valeurs différentes.
H0 : X Y
|= |=

H1 : X6 Y
M X N
(T pi,j − T pi,• p•,j )2
Statistique de test :
X
K=
i=1 j=1
T pi,• p•,j

M X N
X (pi,j − pi,• p•,j )2
=T
i=1 j=1
pi,• p•,j

∼ χ2 ((M − 1)(N − 1)) sous H0

où T est l’effectif total du tableau de contingence


Zone de rejet :
χ2 ((M −1)(N −1))
]Q1−α ; +∞[

Exemple. Un médecin veut savoir si les fumeurs sont plus susceptibles de contracter
une maladie donnée que les non-fumeurs. Il récolte pour vérifier cela les effectifs
suivants :

maladie maladie
fumeur oui non total fumeur oui non total
oui 215 740 955 ou oui 0, 14 0, 47 0, 61
non 110 505 615 non 0, 07 0, 32 0, 39
total 325 1245 1570 total 0, 21 0, 79 1

207
Statistiques appliquées à la gestion

La statistique de test vaut


(0, 14 − 0, 61 · 0, 21)2 (0, 47 − 0, 61 · 0, 79)2

K = 1570 +
0, 61 · 0, 21 0, 61 · 0, 79
2
(0, 32 − 0, 39 · 0, 79)2

(0, 07 − 0, 39 · 0, 21)
+ + = 5, 63.
0, 39 · 0, 21 0, 39 · 0, 79
La table nous donne Q1−α = 3 , 84 si on choisit α = 0 , 05. On a donc
χ2 (1)

K ∈ ]3, 84; +∞[ (zone de rejet)


ce qui signifie que nous rejetons H0 : on peut considérer que le fait de fumer et le
fait de contracter la maladie sont dépendants. ♦
Plutôt que de tester directement l’indépendance de deux variables aléatoires,
on peut aussi vérifier si leur coefficient de corrélation est significativement positif.
Il faut néanmoins prendre garde dans ce cas, la corrélation n’est qu’une mesure
« partielle » de la dépendance entre deux variables aléatoires (puisqu’elle ne capte
que la dépendance linéaire).
Test de significativité du coefficient de corrélation

On suppose : soit l’échantillon est petit (n < 30) et les deux variable
(X , Y ) sont distribuées selon une normale bivariée,
soit l’échantillon est grand (n ≥ 30).
H0 : ρ[X , Y ] = 0
H1 : ρ[X , Y ] 6= 0
ρ̂
Statistique de test : K=q ∼ t(n − 2) sous H0
1−ρ̂2
n−2

Zone de rejet :
t(n−2) t(n−2)
] − ∞ ; −Q1−α/2 [ ∪ ]Q1−α/2 ; +∞[

Exemple. Supposons que nous souhaitons calculer la corrélation qui existe entre
les cours hebdomadaires (en rendements logarithmiques) de deux indices boursiers,
l’un représentant un panier d’actions, l’autre un panier d’obligations d’état.
Nous avons pour cela enregistré leurs valeurs sur une année entière (n = 52) et
avons calculé ρ = 36%. Vérifions si cette corrélation est significiative à un niveau
α = 1%. On calcule la statistique de test :
ρ̂ 0, 36
K=q =q = 2, 73.
1−ρ̂2 1−0,362
n−2 50

La table nous donne Q1−α/2 = 2 , 67. On a donc


t(n−2)

K ∈ ] − ∞; −2, 67[ ∪ ]2, 67; +∞[ (zone de rejet)


ce qui signifie que nous rejetons H0 : on peut considérer que les deux cours sont
corrélés. ♦

208

Vous aimerez peut-être aussi