Vous êtes sur la page 1sur 102

UNIVERSITÉ HASSAN II DE CASABLANCA

FACULTÉ DES SCIENCES ET TECHNIQUES

STATISTIQUE ET PROBABILITÉS

Pr. A. BELMAATI

Département de Mathématiques

Parcours MIP (S4) Module M147: Statistique et Probabilités 1 / 83


Introduction

Définition

Statistique
Statistiques

Parcours MIP (S4) Module M147: Statistique et Probabilités 2 / 83


Introduction

Définition

Statistique
Statistiques
- Une discipline scientifique.

Parcours MIP (S4) Module M147: Statistique et Probabilités 2 / 83


Introduction

Définition

Statistique
Statistiques
- Une discipline scientifique.

- L’ensemble des méthodes


permettant de recueillir, de
classer, de présenter et
d’analyser les informations
relatives à des phénomènes
que l’on cherche à expliquer
pour en tirer des conclusions,
faire des prévisions et prendre
des décisions judicieuses.

Parcours MIP (S4) Module M147: Statistique et Probabilités 2 / 83


Introduction

Définition

Statistique
Statistiques
- Une discipline scientifique.
- Un ensemble de données
- L’ensemble des méthodes chiffrées contenant des
permettant de recueillir, de informations sur un
classer, de présenter et phénomène précis.
d’analyser les informations
relatives à des phénomènes
que l’on cherche à expliquer -Les résultats calculés à partir
pour en tirer des conclusions, des données.
faire des prévisions et prendre
des décisions judicieuses.

Parcours MIP (S4) Module M147: Statistique et Probabilités 2 / 83


Introduction

Exemples

1 Etudier le réchauffement de la planète.

2 Eudier l’efficacilé d’un vaccin à stopper la progression d’un virus.

3 Etudier la relation entre le cancer du poumon et la fumée de la cigarette.

4 Améliorer la durée de vie d’une lampe électrique.

Parcours MIP (S4) Module M147: Statistique et Probabilités 3 / 83


Introduction

Etapes d’une étude statistique

1 Collecte des données : recueillir les informations adéquates mais


partielles sur le phénomène qui serviront de base à l’étude.

2 Analyse statistique :

1 Statistique descriptive : techniques permettant de dépouiller les données


recueillies, de les mettre sous forme de tableaux, graphiques. . .et d’engager
les carctéristiques essentielles (moyenne, proportion. . .)

2 Statistique inférentielle : tirer des conclusions sur tout le phénomène à partir


de données partielles.

Parcours MIP (S4) Module M147: Statistique et Probabilités 4 / 83


Introduction

Etapes d’une étude statistique

1 Collecte des données : recueillir les informations adéquates mais


partielles sur le phénomène qui serviront de base à l’étude.

2 Analyse statistique :

1 Statistique descriptive : techniques permettant de dépouiller les données


recueillies, de les mettre sous forme de tableaux, graphiques. . .et d’engager
les carctéristiques essentielles (moyenne, proportion. . .)

2 Statistique inférentielle : tirer des conclusions sur tout le phénomène à partir


de données partielles.

Parcours MIP (S4) Module M147: Statistique et Probabilités 4 / 83


Introduction

Etapes d’une étude statistique

1 Collecte des données : recueillir les informations adéquates mais


partielles sur le phénomène qui serviront de base à l’étude.

2 Analyse statistique :

1 Statistique descriptive : techniques permettant de dépouiller les données


recueillies, de les mettre sous forme de tableaux, graphiques. . .et d’engager
les carctéristiques essentielles (moyenne, proportion. . .)

2 Statistique inférentielle : tirer des conclusions sur tout le phénomène à partir


de données partielles.

Parcours MIP (S4) Module M147: Statistique et Probabilités 4 / 83


Introduction

Etapes d’une étude statistique

1 Collecte des données : recueillir les informations adéquates mais


partielles sur le phénomène qui serviront de base à l’étude.

2 Analyse statistique :

1 Statistique descriptive : techniques permettant de dépouiller les données


recueillies, de les mettre sous forme de tableaux, graphiques. . .et d’engager
les carctéristiques essentielles (moyenne, proportion. . .)

2 Statistique inférentielle : tirer des conclusions sur tout le phénomène à partir


de données partielles.

Parcours MIP (S4) Module M147: Statistique et Probabilités 4 / 83


Introduction

Vocabulaire

Population : Ensemble complet des personnes ou objets sur lesquels on veut


effectuer l’étude.

Individu : Chacun des élements de la population.

Echantillon : Groupe restreint d’individus prélevés dans la population définie


au préalable.

Taille d’un échantillon : Le nombre de ses individus.

Caractère : Caractéristique relative à chacun des individus de la population et


sur laquelle on veut faire porter l’étude. Il est soit observé soit mesuré.

Modalité : Les différents aspects ou valeurs que peut prendre un caractère.

Parcours MIP (S4) Module M147: Statistique et Probabilités 5 / 83


Introduction

Vocabulaire
On distingue deux types de caractères :

Caractère quantitatif : Dont les modalités sont mesurables. Il est souvent


appelé variable statistique.
1 Variable statistique discrète : C’est une variable numérique discontinue
dont les modalités sont les résultats d’un dénombrement.
2 Variable statistique continue : Pour laquelle toutes les modalités sont a
priori différentes. Généralement, on est amené à regrouper les données
en classes.
Caractère qualitatif : Dont les modalités sont des qualités réparties en
classes, elles n’ont pas de valeurs numériques.
1 Caractère qualitatif ordinal : Dont les modalités peuvent être ordonnées
selon une certaine hiérarchie.
2 Caractère qualitatif nominal : Pour lequel les modalités ne peuvent pas
être hiérarchisées : elles sont nommées mais pas ordonnées.

Parcours MIP (S4) Module M147: Statistique et Probabilités 6 / 83


Statistique descriptive à une dimension

Chapitre I

Statistique descriptive à une dimension

Parcours MIP (S4) Module M147: Statistique et Probabilités 7 / 83


Statistique descriptive à une dimension

Exemple introductif

Dans un atelier de contrôle, on a enquêté sur l’état mécanique d’un


échantillon aléatoire de 81 voiture. Le contrôleur obtient la série statistique
(série brute) suivante :

Bon ; Bon ; Moyen ; Bon ; Bon ; Mauvais ; Bon ; Excellent ; Moyen ; Bon ; Bon ;
Excellent ; Moyen ; Bon ; Moyen ; Bon ; Excellent ; Mauvais ; Bon ; Moyen ;
Bon ; Bon ; Mauvais ; Excellent ; Bon ; Bon ; Excellent ; Moyen ; Bon ; Moyen ;
Excellent ; Moyen ; Excellent ; Excellent ; Bon ; Bon ; Moyen ; Excellent ; Bon ;
Bon ; Excellent ; Bon ; Mauvais ; Moyen ; Excellent ; Bon ; Bon ; Excellent ;
Moyen ; Bon ; Excellent ; Bon ; Moyen ; Excellent ; Bon ; Bon ; Moyen ; Bon ;
Excellent ; Bon ; Mauvais ; Bon ; Moyen ; Bon ; Bon ; Moyen ; Bon ; Bon ;
Moyen ; Moyen ; Bon ; Excellent ; Bon ; Moyen ; Bon ; Moyen ; Bon ; Bon ;
Moyen ; Moyen ; Bon.

Parcours MIP (S4) Module M147: Statistique et Probabilités 8 / 83


Statistique descriptive à une dimension I- Organisation des données

Organisation des données

1 Tableau statistique

2
Représentation graphique

Parcours MIP (S4) Module M147: Statistique et Probabilités 9 / 83


Statistique descriptive à une dimension I- Organisation des données

Tableau Statistique
Population étudiée : Les voitures.
Echantillon : 81 voitures.
Caractère étudié : Etat Mécanique.
Sa nature : Qualitatif ordinal.
Les modalités : Mauvais, Moyen, Bon, Excellent.

Parcours MIP (S4) Module M147: Statistique et Probabilités 10 / 83


Statistique descriptive à une dimension I- Organisation des données

Tableau Statistique
Population étudiée : Les voitures.
Echantillon : 81 voitures.
Caractère étudié : Etat Mécanique.
Sa nature : Qualitatif ordinal.
Les modalités : Mauvais, Moyen, Bon, Excellent.
La série ordonnée :
Mauvais ; Mauvais ; Mauvais ; Mauvais ; Mauvais ; Moyen ; Moyen ; Moyen ;
Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ;
Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ;

Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ;
Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ;
Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ;

Excellent ; Excellent ; Excellent ; Excellent ; Excellent ; Excellent ; Excellent ;


Excellent ; Excellent ; Excellent ; Excellent ; Excellent ; Excellent ; Excellent ;
Excellent ; Excellent.

Parcours MIP (S4) Module M147: Statistique et Probabilités 10 / 83


Statistique descriptive à une dimension I- Organisation des données

Tableau Statistique
Population étudiée : Les voitures.
Echantillon : 81 voitures.
Caractère étudié : Etat Mécanique.
Sa nature : Qualitatif ordinal.
Les modalités : Mauvais, Moyen, Bon, Excellent.
Tableau statistique :

TABLE: Tableau statistique de l’enquête sur l’état mécanique des 81 voitures


contrôlées.
Etat Effectifs Fréquences Fréquences cumulées
Mécanique ni fi (en %) Fi (en %)
Mauvais 5 6.17 6.17
Moyen 21 25.92 32.10
Bon 39 48.15 80.25
Excellent 16 19.75 100
Total 81 100

Parcours MIP (S4) Module M147: Statistique et Probabilités 10 / 83


Statistique descriptive à une dimension I- Organisation des données

Repésentations graphiques

Parcours MIP (S4) Module M147: Statistique et Probabilités 11 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas de caractère qualitatif


Diagramme en tuyaux d’orgue (ou à rectangle)

On représente chaque modalité par un rectangle de base constante, et de


hauteur égale à la fréquence (ou à l’effectif) de la modalité.

Exemple Etat mécanique de 81 voitures.

Parcours MIP (S4) Module M147: Statistique et Probabilités 12 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas de caractère qualitatif


Diagramme circulaire (ou sectoriel)

Chaque modalité est représentée par un secteur dont l’angle est proportionnel
à l’effectif. La totalité de la circonférence (360˚) correspond à l’effectif total.

Exemple Le nombre de personnes ayant une couleur de cheveux donnée


(Blond, Brun, noir ou roux) dans un échantillon de 5904 est :
TABLE: Tableau statistique des Couleurs de cheveux d’un groupe de personne.

Angle (en degré)


Mi ni fi
αi = 360 × fi
Blond 2365 0.4 144
Brun 2487 0.421 151.56
Noir 954 0.162 58.32
Roux 98 0.017 6.12
Total 5904 1

Parcours MIP (S4) Module M147: Statistique et Probabilités 13 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas de caractère qualitatif


Diagramme circulaire (ou sectoriel)

Chaque modalité est représentée par un secteur dont l’angle est proportionnel
à l’effectif. La totalité de la circonférence (360˚) correspond à l’effectif total.

Exemple Le nombre de personnes ayant une couleur de cheveux donnée


(Blond, Brun, noir ou roux) dans un échantillon de 5904 est :

Parcours MIP (S4) Module M147: Statistique et Probabilités 13 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas d’une v.s.d


Diagramme en bâtons

Chaque modalité du caractère est représenteée par un trait vertical dont la


hauteur est proportionnelle à l’effectif correspondant.
Exemple
Une enquête statistique a été effectuée pour connaı̂tre la distribution du
nombre d’enfants pour 229 familles d’une localité.
TABLE: Tableau statistique des nombres d’enfants pour 229 familles d’une localité.

Mi ni fi (en %)
0 48 20.96
1 65 28.38
2 44 19.21
3 27 11.79
4 19 8.30
5 15 6.55
6 8 3.49
7 2 0.87
8 1 0.44
Total 229 100
Parcours MIP (S4) Module M147: Statistique et Probabilités 14 / 83
Statistique descriptive à une dimension I- Organisation des données

Cas d’une v.s.d


Diagramme en bâtons

Chaque modalité du caractère est représenteée par un trait vertical dont la


hauteur est proportionnelle à l’effectif correspondant.
Exemple
Une enquête statistique a été effectuée pour connaı̂tre la distribution du
nombre d’enfants pour 229 familles d’une localité.
60
50
40
effectifs
30
20
10
0

0 2 4 6 8

nombre d'enfants

Parcours MIP (S4) Module M147: Statistique et Probabilités 14 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas d’une v.s.d


Polygone des fréquences

Le polygone des fréquences est construit en joignant par des segments de


droites les sommets des bâtons du diagramme en bâtons.

Exemple Nombres d’enfants pour 229 familles d’une localité.


60
50
40
ni
30
20
10
0

0 2 4 6 8

Mi

Parcours MIP (S4) Module M147: Statistique et Probabilités 15 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas d’une v.s.d


Courbe cumulative

A partir de la définition de la fréquence cumulée Fi nous définissons la


fonction de répartition, notée F (x) et définie par :
F (x) = 0 si x < x1
F (x) = Fi = F (xi ) si xi ≤ x < xi+1
F (x) = Fk = F (xk ) = 1 si x ≥ xk
Remarque
F (x) représente la proportion d’individus ayant une modalité inférieure ou
égale à x

Parcours MIP (S4) Module M147: Statistique et Probabilités 16 / 83


Statistique descriptive à une dimension I- Organisation des données

Courbe cumulative pour une v.s.d

TABLE: Tableau statistique des nombres d’enfants pour 229 familles d’une localité.

Mi ni fi (en %) Fi (en %)
0 48 20.96 20.96
1 65 28.38 49.34
2 44 19.21 68.56
3 27 11.79 80.35
4 19 8.30 88.65
5 15 6.55 95.20
6 8 3.49 98.69
7 2 0.87 99.56
8 1 0.44 100
Total 229 100

Parcours MIP (S4) Module M147: Statistique et Probabilités 17 / 83


Statistique descriptive à une dimension I- Organisation des données

Courbe cumulative pour une v.s.d

La courbe cumulative

1.0
0.8
Fréquences cumulées

0.6
0.4
0.2
0.0

0 2 4 6 8

Nombre d'enfants par famille

Parcours MIP (S4) Module M147: Statistique et Probabilités 17 / 83


Statistique descriptive à une dimension I- Organisation des données

Cas d’une v.s.c


Histogramme

Pour construire l’histogramme, on associe à chaque classe un rectangle dont


la base est égale à l’amplitude de la classe et dont la hauteur hi est telle que
sa surface Si soit proportinnelle à la fréquence (ou à l’effectif de la classe).

Si = ai ∗ hi = c ∗ fi

hi est appelée la fréquence corrigée de la i ieme classe.

Pour le choix de la constante c on distingue 3 cas :


1 Cas d’amplitudes égales.
2 Cas d’amplitudes différentes et on ne veut construire que l’histogramme.
3 Cas d’amplitudes différentes et on veut construire l’histogramme et le
polygone des fréquences.

Parcours MIP (S4) Module M147: Statistique et Probabilités 18 / 83


Statistique descriptive à une dimension I- Organisation des données
er
1 cas

Un groupe de courtiers immobiliers a effectué une enquête pour connaı̂tre la


distribution des prix (en milliers de dirhams) des propriétés de logement dans
un secteur d’une grande ville. Tableau statistique des valeurs des prix (en
milliers de dirhams) des proporiétés de l’échantillon.

[xi , xi+1 [
i ci ni fi (%) Fi (%) ai
×103
1 [200,300[ 250 8 9.88 9.88 100
2 [300,400[ 350 26 32.10 41.98 100
3 [400,500[ 450 12 14.81 56.79 100
4 [500,600[ 550 10 12.35 69.14 100
5 [600,700[ 650 15 18.52 87.65 100
6 [700,800[ 750 5 6.17 93.83 100
7 [800,900[ 850 3 3.70 97.53 100
8 [900,1000[ 950 2 2.47 100 100
Total 81 100

Parcours MIP (S4) Module M147: Statistique et Probabilités 19 / 83


Statistique descriptive à une dimension I- Organisation des données

Histogramme
Les amplitudes des classes sont toutes égales à ai alors on prend (c = ai ) et
on a hi = fi pour tout i

25
20
15 Histogramme
Effectifs

10
5
0

0 200 400 600 800 1000

Prix

Parcours MIP (S4) Module M147: Statistique et Probabilités 20 / 83


Statistique descriptive à une dimension I- Organisation des données

Polygone des fréquences


Le polygone des fréquences est représenté en joignant les milieux des côtés
supérieurs des rectangles dans un histogramme. C’est une ligne brisée dont
les extrêmités rejoignent l’axe des abscisses.
Polygone de fréquences
25
20
15
Effectifs

10
5
0

0 200 400 600 800 1000

Prix

Parcours MIP (S4) Module M147: Statistique et Probabilités 21 / 83


Statistique descriptive à une dimension I- Organisation des données
eme
2 cas
Histogramme seulement

On choisit parmi les ai une amplitude de référence que l’on note ar et on


prend (c = ar ), d’où on a
ar
hi = ∗ fi
ai
[xi , xi+1 [
i ci ni fi (%) Fi (%) ai hi (%)
en m2
1 [45,55[ 50 5 6.17 6.17 10 6.17
2 [55,65[ 60 8 9.88 16.05 10 9.88
3 [65,75[ 70 16 19.75 30.86 10 19.75
4 [75,85[ 80 12 14.81 43.21 10 14.81
5 [85,105[ 95 12 14.81 62.96 20 7.40
6 [105,125[ 115 8 9.88 75.31 20 4.94
7 [125,145[ 135 12 14.81 90.12 20 7.40
8 [145,165[ 155 4 4.94 95.06 20 2.47
9 [165,195[ 180 4 4.94 100 30 1.65
Total 81 100 ar = 10

Parcours MIP (S4) Module M147: Statistique et Probabilités 22 / 83


Statistique descriptive à une dimension I- Organisation des données
eme
2 cas
Histogramme seulement

On choisit parmi les ai une amplitude de référence que l’on note ar et on


prend (c = ar ), d’où on a
ar
hi = ∗ fi
ai
Histogramme pour a_r=10
0.020
0.015
Fréquence corrigée

0.010
0.005
0.000

50 100 150 200

superficie (en m^2)


Parcours MIP (S4) Module M147: Statistique et Probabilités 22 / 83
Statistique descriptive à une dimension I- Organisation des données
eme
3 cas
Histogramme et polygone des fréquences

Histogramme et polygone de fréquences


0.020
0.015
Fréquence corrigée

0.010
0.005
0.000

50 100 150 200

superficie (en m^2)

Parcours MIP (S4) Module M147: Statistique et Probabilités 23 / 83


Statistique descriptive à une dimension I- Organisation des données

Dans le cas d’une v.s.c, la courbe cumulative (ou la courbe des fréquences
cumulées) est la représentation graphique de la fonction de répartition, notée
F (x),
Exemple : Prix des propriétés.

[xi , xi+1 [
i ci ni fi (%) Fi (%) ai
×103
1 [200,300[ 250 8 9.88 9.88 100
2 [300,400[ 350 26 32.10 41.98 100
3 [400,500[ 450 12 14.81 56.79 100
4 [500,600[ 550 10 12.35 69.14 100
5 [600,700[ 650 15 18.52 87.65 100
6 [700,800[ 750 5 6.17 93.83 100
7 [800,900[ 850 3 3.70 97.53 100
8 [900,1000[ 950 2 2.47 100 100
Total 81 100

Parcours MIP (S4) Module M147: Statistique et Probabilités 24 / 83


Statistique descriptive à une dimension I- Organisation des données

Dans le cas d’une v.s.c, la courbe cumulative (ou la courbe des fréquences
cumulées) est la représentation graphique de la fonction de répartition, notée
F (x),
Exemple : Prix des propriétés.

1.0
0.8
Fréquences cumulées

0.6
0.4
0.2
0.0

200 400 600 800 1000

Prix (10^3)

Parcours MIP (S4) Module M147: Statistique et Probabilités 24 / 83


Statistique descriptive à une dimension II- Réduction des données

Réduction des données

1 Les paramètres de position ou de tendance centrale sont :

−− Le mode
−− La médiane
−− Les quantile
−− La moyenne

2 Les paramètres de dispersion sont :

−− L’étendue.
−− L’écart interquantile.
−− La variance, l’écart-type.
−− Le coefficient de variation.
−− La boite à moustache (boxplot).

Parcours MIP (S4) Module M147: Statistique et Probabilités 25 / 83


Statistique descriptive à une dimension II- Réduction des données

Paramètres de tendance centrale

Parcours MIP (S4) Module M147: Statistique et Probabilités 26 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode

Définition
Le mode, noté M0 , est la valeur du caractère qui admet le plus grand effectif
(ou la plus grande valeur de la fréquence). C’est la modalité la plus fréquente.

Parcours MIP (S4) Module M147: Statistique et Probabilités 27 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas d’un caractère qualitatif

Exemple
L’état mécanique de 81 voitures contrôlées. M0 = ”Bon”.

Etat Effectifs Fréquences Fréquences cumulées


Mécanique ni fi (en %) Fi (en %)
Mauvais 5 6.17 6.17
Moyen 21 25.92 32.10
Bon 39 48.15 80.25
Excellent 16 19.75 100
Total 81 100

Parcours MIP (S4) Module M147: Statistique et Probabilités 28 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas d’un caractère qualitatif

Exemple
L’état mécanique de 81 voitures contrôlées. M0 = ”Bon”.

Parcours MIP (S4) Module M147: Statistique et Probabilités 28 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas de v.s.d

Exemple
Nombres d’enfants pour 229 familles d’une localité. M0 = 1.

Mi ni fi (en %)
0 48 20.96
1 65 28.38
2 44 19.21
3 27 11.79
4 19 8.30
5 15 6.55
6 8 3.49
7 2 0.87
8 1 0.44
Total 229 100

Parcours MIP (S4) Module M147: Statistique et Probabilités 29 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas de v.s.d

Exemple
Nombres d’enfants pour 229 familles d’une localité. M0 = 1.

60
50
40
effectifs
30
20
10
0

0 2 4 6 8

nombre d'enfants

Parcours MIP (S4) Module M147: Statistique et Probabilités 29 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas de v.s.c

On détermine d’abord la classe modale à partir de l’histogramme : la classe


qui correspond à la plus grande fréquence corrigée. Puis, à l’intérieur de cette
classe on détermine une valeur approchée du mode soit par :
1 La méthode graphique.
2 La méthode algébrique (d’interpolation)
∆1
M0 = xi + ai ∗
∆1 + ∆ 2
avec ∆1 = hi − hi−1 et ∆2 = hi − hi+1

Parcours MIP (S4) Module M147: Statistique et Probabilités 30 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas de v.s.c

Exemple
Etude des valeurs de la superficie des propriétés.
i [xi , xi+1 [ ci ni fi (%) Fi (%) ai hi (%)
1 [45,55[ 50 5 6.17 6.17 10 6.17
2 [55,65[ 60 8 9.88 16.05 10 9.88
3 [65,75[ 70 16 19.75 30.86 10 19.75
4 [75,85[ 80 12 14.81 43.21 10 14.81
5 [85,105[ 95 12 14.81 62.96 20 7.40
6 [105,125[ 115 8 9.88 75.31 20 4.94
7 [125,145[ 135 12 14.81 90.12 20 7.40
8 [145,165[ 155 4 4.94 95.06 20 2.47
9 [165,195[ 180 4 4.94 100 30 1.65
Total 81 100 ar = 10

M0 = 65 + 10 ∗ (19.75 − 9.88)/(2 ∗ 19.75 − 9.88 − 14.81) = 71.66m2

Parcours MIP (S4) Module M147: Statistique et Probabilités 31 / 83


Statistique descriptive à une dimension II- Réduction des données

Le mode
Détermination pratique : Cas de v.s.c

Exemple
Etude des valeurs de la superficie des propriétés.

Parcours MIP (S4) Module M147: Statistique et Probabilités 31 / 83


Statistique descriptive à une dimension II- Réduction des données

La médiane

Définition
On appelle médiane la valeur de la série statistique, notée Me , qui partage la
population en deux sous populations de même effectif : le nombre
d’observations inférieures à Me est égal au nombre d’observations
supérieures à Me .

Remarque

Cette définition n’a de sens que si les modalités sont toutes ordonnées par
ordre croissant.

Parcours MIP (S4) Module M147: Statistique et Probabilités 32 / 83


Statistique descriptive à une dimension II- Réduction des données

La médiane
Détermination pratique : Cas de v.s.d

Soient x1 , x2 , . . . , xn la série brute d’une v.s.d et x(1) , x(2) , . . . , x(n) la série


ordonnée (ordre croissant) correspondante.
On distingue deux cas selon la parité de n :
n+1
1 Si n est impair, la médiane est la modalité de rang 2 , soit :

Me = x n+1
2

2 Si n est pair, on dit qu’on a un intervalle médian [x n2 , x n2 +1 ], et on prend


pour médiane le centre de cet intervalle, soit :
x n2 + x n2 +1
Me =
2

Parcours MIP (S4) Module M147: Statistique et Probabilités 33 / 83


Statistique descriptive à une dimension II- Réduction des données

La médiane
Détermination pratique : Cas de v.s.d : Exemples

Exemple1 : On considère le nombre de voiture louées par jour par un garage


pendant une semaine.
Série brute : 3, 2, 2, 3, 5, 6, 5.
Série ordonnée : 2, 2, 3, 3, 5, 5, 6.
| {z } | {z }

Me = x 7+1 = 3
2

Exemple2 : On considère les notes sur 20 de 8 étudiants.


La série brute : 9, 13, 11, 15, 9, 8, 12, 10.
La série ordonnée : 8, 9, 9, 10, 11, 12, 13, 15.
| {z } | {z }
Alors, on a un intervalle médian [x 8 , x 8 +1 ].
2 2

10 + 11
Me = = 10.5
2

Parcours MIP (S4) Module M147: Statistique et Probabilités 34 / 83


Statistique descriptive à une dimension II- Réduction des données

La médiane
Détermination pratique : Cas de v.s.c

La médiane est unique, c’est la valeur qui correspond à la fréquence cumulée


0.5.
On détermine la médiane par l’une des deux méthodes :
1 Méthode d’interpolation : On situe d’abord la médiane à l’intérieur d’une
classe [xi , xi+1 [, appelée classe médiane :

xi ≤ Me < xi+1 ⇔ F (xi ) ≤ 0.5 < F (xi+1 )

Me est la valeur de la variable statistique pour laquelle la fréquence


cumulée est égale à 0.5 (F (Me ) = 0.5), puis on calcule la médiane Me
par interpolation linéaire dans cette classe. D’où :

0.5 − Fi
Me = xi + (ai )
Fi+1 − Fi

2 Méthode graphique : On trace la courbe cumulative et on détermine Me


comme l’abscisse du point de la courbe d’ordonnée 0.5 (ou 50%).

Parcours MIP (S4) Module M147: Statistique et Probabilités 35 / 83


Statistique descriptive à une dimension II- Réduction des données

La médiane
Détermination pratique : Cas de v.s.c : Exemple

i [xi , xi+1 [ ci ni fi (%) Fi (%) ai


1 [200,300[ 250 8 9.88 9.88 100
2 [300,400[ 350 26 32.10 41.98 100
3 [400,500[ 450 12 14.81 56.79 100
4 [500,600[ 550 10 12.35 69.14 100
5 [600,700[ 650 15 18.52 87.65 100
6 [700,800[ 750 5 6.17 93.83 100
7 [800,900[ 850 3 3.70 97.53 100
8 [900,1000[ 950 2 2.47 100 100
Total 81 100

50 − 41.98
Me = 400 + 100 ∗ = 454152.6dh
56.79 − 41.98

Parcours MIP (S4) Module M147: Statistique et Probabilités 36 / 83


Statistique descriptive à une dimension II- Réduction des données

La médiane
Détermination pratique : Cas de v.s.c : Exemple

Parcours MIP (S4) Module M147: Statistique et Probabilités 36 / 83


Statistique descriptive à une dimension II- Réduction des données

Les quantiles

Définition
Le quantile (ou fractile) d’ordre p (0 ≤ p ≤ 1), noté Zp , d’une série statistique
est la valeur telle que p est la proportion des individus ayant une modalité
inférieure ou égale à Zp . On écrit F (Zp ) = p.

Remarque
La médiane est le quantile d’ordre p = 1/2.

Parcours MIP (S4) Module M147: Statistique et Probabilités 37 / 83


Statistique descriptive à une dimension II- Réduction des données

Les quantiles

Quantiles particuliers
1 Quartile : avec, p = 1/4; p = 2/4; p = 3/4
on trouve les 3 quartiles respectifs, notés

Q1 = Z0.25 ; Q2 = Z0.5 = Me ; Q3 = Z0.75

2 Décile : avec, p = 1/10; p = 2/10; . . . , p = 9/10


on trouve les 9 déciles respectifs, notés

D1 = Z0.1 ; D2 = Z0.2 ; . . . ; D9 = Z0.9

3 Centile (ou percentile) : avec, p = 1/100; p = 2/100; . . . ; p = 99/100


on trouve les 99 centiles respectifs, notés

C1 = Z0.01 ; C2 = Z0.02 ; . . . ; C99 = Z0.99

Parcours MIP (S4) Module M147: Statistique et Probabilités 38 / 83


Statistique descriptive à une dimension II- Réduction des données

Les quantiles
Détermination pratique : Cas de v.s.d

Soit x(1) , x(2) , . . . , x(n) la série ordonnée (ordre croissant) d’une v.s.d.
− Si np est un nombre entier, alors

1
Zp = (x(np) + x(np+1) )
2
− Si np n’est pas un nombre entier, alors

Zp = x([np])

où [np] représente le plus petit nombre entier supérieur ou égal à np.

Exemple : Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27.

Q1 = x([2.5]) = x(3) = 15
Q2 = 1/2(x(5) + x(6) ) = (18 + 19)/2 = 18.5
Q3 = x([7.5]) = x(8) = 24
D1 = 1/2(x(1) + x(2) ) = 12.5

Parcours MIP (S4) Module M147: Statistique et Probabilités 39 / 83


Statistique descriptive à une dimension II- Réduction des données

Les quantiles
Détermination pratique : Cas de v.s.c

1 Méthode d’interpolation : d’après le tableau statistique ou la courbe


cumulative, on détermine d’abord la classe [xi , xi+1 [ telle que :
F (xi ) ≤ p < F (xi+1 ). Puis, par interpolation linéaire dans [xi , xi+1 [, on
calcule Zp tel que
p − Fi
Zp = xi + (ai )
Fi+1 − Fi
2 Méthode graphique : On trace la courbe cumulative, et on détermine Zp
comme l’abscisse du point de la courbe d’ordonnée F (Zp ) = p.

Parcours MIP (S4) Module M147: Statistique et Probabilités 40 / 83


Statistique descriptive à une dimension II- Réduction des données

Les quantiles
Détermination pratique : Cas de v.s.c : Exemple

i [xi , xi+1 [ ci ni fi (%) Fi (%) ai


1 [200,300[ 250 8 9.88 9.88 100
2 [300,400[ 350 26 32.10 41.98 100
3 [400,500[ 450 12 14.81 56.79 100
4 [500,600[ 550 10 12.35 69.14 100
5 [600,700[ 650 15 18.52 87.65 100
6 [700,800[ 750 5 6.17 93.83 100
7 [800,900[ 850 3 3.70 97.53 100
8 [900,1000[ 950 2 2.47 100 100
Total 81 100

D1 = 300 + 100 ∗ (10 − 9.88)/(41.98 − 9.88) = 300373.8dh


Q1 = 300 + 100 ∗ (25 − 9.88)/(41.98 − 9.88) = 347102.8dh
Q3 = 600 + 100 ∗ (75 − 69.14)/(87.65 − 69.14) = 631658.6dh
D9 = 700 + 100 ∗ (90 − 87.65)/(93.83 − 87.65) = 738025.9dh

Parcours MIP (S4) Module M147: Statistique et Probabilités 41 / 83


Statistique descriptive à une dimension II- Réduction des données

Les quantiles
Détermination pratique : Cas de v.s.c : Exemple

Parcours MIP (S4) Module M147: Statistique et Probabilités 41 / 83


Statistique descriptive à une dimension II- Réduction des données

La moyenne

Définition
La moyenne arithmétique d’une distribution statistique (xi , ni )1≤i≤n que l’on
note X̄ , est donnée par :
k k
1X X
X̄ = ni xi = fi xi
n
i=1 i=1

Les xi sont les modalités dans le cas d’une v.s.d et les centres des classes
dans le cas d’une v.s.c.

N.B

Ne jamais exprimer les fi en pourcentage pour calculer X̄ .

Parcours MIP (S4) Module M147: Statistique et Probabilités 42 / 83


Statistique descriptive à une dimension II- Réduction des données

La moyenne
Détermination pratique : Cas de v.s.d

TABLE: Tableau statistique des nombres d’enfants pour 229 familles.

Mi ni fi ni ∗ Mi fi ∗ Mi
0 48 0.2096 0 0
1 65 0.2838 65 0.2838
2 44 0.1921 88 0.3843
3 27 0.1179 81 0.3537
4 19 0.0830 76 0.3319
5 15 0.0655 75 0.3275
6 8 0.0349 48 0.21
7 2 0.0087 14 0.0611
8 1 0.0044 8 0.0349
Total 229 100 455 X̄ = 1.99 ' 2

Parcours MIP (S4) Module M147: Statistique et Probabilités 43 / 83


Statistique descriptive à une dimension II- Réduction des données

La moyenne
Détermination pratique : Cas de v.s.c

i [xi , xi+1 [(×103 dh) ci ni fi (%) Fi (%) ci ∗ ni (×103 dh)


1 [200,300[ 250 8 9.88 9.88 2000
2 [300,400[ 350 26 32.10 41.98 9100
3 [400,500[ 450 12 14.81 56.79 5400
4 [500,600[ 550 10 12.35 69.14 5500
5 [600,700[ 650 15 18.52 87.65 9750
6 [700,800[ 750 5 6.17 93.83 3750
7 [800,900[ 850 3 3.70 97.53 2550
8 [900,1000[ 950 2 2.47 100 1900
Total 81 100 39950

Donc le prix moyen des propriétés est :

39950000
X̄ = = 493209.88dh
81

Parcours MIP (S4) Module M147: Statistique et Probabilités 44 / 83


Statistique descriptive à une dimension II- Réduction des données

Propriétés de la moyenne arithmétique


1 Si X est une v.s.(variable statistique) constante c.à.d chaque individu
dans la population admet la même modalité a, alors X̄ = a
2 Si X est une v.s. de moyenne X̄ , et a et b deux réels, alors la moyenne
de la v.s. Y = aX + b est :
Ȳ = aX̄ + b
3 Si une population P de taille n est composée de m sous-populations
P1 , P2 , . . . , Pm , de tailles respectives n1 , n2 , . . . , nm et de moyennes
respectives x̄1 , x̄2 , . . . , x̄m . Alors la moyenne x̄ de P est donnée par :
m
1X
x̄ = ni x̄i
n
i=1

Exemple
Soit P une population composée de deux sous-populations P1 et P2 de
moyennes et effectifs respectifs (X̄1 = 5.5 ; n1 = 10) et (X̄2 = 8.3 ; n2 = 14).
Alors la moyenne de la population est :
1
X̄ = (10x5.5 + 14x8.3) = 7.13
10 + 14
Parcours MIP (S4) Module M147: Statistique et Probabilités 45 / 83
Statistique descriptive à une dimension II- Réduction des données

Paramètres de dispersion

Parcours MIP (S4) Module M147: Statistique et Probabilités 46 / 83


Statistique descriptive à une dimension II- Réduction des données

Paramètres de dispersion

Exemple introductif

On considère les notes obtenues sur 3 matières, A, B, C observées sur 6


individus.
indiv1 indiv2 indiv3 indiv4 indiv5 indiv6 Moyenne
A 12 10 7 11 11 9 10
B 20 0 0 20 0 20 10
C 10 10 10 10 10 10 10

La moyenne des 3 matières est la même mais la dispersion des notes des 6
individus est différente d’une matière à l’autre.

Parcours MIP (S4) Module M147: Statistique et Probabilités 47 / 83


Statistique descriptive à une dimension II- Réduction des données

L’étendue

Définition
L’étendue est la différence entre la plus grande et la plus petite valeur de la
variable. pour une variable continue, l’étendue est la différence entre la borne
supérieure de la dernière classe et la borne inférieure de la pemière classe.
On note
e = xmax − xmin

Parcours MIP (S4) Module M147: Statistique et Probabilités 48 / 83


Statistique descriptive à une dimension II- Réduction des données

L’étendue

Définition
L’étendue est la différence entre la plus grande et la plus petite valeur de la
variable. pour une variable continue, l’étendue est la différence entre la borne
supérieure de la dernière classe et la borne inférieure de la pemière classe.
On note
e = xmax − xmin

Exemple

indiv1 indiv2 indiv3 indiv4 indiv5 indiv6 Moyenne e


A 12 10 7 11 11 9 10 5
B 20 0 0 20 0 20 10 20
C 10 10 10 10 10 10 10 0

Ce paramètre présente un intérêt très limité parce qu’il est très sensible aux
valeurs extrêmes

Parcours MIP (S4) Module M147: Statistique et Probabilités 48 / 83


Statistique descriptive à une dimension II- Réduction des données

Variance et écart-type

Définition1
La variance d’une distribution statistique, X = (xi , ni )1≤i≤k , que l’on note
V (X ), est donnée par :
k k
1X X
V (X ) = ni (xi − X̄ )2 = fi (xi − X̄ )2
n
i=1 i=1

Pour une v.s.c les xi sont les centres des classes.

Définition2
p
L’écart-type, noté σ(X ) = V (X )
L’écart-type est donc la moyenne quadratique des écarts à la moyenne
arithmétique.

Parcours MIP (S4) Module M147: Statistique et Probabilités 49 / 83


Statistique descriptive à une dimension II- Réduction des données

Variance et écart-type
Propriétés de la variance

1 La variance d’une série statistique X s’écrit :


k k
1X 2 2
X
V (X ) = ( ni xi ) − X̄ = ( fi xi2 ) − X̄ 2
n
i=1 i=1

2 Soient a et b deux nombres réels, on a :

V (X + b) = V (X ), V (aX + b) = a2 V (X )
3 Soit P une populatin de taille n, composée de m sous-population
P1 , P2 , . . . , Pm , de tailles respectives n1 , n2 , . . . , nm , de moyennes
respectives x̄1 , x̄2 , . . . , x̄m et de variances respectives V1 , V2 , . . . , Vm .
Alors la variance V de la population p est donnée par :
m m
1X 1X
V = ni Vi + ni (x̄i − x̄)2
n n
i=1 i=1

1
Pm
où x̄ = n i=1 ni x̄i est la moyenne de la population P.
Parcours MIP (S4) Module M147: Statistique et Probabilités 50 / 83
Statistique descriptive à une dimension II- Réduction des données

Propriétés de la variance

Remarques
1 L’écart-type (ou La variance) est un indicateur de la dispersion d’une
série par rapport à sa moyenne.
2 La variance et l’écart-type tiennent compte de toutes les valeurs d’une
série statistique.
3 Si la variance (ou l’écart-type) est faible, cela signifie que les valeurs sont
assez concentrées autour de la moyenne.
4 Si la variance (ou l’écart-type) est élevé, cela veut dire au contraire que
les valeurs sont plus dispersées autour de la moyenne.
5 La variance (ou l’écart-type) est nulle si et seulement si toutes les valeurs
sont identiques et égales à la moyenne.

Parcours MIP (S4) Module M147: Statistique et Probabilités 51 / 83


Statistique descriptive à une dimension II- Réduction des données

Coefficient de variation

Définition
Le coefficient de variation est un paramètre relatif de dispersion, utilisé
généralement pour comparer les dispersions de deux ou plusieurs séries
statistiques. On le note Cv et il est donné par :

σ(X )
Cv = (rapport sans unité)

Parcours MIP (S4) Module M147: Statistique et Probabilités 52 / 83


Statistique descriptive à une dimension II- Réduction des données

Boı̂te à moustaches
Définition
La boı̂te à moustaches permet de représenter une distribution de valeurs sous
forme simplifiée avec la médiane (trait épais), une boı̂te s’étendant du premier
quartile au troisième quartile, et des moustaches qui s’étendent par défaut
jusqu’à la valeur distante d’au maximum 1.5 fois la distance interquartile. .

Exemple Un groupe de courtiers immobiliers a effectué une enquête pour


connaı̂tre la distribution de la superficie (en m2 ) des propriétés de logement
dans un secteur d’une grande ville. on a obtenu les résultats suivants :
20 50 51 52 54 55 56 56 58
60 60 62 64 65 65 65 65 67.5
67.5 68 68 70 70 70 72 72 73
74 74 75 75 78 78 80 80 80
80 82 82 84 85 85 85 87 87
90 90 90 95 100 100 102 106 108
110 110 110 115 120 120 125 125 125
130 130 130 130 135 135 140 140 143
150 155 160 160 170 170 180 190 300
Parcours MIP (S4) Module M147: Statistique et Probabilités 53 / 83
Statistique descriptive à une dimension II- Réduction des données

Boı̂te à moustaches

Boxplot pour la variable superficie en m^2

300
250
200
150
100
50 ●

Parcours MIP (S4) Module M147: Statistique et Probabilités 54 / 83


Statistique descriptive à deux dimensions

Chapitre II

Statistique descriptive à deux dimensions

Parcours MIP (S4) Module M147: Statistique et Probabilités 55 / 83


Statistique descriptive à deux dimensions

Introduction

On considère l’étude simultanée de deux variables statistiques sur la même


population. On cherche à :
1 Etendre les notions de la statistique descriptive à une variable au cas
d’un couple de variables.
2 Déterminer la liaison qui peut exister entre elles.
3 Pouvoir expliquer les variations de l’une des variables en fonction de
l’autre.
On s’intéresse à deux variables X et Y . Chacune d’entre elles peut être, soit
quantitative, soit qualitative.
La série statistique est alors une suite de N couples des valeurs prises par les
deux variables sur chaque individu :

(x1 , y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xN , yN )

Parcours MIP (S4) Module M147: Statistique et Probabilités 56 / 83


Statistique descriptive à deux dimensions I- Tableau de contingence

Tableau de contingence

Définition
Les données statistiques relatives à deux variables X et Y , considérées
simultanément, sont présentées sous forme de distributions d’effectifs ou de
fréquences dans un tableau statistique, appelé tableau de contingence.

A partir de ce tableau, on peut déterminer :


1 La distribution conjointe.
2 La distribution marginale.

Parcours MIP (S4) Module M147: Statistique et Probabilités 57 / 83


Statistique descriptive à deux dimensions I- Tableau de contingence

Tableau de contingence des effectifs


Y y1 y2 ... yj ... yp Total
X
x1 n11 n12 ... n1j ... n1p n1.
.. .. .. .. .. ..
. . . . . .
xi ni1 ni2 ... nij ... nip ni.
.. .. .. .. .. ..
. . . . . .
xk nk1 nk2 ... nkj ... nkp nk.
Total n.1 n.2 ... n.j ... n.p N
nij le nombre de fois que les modalités xi et yj apparaissent ensemble.
p
X
ni. = nij , i = 1, . . . , k le nombre de fois que la modalité xi apparaı̂t.
j=1
k
X
n.j = nij , j = 1, . . . , p le nombre de fois que la modalité yj apparaı̂t.
i=1
k Xp
X
N= nij le nombre total de couples observés.
i=1 j=1
Parcours MIP (S4) Module M147: Statistique et Probabilités 58 / 83
Statistique descriptive à deux dimensions I- Tableau de contingence

Tableau de contingence des fréquences


Y y1 y2 ... yj ... yp Total
X
x1 f11 f12 ... f1j ... f1p f1.
.. .. .. .. .. ..
. . . . . .
xi fi1 fi2 ... fij ... fip fi.
.. .. .. .. .. ..
. . . . . .
xk fk1 fk2 ... fkj ... fkp fk.
Total f.1 f.2 ... f.j ... f.p 100%
nij
fij = N la proportion d’apparition des modalités xi et yj ensemble.
p
ni. X
fi. = = fij , i = 1, . . . , k la proportion d’apparition de la modalité xi .
N
j=1
k
n.j X
f.j = = fij , j = 1, . . . , p la proportion d’apparition de la modalité yj .
N
i=1
k p p
k X
X X X
fi. = f.j = fij = 100%.
i=1 j=1 i=1 j=1
Parcours MIP (S4) Module M147: Statistique et Probabilités 59 / 83
Statistique descriptive à deux dimensions I- Tableau de contingence

Définitions
Distribution conjointe
On appelle distribution conjointe du couple (X ,Y ) la distribution à deux
dimensions des individus de la population qui présentent une modalité de X
et une modalité de Y . Elle correspond aux effectifs nij (ou aux fréquences fij )
du tableau de contingence.

Distribution marginale de X
On appelle distribution marginale de X la distribution à une dimension des
individus de la population qui présentent une modalité de X quelque soit la
modalité de Y . Elle correspond aux effectifs ni. (ou aux fréquences fi. ) de la
dernière colonne du tableau de contingence.

Distribution marginale de Y
On appelle distribution marginale de Y la distribution à une dimension des
individus de la population qui présentent une modalité de Y quelque soit la
modalité de X . Elle correspond aux effectifs n.j (ou aux fréquences f.j ) de la
dernière ligne du tableau de contingence.
Parcours MIP (S4) Module M147: Statistique et Probabilités 60 / 83
Statistique descriptive à deux dimensions I- Tableau de contingence

Exemple

On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la


couleur des yeux. On a le tableau de contingence des effectifs :

Bleu Vert Marron Total


Homme 10 50 20 80
Femme 20 60 40 120
Total 30 110 60 200

et le tableau de contingence des fréquences :

Bleu Vert Marron Total


Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00

Parcours MIP (S4) Module M147: Statistique et Probabilités 61 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètres d’une série double

Introduction

On distingue deux types de paramètres :


1 Les paramètres qui concernent une seule variable.
2 Les paramètres qui décrivent les relations qui existent entre les deux
variables considérées simultanément, ils caractérisent la distribution
conjointe.

Parcours MIP (S4) Module M147: Statistique et Probabilités 62 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètres des distributions partielles : Moyenne

La moyenne marginale de X est donnée par :


k k
1X X
X̄ = ni. xi = fi. xi
N
i=1 i=1

La moyenne marginale de Y est donnée par :


p p
1X X
Ȳ = n.j yj = f.j yj
N
j=1 j=1

Parcours MIP (S4) Module M147: Statistique et Probabilités 63 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètres des distributions partielles : Moyenne


Exemple
Calculons les différentes moyennes de la distribution des notes de Math et de
Physique des étudiants de BCG :
Math [0, 5[ [5, 10[ [10, 20[ ni. ni. xi
Physique (2.5) (7.5) (15)
[0, 7[ (3.5) 17 5 4 26 91
[7, 10[ (8.5) 3 21 9 33 280.5
[10, 12[ (11) 2 7 77 86 946
[12, 15[ (13.5) 1 3 34 38 513
[15, 20[ (17.5) 0 1 16 17 297.5
n.j 23 37 140 200 (2128)
n.j yj 57.5 277.5 2100 (2435)

Moyennes Marginales :

2128 2435
X̄ = = 10, 64, Ȳ = = 12.175
200 200

Parcours MIP (S4) Module M147: Statistique et Probabilités 64 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètres des distributions partielles : Variance

La variance marginale de X est donnée par :


k k
1X 1 X
V (X ) = ni. (xi − X̄ )2 = ni. xi2 − (X̄ )2
N N
i=1 i=1

La variance marginale de Y est donnée par :


p p
1X 2 1 X
V (Y ) = n.j (yj − Ȳ ) = n.j yj2 − (Ȳ )2
N N
j=1 j=1

Parcours MIP (S4) Module M147: Statistique et Probabilités 65 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètres des distributions partielles : Variance


Exemple
Math [0, 5[ [5, 10[ [10, 20[ ni. ni. xi2
Physique (2.5) (7.5) (15)
[0, 7[ (3.5) 17 5 4 26 318.5
[7, 10[ (8.5) 3 21 9 33 2384.25
[10, 12[ (11) 2 7 77 86 10406
[12, 15[ (13.5) 1 3 34 38 6925.5
[15, 20[ (17.5) 0 1 16 17 5206.25
n.j 23 37 140 200 (25240.5)
n.j yj2 143.75 2081.25 31500 (33725)
La variance marginale de X est :
25240.5
− 10.642 = 12.99
V (X ) =
200
la variance marginale de Y est :
33725
V (Y ) = − 12.1752 = 20.39
200
Parcours MIP (S4) Module M147: Statistique et Probabilités 66 / 83
Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètre de distribution conjointe : Covariance

Définition
La covariance entre deux variables statistiques X et Y , notée Cov (X , Y ), est
donnée par :
k p p
k X
1 XX X
Cov (X , Y ) = nij (xi − X̄ )(yj − Ȳ ) = fij (xi − X̄ )(yj − Ȳ )
N
i=1 j=1 i=1 j=1

On a aussi la formule développée :


k p p
k X
1 XX X
Cov (X , Y ) = nij xi yj − (X̄ Ȳ ) = fij xi yj − (X̄ Ȳ )
N
i=1 j=1 i=1 j=1

Parcours MIP (S4) Module M147: Statistique et Probabilités 67 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètre de distribution conjointe : Covariance

Propriétés

1 Si X = Y alors Cov (X , Y ) = V (X ) = V (Y )
2 |Cov (X , Y )| ≤ σ(X )σ(Y )
3 Si X 0 = aX + b et Y 0 = cY + d (a, b, c et d des constantes) alors :
Cov (X 0 , Y 0 ) = acCov (X , Y )
4 La covariance est positive ou négative selon que la relation entre les
variables est croissante ou décroissante, c’est à dire selon que les deux
variables varient dans le même sens ou en sens inverse.

Parcours MIP (S4) Module M147: Statistique et Probabilités 68 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Paramètre de distribution conjointe : Covariance


Exemple

Calculons les différents paramètres de la distribution des notes de Math et de


Physique des étudiants de BCG :
P
Math [0, 5[ [5, 10[ [10, 20[ xi j nij yj
Physique (2.5) (7.5) (15)
[0, 7[ (3.5) 17 5 4 490
[7, 10[ (8.5) 3 21 9 2550
[10, 12[ (11) 2 7 77 13337.5
[12, 15[ (13.5) 1 3 34 7222.5
[15,
P 20[ (17.5) 0 1 16 4331.25
yj i nij xi 301.25 2482.5 25147.5 (27931.25)

La covariances des notes de physique et de Math est :

27931.25
Cov (X , Y ) = − 10.64 × 12.175 = 10.11
200

Parcours MIP (S4) Module M147: Statistique et Probabilités 69 / 83


Statistique descriptive à deux dimensions Paramètres d’une série double

Cas particulier

Si la série double est donnée sous la forme (xi , yi )1≤i≤N , c’est-à-dire par un
tableau sous la forme :
Série X x1 x2 ... xi ... xN
Série Y y1 y2 ... yi ... yN

Alors on a un couple de variable sans pondération, dont les paramètres sont


donnés par :
N N
1 X 1 X
X̄ = xi ; Ȳ = yi
N N
i=1 i=1

N
1 X
Cov (X , Y ) = xi yi − X̄ Ȳ
N
i=1

Parcours MIP (S4) Module M147: Statistique et Probabilités 70 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire

Démarche

1 représenter le nuage de points (xi , yi ).


2 Chercher s’il existe une courbe qui passera le plus proche possible parmi
tous les points du nuage des points.
3 mesurer le degré de liaison entre les deux variables.

Prévoir l’une des variable si on connaı̂t l’autre.

Parcours MIP (S4) Module M147: Statistique et Probabilités 71 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire

Un nuage de points allongé est généralement ajusté par une droite


(ajustement ou régression linéaire).

On détermine l’équation de cette droite par la méthode des moindres carrés :


qui consiste à déterminer l’équation d’une droite telle que la somme des
carrés des distances entre les points du nuage et cette droite soit minimale.

Parcours MIP (S4) Module M147: Statistique et Probabilités 72 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire
Ainsi on a deux droites régressions :

1) Droite de régression, D, de Y en X utilisée pour expliquer Y par X .


On dit que X est la variable explicative ou indépendante et Y est la variable
expliquée ou dépendante.
L’équation de cette droite (y = ax + b) est déterminée par la méthode des
PN
moindres carrés, telle que i=1 (yi − axi − b)2 soit minimale. En effet on a :

Cov (X , Y )
a= et b = Ȳ − aX̄
V (X )

2) Droite de régression, D 0 , de X en Y utilisée pour expliquer X en fonction de


Y.
Son équation (x = a0 y + b0 ) est déterminée par la méthode des moindres
PN
carrés, telle que i=1 (xi − a0 yi − b0 )2 soit minimale. En effet on a :

Cov (X , Y )
a0 = et b0 = X̄ − a0 Ȳ
V (Y )

Parcours MIP (S4) Module M147: Statistique et Probabilités 73 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire

Remarques
1 Généralement, on trace les droites D et D 0 sur le même graphique, pour
celà, on écrit l’équation de D 0 sous la forme :

1 b0
y= x −
a0 a0
1
2 Les coefficients directeurs respectifs, a, a0 de D et D 0 sont de même
signe.
3 Les deux droites se coupent en un point moyen G(X̄ , Ȳ )

Parcours MIP (S4) Module M147: Statistique et Probabilités 74 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire : Exemple


On mesure le poids Y et la taille X de 20 individus.
xi 155 162 157 170 164 162 169 170 178 173
yi 60 61 64 67 68 69 70 70 72 73
xi 180 175 173 175 179 175 180 185 189 187
yi 75 76 78 80 85 90 96 96 98 101
On commence par représenter le nuage de points : diagramme de régression.
Le nuage de points du poids en fonction de la taille Le nuage de points de la taille en fonction du poids

190
● ●
100


185
● ● ●

180
90

● ● ●

175
● ● ●
poids

● ●

taille
80

170
● ● ●


● 165


70

● ●

● ● ●

160




155
60

● ●

155 160 165 170 175 180 185 190 60 70 80 90 100

taille poids

Parcours MIP (S4) Module M147: Statistique et Probabilités 75 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire : Exemple

Après, on détermine les équations des deux droites D et D 0 :


Equation de la droite D : y = ax + b avec

Cov (X , Y ) 105.84
a= = = 1.18
V (X ) 89.67

b = Ȳ − aX̄ = 77.45 − (1.18 × 172.9) = −126.57


D’où l’équation de D : y = 1.18x − 126.57

Equation de la droite D 0 : x = a0 y + b0 avec

Cov (X , Y ) 105.84
a0 = = = 0.65
V (Y ) 162.15

b = Ȳ − aX̄ = 172.9 − (0.65 × 77.45) = 122.56


D’où l’équation de D 0 : x = 0.65y + 122.56 ou y = 1.54x − 188.55

Parcours MIP (S4) Module M147: Statistique et Probabilités 76 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Ajustement linéaire : Exemple


Puis, on trace sur le même graphique les droites de régression :


100

● ●
90


poids

80

●G ●



70

● ●



60

155 160 165 170 175 180 185 190

taille

Plus les droites sont proches l’une de l’autre, meilleur est l’ajustement linéaire.

Parcours MIP (S4) Module M147: Statistique et Probabilités 77 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Résidus et valeurs ajustées

1) Les valeurs ajustées sont les prédictions des yi réalisées au moyen de la


variable x et de la droite de régression de y en x. Elles sont obtenues par la
droite
yi∗ = axi + b
La moyenne des valeurs ajustées est égale à la moyenne des valeurs
observées.

2) Les résidus sont les différences entre les valeurs observées et les valeurs
ajustées de la variable dépendante.

ei = yi − yi∗

Parcours MIP (S4) Module M147: Statistique et Probabilités 78 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Coefficient de corrélation linéaire

On mesure le degré de la liaison entre X et Y par le coefficient de corrélation.

Définition
Le coefficient de corrélation associé à X et Y , que l’on note r , est donné par :

Cov (X , Y )
r= (sans unité).
σ(X )σ(Y )

La corrélation entre le poids et la taille est :

r = 0.88

Parcours MIP (S4) Module M147: Statistique et Probabilités 79 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Coefficient de corrélation linéaire

Propriétés
1 r a le même signe que a, a0 et Cov (X , Y ).
2 On a r 2 = aa0 .
3 0 ≤ r 2 ≤ 1, c’est-à-dire, −1 ≤ r ≤ 1.
4 Plus |r | est proche de 1 (resp. proche de 0) plus la liaison linéaire entre X
et Y est forte (resp. faible) et donc la qualité de la régression est bonne
(resp. mauvaise).
5 Si r = ±1 on dit qu’on a une liaison linéaire totale, donc tous les points
sont alignés : corrélation parfaite.
6 Si r = 0 aucune dépendance linéaire entre les deux variables :
corrélation nulle.
N.B : Une corrélation proche ou égale à 0 ne signifie pas nécessairement que
les deux variables sont indépendantes, cela signifie seulement qu’il n’y a pas
de dépendance linéaire.

Parcours MIP (S4) Module M147: Statistique et Probabilités 80 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Coefficient de corrélation linéaire : Exemple

r=0

● ●

● ●

● ●

● ●

● ● ●

Parcours MIP (S4) Module M147: Statistique et Probabilités 81 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Autres types d’ajustement


Dans certains cas, l’ajustement à une fonction linéaire n’est pas adéquat : un
ajustement des données à une fonction non linéaire doit être envisagé

Exemple 1

Supposons que les variables statistiques X et Y sont liées par une relation de
la forme.
Y = bX a (ajustement polynomiale)
Dans ce cas, cette équation peut être transformée en prenant le logarithme

ln(Y ) = ln(b) + a ln(X )

En effectuant les changements de variables suivants

Y 0 = ln(Y ), X 0 = ln(X ), B = ln(b)

nous nous ramenons au cas

Y 0 = aX 0 + B

Parcours MIP (S4) Module M147: Statistique et Probabilités 82 / 83


Statistique descriptive à deux dimensions III- Ajustement linéaire

Autres types d’ajustement

Exemple 2

Supposons que les variables statistiques X et Y sont liées par une relation de
la forme.
Y = b exp(aX ) (ajustement exponentielle)
Dans ce cas, cette équation peut être transformée en passant aux logarithmes

ln(Y ) = ln(b) + aX

En effectuant les changements de variables suivants

Y 0 = ln(Y ), B = ln(b)

nous nous ramenons au cas

Y 0 = aX + B

Parcours MIP (S4) Module M147: Statistique et Probabilités 83 / 83