Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE ET PROBABILITÉS
Pr. A. BELMAATI
Département de Mathématiques
Définition
Statistique
Statistiques
Définition
Statistique
Statistiques
- Une discipline scientifique.
Définition
Statistique
Statistiques
- Une discipline scientifique.
Définition
Statistique
Statistiques
- Une discipline scientifique.
- Un ensemble de données
- L’ensemble des méthodes chiffrées contenant des
permettant de recueillir, de informations sur un
classer, de présenter et phénomène précis.
d’analyser les informations
relatives à des phénomènes
que l’on cherche à expliquer -Les résultats calculés à partir
pour en tirer des conclusions, des données.
faire des prévisions et prendre
des décisions judicieuses.
Exemples
2 Analyse statistique :
2 Analyse statistique :
2 Analyse statistique :
2 Analyse statistique :
Vocabulaire
Vocabulaire
On distingue deux types de caractères :
Chapitre I
Exemple introductif
Bon ; Bon ; Moyen ; Bon ; Bon ; Mauvais ; Bon ; Excellent ; Moyen ; Bon ; Bon ;
Excellent ; Moyen ; Bon ; Moyen ; Bon ; Excellent ; Mauvais ; Bon ; Moyen ;
Bon ; Bon ; Mauvais ; Excellent ; Bon ; Bon ; Excellent ; Moyen ; Bon ; Moyen ;
Excellent ; Moyen ; Excellent ; Excellent ; Bon ; Bon ; Moyen ; Excellent ; Bon ;
Bon ; Excellent ; Bon ; Mauvais ; Moyen ; Excellent ; Bon ; Bon ; Excellent ;
Moyen ; Bon ; Excellent ; Bon ; Moyen ; Excellent ; Bon ; Bon ; Moyen ; Bon ;
Excellent ; Bon ; Mauvais ; Bon ; Moyen ; Bon ; Bon ; Moyen ; Bon ; Bon ;
Moyen ; Moyen ; Bon ; Excellent ; Bon ; Moyen ; Bon ; Moyen ; Bon ; Bon ;
Moyen ; Moyen ; Bon.
1 Tableau statistique
2
Représentation graphique
Tableau Statistique
Population étudiée : Les voitures.
Echantillon : 81 voitures.
Caractère étudié : Etat Mécanique.
Sa nature : Qualitatif ordinal.
Les modalités : Mauvais, Moyen, Bon, Excellent.
Tableau Statistique
Population étudiée : Les voitures.
Echantillon : 81 voitures.
Caractère étudié : Etat Mécanique.
Sa nature : Qualitatif ordinal.
Les modalités : Mauvais, Moyen, Bon, Excellent.
La série ordonnée :
Mauvais ; Mauvais ; Mauvais ; Mauvais ; Mauvais ; Moyen ; Moyen ; Moyen ;
Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ;
Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ; Moyen ;
Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ;
Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ;
Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ; Bon ;
Tableau Statistique
Population étudiée : Les voitures.
Echantillon : 81 voitures.
Caractère étudié : Etat Mécanique.
Sa nature : Qualitatif ordinal.
Les modalités : Mauvais, Moyen, Bon, Excellent.
Tableau statistique :
Repésentations graphiques
Chaque modalité est représentée par un secteur dont l’angle est proportionnel
à l’effectif. La totalité de la circonférence (360˚) correspond à l’effectif total.
Chaque modalité est représentée par un secteur dont l’angle est proportionnel
à l’effectif. La totalité de la circonférence (360˚) correspond à l’effectif total.
Mi ni fi (en %)
0 48 20.96
1 65 28.38
2 44 19.21
3 27 11.79
4 19 8.30
5 15 6.55
6 8 3.49
7 2 0.87
8 1 0.44
Total 229 100
Parcours MIP (S4) Module M147: Statistique et Probabilités 14 / 83
Statistique descriptive à une dimension I- Organisation des données
0 2 4 6 8
nombre d'enfants
0 2 4 6 8
Mi
TABLE: Tableau statistique des nombres d’enfants pour 229 familles d’une localité.
Mi ni fi (en %) Fi (en %)
0 48 20.96 20.96
1 65 28.38 49.34
2 44 19.21 68.56
3 27 11.79 80.35
4 19 8.30 88.65
5 15 6.55 95.20
6 8 3.49 98.69
7 2 0.87 99.56
8 1 0.44 100
Total 229 100
La courbe cumulative
1.0
0.8
Fréquences cumulées
0.6
0.4
0.2
0.0
0 2 4 6 8
Si = ai ∗ hi = c ∗ fi
[xi , xi+1 [
i ci ni fi (%) Fi (%) ai
×103
1 [200,300[ 250 8 9.88 9.88 100
2 [300,400[ 350 26 32.10 41.98 100
3 [400,500[ 450 12 14.81 56.79 100
4 [500,600[ 550 10 12.35 69.14 100
5 [600,700[ 650 15 18.52 87.65 100
6 [700,800[ 750 5 6.17 93.83 100
7 [800,900[ 850 3 3.70 97.53 100
8 [900,1000[ 950 2 2.47 100 100
Total 81 100
Histogramme
Les amplitudes des classes sont toutes égales à ai alors on prend (c = ai ) et
on a hi = fi pour tout i
25
20
15 Histogramme
Effectifs
10
5
0
Prix
10
5
0
Prix
0.010
0.005
0.000
0.010
0.005
0.000
Dans le cas d’une v.s.c, la courbe cumulative (ou la courbe des fréquences
cumulées) est la représentation graphique de la fonction de répartition, notée
F (x),
Exemple : Prix des propriétés.
[xi , xi+1 [
i ci ni fi (%) Fi (%) ai
×103
1 [200,300[ 250 8 9.88 9.88 100
2 [300,400[ 350 26 32.10 41.98 100
3 [400,500[ 450 12 14.81 56.79 100
4 [500,600[ 550 10 12.35 69.14 100
5 [600,700[ 650 15 18.52 87.65 100
6 [700,800[ 750 5 6.17 93.83 100
7 [800,900[ 850 3 3.70 97.53 100
8 [900,1000[ 950 2 2.47 100 100
Total 81 100
Dans le cas d’une v.s.c, la courbe cumulative (ou la courbe des fréquences
cumulées) est la représentation graphique de la fonction de répartition, notée
F (x),
Exemple : Prix des propriétés.
1.0
0.8
Fréquences cumulées
0.6
0.4
0.2
0.0
Prix (10^3)
−− Le mode
−− La médiane
−− Les quantile
−− La moyenne
−− L’étendue.
−− L’écart interquantile.
−− La variance, l’écart-type.
−− Le coefficient de variation.
−− La boite à moustache (boxplot).
Le mode
Définition
Le mode, noté M0 , est la valeur du caractère qui admet le plus grand effectif
(ou la plus grande valeur de la fréquence). C’est la modalité la plus fréquente.
Le mode
Détermination pratique : Cas d’un caractère qualitatif
Exemple
L’état mécanique de 81 voitures contrôlées. M0 = ”Bon”.
Le mode
Détermination pratique : Cas d’un caractère qualitatif
Exemple
L’état mécanique de 81 voitures contrôlées. M0 = ”Bon”.
Le mode
Détermination pratique : Cas de v.s.d
Exemple
Nombres d’enfants pour 229 familles d’une localité. M0 = 1.
Mi ni fi (en %)
0 48 20.96
1 65 28.38
2 44 19.21
3 27 11.79
4 19 8.30
5 15 6.55
6 8 3.49
7 2 0.87
8 1 0.44
Total 229 100
Le mode
Détermination pratique : Cas de v.s.d
Exemple
Nombres d’enfants pour 229 familles d’une localité. M0 = 1.
60
50
40
effectifs
30
20
10
0
0 2 4 6 8
nombre d'enfants
Le mode
Détermination pratique : Cas de v.s.c
Le mode
Détermination pratique : Cas de v.s.c
Exemple
Etude des valeurs de la superficie des propriétés.
i [xi , xi+1 [ ci ni fi (%) Fi (%) ai hi (%)
1 [45,55[ 50 5 6.17 6.17 10 6.17
2 [55,65[ 60 8 9.88 16.05 10 9.88
3 [65,75[ 70 16 19.75 30.86 10 19.75
4 [75,85[ 80 12 14.81 43.21 10 14.81
5 [85,105[ 95 12 14.81 62.96 20 7.40
6 [105,125[ 115 8 9.88 75.31 20 4.94
7 [125,145[ 135 12 14.81 90.12 20 7.40
8 [145,165[ 155 4 4.94 95.06 20 2.47
9 [165,195[ 180 4 4.94 100 30 1.65
Total 81 100 ar = 10
Le mode
Détermination pratique : Cas de v.s.c
Exemple
Etude des valeurs de la superficie des propriétés.
La médiane
Définition
On appelle médiane la valeur de la série statistique, notée Me , qui partage la
population en deux sous populations de même effectif : le nombre
d’observations inférieures à Me est égal au nombre d’observations
supérieures à Me .
Remarque
Cette définition n’a de sens que si les modalités sont toutes ordonnées par
ordre croissant.
La médiane
Détermination pratique : Cas de v.s.d
Me = x n+1
2
La médiane
Détermination pratique : Cas de v.s.d : Exemples
Me = x 7+1 = 3
2
10 + 11
Me = = 10.5
2
La médiane
Détermination pratique : Cas de v.s.c
0.5 − Fi
Me = xi + (ai )
Fi+1 − Fi
La médiane
Détermination pratique : Cas de v.s.c : Exemple
50 − 41.98
Me = 400 + 100 ∗ = 454152.6dh
56.79 − 41.98
La médiane
Détermination pratique : Cas de v.s.c : Exemple
Les quantiles
Définition
Le quantile (ou fractile) d’ordre p (0 ≤ p ≤ 1), noté Zp , d’une série statistique
est la valeur telle que p est la proportion des individus ayant une modalité
inférieure ou égale à Zp . On écrit F (Zp ) = p.
Remarque
La médiane est le quantile d’ordre p = 1/2.
Les quantiles
Quantiles particuliers
1 Quartile : avec, p = 1/4; p = 2/4; p = 3/4
on trouve les 3 quartiles respectifs, notés
Les quantiles
Détermination pratique : Cas de v.s.d
Soit x(1) , x(2) , . . . , x(n) la série ordonnée (ordre croissant) d’une v.s.d.
− Si np est un nombre entier, alors
1
Zp = (x(np) + x(np+1) )
2
− Si np n’est pas un nombre entier, alors
Zp = x([np])
où [np] représente le plus petit nombre entier supérieur ou égal à np.
Exemple : Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27.
Q1 = x([2.5]) = x(3) = 15
Q2 = 1/2(x(5) + x(6) ) = (18 + 19)/2 = 18.5
Q3 = x([7.5]) = x(8) = 24
D1 = 1/2(x(1) + x(2) ) = 12.5
Les quantiles
Détermination pratique : Cas de v.s.c
Les quantiles
Détermination pratique : Cas de v.s.c : Exemple
Les quantiles
Détermination pratique : Cas de v.s.c : Exemple
La moyenne
Définition
La moyenne arithmétique d’une distribution statistique (xi , ni )1≤i≤n que l’on
note X̄ , est donnée par :
k k
1X X
X̄ = ni xi = fi xi
n
i=1 i=1
Les xi sont les modalités dans le cas d’une v.s.d et les centres des classes
dans le cas d’une v.s.c.
N.B
La moyenne
Détermination pratique : Cas de v.s.d
Mi ni fi ni ∗ Mi fi ∗ Mi
0 48 0.2096 0 0
1 65 0.2838 65 0.2838
2 44 0.1921 88 0.3843
3 27 0.1179 81 0.3537
4 19 0.0830 76 0.3319
5 15 0.0655 75 0.3275
6 8 0.0349 48 0.21
7 2 0.0087 14 0.0611
8 1 0.0044 8 0.0349
Total 229 100 455 X̄ = 1.99 ' 2
La moyenne
Détermination pratique : Cas de v.s.c
39950000
X̄ = = 493209.88dh
81
Exemple
Soit P une population composée de deux sous-populations P1 et P2 de
moyennes et effectifs respectifs (X̄1 = 5.5 ; n1 = 10) et (X̄2 = 8.3 ; n2 = 14).
Alors la moyenne de la population est :
1
X̄ = (10x5.5 + 14x8.3) = 7.13
10 + 14
Parcours MIP (S4) Module M147: Statistique et Probabilités 45 / 83
Statistique descriptive à une dimension II- Réduction des données
Paramètres de dispersion
Paramètres de dispersion
Exemple introductif
La moyenne des 3 matières est la même mais la dispersion des notes des 6
individus est différente d’une matière à l’autre.
L’étendue
Définition
L’étendue est la différence entre la plus grande et la plus petite valeur de la
variable. pour une variable continue, l’étendue est la différence entre la borne
supérieure de la dernière classe et la borne inférieure de la pemière classe.
On note
e = xmax − xmin
L’étendue
Définition
L’étendue est la différence entre la plus grande et la plus petite valeur de la
variable. pour une variable continue, l’étendue est la différence entre la borne
supérieure de la dernière classe et la borne inférieure de la pemière classe.
On note
e = xmax − xmin
Exemple
Ce paramètre présente un intérêt très limité parce qu’il est très sensible aux
valeurs extrêmes
Variance et écart-type
Définition1
La variance d’une distribution statistique, X = (xi , ni )1≤i≤k , que l’on note
V (X ), est donnée par :
k k
1X X
V (X ) = ni (xi − X̄ )2 = fi (xi − X̄ )2
n
i=1 i=1
Définition2
p
L’écart-type, noté σ(X ) = V (X )
L’écart-type est donc la moyenne quadratique des écarts à la moyenne
arithmétique.
Variance et écart-type
Propriétés de la variance
V (X + b) = V (X ), V (aX + b) = a2 V (X )
3 Soit P une populatin de taille n, composée de m sous-population
P1 , P2 , . . . , Pm , de tailles respectives n1 , n2 , . . . , nm , de moyennes
respectives x̄1 , x̄2 , . . . , x̄m et de variances respectives V1 , V2 , . . . , Vm .
Alors la variance V de la population p est donnée par :
m m
1X 1X
V = ni Vi + ni (x̄i − x̄)2
n n
i=1 i=1
1
Pm
où x̄ = n i=1 ni x̄i est la moyenne de la population P.
Parcours MIP (S4) Module M147: Statistique et Probabilités 50 / 83
Statistique descriptive à une dimension II- Réduction des données
Propriétés de la variance
Remarques
1 L’écart-type (ou La variance) est un indicateur de la dispersion d’une
série par rapport à sa moyenne.
2 La variance et l’écart-type tiennent compte de toutes les valeurs d’une
série statistique.
3 Si la variance (ou l’écart-type) est faible, cela signifie que les valeurs sont
assez concentrées autour de la moyenne.
4 Si la variance (ou l’écart-type) est élevé, cela veut dire au contraire que
les valeurs sont plus dispersées autour de la moyenne.
5 La variance (ou l’écart-type) est nulle si et seulement si toutes les valeurs
sont identiques et égales à la moyenne.
Coefficient de variation
Définition
Le coefficient de variation est un paramètre relatif de dispersion, utilisé
généralement pour comparer les dispersions de deux ou plusieurs séries
statistiques. On le note Cv et il est donné par :
σ(X )
Cv = (rapport sans unité)
X̄
Boı̂te à moustaches
Définition
La boı̂te à moustaches permet de représenter une distribution de valeurs sous
forme simplifiée avec la médiane (trait épais), une boı̂te s’étendant du premier
quartile au troisième quartile, et des moustaches qui s’étendent par défaut
jusqu’à la valeur distante d’au maximum 1.5 fois la distance interquartile. .
Boı̂te à moustaches
300
250
200
150
100
50 ●
Chapitre II
Introduction
Tableau de contingence
Définition
Les données statistiques relatives à deux variables X et Y , considérées
simultanément, sont présentées sous forme de distributions d’effectifs ou de
fréquences dans un tableau statistique, appelé tableau de contingence.
Définitions
Distribution conjointe
On appelle distribution conjointe du couple (X ,Y ) la distribution à deux
dimensions des individus de la population qui présentent une modalité de X
et une modalité de Y . Elle correspond aux effectifs nij (ou aux fréquences fij )
du tableau de contingence.
Distribution marginale de X
On appelle distribution marginale de X la distribution à une dimension des
individus de la population qui présentent une modalité de X quelque soit la
modalité de Y . Elle correspond aux effectifs ni. (ou aux fréquences fi. ) de la
dernière colonne du tableau de contingence.
Distribution marginale de Y
On appelle distribution marginale de Y la distribution à une dimension des
individus de la population qui présentent une modalité de Y quelque soit la
modalité de X . Elle correspond aux effectifs n.j (ou aux fréquences f.j ) de la
dernière ligne du tableau de contingence.
Parcours MIP (S4) Module M147: Statistique et Probabilités 60 / 83
Statistique descriptive à deux dimensions I- Tableau de contingence
Exemple
Introduction
Moyennes Marginales :
2128 2435
X̄ = = 10, 64, Ȳ = = 12.175
200 200
Définition
La covariance entre deux variables statistiques X et Y , notée Cov (X , Y ), est
donnée par :
k p p
k X
1 XX X
Cov (X , Y ) = nij (xi − X̄ )(yj − Ȳ ) = fij (xi − X̄ )(yj − Ȳ )
N
i=1 j=1 i=1 j=1
Propriétés
1 Si X = Y alors Cov (X , Y ) = V (X ) = V (Y )
2 |Cov (X , Y )| ≤ σ(X )σ(Y )
3 Si X 0 = aX + b et Y 0 = cY + d (a, b, c et d des constantes) alors :
Cov (X 0 , Y 0 ) = acCov (X , Y )
4 La covariance est positive ou négative selon que la relation entre les
variables est croissante ou décroissante, c’est à dire selon que les deux
variables varient dans le même sens ou en sens inverse.
27931.25
Cov (X , Y ) = − 10.64 × 12.175 = 10.11
200
Cas particulier
Si la série double est donnée sous la forme (xi , yi )1≤i≤N , c’est-à-dire par un
tableau sous la forme :
Série X x1 x2 ... xi ... xN
Série Y y1 y2 ... yi ... yN
N
1 X
Cov (X , Y ) = xi yi − X̄ Ȳ
N
i=1
Ajustement linéaire
Démarche
Ajustement linéaire
Ajustement linéaire
Ainsi on a deux droites régressions :
Cov (X , Y )
a= et b = Ȳ − aX̄
V (X )
Cov (X , Y )
a0 = et b0 = X̄ − a0 Ȳ
V (Y )
Ajustement linéaire
Remarques
1 Généralement, on trace les droites D et D 0 sur le même graphique, pour
celà, on écrit l’équation de D 0 sous la forme :
1 b0
y= x −
a0 a0
1
2 Les coefficients directeurs respectifs, a, a0 de D et D 0 sont de même
signe.
3 Les deux droites se coupent en un point moyen G(X̄ , Ȳ )
190
● ●
100
●
●
185
● ● ●
180
90
● ● ●
●
●
175
● ● ●
poids
● ●
taille
80
170
● ● ●
●
●
●
● 165
●
●
70
● ●
●
● ● ●
●
160
●
●
●
155
60
● ●
taille poids
Cov (X , Y ) 105.84
a= = = 1.18
V (X ) 89.67
Cov (X , Y ) 105.84
a0 = = = 0.65
V (Y ) 162.15
●
100
● ●
90
●
poids
80
●G ●
●
●
●
70
● ●
●
●
●
●
60
taille
Plus les droites sont proches l’une de l’autre, meilleur est l’ajustement linéaire.
2) Les résidus sont les différences entre les valeurs observées et les valeurs
ajustées de la variable dépendante.
ei = yi − yi∗
Définition
Le coefficient de corrélation associé à X et Y , que l’on note r , est donné par :
Cov (X , Y )
r= (sans unité).
σ(X )σ(Y )
r = 0.88
Propriétés
1 r a le même signe que a, a0 et Cov (X , Y ).
2 On a r 2 = aa0 .
3 0 ≤ r 2 ≤ 1, c’est-à-dire, −1 ≤ r ≤ 1.
4 Plus |r | est proche de 1 (resp. proche de 0) plus la liaison linéaire entre X
et Y est forte (resp. faible) et donc la qualité de la régression est bonne
(resp. mauvaise).
5 Si r = ±1 on dit qu’on a une liaison linéaire totale, donc tous les points
sont alignés : corrélation parfaite.
6 Si r = 0 aucune dépendance linéaire entre les deux variables :
corrélation nulle.
N.B : Une corrélation proche ou égale à 0 ne signifie pas nécessairement que
les deux variables sont indépendantes, cela signifie seulement qu’il n’y a pas
de dépendance linéaire.
r=0
● ●
● ●
● ●
● ●
● ● ●
Exemple 1
Supposons que les variables statistiques X et Y sont liées par une relation de
la forme.
Y = bX a (ajustement polynomiale)
Dans ce cas, cette équation peut être transformée en prenant le logarithme
Y 0 = aX 0 + B
Exemple 2
Supposons que les variables statistiques X et Y sont liées par une relation de
la forme.
Y = b exp(aX ) (ajustement exponentielle)
Dans ce cas, cette équation peut être transformée en passant aux logarithmes
ln(Y ) = ln(b) + aX
Y 0 = ln(Y ), B = ln(b)
Y 0 = aX + B