Académique Documents
Professionnel Documents
Culture Documents
2022-10-27
Objectifs du cours
Quelques définitions
I La statistique : est un ensemble de principes et de méthodes
scientifiques pour recueillir, classer et synthétiser des données
numériques en vue de leur utilisation pour en tirer des
conclusions et prendre des décisions.
I La population et les unités statistiques : la population est
un ensemble dont chaque élément est un individu ou une unité
statistique.
I Les caractères : pour décrire une population, on classe les
individus selon certains attributs que l’on appelle des caractères
(sexe, genre) ou des variables (âge).
Mesure et variable
x1 , · · · , xi , · · · , xn
Effectifs et fréquences
Une variable qualitative nominale a des valeurs distinctes qui ne
peuvent pas être ordonnées.
On appelle effectif d’une modalité ou d’une valeur distincte, le
nombre de fois que cette modalité (ou valeur distincte) apparaît.
Si on note ni l’effectif de la modalité xi , la fréquence d’une modalité
est donc l’effectif divisé par le nombre d’unités (n) d’observation.
ni
fi =
n
Tableau statistique
xi ni fi
M: 15 0.30
C: 12 0.24
D: 11 0.22
V: 12 0.24
Total 50 1.00
Diagramme en secteurs et diagramme en barres
Divorcée
Celibataire
Marié
Veuf
10
Modalite
Celibataire
Effectif
Divorcée
Marié
Veuf
100
25
80
Sd
20
P
60
Se
15
40
10
Su
20
5
0
0
P Sd Se Su U P Sd Se Su U
Diagramme en secteurs des fréquences Diagramme en barres des effectifs Diagramme en barres des effectifs cumulés
Variable quantitative discrète
Le tableau statistique
On parle de variable quantitative discrète lorsque le domaine est
dénombrable
Exemple 6. Une entreprise est composé de 40 personnes reparti
en 8 département et chaque département est subdivisé en 5 sections
et la variable Z représente le nombre de personnes par section . Les
valeurs de la variable sont
xj nj Nj fj Fj
1 3 3 0.075 0.075
2 8 11 0.200 0.275
3 11 22 0.275 0.550
4 9 31 0.225 0.775
5 4 35 0.100 0.875
6 2 37 0.050 0.925
7 1 38 0.025 0.950
8 2 40 0.050 1.000
Diagramme en bâtonnets des effectifs et Fonction de
répartition
Quand la variable est discrète, les effectifs sont représentés par des
bâtonnets. La fonction de répartition est donnée par
x < x1 0;
F (x ) = Fj ; xj ≤ x < xj+1
1;
xJ ≤ x
1.0
10
0.8
8
0.6
Effectif
0.4
4
0.2
2
0.0
0
1 2 3 4 5 6 7 8 0 2 4 6 8
Diagramme en bâtonnets des effectifs pour une variable quantitative discrète Fonction de répartition d’une variable quantitative discrète
Variable quantitative continue
Le tableau statistique
I Une variable quantitative continue peut prendre une infinité de
valeurs possibles. Le domaine de la variable est alors R ou un
intervalle de R. En pratique, une mesure est limitée en
précision.
I On peut alors traiter les variables continues comme des
variables discrètes.
I Pour la représentations graphiques et la construction le tableau
statistique, on procède aux regroupements en classes.
I Le tableau regroupé en classe est souvent appelé distribution
groupée.
I cj− ; cj+ designe la classe j, on note, de manière générale
Variable quantitative continue (suite)
I cj− la borne inférieure de la classe j,
I cj+ la borne supérieure de la classe j,
c + +c −
I cj = j 2 j le centre de la classe j,et
I aj = cj+ − cj− l’amplitude de la classe j.
Critère de selection du nombre de classe et longueur de
l’intervalle
I Règle de Sturge : J = 1 + (3.3 × log(n))
1
I Règle de Yule : J = 2.5 × n 4
I longueur de l’intervalle = xmax −xJ
min
IT IT IT IT IT
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Variable quantitative continue (suite)
nj Nj fj Fj
(151,155] 10 10 0.20 0.20
(155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66
(163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00
Variable quantitative continue (suite)
Histogramme et densité
L’histogramme consiste à représenter les effectifs (resp. les
fréquences) des classes par des rectangles contigus dont la surface
(et non la hauteur) représente l’effectif (resp. la fréquence). Pour
un histogramme des effectifs, la hauteur du rectangle correspondant
à la classe j est donc donnée par :
nj
hj =
aj
I hj est appelé densité d’effectif.
I L’aire de l’histogramme est égale à l’effectif total n, puisque
l’aire de chaque rectangle est égale à l’effectif de la classe j :
aj × hj = nj .
Histogramme et densité (suite)
fj
dj =
aj
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0.00
0.00
151.5 155.5 159.5 163.5 167.5 171.5 151.5 155.5 159.5 163.5 171.5
1.0
0.8
0.04
0.6
0.4
0.02
0.2
0.00
0.0
Fonction de densité d’une distribution groupée Fonction de répartition d’une distribution groupée
Statistique descriptive univariée
Paramètres de position
Le mode
I Le mode est la valeur distincte correspondant à l’effectif le plus
élevé ; il est noté xM .
Considerons l’exemple ci-dessous,
xi ni fi
M: 15 0.30
C: 12 0.24
D: 11 0.22
V: 12 0.24
Total 50 1.00
n
x1 + · · · + xn 1X
x̄ = = xi
n n i=1
J
1X
x̄ = nj xj
n j=1
0+1+1+2+3+5
x̄ = =2
6
Moyenne (suite)
On peut aussi faire les calculs avec les valeurs distinctes et les
effectifs. On considère le tableau
xj nj
0 1
1 2
2 1
3 1
5 1
0×1+1×2+2×1+3×1+5×1
x̄ =
6
2+2+3+5
=
6
= 2
Moyenne géométrique
n
Y 1/n
1/n
G= xi = x1 × x2 × · · · × xn
i=1
n
1X
G = exp ln(xi )
n i=1
n
H = Pn 1
i=1 xi
Exercice.
Un cycliste parcourt 4 étapes de 100 km. Les vitesses respectives
pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h.
Quelle a été sa vitesse moyenne ?
I Temps écoulé après les 4 étapes est :
10h + 3h20 + 2h30 + 5h = 20h50 = 20, 8333h
I Vitesse moyen: 400
20,8333 = 19, 2 km/h
Moyenne harminque
I
H ≤ G ≤ x̄
Moyenne pondérée
Dans certains cas, on n’accorde pas le même poids à toutes les
observations. Par exemple, si on calcule la moyenne des notes pour
un programme d’étude, on peut pondérer les notes de l’étudiant par
le nombre de crédits ou par le nombre d’heures de chaque cours. Si
wi > 0, i = 1, · · · , n sont les poids associés à chaque observation,
alors la moyenne pondérée par wi est définie par :
Pn
wi xi
x̄w = Pi=1
n
i=1 wi
Exemple.
Note Crédits
12 6
14 3
8 4
16 3
5 4
Moyenne pondérée (suite)
12 × 6 + 14 × 3 + 8 × 4 + 16 × 3 + 5 × 4
x̄w =
6+3+4+3+4
72 + 42 + 32 + 48 + 20
=
20
= 10, 7
La médiane
La médiane, notée x1/2 ou Q0.5 , est une valeur centrale de la série
statistique obtenue de la manière suivante :
I On trie la série statistique par ordre croissant des valeurs
observées. Avec la série observée :
I la série observée :3 2 1 0 0 1 2,
I on obtient : 0 0 1 1 2 2 3,
I La médiane x1/2 est la valeur qui se trouve au milieu de la série
ordonnée.
I x1/2 = 1
I n est impair, il n’y a pas de problème
I n est pair deux valeurs se trouvent au milieu de la série
I La médiane x1/2 est la moyenne de ces deux valeurs
La médiane (suite)
## [1] 0 0 1 1 2 2 3
## [1] 0 0 1 1 2 2 3 4
1.00
1.00
0.75
0.75
0.50
0.50
0.25
0.25
0.00
0.00
−1 0 1 2 3 4 −1 0 1 2 3 4 5
La médiane (suite)
1
I n pair x1/2 = x n + x
2 2
n
2
+1
I Variable discrète
:
x1/2 = min xi | i ∈ {∈ 1, 2, · · · , n}, F (xi ) ≥ 1
2
I Variable continue : x1/2 = min x ∈ R | F (x ) = 1
2
Exemple.
## [1] 12 13 15 16 18 19 22 24 25 27 28 34
## 25% 50% 75%
## 15 19 25
Paramètres de dispersion
Etendue
I différence entre la plus grande et la plus petite valeur observée
δe = x(n) − x(1)
Distance interquartile
I différence entre le troisième et le premier quartile
Variance
Définition.
Si X est discrète (respectivement continue), sa variance, notée
Var(X), est la moyenne des écarts quadratiques des valeurs
(respectivement des centres des classes) de X à sa moyenne :
Variance (suite)
I Varaince avec biais
n 2
1X
Var (X ) = xi − x̄
n i=1
J
1X
Var (X ) = nj x 2 − x̄ 2
n j=1 j
n
1X
Var (X ) = x 2 − x̄ 2
n i=1 i
n 2
1 X
Var (X ) = xi − x̄
n − 1 i=1
Variance (suite)
n
1X
emoy = |xi − x̄ |
n i=1
Définition
L’ écart médian absolu est la somme des valeurs absolues des écarts
à la médiane divisée par le nombre d’observations :
n
1X
emed = |xi − x1/2 |
n i=1
Moments
n
1X
mr0 = xr
n i=1 i
n
1X r
mr = xi − x̄
n i=1
I
m10 = x̄ , m2 = Var (X )
Paramètres de forme
Coefficient d’asymétrie
Une distribution est parfaitement symétrique, si les valeurs qu’elle
prend sont également dispersées de part et d’autre de la moyenne.
Dans ce cas, son mode, sa moyenne et sa médiane sont confondues,
et son histogramme admet un axe de symétrie (symétrie par rapport
à la valeur de la moyenne)
I Coefficient d’asymétrie de Fisher (skewness)
m3
γ1 =
σX3
1. γ1 = 0 =⇒ distribution symétrique
2. γ1 < 0 =⇒ distribution allongée à gauche (les grandes
valeurs sont plus fréquentes que les petites)
3. γ1 > 0 =⇒ distribution allongée à droite (les petites valeurs
sont plus fréquentes que les grandes)
Coefficient d’asymétrie de Yule
m4
β2 =
σX4
γ2 = β2 − 3
Pour i = 1, 2, · · · , n on a
I changement d’origine : yi = a + xi
I changement d’unité : yi = b × xi
I changement d’origine et d’ ’unité : yi = a + b × xi
Remarque.
I Les paramètres de position sont tous affectés par un
changement d’origine et d’unité.
I Les paramètres de dispersion sont tous affectés par un
changement d’unité mais pas par un changement d’origine
I Les paramètres de forme et d’aplatissement ne sont affectés ni
par un changement d’unité ni par un changement d’origine.
Moyennes de deux groupes
nA + nB = n
PnA
I Moyenne du premier groupe : x̄A = 1
nA i=1 xi
PnB
I Moyenne du deuxième groupe : x̄B = 1
nB i=1 xi
I Moyenne générale : x̄ = 1
nA x̄A + nB x̄B
n
Variance de deux groupes
PnA 2
I Variance du premier groupe : Var (XA ) = 1
nA i=1 xi − x̄A
PnB 2
I Variancedu deuxième groupe :Var (XB ) = 1
nB i=1 xi − x̄B
2
I Variance totale : Var (X ) = 1 Pn
n i=1 xi − x̄
Théorème (de Huygens).
La variance totale se décompose de la manière suivante :
2 2
nA Var (XA ) + nB Var (XB ) nA x̄A − x̄ + nB x̄B − x̄
Var (X ) = +
n n
Démonstration : Exercice.
La boîte à moustaches
b − = Q0.25 − 1, 5 × IQ et b + = Q0.75 + 1, 5 × IQ
8
170
6
165
Effectif
4
160
2
155
xi yi xi yi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
Nuage de points
Nuage de points
100
90
poids
80
70
60
taille
Analyse des variables
Les variables x et y peuvent être analysées séparément. On peut
calculer tous les paramètres dont les moyennes et les variances :
n n
1X 1X 2
x̄ = xi ; Var (X ) = xi − x̄
n i=1 n i=1
n n
1X 1X 2
ȳ = yj ; Var (Y ) = yj − ȳ
n j=1 n j=1
Remarques
I La covariance peut prendre des valeurs positives, négatives ou
nulles.
I xi = yi ; ∀i = 1; · · · ; n =⇒ la covariance est égale à la variance.
Théorème
La covariance peut s’écrire comme suit:
n
1X
σxy = xi yi − x̄ ȳ
n i=1
Démonstration. Exercice.
Corrélation
σxy
rxy =
σx σy
2
σxy
2
rxy =
σx2 σy2
Remarques
yi = β0 + β1 × xi + i
n n
2
M(β0 , β1 ) = 2i =
X X
yi − β0 − β1 × xi
i=1 i=1
Exercice sur la régression linéarire
Considéront la base de donnée de l’exemple précédent.
1. Construire le nuage de points de x en fonction de y .
2. Déterminer les coefficients des droites de régression linéaire de
y en x et de x en y .
## (Intercept) taille
## -126.614215 1.180244
## (Intercept) poids
## 122.3492916 0.6526883
Courbe de régression poids en fonction de la taille Courbe de régression taille en fonction du poids
100
185
90
175
poids
taille
80
165
70
155
60
taille poids
Régression linéarire ou droite d’ajustement (suite)
Théorème
Les coefficients β0 et β1 qui minimisent le critère des moindres
carrés sont donnés par
σxy
β1 = ; β0 = ȳ − β1 x̄
σx2
Démonstaration. Exercice
Remarque
La droite de régression de y en x n’est pas la même que la droite de
régression de x en y
Résidus et valeurs ajustées
Les valeurs ajustées sont obtenues au moyen de la droite de
régression :
yi∗ = β0 + β1 xi
Résidus et valeurs ajustées (suite)
I La moyenne des valeurs ajustées est égale à la moyenne des
valeurs observées ȳ .
I Les résidus sont les différences entre les valeurs observées et les
valeurs ajustées de la variable dépendante.
i = yi∗ − yi
n
1X
i = 0
n i=1
n
2
SCTOT =
X
yi − ȳ
i=1
Résidus et valeurs ajustées (suite)
I La variance marginale :
n
SCTOT 1X 2
σy2 = = yi − ȳ
n n i=1
n
2
SCREG = yi∗ − ȳ
X
i=1
I La variance de régression :
n
SCREG 1X 2
σy2∗ = = yi∗ − ȳ
n n i=1
Résidus et valeurs ajustées (suite)
I somme des carrés des résidus : On appelle somme des
carrés des résidus (ou résiduelle) la quantité
n
SCRES =
X
2i
i=1
I Variance résiduelle :
n
SCRER 1X
σ2 = = 2
n n i=1 i
Théorème.
SCTOT = SCREG + SCRES
Démonstration. Excercice
Décomposition de la variance
Théorème.
(i) La variance de régression peut également s’écrire
Démonstration. Excercice
Deux variables qualitatives
Données observées
Si les deux variables x et y sont qualitatives, alors les données
observées sont une suite de couples de variables
x1 , · · · , xi , · · · , xI
et
y1 , · · · , yj , · · · , yJ
Tableau de contingence
i=1 j=1
I J I X
J
n= ni. = n.j =
X X X
nij
i=1 j=1 i=1 j=1
Exemple
On s’intéresse à une éventuelle relation entre le sexe de 200
personnes et la couleur des yeux des habitants de Gauten.
I
I
ni.
fi. = fi. = 1
X
n i=1
I
J
n.j
f.j = f.j = 1
X
n j=1
Exemple.
Consideront l’exemple précédent et déterminont le tableau de
contingence des fréquences.
nij nij
fi|j = et fj|i =
n.j ni.
i=1 j=1
fi. × f.j
I X
J
ni. × nj. −1 ni. × nj.
χ =
X
2
nij −
i=1 j=1
n n
s
χ2
V =
n min I − 1, J − 1
0≤V ≤1
4
2400
3
Ensoleillement
Frequency
2
2000
1
1600
0
18 20 22 24 26 16 18 20 22 24 26 28
05
2e− −0
5
6e 4e−05
2400
05 6e−05
4e−
Ensoleillement
2.0
Frequency
05
8e− 2e−05
0.00012
2000
1.0
0.00014
1600
0.0
1e−04
## (Intercept) Température
## -438.1606 118.8309