Académique Documents
Professionnel Documents
Culture Documents
2022-10-17
Objectifs du cours
Quelques définitions
I La statistique : est un ensemble de principes et de méthodes
scientifiques pour recueillir, classer et synthétiser des données
numériques en vue de leur utilisation pour en tirer des
conclusions et prendre des décisions.
I La population et les unités statistiques : la population est
un ensemble dont chaque élément est un individu ou une unité
statistique.
I Les caractères : pour décrire une population, on classe les
individus selon certains attributs que l’on appelle des caractères
(sexe, genre) ou des variables (âge).
Mesure et variable
x1 , · · · , xi , · · · , xn
Effectifs et fréquences
Une variable qualitative nominale a des valeurs distinctes qui ne
peuvent pas être ordonnées.
On appelle effectif d’une modalité ou d’une valeur distincte, le
nombre de fois que cette modalité (ou valeur distincte) apparaît.
Si on note ni l’effectif de la modalité xi , la fréquence d’une modalité
est donc l’effectif divisé par le nombre d’unités (n) d’observation.
ni
fi =
n
Tableau statistique
xi ni fi
M: 15 0.30
C: 12 0.24
D: 11 0.22
V: 12 0.24
Total 50 1.00
Diagramme en secteurs et diagramme en barres
Divorcée
Celibataire
Marié
Veuf
10
Modalite
Celibataire
Effectif
Divorcée
Marié
Veuf
100
25
80
Sd
20
P
60
Se
15
40
10
Su
20
5
0
0
P Sd Se Su U P Sd Se Su U
Diagramme en secteurs des fréquences Diagramme en barres des effectifs Diagramme en barres des effectifs cumulés
Variable quantitative discrète
Le tableau statistique
On parle de variable quantitative discrète lorsque le domaine est
dénombrable
Exemple 6. Une entreprise est composé de 40 personnes reparti
en 8 département et chaque département est subdivisé en 5 sections
et la variable Z représente le nombre de personnes par section . Les
valeurs de la variable sont
xj nj Nj fj Fj
1 3 3 0.075 0.075
2 8 11 0.200 0.275
3 11 22 0.275 0.550
4 9 31 0.225 0.775
5 4 35 0.100 0.875
6 2 37 0.050 0.925
7 1 38 0.025 0.950
8 2 40 0.050 1.000
Diagramme en bâtonnets des effectifs et Fonction de
répartition
Quand la variable est discrète, les effectifs sont représentés par des
bâtonnets. La fonction de répartition est donnée par
x < x1 0;
F (x ) = Fj ; xj ≤ x < xj+1
1; xJ < x
1.0
10
0.8
8
0.6
Effectif
0.4
4
0.2
2
0.0
0
1 2 3 4 5 6 7 8 0 2 4 6 8
Diagramme en bâtonnets des effectifs pour une variable quantitative discrète Fonction de répartition d’une variable quantitative discrète
Variable quantitative continue
Le tableau statistique
I Une variable quantitative continue peut prendre une infinité de
valeurs possibles. Le domaine de la variable est alors R ou un
intervalle de R. En pratique, une mesure est limitée en
précision.
I On peut alors traiter les variables continues comme des
variables discrètes.
I Pour la représentations graphiques et la construction le tableau
statistique, on procède aux regroupements en classes.
I Le tableau regroupé en classe est souvent appelé distribution
groupée.
I cj− ; cj+ designe la classe j, on note, de manière générale
Variable quantitative continue (suite)
I cj− la borne inférieure de la classe j,
I cj+ la borne supérieure de la classe j,
c + +c −
I cj = j 2 j le centre de la classe j,et
I aj = cj+ − cj− l’amplitude de la classe j.
Critère de selection du nombre de classe et longueur de
l’intervalle
I Règle de Sturge : J = 1 + (3.3 × log(n))
1
I Règle de Yule : J = 2.5 × n 4
I longueur de l’intervalle = xmax −xJ
min
IT IT IT IT IT
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Variable quantitative continue (suite)
nj Nj fj Fj
(151,155] 10 10 0.20 0.20
(155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66
(163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00
Variable quantitative continue (suite)
Histogramme et densité
L’histogramme consiste à représenter les effectifs (resp. les
fréquences) des classes par des rectangles contigus dont la surface
(et non la hauteur) représente l’effectif (resp. la fréquence). Pour
un histogramme des effectifs, la hauteur du rectangle correspondant
à la classe j est donc donnée par :
nj
hj =
aj
I hj est appelé densité d’effectif.
I L’aire de l’histogramme est égale à l’effectif total n, puisque
l’aire de chaque rectangle est égale à l’effectif de la classe j :
aj × hj = nj .
Histogramme et densité (suite)
fj
dj =
aj
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0.00
0.00
151.5 155.5 159.5 163.5 167.5 171.5 151.5 155.5 159.5 163.5 171.5
1.0
0.8
0.04
0.6
0.4
0.02
0.2
0.00
0.0
Fonction de densité d’une distribution groupée Fonction de répartition d’une distribution groupée
Statistique descriptive univariée
Paramètres de position C'est ce qui sera demande a l'exam!
Le mode
I Le mode est la valeur distincte correspondant à l’effectif le plus
élevé ; il est noté xM .
Considerons l’exemple ci-dessous,
C'est cela le mode!
xi ni fi
On trouve la mode avec!
M: 15 0.30
Qualitatif C: 12 0.24
non D: 11 0.22
ordonnee
V: 12 0.24
Total 50 1.00
n
x1 + · · · + xn 1X
x̄ = = xi
n n i=1
J
1X
x̄ = nj xj
n j=1
0+1+1+2+3+5
x̄ = =2
6
Moyenne (suite)
On peut aussi faire les calculs avec les valeurs distinctes et les
effectifs. On considère le tableau
xj nj
0 1
1 2
2 1
3 1
5 1
0×1+1×2+2×1+3×1+5×1
x̄ =
6
2+2+3+5
=
6
= 2
Moyenne géométrique
n
Y 1/n
1/n
G= xi = x1 × x2 × · · · × xn
i=1
n
1X
G = exp xi
n i=1
n
H = Pn 1
i=1 xi
Exercice.
Un cycliste parcourt 4 étapes de 100 km. Les vitesses respectives
pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h.
Quelle a été sa vitesse moyenne ?
I Temps écoulé après les 4 étapes est :
10h + 3h20 + 2h30 + 5h = 20h50 = 20, 8333h
I Vitesse moyen: 400
20,8333 = 19, 2 km/h
Moyenne harminque
I
H ≤ G ≤ x̄
Moyenne pondérée
Dans certains cas, on n’accorde pas le même poids à toutes les
observations. Par exemple, si on calcule la moyenne des notes pour
un programme d’étude, on peut pondérer les notes de l’étudiant par
le nombre de crédits ou par le nombre d’heures de chaque cours. Si
wi > 0, i = 1, · · · , n sont les poids associés à chaque observation,
alors la moyenne pondérée par wi est définie par :
Pn
wi xi
x̄w = Pi=1
n
i=1 wi
Exemple.
Note Crédits
12 6
14 3
8 4
16 3
5 4
Moyenne pondérée (suite)
12 × 6 + 14 × 3 + 8 × 4 + 16 × 3 + 5 × 4
x̄w =
6+3+4+3+4
72 + 42 + 32 + 48 + 20
=
20
= 10, 7
La médiane
La médiane, notée x1/2 ou Q0.5 , est une valeur centrale de la série
statistique obtenue de la manière suivante :
I On trie la série statistique par ordre croissant des valeurs
observées. Avec la série observée :
I la série observée :3 2 1 0 0 1 2,
I on obtient : 0 0 1 1 2 2 3,
I La médiane x1/2 est la valeur qui se trouve au milieu de la série
ordonnée.
I x1/2 = 1
I n est impair, il n’y a pas de problème
I n est pair deux valeurs se trouvent au milieu de la série
I La médiane x1/2 est la moyenne de ces deux valeurs
La médiane (suite)
## [1] 0 0 1 1 2 2 3
## [1] 0 0 1 1 2 2 3 4
1.00
1.00
0.75
0.75
0.50
0.50
0.25
0.25
0.00
0.00
−1 0 1 2 3 4 −1 0 1 2 3 4 5
La médiane (suite)
1
I n pair x1/2 = x n + x n
2 2 2
+1
I Variable discrète
:
1
x1/2 = min xi | i ∈ {∈ 1, 2, · · · , n}, F (xi ) ≥ 2
I Variable continue : x1/2 = min x ∈ R | F (x ) = 1
2
Exemple.
## [1] 12 13 15 16 18 19 22 24 25 27 28 34
## 25% 50% 75%
## 15 19 25
Paramètres de dispersion
Etendue
I différence entre la plus grande et la plus petite valeur observée
δe = xn − x1
Distance interquartile
I différence entre le troisième et le premier quartile
Variance
Définition.
Si X est discrète (respectivement continue), sa variance, notée
Var(X), est la moyenne des écarts quadratiques des valeurs
(respectivement des centres des classes) de X à sa moyenne :
Variance (suite)
I Varaince avec biais
n 2
1X
Var (X ) = xi − x̄
n i=1
J
1X
Var (X ) = nj x 2 − x̄ 2
n j=1 j
n
1X
Var (X ) = x 2 − x̄ 2
n i=1 i
n 2
1 X
Var (X ) = xi − x̄
n − 1 i=1
Variance (suite)
n
1X
emoy = |xi − x̄ |
n i=1
Définition
L’ écart médian absolu est la somme des valeurs absolues des écarts
à la médiane divisée par le nombre d’observations :
n
1X
emed = |xi − x1/2 |
n i=1
Moments
n
1X
mr0 = xr
n i=1 i
n
1X r
mr = xi − x̄
n i=1
I
m10 = x̄ , m2 = Var (X )
Paramètres de forme
Coefficient d’asymétrie
Une distribution est parfaitement symétrique, si les valeurs qu’elle
prend sont également dispersées de part et d’autre de la moyenne.
Dans ce cas, son mode, sa moyenne et sa médiane sont confondues,
et son histogramme admet un axe de symétrie (symétrie par rapport
à la valeur de la moyenne)
I Coefficient d’asymétrie de Fisher (skewness)
m3
γ1 =
σX3
1. γ1 = 0 =⇒ distribution symétrique
2. γ1 < 0 =⇒ distribution allongée à gauche (les grandes
valeurs sont plus fréquentes que les petites)
3. γ1 > 0 =⇒ distribution allongée à droite (les petites valeurs
sont plus fréquentes que les grandes)
Coefficient d’asymétrie de Yule
m4
β2 =
σX4
γ2 = β2 − 3
Pour i = 1, 2, · · · , n on a
I changement d’origine : yi = a + xi
I changement d’unité : yi = b × xi
I changement d’origine et d’ ’unité : yi = a + b × xi
Remarque.
I Les paramètres de position sont tous affectés par un
changement d’origine et d’unité.
I Les paramètres de dispersion sont tous affectés par un
changement d’unité mais pas par un changement d’origine
I Les paramètres de forme et d’aplatissement ne sont affectés ni
par un changement d’unité ni par un changement d’origine.
Moyennes de deux groupes
nA + nB = n
1 PnA
I Moyenne du premier groupe : x̄A = nA i=1 xi
1 PnB
I Moyenne du deuxième groupe : x̄B = nB i=1 xi
I Moyenne générale : x̄ = 1
n nA x̄A + nB x̄B
Variance de deux groupes
1 PnA 2
I Variance du premier groupe : Var (XA ) = nA i=1 xi − x̄A
1 PnB 2
I Variancedu deuxième groupe :Var (XB ) = nB i=1 xi − x̄B
1 Pn 2
I Variance totale : Var (X ) = n i=1 xi − x̄
Théorème (de Huygens).
La variance totale se décompose de la manière suivante :
2 2
nA Var (XA ) + nB Var (XB ) nA x̄A − x̄ + nB x̄B − x̄
Var (X ) = +
n n
Démonstration : Exercice.
La boîte à moustaches
b − = Q0.25 − 1, 5 × IQ et b + = Q0.75 + 1, 5 × IQ
8
170
6
165
Effectif
4
160
2
155