Vous êtes sur la page 1sur 11

Thème 0 : Statistique descriptive Statistique pour ingénieur

Statistique pour ingénieur


Thème 0 : Éléments de correction des exercices
F. Delacroix & M. Lecomte, 25 avril 2023

Exercice 1 : Quelques calculs de statistique descriptive


Dans une entreprise, on a recensé les salariés par tranche d’âge et par sexe. Les résultats
sont donnés dans le tableau ci-dessous.

Tranche d’âge Hommes Femmes


Moins de 20 ans 32 51
20 — 30 1309 2118
30 — 40 1902 3025
40 — 50 1730 2330
50 — 60 1468 1624
Plus de 60 ans 114 131

1. Quelles sont les caractéristiques étudiées ? Préciser s’il s’agit de caractères discrets ou
continus.
Solution:
On étudie l’âge (caractère quantitatif continu discrétisé en classes) et le sexe (caractère
qualitatif discret) des individus.
2. Quelle est la proportion de salariés dans les tranches d’âge inférieures ou égales à 40
ans ? Mêmes questions pour les hommes et femmes séparément. Que peut-on en conclure ?
Solution:
Complétons le tableau de l’énoncé avec des données calculées pour les hommes, les
femmes, et l’ensemble des employés à partir d’un tableur.

Population totale
Représentant Classe d’âge Effectif Fréquence Effectif Fréquence
ni xi ni x2i
xi [ai ,bi ] ni fi cumulé cumulée
19 moins de 20 83 0,52% 83 0,52% 1577 29963
25 [20,30[ 3427 21,64% 3510 22,17% 85675 2141875
35 [30,40[ 4927 31,12% 8437 53,28% 172445 6035575
45 [40,50[ 4060 25,64% 12497 78,93% 182700 8221500
55 [50,60[ 3092 19,53% 15589 98,45% 170060 9353300
62 plus de 60 245 1,55% 15834 100,00% 15190 941780
Somme 15834 100% 627647 26723993
Hommes
Représentant Classe d’âge Effectif Fréquence Effectif Fréquence
ni xi ni x2i
xi [ai ,bi ] ni fi cumulé cumulée
19 moins de 20 32 0,49% 32 0,49% 608 11552
25 [20,30[ 1309 19,97% 1341 20,46% 32725 818125
35 [30,40[ 1902 29,02% 3243 49,47% 66570 2329950
45 [40,50[ 1730 26,39% 4973 75,87% 77850 3503250
55 [50,60[ 1468 22,40% 6441 98,26% 80740 4440700
62 plus de 60 114 1,74% 6555 100,00% 7068 438216
Somme 6555 100% 265561 11541793

Institut Mines-Télécom 1
Statistique pour ingénieur Thème 0 : Statistique descriptive

Femmes
Représentant Classe d’âge Effectif Fréquence Effectif Fréquence
ni xi ni x2i
xi [ai ,bi ] ni fi cumulé cumulée
19 moins de 20 51 0,55% 51 0,55% 969 18411
25 [20,30[ 2118 22,83% 2169 23,38% 52950 1323750
35 [30,40[ 3025 32,60% 5194 55,98% 105875 3705625
45 [40,50[ 2330 25,11% 7524 81,09% 104850 4718250
55 [50,60[ 1624 17,50% 9148 98,59% 89320 4912600
62 plus de 60 131 1,41% 9279 100,00% 8122 503564
Somme 9279 100% 362086 15182200

Les représentants xi des différentes classes d’âges ont été choisis au centre des différentes
classes, à l’exception des deux classes extrêmes pour lesquelles les choix de 19 ans et 62 ans
comme représentants comportent une part d’arbitraire. Les calculs possibles à ce niveau
ne sont qu’approximatifs étant donnée la perte de renseignement due à l’agglomération
des données sous forme de classes d’âge.
On peut lire dans ces tableaux (colonne fréquence cumulée) que 53,28% des employés
ont au plus 40 ans. Chez les hommes, 49,47% ont au plus 40 ans et chez les femmes elles
sont 55,98% à figurer dans ces classes d’âge.
Ce qu’on peut en conclure est que la distribution observée des âges n’est pas la même
selon le genre des employés. Notamment, plus de la moitié des femmes employées ont
moins de 40 ans.
3. Déterminer l’âge moyen, l’âge médian, les quartiles et l’écart-type pour les hommes.
Mêmes questions pour les femmes.
Solution:
En utilisant les xi comme représentants des classes, la moyenne s’écrit
1X X
x= n i xi où n = ni .
n i i

De même, l’écart-type est donné par


v
u1
u X
s= t ni x2i − x2 .
n i

La détermination de fractiles tels que la médiane ou les quartiles est plus délicate. On
va procéder par interpolation linéaire, en deux étapes :
1. identification de la classe d’âge [ai ,bi [ à laquelle le fractile (noté q) cherché appartient,
par observation des fréquences cumulées,
2. détermination du fractile q par la formule d’égalité des coefficients directeurs :
f (q) − f (ai ) f (bi ) − f (ai ) f (q) − f (ai )
= soit q = ai + (bi − ai )
q − ai b i − ai f (bi ) − f (ai )
où f () désigne la fréquence cumulée.
Par exemple pour la détermination de la médiane M e, on a f (M e) = 50%. Pour les
hommes, la classe médiane est [40,50[. Alors
50 − 49,47
M e = 40 + 10 × ≃ 40,20.
75,87 − 49,47
Les résultats sont résumés dans le tableau suivant.

2 Institut Mines-Télécom
Thème 0 : Statistique descriptive Statistique pour ingénieur

Hommes Femmes
Classe Valeur Classe Valeur
Q1 [30,40[ 31,56 [30,40[ 30,50
Me [40,50[ 40,20 [30,40[ 38,17
Q3 [40,50[ 49,67 [40,50[ 47,57
x 40,51 39,02
s 10,93 10,65

4. Comparer les deux sous-populations (hommes et femmes) à l’aide de boîtes à moustaches.


Solution:
Afin de «couper les moustaches», on détermine comme précédemment les 1er et 9ème
déciles des hommes et des femmes :

Hommes Femmes
D1 24,76 24,14
D9 56,31 55,09

70

60
− −
50

40

30
− −
20

10

Hommes Femmes

Exercice 2 : Étude d’une corrélation


On a relevé la taille (X, exprimée en cm) et le poids (Y , exprimé en kg) d’une
population humaine donnée. Les résultats sont regroupés en classes et les effectifs conjoints
notés dans le tableau de contingence suivant.

Y
]50,60] ]60,70] ]70,80] ]80,90]
X
]150,155] 24 11 2 0
]155,160] 22 27 10 1
]160,165] 13 30 14 3
]165,170] 3 6 15 7
]170,180] 0 2 3 7

Institut Mines-Télécom 3
Statistique pour ingénieur Thème 0 : Statistique descriptive

1. Déterminer les lois marginales.


Solution:
En calculant pour chaque cellule le rapport entre l’effectif de la cellule et l’effectif
total (qui vaut 200), on détermine la loi conjointe de X et Y . En sommant ensuite les
cellules d’une ligne ou d’une colonne on obtient les lois marginales. On obtient les résultats
suivants.

Y
]50,60] ]60,70] ]70,80] ]80,90] Loi marginale en X
X
]150,155] 12% 5,5% 1% 0% 18,5%
]155,160] 11% 13,5% 5% 0,5% 30%
]160,165] 6,5% 15% 7% 1,5% 30%
]165,170] 1,5% 3% 7,5% 3,5% 15,5%
]170,180] 0% 1% 1,5% 3,5% 6%
Loi marginale en Y 31% 38% 22% 9%

2. En choisissant les centres des classes comme représentants, calculer :


— la taille moyenne de cette population,
— son poids moyen,
— les écart-types correspondants,
— la covariance de X et de Y ,
— le coefficient de corrélation linéaire.
Solution:
À l’aide des lois marginales et en choisissant le centre des classes comme représentant,
on peut directement calculer la taille moyenne :
x = 152,5 × 0,185 + 157,5 × 0,30 + 162,5 × 0,30 + 167,5 × 0,155 + 175 × 0,06
= 160,675 cm.
De même, le poids moyen est :
y = 55 × 0,31 + 65 × 0,38 + 75 × 0,22 + 85 × 0,09
= 65,9 kg.
Pour calculer les variances de X et Y , on utilise la formule suivante :
fi·x2i − x2
X
V (X) =
i

où les xi sont les représentants des classes et fi· la fréquence marginale en X :


V (X) = 152,52 × 0,185 + 157,52 × 0,30 + 162,52 × 0,30 + 167,52 × 0,155 + 1752 × 0,06
− 160,6752
= 35,919375 donc σ(X) ≃ 5,99 cm.
De même,
V (Y ) = 552 × 0,31 + 652 × 0,38 + 752 × 0,22 + 852 × 0,09 − 65,92
= 88,19 donc σ(Y ) ≃ 9,39 kg.

4 Institut Mines-Télécom
Thème 0 : Statistique descriptive Statistique pour ingénieur

Pour le calcul de la covariance, on utilise la formule «moyenne des produits moins


produit des moyennes» :

X
Cov (X,Y ) = fij xi xj − x y.
i,j

= 55 × 152,5 × 0,12 + 55 × 157,5 × 0,11 + · · · − 160,675 × 65,9


= 32,2675 (unité : cm.kg)

Le coefficient de corrélation linéaire est donc

Cov (X,Y ) 32,2675


r(X,Y ) = ≃ ≃ 0,57.
σ(X) σ(Y ) 5,99 × 9,39

3. Déterminer la loi conditionnelle de Y sachant {150 < X ⩽ 155}. Calculer la moyenne


conditionnelle de Y sachant sachant {150 < X ⩽ 155}.
4. Mêmes questions avec les autres classes de la variable X.
Solution:
À l’aide d’un tableur, on calcule les fréquences conditionnelles fj/i = ffiji· , qui représentent
pour chaque classe Ci (de X de représentant xi ) la fréquence de chaque classe de Y
(représentée par yj ) sachant que X = xi .

Y
]50,60] ]60,70] ]70,80] ]80,90] y|X ∈ Ci
X
]150,155] 65,86% 29,73% 5,41% 0% 59,05 kg
]155,160] 37,67% 45% 16,67% 1,67% 63,33 kg
]160,165] 21,67% 50% 23,33% 5% 66,17 kg
]165,170] 9,68% 19,35% 48,39% 22,58% 73,39 kg
]170,180] 0% 16,67% 25% 58,33% 79,17 kg

La moyenne conditionnelle de y sachant X ∈ Ci s’écrit alors

X
y|X ∈ Ci = yj fj/i
j

Les résultats ont été introduits dans la dernière colonne du tableau précédent.
 
5. Représenter graphiquement les points de coordonnées xi ,yi |X ∈ Ci où :
— Ci désigne l’une des classes de taille,
— xi est le centre de la classe Ci ,
— yi |X ∈ Ci est la moyenne conditionnelle de Y sachant {X ∈ Ci }.
Construire une courbe de régression de Y en X, c’est-à-dire une courbe passant par les
points précédemment représentés. Conclure.
Solution:

Institut Mines-Télécom 5
Statistique pour ingénieur Thème 0 : Statistique descriptive

85
80
Poids (Y ) en kg
75
70
65
60
55

150 155 160 165 170 175 180

Taille (X) en cm

Il semble, d’après cette représentation graphique, qu’il existe bien une relation linéaire
entre poids et taille. Cela mérite toutefois d’être confirmé par une analyse approndie, ce
que nous étudierons notamment lors du thème 4 de ce MOOC, consacré à la régression
linéaire.

Exercice 3 : Une série chronologique


Cet exercice est destiné à être traité à l’aide d’un tableur pour réaliser les calculs et les
graphiques demandés.
Solution:
Un fichier tableur (au format ODS) solution est disponible en tant que pièce jointe de
la version PDF de ce corrigé, en cliquant sur ce lien. Ce corrigé fait référence à ce fichier.
On s’intéresse au chiffre d’affaires mensuel, exprimé en milliers d’euros, d’un magasin.
Ce chiffre d’affaire a été relevé sur trois années consécutives, et ces données brutes
figurent dans la table 1.

Jan. Fév. Mars Avr. Mai Juin Jui. Août Sep. Oct. Nov. Déc.
2007 312 315 291 307 305 303 320 328 298 309 310 334
2008 315 319 299 314 306 304 325 331 304 310 317 332
2009 320 324 302 318 309 308 330 333 309 315 319 339

Table 1 – Données brutes de l’exercice 3

Les mois observés sont numérotés de 1 à 36 : de t = 1 correspondant à janvier 2007


jusque t = 36 pour décembre 2009. On définit ainsi la série chronologique notée (t,yt ),
la variable t représentant le temps et yt le chiffre d’affaires observé.
1. Représenter la série chronologique à l’aide d’un graphique en ligne brisée comportant
en abscisse le temps et en ordonnée la valeur de l’observation.
Solution:
On a réalisé tous les calculs dans l’onglet « Calculs » du tableur. Les mois ont été
indiqués en plage A3:A38, les valeurs de t en plage B3:B38 et les données brutes ont été
collées en plage C3:C38 avec des formules matricielles transposant les données de l’onglet
« Énoncé ».

6 Institut Mines-Télécom
Thème 0 : Statistique descriptive Statistique pour ingénieur

Le graphique demandé se trouve dans l’onglet « graphiques » ; il s’intitule « Données


brutes et tendance ». Les données brutes ont été représentées à l’aide d’un graphe de type
XY. Les abscisses sont les mois de la plage A3:A38 de l’onglet « Calculs », les ordonnées
celles de la plage C3:C38 de l’onglet Calculs.
2.
2.1 Calculer les moyennes mobiles d’ordre 4, c’est-à-dire les moyennes arithmétiques
des cycles de 5 observations consécutives, avec une pondération moitié pour les valeurs
extrêmes :
1 1 1
 
∀t ∈ {3, . . . ,34}, gt = yt−2 + yt−1 + yt + yt+1 + yt+2 .
4 2 2
On obtient ainsi des valeurs correspondant à t = 3 (mars 2007) jusque t = 34 (octobre
2009). Les cellules pour t ∈ {1; 2; 35; 36} restent vides.
Solution:
La première moyenne mobile est insérée en cellule D5 de l’onglet « Calculs » par la
formule
=(0,5*C3+C4+C5+C6+0,5*C7)/4
Cette formule est ensuite étendue par copier-coller jusqu’en D36.
2.2 La série obtenue à la question précédente s’appelle la tendance, ou encore trend,
et correspond à l’évolution à long terme de la série. Représenter sur le même graphique du
tableur les séries (t,yt ) et (t,gt ).
Solution:
On a complété le premier graphique avec une nouvelle série de données, dont les
abscisses sont la plage A3:A38 et les ordonnées la plage D3:D38. Les valeurs vides ne sont
pas représentées par le tableur. Ce graphique est représenté en figure 1.

Figure 1 – Données brutes et tendance

3. On se place dans le cadre d’un modèle additif, ce qui signifie que la donnée brute yt
se décompose en plusieurs termes :

g
 t

 est la tendance générale
yt = gt + s∗t + at où s∗ est une composante saisonnière
 t


at est une composante aléatoire.

Institut Mines-Télécom 7
Statistique pour ingénieur Thème 0 : Statistique descriptive

Les questions suivantes ont pour objet la détermination de la composante saisonnière dans
le cadre du modèle additif.
3.1 Calculer dans le tableur les données sans tendance yt − gt pour t ∈ {3, . . . ,34}
(les valeurs extrêmes restent indéfinies).
Solution:
En cellule E5 de l’onglet « Calculs » on a entré la formule =C5-D5 et prolongé jusqu’en
E36 par copier-coller.
3.2 Pour déterminer la composante saisonnière, on calcule la moyenne des données
sans tendance pour chacun des 12 mois (de janvier à décembre). Ainsi, s1 est même
pour tous les mois de janvier, de sorte que s1 = s13 = s25 (et de même pour les autres
mois de l’année).
Solution:
En cellule F3 (correspondant au premier mois de Janvier) on a entré la formule

=MOYENNE(E3;E15;E27)

et prolongé par copier-coller jusqu’en cellule F14 (Décembre). L’avantage d’utiliser la


fonction MOYENNE() du tableur (par rapport à un calcul direct) est que les données
manquantes sont neutralisées dans le calcul, et non traitées comme des 0.
Pour les mois suivants on reprend les mêmes valeurs, et on entre donc en cellule F15
(second mois de Janvier) la formule =F3\verb et on prolonge par copier-coller jusqu’en
F38 (dernier mois de Décembre).
3.3 Calculer les coefficients saisonniers centrés, c’est-à-dire les valeurs
12
1 X
s∗t = st − s où s = si .
12 i=1

Il définissent ainsi la composante saisonnière du modèle additif.


Solution:
On a calculé la moyenne annuelle s en entrant la formule suivante en cellule G40 :

=MOYENNE(F3:F14)

Le coefficient s∗t est alors obtenu par simple différence : en cellule G3 on entre la formule
=F3-$G$40 et on prolonge par copier-coller jusqu’en G38. L’utilisation du symbole $
empêche le décalage de la référence (de ligne ou colonne) lors de l’opération de copier-coller.

3.4 La série désaisonnalisée, ou encore série corrigée des variations saisonnières


(CVS), est la série chronologique (t,yt − s∗t ). Calculer cette série chronologique et la
représenter sur le même repère que les graphiques des questions précédentes.
Solution:
On calcule la première valeur en cellule H3 de l’onglet « Calculs » par la formule =C3-G3
et on prolonge par copier-coller jusqu’en H38.
Cette nouvelle série de données est représentée graphiquement par un nouveau diagrame
de type XY sur l’onglet « Graphiques ». Les abscisses sont toujours la plage A3:A38 et les
ordonnées la plage H3:H38 : voir figure 2.

8 Institut Mines-Télécom
Thème 0 : Statistique descriptive Statistique pour ingénieur

Figure 2 – Données brutes corrigées des variations saisonnières

Remarque
La correction des variations saisonnières est une technique employée par les
statisticiens pour éliminer l’effet des fluctuations saisonnières normales des données,
de manière à en faire ressortir les tendances fondamentales (tendance et composante
irrégulière).
Ainsi, par exemple, le taux de chômage désaisonnalisé supprime les variations dues
au profil saisonnier habituel d’embauche pendant l’été et de mise à pied pendant l’hiver
dans les secteurs comme l’agriculture ou la construction.

4. Afin d’éliminer la composante aléatoire, on veut représenter la série ajustée (t,yt − at ).

4.1 Comment la calculer à partir des questions précédentes ?


Solution:
D’après la relation définie par le modèle additif

yt = gt + s∗t + at

on peut calculer la série ajustée par la formule yt − at = gt + s∗t .


4.2 Calculer la série ajustée dans le tableur.
Solution:
On entre en cellule I5 la formule =D5+G5 et on prolonge cette formule jusqu’en I36. À
nouveau les valeurs extrêmes sont manquantes.
4.3 Représenter sur un même graphique la série de données brutes et la série ajustée.
Solution:
On a représenté la série ajustée sur le troisième graphique, reproduit à la figure 3, en
prenant comme abscisses la plage A3:A38 et comme ordonnées la plage I3:I38.
5.
5.1 Pour t ∈ {3, . . . ,10}, calculer analytiquement la valeur de la somme

at + at+12 + at+24 .

Adapter le calcul pour les mois de janvier, février, novembre et décembre.

Institut Mines-Télécom 9
Statistique pour ingénieur Thème 0 : Statistique descriptive

Figure 3 – La série de données ajustées

Solution:
En dehors des mois de janvier, février, novembre et décembre (pour lesquels des valeurs
extrêmes sont manquantes) on a

at = yt − gt − s∗t

donc

at + at+12 + at+24 = yt − gt + yt+12 − gt+12 + yt+24 − gt+24 − s∗t − s∗t+12 − s∗t+24 .

Or par construction les valeurs s∗t sont les mêmes chaque année, donc

s∗t + s∗t+12 + s∗t+24 = 3s∗t = 3(st − s)

avec la définition de st suivante :


1
st = (yt − gt + yt+12 − gt+12 + yt+24 − gt+24 ) .
3
Il y a donc simplification :
at + at+12 + at+24 = 3 s.
Le calcul est bien sûr ajusté pour les mois (janvier, février, novembre, décembre) ou
seules deux valeurs sont connues : on trouve alors 2 s.
5.2 Vérifier numériquement le résultat de la question précédente à l’aide du tableur.
Solution:
La composante aléatoire at est explicitée, via la relation at = yt − (yt − at ) en colonne
J : en cellule J5 on a entré la formule =C5-I5 et prolongé jusqu’en J36.
On calcule la moyenne des composantes aléatoires à 12 mois d’intervalle avec la formule
suivante entrée en cellule K3 du tableur :

=MOYENNE(J3;J15;J27)

et on prolonge aux autres mois par copier-coller. On observe que cette valeur est toujours
égale à la valeur s entrée en cellule G40. À nouveau l’avantage de la fonction MOYENNE()
est de s’adapter sans problème au cas des valeurs manquantes.

10 Institut Mines-Télécom
Thème 0 : Statistique descriptive Statistique pour ingénieur

5.3 Quelle hypothèse a été faite implicitement sur la composante aléatoire ?


Solution:
Les questions précédentes ont mis en évidence que l’hypothèse faite est que la moyenne
des composantes aléatoires d’un même mois calculée sur plusieurs années est égale à
l’évolution de la composante saisonnière s.

Institut Mines-Télécom 11

Vous aimerez peut-être aussi