Vous êtes sur la page 1sur 16

L1 É CONOMIE Année 2019-2020

M ODULE 2 - O UTILS Q UANTITATIFS

S TATISTIQUES D ESCRIPTIVES

Fascicule d’exercices

Julie Scholler

T ABLE DES MATIÈRES

C HAPITRE 1 - S TATISTIQUES UNIVARIÉES 2


1.1 Tableaux synthétiques et représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Indicateurs de tendance centrale et de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Utilisation des indicateurs pour comparer des groupes . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Courbe de concentration et indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
C HAPITRE 2 - S TATISTIQUES BIVARIÉES 11
2.1 Tableaux de contingence, lois marginales, lois conditionnelles et covariance . . . . . . . . . . . 11
2.2 Variance expliquée, variance résiduelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Régression linéaire ou non linéaire se ramenant au cas linéaire . . . . . . . . . . . . . . . . . . 14
Chapitre 1

Statistiques univariées

1. Tableaux synthétiques et représentations graphiques

Exercice 1.
Soit la liste suivante des prénoms d’un groupe d’étudiants suivis entre parenthèses d’une indication du
nombre de livres lus dans l’année (A = peu, B = moyen, C = beaucoup, D = exceptionnel) :
Pierre (C), Paul (C), Jacques (A), Ralph (B), Abdel (A), Sidonie (B), Henri (C), Paulette (B), Farida (B),
Laure (C), Kevin (D), Carole (B), Marie-Claire (A), Jeanine (C), Julie (C), Ernest (C), Cindy (C), Vanessa
(D), José (C), Aurélien (C).
1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ?
Quel est l’effectif total ?
2. Construire le tableau représentatif de cette distribution.
3. Représenter cette distribution à l’aide d’un diagramme en bâtons.

Exercice 2.
Un bureau de statistique a mesuré les quantités produites pour quatre secteurs de sa zone de compétence, ce
qui a donné les chiffres suivants (en unités de valeur) :

Secteur Marbre Peaux Chimie Tourisme Total


Valeur 108 000 144 000 108 000 72 000 432 000

1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ?
Quel est l’effectif total ?
2. Déterminer les fréquences de chaque modalité.
3. Représenter cette distribution par un diagramme en secteurs circulaires, puis par un diagramme en
bâtons.

Exercice 3.
Les fréquences des appels téléphoniques dans un centre d’appel sont présentées dans le tableau suivant :

Nombre d’appels (xi ) Nombre de jours (ni ) Fréquence (fi )


0 30
1 15
2 6
3 6
4 3
5 12
6 3

1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ?
Quel est l’effectif total ?
2. Représenter graphiquement les effectifs des appels.

2
CHAPITRE 1. STATISTIQUES UNIVARIÉES

3. Calculer le nombre moyen d’appels reçus au cours d’une journée.

Exercice 4.
Nous connaissons la valeur des subventions versées à une population d’agriculteurs. La répartition des
subventions par exploitation est résumée dans le tableau suivant.

Classes Effectif Densité d’effectif Fréquence Densité de fréquence


[10 ; 20[ 12
[20 ; 30[ 18
[30 ; 40[ 36
[40 ; 50[ 24
[50 ; 70[ 30

1. Quelle est la population ? Quel est le caractère étudié ? De quel type est-il ? Quelles sont ses modalités ?
Quel est l’effectif total ?
2. Représenter cette distribution à l’aide d’un histogramme des effectifs.
3. Déterminer les fréquences. Puis représenter cette distribution à l’aide de l’histogramme des fréquences.

Exercice 5.
L’histogramme ci-dessous représente la répartition par taille en cm de basketteurs de la NBA.

1. Quelle est la population ? Quel est le caractère


60
Effectif étudié ? De quel type est-il ? Quelles sont ses
modalités ? Quel est l’effectif total ?
50 2. Dresser le tableau de données correspondant à
cet histogramme.
40

30

20

10

0
180 190 200 210 220 230 Taille

Exercice 6.
Lors d’une enquête, on interroge 1000 individus sur leur âge, leur couleur préférée, leur nombre de frères et
sœurs et leur département de naissance.
1. Quelle est la nature de chacune de ces variables ?
2. Quelle représentation graphique utiliseriez-vous pour visualiser chacune de ces distributions ?

2. Indicateurs de tendance centrale et de dispersion

Exercice 7.
Pour les deux séries statistiques suivantes, calculer la médiane et la moyenne arithmétique. Commenter les
résultats.
0 ; 2 ; 2 ; 3 ; 3 ; 4 ; 5 ; 5 ; 5 ; 6 ; 6 ; 8 ; 8 ; 8 ; 10
0 ; 2 ; 2 ; 3 ; 3 ; 4 ; 5 ; 5 ; 5 ; 6 ; 6 ; 8 ; 8 ; 8 ; 100

3
CHAPITRE 1. STATISTIQUES UNIVARIÉES

Exercice 8.
Calculer la médiane, la moyenne, la variance, l’écart type et les quartiles des séries statistiques suivantes :
• Données 1 :
41.5 ; 43.6 ; 45.3 ; 48.9 ; 50.3 ; 53.7 ; 55.0 ; 55.5 ; 56.4 ; 58.7 ; 68.6 ; 70.5
• Données 2 :
1; 5; 2; 5; 7; 3; 9; 13 ; 11 ; 5; 2; 3; 11 ; 3; 2; 5; 2; 1
• Données 3 :
1.0

0.8

50
X 0.6
xi = 238.34
i=1 Fi 0.4
50
X
x2i = 1644.243 0.2
i=1
0.0
0 2 4 6 8 10

Exercice 9.
Voici le nombre de litres de lait achetés hebdomadairement par un groupe de 100 consommateurs :

Nombres de litres 0 1 2 3 4 5
Nombres de consommateurs 5 20 35 25 10 5
1. Quelle est la variable étudiée ?
2. Tracer une représentation graphique de la distribution de cette variable.
3. Effectuer la représentation graphique des fréquences cumulées.
4. Calculer la moyenne et la médiane de cette variable sur la population étudiée.
5. Dix consommateurs n’avaient pu participer à cette étude. Leurs réponses ont été intégrées par la suite
aux résultats de l’étude. Les voici :
3 4 2 3 3 4 5 5 4 4
Pouvez-vous dire si la moyenne et la médiane sur le groupe des 110 consommateurs seront influencées
par cette modification ?
6. On a déterminé pour les 100 consommateurs la consommation moyenne par tranche d’âge :

âge [15, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 80[
Effectifs 22 13 14 20 9 22
Consommation moyenne 3.182 3.462 3.071 1.444 0.864

Déterminer la consommation moyenne de la classe [40, 50[.

Exercice 10.
Le directeur d’un entreprise (A) a annoncé : « Les salariés de mon entreprise gagnent plus que ceux de
l’entreprise B ». Le directeur de l’entreprise B a répondu : « Les ouvriers de mon entreprise gagnent plus
que ceux de l’entreprise A et c’est également le cas des cadres ».
Vérifier leurs propos.

4
CHAPITRE 1. STATISTIQUES UNIVARIÉES

Entreprise A Entreprise B
Salaires
Ouvriers Cadres Ouvriers Cadres
[900; 1400[ 84 0 141 0
[1400; 1900[ 86 0 139 0
[1900; 2400[ 48 5 69 19
[2400; 2900[ 152 5 71 21
[2900; 3400[ 0 10 0 21
[3400; 3900[ 0 11 0 19
[3900; 4400[ 0 9 0 20

Exercice 11.
La direction générale de l’agriculture et de la forêt nous donne la répartition par tranches d’âges des chefs
d’exploitation agricole d’une région.

âge du chef d’exploitation Nombre d’exploitations Densité d’effectif Fréquence Fréquence cumulée
Moins de 25 ans - [20 ; 25[ 580
De 25 à 29 ans - [25 ; 30[ 2162
De 30 à 39 ans - [30 ; 40[ 8063
De 40 à 49 ans - [40 ; 50[ 9569
De 50 à 59 ans - [50 ; 60[ 10660
De 60 à 69 ans - [60 ; 70[ 15913

1. Définir la population étudiée, l’individu et le caractère ainsi que les modalités de celui-ci.
2. Représenter cette distribution à l’aide d’un histogramme.
3. Déterminer les fréquences et les fréquences cumulées (croissantes).
4. Quelle est la proportion des chefs d’exploitations qui ont : au moins 40 ans ? moins de 30 ans ? entre 25
et 60 ans ?
5. Représenter graphiquement la courbe des fréquences cumulées.
6. Estimer à l’aide du graphique : la médiane, le premier quartile Q1 et le troisième quartile Q3 .
7. Déterminer précisément par le calcul la valeur de la médiane.
8. (*) Quelle est la proportion des chefs d’exploitations qui ont entre 35 et 65 ans ?

Exercice 12.
Lors d’un contrôle continu, les résultats suivants ont été obtenus :

Note 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Effectif 1 0 1 1 1 1 3 3 6 8 10 8 6 5 2 2 1 0 1
Effectif cumulé

1. Compléter le tableau en calculant les effectifs cumulés (croissants).


2. Déterminer la moyenne et la médiane de cette série.
3. Lorsque les résultats sont étudiés selon les groupes, on obtient les diagrammes en bâtons suivants :

5
CHAPITRE 1. STATISTIQUES UNIVARIÉES

Eff Diagramme en bâtons 1 Eff Diagramme en bâtons 2


4 7
3 6
2 5
1 4
3
1 5 10 15 Note
2
1

1 5 10 15 Note

(a) Calculer moyenne, médiane, Q1 et Q3 de chaque groupe.


(b) Justifier ou contredire les commentaires suivants.
• « Le groupe 2 a de bien meilleurs résultats que le groupe 1. »
• « Le groupe 1 est plus homogène que le groupe 2. »
• « Dans le groupe 1, il y a de meilleurs étudiants que dans le groupe 2. »
• « Dans le groupe 1, le nombre d’étudiants en difficultés est important. »

Exercice 13.
Une enquête est menée par sondage auprès de 500 étudiants de première année concernant la durée moyenne
du trajet qu’ils effectuent quotidiennement entre leur domicile et l’Université. Ces étudiants ont en commun
de tous avoir une durée de trajet inférieure à deux heures. Quatre-vingt dix étudiants mettent strictement
moins d’un quart d’heure pour atteindre l’Université, 200 mettent strictement moins d’une demi-heure, 400
mettent moins d’une heure et 480 moins d’une heure et demie.
1. Établir un tableau synthétique représentant la distribution des temps de trajet observés (classes de
valeurs, effectifs).
2. Compléter le rapport suivant, nécessaire à l’étude des problèmes de transport des étudiants :
La durée de trajet moyenne des étudiants est de . . . minutes et la moitié d’entre eux met plus de . . .
minutes à atteindre l’Université. Les 20% d’étudiants les plus proches de l’Université ont une durée de
trajet inférieure à . . . minutes, mais l’on constate qu’un tiers des étudiants met plus de . . . minutes à y
parvenir.

3. Utilisation des indicateurs pour comparer des groupes

Exercice 14.
Une enquête portant sur le nombre de kilomètres parcourus en une journée par les coursiers de deux sociétés
de livraison a donné les résultats suivants :

Société Nombre de coursiers Minimum Q1 Médiane Q3 Maximum


A 196 95 150 190 210 260
B 100 90 125 140 160 240

1. Construire les diagramme en boîte de ces deux séries, on prendra comme extrémités des moustaches les
valeurs minimum et maximum.
2. Comparer ces deux séries.

Exercice 15.
Voici le relevé des poids nets de 30 paquets de biscuits, pris pour les uns dans une unité de fabrication
industrielle et pour les autres dans une fabrique artisanale.

6
CHAPITRE 1. STATISTIQUES UNIVARIÉES

Masse (en g) 198 199 200 201 202 Masse (en g) 198 199 200 201 202
Effectif 3 2 18 5 2 Effectif 5 7 7 6 5

1. Calculer, dans chacun des cas, la moyenne et l’écart type.


2. Ces résultats permettent-ils de savoir d’où provient chaque tableau ?

Exercice 16.
Une étude portant sur le nombre de livres lus par an, pour 4 groupes de filières différentes de 30 étudiants, a
donné les diagrammes suivants :

Boîtes à moustaches Diagramme en bâtons 1 Diagramme en bâtons 2 Diagramme en bâtons 3 Diagramme en bâtons 4
des 4 groupes
Eff Eff Eff Eff
7 7 7 7

BM4 6 6 6 6
5 5 5 5
BM3
4 4 4 4
BM2
3 3 3 3
2 2 2 2
BM1
1 1 1 1
0 5 10 15 20
1 5 10 15 1 5 10 15 1 5 10 15 1 5 10 15
Nb de livres Nb de livres Nb de livres Nb de livres

1. Associer à chaque diagramme en bâtons une boite à moustaches correspondant à la même série.
2. Sans calcul, expliquer pourquoi il semble peu judicieux de résumer certaines de ces séries (lesquelles ?),
par le couple (moyenne, écart type). Préciser alors pour chaque groupe, si la moyenne est supérieure,
inférieure ou à peu près égale à la médiane. Vérifier par le calcul.
3. Proposer des commentaires pour chaque groupe.

Exercice 17.
Le tableau suivant fournit pour l’année 2003, la répartition des accidents corporels et des accidents mortels
de la route par tranche horaire de la journée (source ONISR, fichier accidents) :

Heure Accidents corporels Tués Fréquence AC FC AC Fréquence Tués FC T


[0 ; 3[ 3980 467
[3 ; 6[ 3354 558
[6 ; 9[ 10063 686
[9 ; 12[ 12931 633
[12 ; 15[ 15179 741
[15 ; 18[ 20148 1118
[18 ; 21[ 17387 950
[21 ; 24[ 7178 578

1. Remplir le tableau en calculant les fréquences et les fréquences cumulées (croissantes) pour les deux
séries de données (Accidents et Tués).
2. Représenter graphiquement les fréquences cumulées pour chaque série.
3. Déterminer les médianes et les quartiles des deux séries. En déduire l’écart interquartile de chaque série.
Interpréter tous ces résultats.
4. Compléter les affirmations suivantes :

7
CHAPITRE 1. STATISTIQUES UNIVARIÉES

(a) La tranche horaire la plus dangereuse est ...... ; on y enregistre ...... % des accidents corporels et ......
% des accidents mortels.
(b) Entre 21 h et 6 h du matin, le pourcentage des tués atteint ...... % alors qu’on ne compte que ......%
des accidentés. Cela atteste de la gravité des accidents à ces heures.
(c) Un accidenté sur deux a eu son accidents avant ....... h.
(d) Un tué sur deux l’est entre 9h et ......h.
(e) Les accidents corporels se produisent en moyenne à ...... h et les accidents mortels à ...... h.
5. Expliquer pourquoi l’affirmation (e) manque d’intérêt et de pertinence. Entre moyenne et médiane, quel
est le paramètre le plus intéressant ici ?

4. Courbe de concentration et indice de Gini

Exercice 18.
Dans une entreprise, la répartition des salaires est la suivante :

Salaire mensuel Effectif de salariés


[500 ; 1500[ 50
[1500 ; 2500[ 125
[2500 ; 5500[ 25

1. Tracer l’histogramme représentatif des données.


2. Quel est le salaire moyen dans l’entreprise ? Quel est le salaire médian ?
3. Calculer la masse salariale par classe et représenter la courbe de Lorenz.
4. Calculer l’indice Gini.
5. Commenter.

Exercice 19.
Étude des inégalités de répartition des revenus des ménages et comparaison avec
le patrimoine (ressource Insee)
Un résumé de la répartition des revenus disponibles des ménages en 2004 est fait dans le tableau suivant.
Premier décile Premier quartile Médiane Troisième quartile Dernier décile Moyenne
D1 Q1 Me Q3 D9 m
11500 16000 21000 30000 40000 28340

Avant le premier décile, se trouve 10% de la population et, avant le dernier décile, se trouve 90% de la
population.
1. Calculer et interpréter l’écart interquartile.
D9
2. Calculer le rapport interdécile : et interpréter.
D1
3. Comparer la valeur de la moyenne et celle de la médiane. Interpréter.
Le tableau suivant détaille un peu plus les données.

Décile D1 D2 D3 D4 D5 D6 D7 D8 D9 >D9
Revenu disponible annuel 11477 14408 17581 20942 24599 28623 33171 39356 49554
Masse des revenus (en %) 3 4.5 5.5 6.7 7.9 9.2 10.7 12.5 15.2 24.8
Cumul de la masse (en %) 3 7.5 13 19.7 27.6 36.8 47.5 60 75.2 100

8
CHAPITRE 1. STATISTIQUES UNIVARIÉES

4. Sur le graphique représentant la courbe de Lorenz de la répartition du patrimoine par ménage, tracer
celle des revenus.

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

5. Quelle est l’interprétation de la diagonale du graphique ?


6. Quelle interprétation peut-on donner de l’éloignement de la courbe de Lorenz des revenus disponibles
avec la diagonale ?
7. Associer l’indice de Gini à la courbe correspondante : 0.3 et 0.6. Commenter.
8. Compléter à l’aide du tableau et du graphique les phrases suivantes :

En 2004, les 10% des ménages français qui avaient les revenus les plus bas touchaient
au plus ..... euros et totalisaient ..... % du revenu total alors que si la répartition était
égalitaire, ils toucheraient ...... % de revenu total soit un écart de ......
En 2004, les 10% des ménages qui avaient les revenus les plus élevés touchaient au
moins ...... euros et totalisaient ....% du revenu total.
En 2004, la moitié de la masse totale des revenus disponibles est détenue par .... % de
la part des ménages qui ont les revenus les plus faibles et ceci signifie donc que .... %
des ménages ayant les revenus les plus élevés détiennent .... % de cette masse totale des
revenus.
La courbe de Lorenz de la répartition du patrimoine permet de montrer que 20% des
français qui ont le patrimoine le plus faible détiennent seulement .....% de la masse
totale du patrimoine.
De même les 20% détenant le plus de patrimoine possèdent ...... % de la totalité du
patrimoine.
On peut donc mettre en évidence que la part de patrimoine détenue par les 20% ayant le
plus de patrimoine est ..... fois plus importante que la part de patrimoine des 20% en
ayant le moins.

9
CHAPITRE 1. STATISTIQUES UNIVARIÉES

Exercice 20.
La répartition des salaires mensuels d’une entreprise est donnée par le tableau suivant :

Salaire [1000; 1400[ [1400; 1800[ [1800; 2600[ [2600; 3800[


Effectif 144 192 40 24

1. Décrire la série statistique étudiée (population, caractère, type).


2. Compléter le tableau suivant :

Salaire Effectif Fréquence Fréq Cum Fi Masse salariale gi Gi


[1000; 1400[ 144
[1400; 1800[ 192
[1800; 2600[ 40
[2600; 3800[ 24
Total / /

• gi est la fréquence (proportion) de la masse salariale de la ligne i ;


• Gi est la fréquence cumulée de la masse salariale à la ligne i.
3. Dans quelle classe se trouve la médiane de cet échantillon ? Calculer sa valeur.
4. Représenter la courbe des fréquences cumulées croissantes.
5. Tracer la courbe de Lorenz associée à cette distribution.
6. Calculer l’indice de Gini. Commenter.
7. Déterminer graphiquement la médiale. Vérifier par un calcul.

10
Chapitre 2

Statistiques bivariées

1. Tableaux de contingence, lois marginales, lois conditionnelles


et covariance

Exercice 21.
Une étude effectuée sur 180 étudiants ayant obtenu une première année de licence d’Économie nous fournit
les résultats suivants concernant le nombre d’années pour obtenir la première année de licence et le nombre
de tentatives pour obtenir le bac :

L1
1 2 3
Bac
1 95 32 9
2 9 23 12

1. Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
2. Établir les lois marginales, en arrondissant à 3 décimales. Calculer les moyennes et variances marginales
si elles existent.
3. Calculer les lois conditionnelles pour le nombre d’années d’obtention du bac et pour le nombre d’années
d’obtention de la L1, en arrondissant à 3 décimales.
4. Calculer la covariance et le coefficient de corrélation. Commenter.

Exercice 22.
Un garage dispose du tableau suivant qui résume l’état des ventes de voitures de l’an dernier en fonction de
leur prix de vente (en milliers d’euros) et de leur cylindrée (en centaine de cm3 ).

Prix
[6 ; 10[ [10 ; 20[ [20 ; 30] Total
Cylindrée

[9 ; 15[ 35 10

[15 ; 19[ 60 20 90

[19 ; 21[ 0 25 30

Total 45 75 50

1. Décrire la population et les caractères étudiés.


2. Compléter le tableau.
3. Calculer les profils colonnes (lois conditionnelles selon le prix) en arrondissant à 3 décimales.
4. Calculer les lois marginales. Calculer les moyennes et variances marginales si elles existent.
5. Calculer la covariance et le coefficient de corrélation linéaire. Commenter.

11
CHAPITRE 2. STATISTIQUES BIVARIÉES

2. Variance expliquée, variance résiduelle

Exercice 23.
Un village est composé des 3 hameaux. Une étude statistique sur la taille des habitants de plus de 15 ans de
ces trois hameaux. Les données sont présentées dans le tableau suivant :

Taille (en cm) Hameau A Hameau B Hameau C


[110; 120[ 0 1 2
[120; 130[ 5 5 12
[130; 150[ 12 10 34
[150; 160[ 35 12 45
[160; 170[ 46 4 80
[170; 180[ 12 2 74
[180; 185[ 9 0 85
[185; 190[ 4 0 30
[190; 195[ 0 0 10
[195; 200[ 0 0 4
1. Calculer la taille moyenne dans chaque hameau.
2. Calculer de deux façons différentes la moyenne des tailles de tous les habitants du village.
3. Calculer la variance et l’écart type des tailles des habitants dans chaque hameau.
4. Calculer la variance et l’écart type des tailles de tous les habitants du village.
5. Calculer la moyenne des variances dans chaque hameau et la variance des moyennes de chaque hameau
(utiliser l’effectif de chaque hameau). Additionner ces deux valeurs. Que constatez-vous ?
6. Calculer le rapport entre la variance des moyennes et la variance totale. Cela représente la part de la
variance expliquée par l’hétérogénéité entre les hameaux.

Exercice 24.
Une enquête est réalisée auprès d’une clientèle (533 individus) pour étudier leur disposition à payer (Xen e)
un forfait téléphonique. Cette clientèle a été segmentée en fonction d’un critère Y qui prend 3 modalités A,
B et C. Après consultation on obtient le tableau de contingence suivant :

Y
A B C Total
X
]0; 5] 38 11 0 49
]5; 10] 55 63 0 118 On donne les résultats partiels suivants :
]10; 15] 53 76 0 129 X X
niA xiA = 2105 niA x2iA = 31750
]15; 20] 32 62 1 95 i i
X X
]20; 25] 6 24 8 38 niB xiB = 3217.5 niB x2iB = 50706.25
i i
]25; 30] 5 4 40 49 X
niC xiC = 3035
X
niC x2iC = 94175
i i
]30; 35] 2 1 37 40
]35; 40] 1 0 12 13
]40; 45] 0 0 2 2
Total 192 241 100 533

12
CHAPITRE 2. STATISTIQUES BIVARIÉES

1. Déterminer les moyennes conditionnelles de X. En déduire la moyenne marginale de X.


2. Déterminer les variances marginale et conditionnelles.
3. Déterminer la variance résiduelle (la moyenne des variances conditionnelles pondérées par les effectifs
respectifs).
4. Déterminer de deux manières la variance expliquée.
5. En déduire le coefficient de détermination.
6. À partir du tableau et des calculs précédents la segmentation de la clientèle vous semble-t-elle pertinente ?

Exercice 25.
L’Insee a publié la répartition des 225 784 mariages célébrés en 2013, en fonction de l’âge des épouses (X) et
de l’état matrimonial antérieur (Y) de celles-ci.

Célibataires Veuves Divorcées Ensemble


de 16 à 20 ans 1708 0 0 1708
de 20 à 24 ans 23965 6 261 24232
de 25 à 29 ans 62087 27 1725 63839
de 30 à 34 ans 44639 102 4317 49058
de 35 à 39 ans 21538 200 5908 27646
de 40 à 49 ans 19962 690 13702 34354
de 50 à 59 ans 6584 865 10683 18132
de 60 ans ou plus 1496 909 4410 6815
Total 181979 2799 41006 225784

1. Calculer les centres de classes xi , puis les moyennes conditionnelles et la moyenne marginale de X.
2. Calculer les variances conditionnelles et la variance marginale V de X.
3. Calculer la variance expliquée Ve et la variance résiduelle Vr et vérifier que l’on a bien V = Ve + Vr .
4. La variance expliquée est-elle une bonne mesure pour mesuré l’écart entre les groupes ? Sinon, proposer
une grandeur mieux adaptée.

Exercice 26.
Deux populations A et B de 50 individus chacune, ont passé un test dont le score est compris entre 0 et 100.
On note xi,A les scores des individus du groupe A et xi,B , les scores des individus du groupe B. L’ensemble
des données brutes pour les deux populations sont présentées dans les tableaux ci-dessous :

Score du Groupe A Score du Groupe B


14 17 23 23 23 23 24 24 25 25 19 29 29 35 37 37 40 41 45 45
26 26 26 27 27 28 29 30 32 33 49 49 49 51 51 52 53 53 54 55
33 33 36 37 37 38 38 40 41 42 55 55 56 57 58 58 58 59 59 59
42 42 42 43 43 43 44 49 49 49 61 62 63 64 65 68 68 70 70 71
50 51 53 54 58 59 59 60 65 81 71 73 75 76 77 80 84 90 95 96

Quelques résultats intermédiaires sont donnés dans le tableau ci-dessous avec les conventions habituelles :

13
CHAPITRE 2. STATISTIQUES BIVARIÉES

50
X 50
X 50
X 50
X
xi,A x2i,A xi,B x2i,B
i=1 i=1 i=1 i=1
1916 82788 2926 184416

À l’aide de représentations graphiques, de paramètres de positions et de dispersion, vous synthétiserez les


scores de chacune de ces populations, en mettant en évidence ce qui les distingue.

3. Régression linéaire ou non linéaire se ramenant au cas linéaire

Exercice 27.
Dans une recherche sur l’amélioration du rendement scolaire de ses étudiants, un professeur tente d’évaluer
l’impact du temps d’étude pour un examen sur le résultat obtenu à celui-ci. Il demande donc à ses étudiants
d’inscrire sur une feuille, avant de commencer leur examen, leur nom et le temps qu’ils ont consacré à l’étude
pour cet examen ; puis il ramasse ces feuilles pendant l’examen. Après la correction de l’examen, le professeur
reprend ces feuilles et inscrit la note attribuée.
L’ensemble de ces données nous fournit le nuage de points ci-dessous. Le caractère X correspond au temps
d’étude en heures et le caractère Y à la note obtenue sur 100.
100

90

80

70
Notes Y
60

50

40

30
0 1 2 3 4 5 6 7 8 9 10 11
Temps d’étude X en heures

La somme de toutes les notes vaut 1558 et la somme de tous les carrés des notes vaut 112424. La somme de
toutes les heures de travail est 77.1 et la somme de tous les carrés des temps d’étude vaut 346.57. La somme
des produits xi yi vaut 5571.7.
1. Déterminer les valeurs des moyennes, des variances et de la covariance.
2. Calculer le coefficient de corrélation linéaire entre les deux caractères x et y. Commenter.
3. On enlève de l’étude l’étudiant qui a travaillé 10 heures et a obtenu seulement 63. On obtient les nouvelles
valeurs suivantes :

mx my V (x) V (y) Cov(x, y)


3.19 71.19 1.53 96.43 7.85

4. Justifier l’utilisation de la droite de régression linéaire en calculant le coefficient de corrélation linéaire.


5. Déterminer la droite de régression linéaire de y en fonction de x par la méthode des moindres carrés
notée D : y = ax + b.
6. Tracer la droite obtenue sur le même graphique que le nuage de point.
7. En utilisant la droite de régression linéaire, prévoir la note d’un étudiant ayant travaillé 6 heures.

14
CHAPITRE 2. STATISTIQUES BIVARIÉES

Exercice 28.
Considérons un échantillon de 10 employés (ayant entre 40 et 50 ans) d’une entreprise. On a déterminé pour
chaque employé le nombre d’années de service (caractère X) et le nombre de jours d’absence pour raison
médicale au cours de l’année précédente (caractère Y ).

Nombre d’années de service : xi 2 14 16 8 13 20 24 7 5 11


Nombre de jours d’absence : yi 3 13 17 12 10 8 20 7 2 8

1. Représenter le nuage de points ci-dessous.


2. Quelle relation entre les deux caractères le nuage de points indique-t-il ?
3. Quel est le nombre moyen d’années d’ancienneté des employés de l’étude ?
4. Déterminer les moyennes, les variances et la covariance.
5. Calculer le coefficient de corrélation linéaire entre ces deux caractères. Commenter.
6. Si cela est justifié, tracer la droite de régression linéaire sur le nuage de points. Vérifier que le point
moyen (mx , my ) est bien sur cette droite.
7. Selon la droite de régression, à combien de jours d’absence pour raison médicale peut-on s’attendre chez
un employé ayant 10 années de service ?
8. Quelle interprétation pouvez-vous donner à la pente de la droite de régression ?

Exercice 29.
Un hypermarché dispose de 20 caisses. On s’intéresse au temps moyen d’attente en fonction du nombre de
caisses ouvertes. Le tableau ci-dessous donne x le nombre de caisses ouvertes et y le temps moyen d’attente
correspondant

Nombre de caisses ouvertes : xi 3 4 5 6 8 10 12


Temps moyen d’attente (en minutes) : yi 16 12 9.6 7.9 6 4.7 4
1. Calculer le coefficient de corrélation linéaire entre les deux variables.
2. Faut-il effectuer un ajustement par une droite ?
3. On effectue le changement de variable suivant : X1 = ln(X) et Y1 = ln(Y ). Calculer les valeurs prises
par X1 et Y1 , puis calculer le coefficient de corrélation de (X1 , Y1 ). Commenter.
4. Déterminer la droite de régression de Y1 par rapport à X1 . En déduire une relation ajustant Y par
rapport à X du type y = αxβ .

Exercice 30 (Examen 2014/2015).


On s’intéresse à une population de n = 10 catégories socio-professionnelles. On mesure le revenu mensuel
moyen x (en milliers d’euros) et les inégalités salariales y (mesurées avec l’indice de Gini) pour chacune de
ces catégories.
1. Modèle linéaire.
On donne
10
X 10
X 10
X 10
X 10
X
xi = 26.60, x2i = 81.10, yi = 6.12, yi2 = 4.3662, xi yi = 18.40.
i=1 i=1 i=1 i=1 i=1

(a) Calculer la moyenne et la variance de x et de y.


(b) Calculer la covariance Cov(x, y) et le coefficient de corrélation linéaire r1 de x avec y.
(c) Calculer l’équation de la droite de régression linéaire de y par rapport à x.
2. Modèle quadratique.
On pose z = (x − 3.40)2 et on donne
10
X 10
X 10
X
zi = 15.82, zi2 = 54.8998, zi yi = 5.4016.
i=1 i=1 i=1

15
CHAPITRE 2. STATISTIQUES BIVARIÉES

(a) Calculer le coefficient de corrélation linéaire r2 de z avec y et l’équation de la droite de régression


linéaire de y par rapport à z.
(b) En déduire l’expression de y par rapport à x.
3. Conclusion
(a) Quel modèle est le plus adapté ?
(b) Proposer une prévision de l’indice de Gini pour une catégorie socio-professionelle dont le salaire
moyen est de x = 4.8 milliers d’euros.

16

Vous aimerez peut-être aussi