Vous êtes sur la page 1sur 7

Université Toulouse 1 Capitole

École d’Économie de Toulouse

Année universitaire 2021–2022


Session 1
Semestre 5

Licence 3 mention Économie

Épreuve : Analyse des Données et Tests statistiques

Date de l’épreuve : Lundi 6 Décembre 2021

Durée de l’épreuve : 1h30

Liste des documents autorisés : dictionnaire pour les étudiants étrangers.

Liste des matériels autorisés : calculatrice non programmable.

Nombre de pages (y compris page de garde) : 7.

1/7
Partie I : Tests statistiques
Merci de répondre à la Partie I : Tests statistiques et à la Partie II : Analyse des données
sur deux feuilles distinctes.
Pour tous les tests statistiques, on prendra un risque α de 5 %. On écrira les hypothèses nulle et
alternative testées, on donnera le nom du test utilisé, sa statistique de test, sa règle de décision
et on vérifiera ses conditions de validité. Quand un test est significatif, on précisera le sens de la
différence ou de la liaison mise en évidence. Les résultats des calculs seront donnés avec deux
décimales. Un barême indicatif est donné entre parenthèses.

Exercice A (5 points)
On souhaite comparer le nombre d’heures de vol mensuelles des pilotes de ligne de deux compa-
gnies aériennes, la North Airline et la South Airline. Pour cela, on dispose de deux échantillons
indépendants de durées de vol mensuelles (en heures) pour ces deux compagnies. En moyenne,
les 25 pilotes de l’échantillon de la North Airline volent 49h par mois contre 44h pour les 25
pilotes de l’échantillon issu de la South Airline. Les écarts-types estimés (sans biais) des durées
de vols sont respectivement de 8h pour la North Airline et de 7h pour la South Airline. On
supposera que les durées de vol mensuelles suivent une loi normale dans ces deux compagnies.
1. Quel test proposez-vous d’utiliser pour comparer les durées moyennes de vol mensuelles
de ces deux compagnies ? Quelles sont ses conditions de validité ? Vérifier qu’elles sont
respectées, à l’aide d’un test statistique si cela est nécessaire.
2. Effectuer ce test des comparaisons de moyennes et conclure.
3. On dispose maintenant d’un troisième échantillon, indépendant des deux premiers, des
durées de vols mensuelles de 25 pilotes de la compagnie East Airline. Quel test faudrait-il
effectuer pour comparer globalement les durées de vol moyennes de ces trois compagnies
(a) si on suppose que les durées de vol mensuelles de la compagnie East Airline suivent
une loi normale et que les variances théoriques des durées de vol de ces trois com-
pagnies sont identiques ?
(b) si on ne fait aucune supposition ?

Exercice B (5 points)
Vous avez sans doute tous entendu cet été le message du gouvernement :  Aujourd’hui en
France, 8 personnes sur 10 hospitalisées à cause de la Covid-19 ne sont pas vaccinées. On peut
débattre de tout, sauf des chiffres . Cette affirmation se base sur tous les cas d’hospitalisations
recensés en France sur une période donnée. Elle est donc la conclusion d’un recencement des
hospitalisations et n’est en effet pas discutable. En particulier, comme c’est une statistique sur la
population, il n’y a pas lieu ici de faire un test statistique basé sur l’observation d’un échantillon.
Il y avait donc à ce moment-là 80 % de non vaccinés et 20 % de vaccinés parmi les personnes
hospitalisées. L’énoncé de ces chiffres incite à comparer ces deux pourcentages, même si l’in-
terprétation qu’on doit en faire dépend du taux de vaccinés dans la population et qu’un meilleur
indicateur de l’effet protecteur du vaccin serait la proportion d’individus hospitalisés parmi les
individus vaccinés. A noter que la proportion de non vaccinés parmi les hospitalisés évolue au
fil du temps et n’est plus la même aujourd’hui (sûrement en grande partie parce que le taux de
vaccinés a augmenté).
Imaginons maintenant que cette affirmation soit basée sur un échantillon d’hospitalisations de
taille n, par exemple les observations dans un hôpital donné sur une période donnée (échantillon
supposé représentatif).
2/7
1. Si on dénombrait n = 20 personnes hospitalisées pour la Covid-19, dont 16 non vac-
cinées, pourrait-on conclure, au niveau de la population générale, que le taux de per-
sonnes non vaccinées parmi les hospitalisés est différent du taux de personnes vaccinées ?
On répondra à cette question par un test statistique bilatéral de comparaison d’une pro-
portion à une proportion de référence.

2. Même question si on observe le même pourcentage de personnes non vaccinées mais pour
seulement n = 10 personnes hospitalisées.

3. Comparer les conclusions de ces deux tests et commenter en faisant référence à la puis-
sance d’un test.

4. Calculer (ou déduire des questions précédentes) le nombre n minimum d’hospitalisations


qu’il faudrait dénombrer dans cet hôpital, avec le même pourcentage observé de per-
sonnes non vaccinées, pour pouvoir conclure au risque de 5 % que les deux taux diffèrent.
Attention : les nombres de personnes vaccinées et non vaccinées qui arrivent à l’hôpital
sont des entiers !

On donne les quantiles suivants de la loi normale centrée réduite, des lois de Student, des lois
de χ2 et des lois de Fisher :
z0,95 = 1, 645, z0,975 = 1, 96,
t48;0,95 = 1, 6772, t49;0,95 = 1, 6765, t50;0,95 = 1, 6759,
t48;0,975 = 2, 0106, t49;0,975 = 2, 0096, t50;0,975 = 2, 0086,
χ21;0,95 = 3, 84, χ21;0,975 = 5, 02,
F23,23,0,95 = 2, 01, F24,24,0,95 = 1, 98, F25,25,0,95 = 1, 96,
F23,23,0,975 = 2, 31, F24,24,0,975 = 2, 27, F25,25,0,975 = 2, 23.

Partie II : Analyse des données


Merci de répondre à la Partie I : Tests statistiques et à la Partie II : Analyse des données
sur deux feuilles distinctes.
Questions de cours (2 points)

• A quel type de données est adaptée une analyse factorielle des correspondances (AFC) ?

• Donner, avec les notations du cours, les formules de la distance du χ2 entre deux profils-
colonnes et de l’inertie totale du nuage des profils-colonnes.

• Quel est le nombre maximum de nouvelles variables pouvant être calculées dans une
AFC ?

Exercice (8 points)
On dispose de données observées sur 30 quartiers toulousains (source : https ://data.toulouse-
metropole.fr). Il s’agit de données du recensement de la population de 2011 à l’échelle des
grands quartiers (au sens de l’INSEE) sur le thème Diplômes - Formation. Les variables quan-
titatives considérées sont les suivantes :

• tauxsansdip : pourcentage de personnes non diplômées parmi les personnes non scola-
risées de plus de 15 ans,

3/7
• tauxBEPC : pourcentage de personnes titulaires d’un brevet des collèges parmi les per-
sonnes non scolarisées de plus de 15 ans,

• tauxCAPBEP : pourcentage de personnes titulaires d’un CAP ou d’un BEP parmi les
personnes non scolarisées de plus de 15 ans,

• tauxBAC : pourcentage de personnes titulaires d’un baccalauréat parmi les personnes non
scolarisées de plus de 15 ans,

• tauxBACP2 : pourcentage de personnes titulaires d’un diplôme de l’enseignement supérieur


court parmi les personnes non scolarisées de plus de 15 ans,

• tauxSUP : pourcentage de personnes titulaires d’un diplôme de l’enseignement supérieur


long parmi les personnes non scolarisées de plus de 15 ans.

Utiliser les extraits de sorties du logiciel R pour répondre aux questions suivantes.

Partie 1 : analyse en composantes principales (ACP)


On réalise une ACP sur ces 6 variables.

1. Calculer les valeurs A et B qui ont été effacées dans les tableaux ci-dessous et préciser de
façon succincte à quoi correspondent ces valeurs.

2. Donner, en le justifiant, le nombre de composantes principales à retenir pour cette ACP.


Quelle est la part d’inertie expliquée par les composantes principales retenues ?

3. Interpréter les composantes principales retenues à l’aide des variables initiales.

4. Interpréter les quartiers AMIDONNIERS et BELLEFONTAINE sur le premier axe et le


quartier ROSERAIE sur le deuxième axe après avoir justifié que ces quartiers sont bien
représentés sur les axes considérés.

> resuacp$eig
eigenvalue percentage of variance cumulative percentage of variance
comp 1 3.391823511 56.53039185 56.53039
comp 2 1.766679697 29.44466161 85.97505
comp 3 0.544523314 A 95.05044
comp 4 0.187662711 3.12771185 98.17815
comp 5 0.106564258 1.77607097 99.95422
comp 6 0.002746509 0.04577515 100.00000

> round(resuacp$var$cor,digits=2)
Dim.1 Dim.2 Dim.3
tauxsansdip -0.97 -0.11 -0.09
tauxBEPC -0.04 0.92 -0.29
tauxCAPBEP -0.82 0.37 0.38
tauxBAC 0.60 0.72 -0.10
tauxBACP2 0.81 0.22 0.52
tauxSUP 0.87 -0.44 -0.16

4/7
> round(resuacp$var$contrib,digits=2)
Dim.1 Dim.2 Dim.3
tauxsansdip B 0.72 1.59
tauxBEPC 0.04 48.24 15.07
tauxCAPBEP 19.90 7.72 27.08
tauxBAC 10.76 29.36 2.00
tauxBACP2 19.13 2.82 49.48
tauxSUP 22.40 11.14 4.78

> round(resuacp$ind$cos2,digits=2)
Dim.1 Dim.2 Dim.3
AMIDONNI 0.53 0.43 0.02
ROSERAIE 0.01 0.94 0.01
BELLEFON 0.94 0.00 0.06

Partie 2 : classification non supervisée


1. On réalise une classification des quartiers en 3 groupes par agrégation autour des moyennes
mobiles (AMM) à l’aide des 6 variables disponibles.

(a) Pourquoi n’est-il pas nécessaire de centrer et réduire les variables ? Justifier votre
réponse.
(b) Calculer le R2 global.
(c) Définir ainsi une typologie des quartiers en prenant les précautions nécessaires. Don-
ner l’effectif de chaque groupe.

2. On réalise ensuite une classification ascendante hiérarchique (CAH) sur ces données.
Donner les effectifs de la partition en 3 groupes obtenue par cette classification. Les deux
méthodes de classification fournissent-elles la même partition en 3 groupes ? Justifier
succinctement.
5/7
>apply(quartiers,2,mean)
tauxsansdip tauxBEPC tauxCAPBEP tauxBAC tauxBACP2 tauxSUP
14.611000 5.557333 15.486667 16.488000 15.880000 26.729000

> resuclassif
K-means clustering with 3 clusters of sizes 5, 20, 5
Cluster means:
tauxsansdip tauxBEPC tauxCAPBEP tauxBAC tauxBACP2 tauxSUP
1 35.016 4.978 21.5100 13.1040 10.094 9.232
2 11.500 6.142 15.9245 17.5305 17.187 26.104
3 6.650 3.798 7.7120 15.7020 16.438 46.726

Clustering vector:
AMIDONNI PONTDESD CROIXDEP BARRIERE ROSERAIE CHATEAUD BELLEFON SAINTAGN
3 2 2 2 2 2 1 2
LACEPIER CASSELAR SAINTMAR PURPAN SAINTETI SAINTCYP COMPANS
2 2 2 2 3 3 3
LESCHALE BAGATELL JUNCASSE LESIZARD CROIXDAU ZONESDAC LARDENNE
3 1 2 1 2 1 2
MINIMES BONNEFOY MARENGOJ GUILHEME FAOURETT FONTAINE LATERRAS MONTAUDR
2 2 2 2 1 2 2 2

Within cluster sum of squares by cluster:


[1] 325.15612 698.38701 93.30784

> resuclassif$betweenss
[1] 6926.86
> resuclassif$totss
[1] 8043.711

>groupe=as.factor(resuclassif$cluster)
> round(summary(lm(tauxsansdip˜groupe))$r.squared,digits=2)
[1] 0.89
> round(summary(lm(tauxBEPC˜groupe))$r.squared,digits=2)
[1] 0.49
> round(summary(lm(tauxCAPBEP˜groupe))$r.squared,digits=2)
[1] 0.79
> round(summary(lm(tauxBAC˜groupe))$r.squared,digits=2)
[1] 0.49
> round(summary(lm(tauxBACP2˜groupe))$r.squared,digits=2)
[1] 0.61
> round(summary(lm(tauxSUP˜groupe))$r.squared,digits=2)
[1] 0.89

6/7
Height

0 20 40 60 80 100

LESIZARD
FAOURETT
ZONESDAC
BELLEFON
BAGATELL
SAINTCYP
COMPANS
SAINTETI
AMIDONNI
LESCHALE
PONTDESD
MARENGOJ
GUILHEME
SAINTAGN
LARDENNE
SAINTMAR
CROIXDEP

dist(quartiers)
MINIMES

7/7
hclust (*, "ward.D2")
CHATEAUD
Cluster Dendrogram

BONNEFOY
LATERRAS
LACEPIER
CASSELAR
FONTAINE
BARRIERE
ROSERAIE
JUNCASSE
PURPAN
CROIXDAU
MONTAUDR

Vous aimerez peut-être aussi