Vous êtes sur la page 1sur 8

Universit Sidi Mohamed Ben Abdellah Anne Universitaire 2015/2016

Parcours Gestion S3, Analyse des donnes


- Fs- Master : FCA

Srie 3 d'Analyse des Donnes


Exercice 1 : Le tableau suivant croise les variables REVENUS et HABITAT (o les modalits RPE, RM et RPF
dsignent respectivement Revenu Plutt Elev, Revenu Moyen et Revenu Plutt Faible) :
CAMPAGNE AGGLOMERATION VILLES
RPE 80 120 200
RM 100 300 100
RPF 300 220 180
1. Quappelle-t-on ce type de tableau ?

Les sorties logiciel de lAFC donnent :


Valeurs propres Distance Inertie Inertie relative
F1 F2 Profiles (lignes) :
RPE 0,192 0,04792 0,355
Valeur propre 0,076 0,058 CAMPAGNE AGGLOMERATION VILLES
RM 0,167 0,05208 0,386
RPE 0,200 0,300 0,500
RPF 0,080 0,03482 0,258
RM 0,200 0,600 0,200
RPF 0,429 0,314 0,257
Contributions (lignes) :
Poids (relatif) F1 F2 Coordonnes principales (lignes) :
RPE 0,250 0,227 0,523 F1 F2
RM 0,313 0,665 0,023 RPE -0,263 0,350
RPF 0,438 0,108 0,454 RM 0,403 0,065
RPF -0,137 -0,246
Cosinus carrs (lignes) :
F1 F2
Poids (relatif) Distance Inertie Inertie relative RPE 0,362 0,638
CAMPAGNE 0,300 0,143 0,043 0,318 RM 0,974 0,026
AGGLOMERATION 0,400 0,114 0,046 0,338 RPF 0,237 0,763
VILLES 0,300 0,155 0,046 0,344

Cosinus carrs (colonnes) :


Profiles (colonnes) :
F1 F2
CAMPAGNE AGGLOMERATION VILLES
CAMPAGNE 0,192 0,808
RPE 0,167 0,188 0,417
AGGLOMERATION 0,980 0,020
RM 0,208 0,469 0,208
VILLES 0,506 0,494
RPF 0,625 0,344 0,375

Graphique symtrique

0,4
RPE
0,3
VILLES
0,2
RM
F2 (43,37 %)

0,1
AGGLOMERATION
0
-0,1
-0,2
RPF
-0,3
CAMPAGNE
-0,4
-0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 -1E-15 0,1 0,2 0,3 0,4 0,5 0,6
F1 (56,63 %)

2. Combien daxes proposez-vous de retenir pour rsumer ces donnes ? Justifier.


3. Calculer les inerties associes aux 3 axes. Peut-on dire que lun des axes est laxe des REVENUS ? Justifier
4. Calculer linertie Totale .En dduire le khi-deux .
5. Quels sont les individus(modalits revenus) qui contribuent le plus la formation de laxe F2 ?
6. Interprter globalement le mapping ci-dessus.
Exercice 2 : Un chirurgien a effectu des oprations de la main sur 698 patients gs de 20 90 ans et a
not par MAUVAIS, MOYEN, BON ou EXCELLENT le rsultat de lopration sur chacun des patients.
On convient de dsigner les classes dges dune largeur de 10ans par leur centre, on aura 7centres (Ci) :
EXCELLENT BON MOYEN MAUVAIS
C25 16 6 0 1
C35 59 27 4 4
C45 63 39 10 3
C55 150 52 11 6
C65 89 33 7 5
C75 54 16 7 5
C85 20 6 4 1
(Tableau de contingence en terme deffectifs)

1) Complter le tableau ci-dessus par ses marges. Vrifier leffectif total. Ecrire le tableau des frquences (au
cent-millime prs), calculer les frquences marginales, la matrice centre des frquences, le tableau des
profils-lignes du NI et celui des profils-colonnes du Nj. Indiquer les poids des points des deux nuages.
2) Les sorties logiciel de lAFC donnent :
Valeurs propres et pourcentages d'inertie :
F1 F2 F3
F1 F2 F3
C25 -0,183 0,173 0,060
Valeur propre 0,012 0,010 0,003
C35 -0,005 0,086 0,063
Inertie (%) 49,680 39,408 10,912
C45 0,229 0,048 0,001
% cumul 49,680 89,088 100,000
C55 -0,067 0,019 -0,055
C65 -0,047 0,012 0,003
C75 -0,044 -0,182 0,082
C85 0,095 -0,272 -0,082
Coordonnes principales (lignes) :
Coordonnes principales (colonnes) :
EXCELLENT -0,071 -0,011 -0,018
BON 0,127 0,118 0,019
MOYEN 0,268 -0,294 -0,032
MAUVAIS -0,101 -0,141 0,254
Calculer les inerties associes aux 3 axes. Peut-on dire que lun des axes est laxe des ges ?
3) Les 3 points EXCELLENT, C55 et C65 sont voisins sur laxe 1, peut-on dire quil ya une bonne corrlation
entre lge moyen des 50 70 ans et la qualit excellente de rsultat de lopration ? Ecrire lquation des
coordonnes barycentriques de EXCELLENT par rapport aux 7 classes dges. Cette quation confirme t-
elle le rsultat prcdent ?
4) Mme question pour MOYEN.

Exercice 3 Considrons 18282 individus pour lesquels on connat la CSP (modalits agriculteur AGRI,
cadre suprieur CADR, inactif INAC, et ouvrier OUVR) et le choix de l'hbergement pour les vacances
HEB (modalits camping CAMP, HOTEL, location LOCA, et rsidence secondaire RESI). Les rsultats
sont prsents comme suit :
CSP\HEB CAMP HOTEL LOCA RESI Total
AGRI 239 155 129 0 523
CADR 1003 1556 1821 1521 5901
INAC 682 1944 967 1333 4926
OUVR 2594 1124 2176 1038 6932
Total 4518 4779 5093 3892 18282
1) Quelle mthode proposez-vous pour tudier la nature de la liaison entre la CSP et le HEB ? Justifier.
2) Calculer le tableau des profils-ligne (utiliser un des tableaux ci-dessous).
3) On donne ci-dessous le tab des profils-colonne, interprter la valeur 0,391.
4) Combien daxes proposez-vous de retenir pour rsumer ces donnes ? Justifier.

2
5) Calculer linertie Totale En dduire le khi-deux .
6) Quelle sont les points lignes (respt colonnes) dont la contribution, aux deux premiers axes, est
suprieure la moyenne ? (utiliser un tableau avec les signes des coordonnes comme ci-contre :
les signes des coordonnes - +
F1 ? ?
F2 ? ?
7) Sur laxe F (1) , quelles sont les modalits lignes qui se ressemblent ?(voir mapping et cos2).
8) Dduire de la question 6) une interprtation du graphique ci-dessous CA factor map .
9) Pour aller plus loin, un des axes (F1 , F2) dcrit le type de vacances choisis alors que lautre est celui
des moyens financiers consacrs aux vacances. Interprtez.
Tableau des Frquences
CAMP HOTEL LOCA RESI Total
AGRI 0,013 0,008 0,007 0,000 0,029
CADR 0,055 0,085 0,100 0,083 0,323
INAC 0,037 0,106 0,053 0,073 0,269
OUVR 0,142 0,061 0,119 0,057 0,379
Total 0,247 0,261 0,279 0,213 1,000
Les profils- colonne F1 F2 F3
CAMP HOTEL LOCA RESI Total Valeur propre 0,098 0,014 0,001
AGRI 0,053 0,032 0,025 0,000 0,029 % inertie 86,855 12,256 0,889
CADR 0,222 0,326 0,358 0,391 0,323
INAC 0,151 0,407 0,190 0,342 0,269
OUVR 0,574 0,235 0,427 0,267 0,379
Total 1 1 1 1 1
Contributions lignes Cosinus carrs lignes Cosinus carrs colonnes
F1 F2 Contributions colonnes F1 F2 F1 F2
AGRI 6% 38% F1 F2 AGRI 49% 47% CAMP 96% 4%
CADR 6% 38% CAMP 49% 14% CADR 53% 45% HOTEL 84% 16%
INAC 39% 23% HOTEL 28% 37% INAC 92% 8% LOCA 50% 46%
OUVR 49% 0% LOCA 5% 31% OUVR 100% 0% RESI 85% 13%
RESI 18% 19%

Exercice 4 (voir fichier Ana-mult-3-2-2006.pdf : comparaison de ACM AFC).

3
Exercice 5 : On interroge 6 personnes sur la couleur de leurs cheveux (CB, CC et CR pour blond, chtain et
roux), la couleur de leurs yeux (YB, YV et YM pour bleu, vert et marron) et leur sexe (H/F). On a donc trois variables (avec
respectivement 3, 3 et 2 modalits) mesures sur 6 individus. On donne le tableau brut (ci-dessous).

1 0 0 1 0 0 1 0
1 0 0 0 1 0 1 0
0 1 0 1 0 0 0 1
0 1 0 0 0 1 1 0
0 0 1 0 1 0 0 1
() ( ) (1 0 0) (1 0 0) (0 1)

1- Ecrire le tableau disjonctif complet

Exercice 6
Une compagnie dassurance a compil propos de ses assurs des donnes sur leur taux de risque (0=normal,
1=fort) pour le systme cardio-vasculaire (CVas, coeur), le systme locomoteur (Loco, risque de paralysie), le
systme neurologique (Neuro, cerveau) et le diabte (Diab) :
On obtient le tableau de Burt suivant
> burt1
CVasc.0 CVasc.1 Loco.0 Loco.1 Neuro.0 Neuro.1 Diab.0 Diab.1
CVasc.0 28464 0 27344 1120 26571 1893 22458 6006
CVasc.1 0 8742 7957 785 7013 1729 6125 2617
Loco.0 27344 ? 35301 0 32186 3115 27312 7989
Loco.1 1120 785 0 1905 1398 507 1271 634
Neuro.0 26571 7013 32186 1398 33584 0 26303 7281
Neuro.1 1893 1729 3115 507 0 3622 2280 1342
Diab.0 22458 6125 27312 1271 26303 2280 28583 0
Diab.1 6006 2617 7989 634 7281 1342 0 8623

Question 1. Calculer la valeur manquante du tableau (Loco.0,CVasc.1). Les personnes ayant un risque locomoteur
lev ont-elles un risque de diabte plus grand ou plus petit que la moyenne ?

On ralise une ACM sur les donnes ci-dessus. Les valeurs propres obtenues sont : 0:3364, 0:2365, 0:2256 et 0:2015.
On fournit ci-dessous les coordonnes sur les axes, les poids et les contributions aux axes (en 10000imes pour ces
deux derniers) pour les catgories.

round
round(acm1$co,4) inert1$col.abs
(poids1*10000)
Comp1 Comp2 poids Comp1 Comp2
CVasc.0 -0.3514 -0.0235 CVasc.0 1913 CVasc.0 702 4
CVasc.1 1.1441 0.0765 CVasc.1 587 CVasc.1 2286 15
Loco.0 -0.1194 -0.1293 Loco.0 2372 Loco.0 100 168
Loco.1 2.2120 2.3956 Loco.1 128 Loco.1 1862 3106
Neuro.0 -0.2248 -0.0247 Neuro.0 2257 Neuro.0 339 6
Neuro.1 2.0844 0.2287 Neuro.1 243 Neuro.1 3143 54
Diab.0 -0.2523 0.4356 Diab.0 1921 Diab.0 363 1541
Diab.1 0.8364 -1.4438 Diab.1 579 Diab.1 1205 5107

Question 2. Combien daxes propres faut-il conserver ? Que peut on dire alors de la qualit globale de la
reprsentation
?
Question 3. Quelles sont les catgories qui dterminent les deux premiers axes principaux ? (on dtaillera les critres
et on cherchera tre prcis dans la rponse).

4
Exercice 7 : Il s'agit de donn es (sans doute contestables) concernant les 2201 passagers et membres d' quipage
du c l bre bateau le Titanic, qui a coul le 14 avril 1912. Il faut noter que tout le monde n'est pas d'accord sur le
nombre de passagers et sur le nombre de victimes. Les variables sont :
classe 0=quipage, 1-3=classe
ge 0=enfant, 1=adulte
sexe 0=fminin, 1=masculin
survivant 0=non, 1=oui

On donne ci-dessous le tableau de Burt des donn es ainsi que le poids des cat gories (en 10000 mes).
class.0 class.1 class.2 class.3 age.0 age.1 sex.0 sex.1 surv.0 surv.1
class.0 885 0 0 0 0 885 23 862 673 212
class.1 0 325 0 0 6 319 145 180 122 203
class.2 0 0 285 0 24 261 106 179 167 118
class.3 0 0 0 706 79 627 196 510 528 178
age.0 0 6 24 79 109 0 45 64 52 57
age.1 885 319 261 627 0 2092 425 1667 1438 654
sex.0 23 145 106 196 45 425 470 0 126 344
sex.1 862 180 179 510 64 1667 0 1731 1364 367
surv.0 673 122 167 528 52 1438 126 1364 1490 0
surv.1 212 203 118 178 57 654 344 367 0 711
poids 4021 1477 1295 3208 495 9505 2135 7865 6770 3230

Question1. Quelle proportion d'enfants a survcu ? Quelle proportion de femmes a survcu ? Quelle est la proportion
de femmes parmi les survivants ?

On fait l'analyse en correspondance multiples des variables class, ge et sexe. La variable surv sera discut e plus
loin. On donne ci-dessous les valeurs propres de l'ACM, puis les coordonn es des cat gories sur les deux premiers
axes (avec la repr sentation correspondante), ainsi que leur contribution en 10000emes ces axes :

Valeurs propres sur les axes factoriels


[1] 0.4910 0.3808 0.3333 0.2614 0.2002

Coordonnes et contributions (en 10000 mes)


Comp1 Comp2 Comp1 Comp2
class.0 0.9767 -0.0133 class.0 2604 1
class.1 -0.7819 -1.7592 class.1 613 4000
class.2 -0.7917 -0.1258 class.2 551 18
class.3 -0.5448 0.8773 class.3 646 2161
age.0 -2.0877 2.5969 age.0 1465 2924
age.1 0.1088 -0.1353 age.1 76 152
sex.0 -1.4813 -0.5594 sex.0 3181 585
sex.1 0.4022 0.1519 sex.1 864 159

5
lments de rponses

Exercice 2 :
EXCELLENT BON MOYEN MAUVAIS Total n
i.
C25 16 6 0 1 23
C35 59 27 4 4 94
C45 63 39 10 3 115
C55 150 52 11 6 219
C65 89 33 7 5 134
C75 54 16 7 5 82
C85 20 6 4 1 31
Total n.j 451 179 43 25 698
M : f ij
EXCELLENT BON MOYEN MAUVAIS Total ni.
C25 0,02292 0,00860 0 0,00143 0,03295
C35 0,08453 0,03868 0,00573 0,00573 0,13467
C45 0,09026 0,05587 0,01433 0,00430 0,16476
C55 0,21490 0,07450 0,01576 0,00860 0,31375
C65 0,12751 0,04728 0,01003 0,00716 0,19198
C75 0,07736 0,02292 0,01003 0,00716 0,11748
C85 0,02865 0,00860 0,00573 0,00143 0,04441
Total f.j 0,64613 0,25645 0,06160 0,03582 1,00000

MT : f i. x f.j
EXCELLENT BON MOYEN MAUVAIS Total fi.
C25 0,02129 0,00845 0,00203 0,00118 0,03295
C35 0,08701 0,03454 0,00830 0,00482 0,13467
C45 0,10645 0,04225 0,01015 0,00590 0,16476
C55 0,20273 0,08046 0,01933 0,01124 0,31375
C65 0,12404 0,04923 0,01183 0,00688 0,19198
C75 0,07591 0,03013 0,00724 0,00421 0,11748
C85 0,02870 0,01139 0,00274 0,00159 0,04441
Total f.j 0,64613 0,25645 0,06160 0,03582 1,00000

f ij : M-MT
EXCELLENT BON MOYEN MAUVAIS
C25 0,00163 0,00015 -0,00203 0,00025
C35 -0,00249 0,00415 -0,00257 0,00091
C45 -0,01620 0,01362 0,00418 -0,00160
C55 0,01217 -0,00596 -0,00357 -0,00264
C65 0,00346 -0,00195 -0,00180 0,00029
C75 0,00146 -0,00720 0,00279 0,00296
C85 -0,00004 -0,00279 0,00299 -0,00016

6
Dl-1
30,3490137 0 0 0 0 0 0
0 7,42555877 0 0 0 0
0 0 6,06943433 0 0 0 0
0 0 0 3,187251 0 0 0
0 0 0 0 5,20887592 0 0
0 0 0 0 0 8,51208716 0
0 0 0 0 0 0 22,517451

Profils ligne centrs Dl-1*f


0,04947 0,00455 -0,06161 0,00759
-0,01849 0,03082 -0,01908 0,00676
-0,09832 0,08267 0,02537 -0,00971
0,03879 -0,01900 -0,01138 -0,00841
0,01802 -0,01016 -0,00938 0,00151
0,01243 -0,06129 0,02375 0,02520
-0,00090 -0,06282 0,06733 -0,00360

De mme on obtient les profils-colonne

Dk-1 1,54768 0,00000 0,00000 0,00000


0,00000 3,89940 0,00000 0,00000
0,00000 0,00000 16,23377 0,00000
0,00000 0,00000 0,00000 27,91736

-1
profils-colonne centrs f *Dk
0,00252 0,00058 -0,03295 0,00698
-0,00385 0,01618 -0,04172 0,02540
-0,02507 0,05311 0,06786 -0,04467
0,01884 -0,02324 -0,05795 -0,07370
0,00535 -0,00760 -0,02922 0,00810
0,00226 -0,02808 0,04529 0,08264
-0,00006 -0,01088 0,04854 -0,00447

3) Excellent (F1 )=1/racine(0,012) *[ C25F1 x0,00252+


C35 F1 x-0,00385+ C45 F1 x-0,02507+ C55 F1 x0,01884+ C65 F1 x0,00535+
C75 F1 x0,00226+ C85 F1 x-0,00006]
= 9.13x[-0.0005+0-0.0057-0.0013-0.0003-0.0001+0.0-0.000]
C45
7
Donc excellent est d C45 et non C55 et C65

Pour Moyen (F1 )=1/racine(0,012) *[ C25F1 x-0,003295+ + C85 F1 x-0,04854]


= 0,11x[-0.006+0.002+0.0155+0.0039+0.0014-0.002+0.0046]

C45

NORMAL !

Vous aimerez peut-être aussi