Vous êtes sur la page 1sur 6

Institut des Hautes Etudes Commerciales.

Carthage
Filières : M2 _ Masters Pro IMVS
Matière : Analyse de Données Marketing
Enseignant : Adel Jalel Chekki 2H

Correction examen principal, Janvier 2017


Partie I : (4 points)
Dans un graphique récapitulatif, expliciter les modalités d’usage des méthodes multivariées d’analyse de données que vous
connaissez.

Partie II : (4 points)
Dans une étude qui a porté sur l’observation de 11 ménagères dans l’usage mensuel des dérivés de céréales et de légumineuses
dans la cuisine tunisienne, on a relevé les données suivantes :
. C1 C2 C3 C4 L1 L2 L3 L4
1 10 10 10 8 8.04 9.14 7.46 6.58
2 8 8 8 8 6.95 8.14 6.77 5.76
3 13 13 13 8 7.58 8.74 12.74 7.71
4 9 9 9 8 8.81 8.77 7.11 8.84
5 11 11 11 8 8.33 9.26 7.81 8.47
6 14 14 14 8 9.96 8.10 8.84 7.04
7 6 6 6 8 7.24 6.13 6.08 5.25
8 4 4 4 19 4.26 3.10 5.39 12.50
9 12 12 12 8 10.84 9.13 8.15 5.56
10 7 7 7 8 4.82 7.26 6.42 7.91
11 5 5 5 8 5.68 4.74 5.73 6.89
 Les dérivés des céréales : C1 (Couscous) ; C2 (riz); C3 (pâtes) ; C4 (autres : mhammes, dchich, etc.)
 Les légumineuses : L1 (pois chiches); L2 (petits pois) ; L3 (haricots) ; L4 (autres : lentilles, fenugrec ou helba, fève, etc.).
Questions :
1. Calculer la moyenne et la variance des variables C1, C4, L1, L4.
 Les moyennes sont toutes les mêmes pour les C d'un côté et les L de l'autre.
C1 : 9.000000 ; C4 : 9.000000 / L1 : 7.500909 L4 : 7.500909
 Les variances aussi (on calcule la moyenne des carrés moins le carré de la moyenne)
C1 : 10.00 ; C4 : 10.00 / L1 : 3.75239 ; L4 : 3.748408
2. Calculer les coefficients de corrélation des couples (C1, L1) et (C4, L4). Que constate-t-on ?
On obtient encore des résultats uniformes :
 Corrélation C1/L1= 0.816420516
 Corrélation C4/L4 = 0.816521437
3. Tracer la représentation des couples (C1,L1) et (C4,L4) sur un graphique où on met les x en abscisse
et les y en ordonnées. Commenter.

L1
12
11 10.84
10 9.96
9 8.81
8 8.04 8.33
7 7.24 6.95 7.58
6 5.68
5 4.82
4 4.26
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

L4
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

On constate que les variables sont très différentes les unes des autres.
 Le couple C1/L1 est linéaire, à part un point ; on a des données qui épousent l’allure d’une ligne (r = 0.81) et
corrélées.
 Le couple C4/L4 marque une indépendance totale de l'abscisse par rapport à l'ordonnée (à part encore 1 point)
malgré le même r fort que le C1/L1.
Toutes ces courbes montrent à quel point il faut se méfier de l'interprétation des moyennes, variances et corrélation.
Un r fort n'est pas synonyme toujours de corrélation.

Partie III : (12 points)


On étudie les consommations annuelles, exprimées en millions de dinars, de 8 denrées alimentaires (les
variables), les individus étant 8 catégories socio-professionnelles. Les données sont des moyennes par CSP :
PAO PAA HUG HUO PAT LEC ARM PLP
AGRI 167 1 163 23 41 8 6 6
SAAG 162 2 141 12 40 12 4 15
PRIN 119 6 69 56 39 5 13 41
CSUP 87 11 63 111 27 3 18 39
CMOY 103 5 68 77 32 4 11 30
EMPL 111 4 72 66 34 6 10 28
OUVR 130 3 76 52 43 7 7 16
INAC 138 7 117 74 53 8 12 20
INVIVIDUS : VARIABLES :
AGRI = Exploitants agricoles PAO = Pain ordinaire
SAAG= Salariés agricoles PAA = Autre pain
PRIN = Professions indépendantes HUG = Huiles de Graines
CSUP = Cadres supérieurs HUO= Huiles d’Olives
CMOY= Cadres moyens PAT= Pates, céréales et dérivés
EMPL= Employés LEC=Légumes secs
OUVR = Ouvriers ARM = Agrumes
INAC = Inactifs PLP= Plats préparés
Questions :
1) Quelle est la méthode d'analyse utilisée ici ? Pourquoi utilise-t-on cette méthode ?
Il s’agit d’une analyse en composantes principales (ACP). On l’utilise pour décrire la structure d’une
population décrite au travers de plusieurs variables quantitatives.
2) Compte tenu des tableaux présentés en annexes, est-on en droit d’utiliser cette méthode ? Justifiez.
Oui on est en droit d’utiliser cette méthode, car dans la matrice des corrélations il y a un grand nombre de
coefficients de coorélation (25 sur 28) qui sont supérieur ou inférieur à 0.5
3) Comment procède-t-on pour centrer une variable ? Quel est l’intérêt dans le cadre de cette étude ?
Pour centrer une variable on retranche la moyenne des valeurs originelles de la variable.
Cette procédure est utile pour ramener à la même grandeur des échelles de même nature et de grandeurs
différentes. Ici ce n’est pas utile car toutes les valeurs sont de la même nature et de la même grandeur.
4) Comment procède-t-on pour réduire une variable ? Quel est l’intérêt dans le cadre de cette étude ?
Pour réduire une variable on divise sa valeur centrée par son écart type.
Cette procédure est utile pour ramener à la même nature des échelles de mesure de natures différentes. Ici ce
n’est pas utile car toutes les valeurs sont de la même nature et de la même grandeur.
5) Quelle position (centrage, réduction) devrions-nous adopter dans le cadre de cette étude ? Pourquoi ?
Dans le cadre de cette étude on peut ne pas centrer et réduire les variables, car elles sont de la même nature
et de la même grandeur
6) Dans le tableau 1, on lit – 0,8386 à l'intersection de la colonne « HUG » et de la ligne « LEC ». Que signifie-t-elle ?
Ici il y a eu une petite erreur. Ma vue ma joué un sale tour en suivant la colonne HUG. La bonne valeur à
l’intersection de « HUG » et « LEC » est de 0.79. Par conséquent, j’accepte les 3 réponses suivantes
 - 0,8386 est le coefficient de corrélation linéaire entre « HUG » et « LEC ». Ce coefficient est fort et
négatif. Cela veut dire que les deux variables sont fortement dépendantes et évoluent dans sens
contraire.
 0.79 est le coefficient de corrélation linéaire entre « HUG » et « LEC ». Ce coefficient est fort et positif.
Cela veut dire que les deux variables sont fortement dépendantes et évoluent dans le même sens.
 - 0,8386 est le coefficient de corrélation linéaire entre « HUO » et « LEC ». Ce coefficient est fort et
négatif. Cela veut dire que les deux variables sont fortement dépendantes et évoluent dans sens
contraire.
7) Les coordonnées de l’individu « AGRI » sur l’Axe 1 sont de -3.37158. Reproduisez les calculs qui ont permis d’obtenir
cette coordonnée.
PAO PAA HUG HUO PAT LEC ARM PLP
MOY 127.125 4.875 96.125 58.875 38.625 6.625 10.125 24.375
VAR 681.359375 8.859375 1316.609375 858.109375 54.234375 6.984375 17.359375 131.234375
E.T. 26.1028614 2.97647022 36.2851123 29.293504 7.3643992 2.6427968 4.16645833 11.4557573
AGRI
1.5276103 -1.3018776 1.84304239 -1.2246742 0.32249746 0.52028214 -0.9900495 -1.603997
(C .R.)
Coordonnées AGRI sur Axe 1 =
AGRI (CR) 1.5276103 -1.3018776 1.84304239 -1.2246742 0.32249746 0.52028214 -0.9900495 -1.603997
X
. Axe 1
PAO -.391311
PAA 0.348674
HUG -.349193
HUO 0.373625 -.391311 x 1.5276103 + -1.3018776x0.348674+
PAT -.246371 1.84304239 x-.349193 + etc. = -3.37157956
LEC -.364822
ARM 0.373052
PLP 0.361676
8) À partir des documents figurant en annexes, commentez globalement les résultats de cette analyse.

Nombre d’axes à retenir :


Le critère de Kaiser nous conduit à sélectionner un seul axe, qui retient 77% de l’inertie totale. L’axe 2 retient tout de
même 11% de l’inertie, ce qui n’est pas négligeable, et qui conduit à un taux d’inertie expliquée de 89%, ce qui est un
très bon résultat. Il peut être donc intéressant de l’étudier aussi.
Interprétation des axes
L’interprétation des axes factoriels se fait séquentiellement, pour chaque axe et chaque nuage de points, en
regardant les contributions à la formation des axes.
Axe 1 :
Variables :
 L’axe 1 oppose les individus consommant du pain ordinaire, des légumes secs et de l’huile de graine à ceux qui
consomment de l’huile d’olive, des pains spéciaux (autres pains), des agrumes et des plats préparés.
 L’axe 1, et donc la première composante principale, mesure la répartition entre aliments ordinaires bon
marchés et aliments plus recherchés.
Individus:
 Le premier axe met donc en opposition quant à leurs habitudes alimentaires les agriculteurs et les cadres
supérieurs.
 Toutes les catégories socio-professionnelles sont assez bien représentées sur l’axe à l’exception ouvrier et
surtout des inactifs.
Synthèse:
 L’axe 1 reflète l’opposition qui existe entre les catégories socio-professionnelles dans leur alimentation,
opposant les CSP modestes qui consomment des produits basiques aux catégories favorisées qui consomment
des produits plus recherchés.
Axe 2 :
Variables :
 L’axe 2 est défini essentiellement par la variable PAT. la deuxième composante principale peut être considérée
comme essentiellement liée à la consommation des Pates, céréales et dérivés.
 Les autres variables, à l’exception de PAA (pains spéciaux) sont assez mal représentées sur l’axe (tableau 5). La
deuxième composante principale n’explique donc qu’un aspect très particulier de la consommation alimentaire.
Individus :
 Le deuxième axe est caractéristique des inactifs (expliquant =75% de l’inertie de l’axe).
 Les autres catégories socio-professionnelles sont mal représentées sur l’axe.
Synthèse
 L’axe 2 reflète donc la particularité des inactifs quant à leur alimentation, fortement composée de pates et
céréales (un retour aux données d’origine vient confirmer cette conclusion).

Annexes :
Tableau 1: Matrice des Corrélations
PAO PAA HUG HUO PAT LEC ARM PLP
PAO 1.0000 -.7737 0.9262 -.9058 0.6564 0.8886 -.8334 -.8558
PAA -.7737 1.0000 -.6040 0.9044 -.3329 -.6734 0.9588 0.7712
HUG 0.9262 -.6040 1.0000 -.7502 0.5171 0.7917 -.6690 -.8280
HUO -.9058 0.9044 -.7502 1.0000 -.4186 -.8386 0.9239 0.7198
PAT 0.6564 -.3329 0.5171 -.4186 1.0000 0.6029 -.4099 -.5540
LEC 0.8886 -.6734 0.7917 -.8386 0.6029 1.0000 -.8245 -.7509
ARM -.8334 0.9588 -.6690 0.9239 -.4099 -.8245 1.0000 0.8344
PLP -.8558 0.7712 -.8280 0.7198 -.5540 -.7509 0.8344 1.0000
Tableau 2 : Valeurs propres
Valeurs Pourcentage Pourc. cumulé
1 6.20794684 0.7760 0.7760
2 0.87968139 0.1100 0.8860
3 0.41596112 0.0520 0.9379
4 0.30645467 0.0383 0.9763
5 0.16844150 0.0211 0.9973
6 0.01806771 0.0023 0.9996
7 0.00344677 0.0004 1.0000
8 0.00000000 0.0000 1.0000

Tableau 3 Vecteurs propres


. Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6 Axe 7 Axe 8
PAO -.391311 0.137823 0.161714 0.119350 0.294045 -.397748 0.106920 0.728963
PAA 0.348674 0.440585 0.319950 0.217909 -.265442 -.520704 -.423079 -.117773
HUG -.349193 0.201682 0.680632 -.028883 0.245716 0.464752 -.253923 -.180130
HUO 0.373625 0.260309 0.073482 -.396545 -.345605 0.422866 -.033345 0.575000
PAT -.246371 0.743826 -.557660 -.073992 0.175725 0.107747 -.093428 -.135449
LEC -.364822 0.128021 0.032401 0.518889 -.669192 0.184942 0.313107 0.012735
ARM 0.373052 0.325980 0.254250 0.063706 0.271532 -.016265 0.765903 -.158952
PLP 0.361676 -.050227 -.161692 0.708103 0.332914 0.360245 -.224966 0.218851

Tableau 4 Coordonnées et qualité de représentation des individus


Axe1 Axe2 Qlt1 Qlt2
AGRI -3.37158 -0.24582 0.88444 0.00470
SAAG -3.52171 -0.44740 0.89806 0.01449
PRIN 1.47203 0.05851 0.57460 0.00091
CSUP 4.35879 0.17611 0.94182 0.00154
CMOY 1.71808 -0.85665 0.75288 0.18717
EMPL 0.80653 -0.80853 0.42778 0.42990
OUVR -0.89910 -0.18304 0.36060 0.01495
INAC -0.56304 2.30681 0.05552 0.93193

Tableau 5
Coordonnées des variables sur les axes
(corrélations entre les composantes principales et les variables initiales)
Axe 1 Axe 2
PAO -0.97498 0.12927
PAA 0.86875 0.41323
HUG -0.87004 0.18916
HUO 0.93092 0.24415
PAT -0.61385 0.69764
LEC -0.90898 0.12007
ARM 0.92949 0.30574
PLP 0.90114 -0.04711
Graphique 1
Graphique 2

Vous aimerez peut-être aussi