Vous êtes sur la page 1sur 12

ANALYSE DE DONNES

Jean-Paul AIMETTI Valrie CHARRIERE EXERCICE 1 : Une enqute sur les ptes alimentaires est ralise sur un chantillon reprsentatif. Les personnes interroges notent toutes les marques quils dclarent connatre ( selon une chelle daccord : 1. tout fait daccord 2. daccord 3.neutre 4. pas daccord 5. pas du tout daccord ) selon diffrents critres : une marque chre, pour les enfants, pour les adultes, pour la famille, de qualit, dorigine italienne, pour des amis, traditionnelles, avec la notation suivante : Pour chaque marque et chaque critre , la moyenne des notes obtenues est donn dans le tableau suivant. pour les chre enfants 2,82 3,02 2,87 3,11 2,73 2,7 2,23 3,58 4,00 3,15 3,02 3,17 2,84 3,24 pour les adultes 2,72 2,78 2,84 2,39 2,88 3,06 2,88 pour la famille 2,10 2,53 2,15 2,45 2,36 2,89 2,85 de qualit 2,06 2,38 2,06 1,64 2,98 3,04 2,72 d'origine italienne 2,36 3,8 3,97 1,67 3,83 2,8 2,61 pour les amis 2,76 2,99 2,92 2,23 3,20 3,10 3,02

Marque : Panzani Rivoire Lustucru Barilla MDD Roberto Rana

traditionnelle 2,35 2,67 2,38 2,24 3,67 3,21 3,00

N.B. MDD signifie Marque De Distributeur 1)A partir du tableau indiquant ci-aprs les moyennes et les cart-types de chaque critre : Quel est le critre sur lequel les diffrentes marques de ptes se diffrencient le plus ? Celui qui a le plus grand cart-type : marque dorgine italienne Quel critre discrimine le moins les marques ? Celui qui a le plus petit cart-type : marque pour les adultes
| NUM . IDEN - LIBELLE | MOYENNE ECART-TYPE | +---------------------------------------------------------+ | 1 . cher - chre | 2.93 0.49 | | | | | | | | 2 . enf - pour les enfants | | | | | | 3.14 2.79 2.48 2.41 3.01 2.89 2.79 0.24 0.19 0.29 0.49 0.81 0.30 0.49 | | | | | | | 3 . adul - pour les adultes 4 . fami - pour la famille 5 . qual - de qualit 7 . amis - pour les amis 8 . tra - traditionnelle

6 . ital - d'origine italienne |

________________________________________________________________________ 1 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

2) Le tableau qui suit donne toutes les corrlations des critres entre eux | cher enf adul fami qual ital amis tra -----+-------------------------------------------------------cher | 1.00 enf | -0.24 1.00 adul | 0.60 -0.52 1.00 fami | 0.00 0.47 0.39 1.00 qual | 0.77 -0.10 0.87 0.59 1.00 ital | 0.59 -0.72 0.55 -0.20 0.40 1.00 amis | 0.79 -0.53 0.93 0.26 0.88 0.73 1.00 tra | 0.88 0.04 0.68 0.47 0.94 0.39 0.77 1.00 Daprs vous, lorsquune marque est perue comme une marque traditionnelle, elle sera aussi perue trs probablement comme de qualit, chre et pour recevoir les amis Lorsquune marque est perue comme une marque italienne, elle ne sera pas perue, gnralement, comme pour les enfants. Attention on ne peut interprter la corrlation de italienne avec famille, gale -0,2, tant trop proche de 0. 3) Si les critres avaient t nots de 1, pour pas du tout daccord 5, pour tout fait daccord et non de 5 1, comment aurait t modifie la matrice de corrlation prcdente ? NON EXERCICE 2 : Sur 50 personnes, on a mesur cinq variables ordinales traites par la suite comme des variables quantitatives : X1 : Etes vous pour la peine de mort ? 1: pas du tout daccord ; 2: pas daccord ; 3: neutre ; 4: daccord ; 5: tout fait daccord X2 : Etes vous pour la prison perptuit ? 1: pas du tout daccord ; 2: pas daccord ; 3: neutre ; 4: daccord ; 5: tout fait daccord X3 : Etes vous pour le bagne ? 5 : pas du tout daccord ; 4 : pas daccord ; 3: neutre ; : daccord ; 1: tout fait daccord X4 : Etes vous pour la libert conditionnelle ? 5 : tout fait daccord ; 4 : daccord ; 3 : neutre ; 2 : pas daccord ; 1: pas du tout daccord X5 : Etes vous pour interdire lavortement ? -2 : tout fait daccord ; -1: daccord ; 0 : neutre ; 1: pas daccord ; 2: pas du tout daccord a) Que signifie Corr (X1, X2) = 0,9 ? vous vous exprimez en franais et non en termes statistiques : par exemple lorsquun individu est pour la peine de mort, il est alors (pour ou contre) la prison perptuit. Si un individu a choisi la modalit 1 pour X1, alors il aura choisi la modalit __1__ pour X2, cest--dire que si un individu est ___contre_ la peine de mort, il sera __contre_ la perptuit. Si un individu a choisi la modalit 5 pour X1, alors il aura choisi la modalit __5__ pour X2, cest--dire que si un individu est __pour___ la peine de mort, il sera __pour__ la perptuit. b) Que signifie les corrlations suivantes : Corr (X1, X3) = - 0,9

________________________________________________________________________ 2 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

Si un individu a choisi la modalit 1 pour X1, alors il aura choisi la modalit _4 ou 5__ pour X3, cest--dire que si un individu est ___contre___ la peine de mort, il sera __contre__ le bagne. Si un individu a choisi la modalit 5 pour X1, alors il aura choisi la modalit __1_ pour X3, cest--dire que si un individu est __pour__ la peine de mort, il sera __pour____ le bagne. Corr (X1, X4) = -0,8 Si un individu a choisi la modalit 1 pour X1, alors il aura choisi la modalit _4 ou 5 pour X4, cest--dire que si un individu est __contre_ la peine de mort, il sera _pour_ la conditionnelle. Si un individu a choisi la modalit 5 pour X1, alors il aura choisi la modalit _1 ou 2 pour X4, cest--dire que si un individu est __pour__ la peine de mort, il sera __contre la conditionnelle. Corr (X1, X5) = -0, 9 Si un individu a choisi la modalit 1 pour X1, alors il aura choisi la modalit 2 pour X5, cest-dire que si un individu est __contre_ la peine de mort, il sera contre interdire lavortemente. Si un individu a choisi la modalit 5 pour X1, alors il aura choisi la modalit -2 pour X5, cest--dire que si un individu est __pour__ la peine de mort, il sera pour interdire lavortement. Corr(X3, X4) = 0,2 => Corrlation trop proche de 0. Corr(X3,X5)=0, 95 Corr(X4,X5)= 0 ,88 EXERCICE 3 : En analysant les tableaux suivants Rpondez, en justifiant vos rponses, aux questions qui suivent :

Tableau 1 | masculin | fminin | ENSEMBLE ---------------------+--------------+--------------+---------| 21 | 30 | 51 oui magn | | | | | ---------------------+--------------+--------------+------------| 117 | 147 | 264 non magn | ---------------------+--------------+--------------+------------| 138 | 177 | 315 ENSEMBLE | | oui | non | ENSEMBLE | | | | rsidence | rsidence | ---------------------+--------------+--------------+------------| 10 | 24 | 34 oui piano ---------------------+--------------+--------------+------------| 32 | 249 | 281 non piano ---------------------+--------------+--------------+------------| 42 | 273 | 315 ENSEMBLE | Tableau 5 | oui piano | non piano | ENSEMBLE ---------------------+--------------+--------------+------------| 18 | 120 | 138 masculin ---------------------+--------------+--------------+------------| 16 | 161 | 177 fminin ---------------------+--------------+--------------+------------| 34 | 281 | 315 ENSEMBLE | Tableau 3

| oui | non | ENSEMBLE | piano | piano | | | | ---------------------+--------------+--------------+-------------| 10 | 41 | 51 oui magn ---------------------+--------------+--------------+-------------| 24 | 240 | 264 non magn ---------------------+--------------+--------------+-------------| 34 | 281 | 315 ENSEMBLE | | oui | non | ENSEMBLE | rsidence | rsidence | ---------------------+--------------+--------------+-------------| 12 | 39 | 51 oui magn ---------------------+--------------+--------------+-------------| 30 | 234 | 264 non magn ---------------------+--------------+--------------+-------------| 42 | 273 | 315 ENSEMBLE | Tableau 4

Tableau 2

________________________________________________________________________ 3 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

| oui rsid | non rsid | ENSEMBLE Tableau 6 ---------------------+--------------+--------------+-------------| 24 | 114 | 138 masculin | ---------------------+--------------+--------------+-------------| 18 | 159 | 177 fminin | ---------------------+--------------+--------------+-------------| 42 | 273 | 315 ENSEMBLE |

1) Existe-t-il un lien entre le sexe de linterview et le fait de possder un magntoscope ? Tableau 1 Homme Possde Ne possde pas Total
43,8% de 51 = 22,34 115,65 138

Femme
28,65 148,34 177

Total
51 264 315

Il ne reste plus qu calculer le khi entre le tableau observ et le tableau thorique. (eff theo-eff obs)/eff tho Possde Ne possde pas Homme
0,08070881 0,01559147

Femme
0,06292551 0,01215606

Evidemment, il ne faut pas garder tous ces chiffres aprs la virgule. Toutefois, si lon veut retrouver la valeur du khi calcul sous excel, il faut les garder.

Le Khi est gal 0,17. Le nombre de degr de libert est gal 1. Dans le tableau, il ny a pas 2 lignes indpendantes mais une (2-1), et il ny a pas 2 colonnes indpendantes mais une (2-1). Dans un tableau crois, le nombre de degr de liberts est donc : DDL = (nombre de colonnes-1) x (nombre de lignes-1) Il faut donc comparer le khi calcul la valeur de rfrence, avec un DDL=1, soit 3,84. Le Khi va se lire comme un coefficient de corrlation . Plus il est lev, plus la liaison entre les 2 variables sera forte. Contrairement au coefficient de corrlation, pour le Khi, on a tudi prcdemment la table du Khi qui indique partir de quelle valeur le khi peut tre considr comme grand, donc qui indique partir de quelle valeur on peut considrer la liaison entre les 2 variables comme significative Le Khi est-il significativement loign de 0 ? 1. oui 2. non

Par rapport aux effectifs thoriques qui correspondent lh ypothse il ny a pas de lien entre les deux variables , les effectifs observs sont-ils significativement diffrents ? 1. oui 2. non 1. oui 2. non

Y-a-t-il une liaison significative entre les 2 variables ?

2) Existe-t-il un lien entre le fait de possder un magntoscope et le fait de possder un piano ? Tableau 2 ________________________________________________________________________ 4 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

Le Khi calcul est gal 4.9. Le Khi est-il significativement loign de 0, au seuil de 5% ? 1. oui 2. non

Par rapport aux effectifs thoriques qui correspondent lhypothse il ny a pas de lien entre les deux variables , les effectifs observs sont-ils significativement diffrents ? 1. oui 2. non 1. oui 2. non

Y-a-t-il une liaison significative entre les 2 variables ?

3) Existe-t-il un lien entre le fait de possder un piano et le fait de possder une rsidence secondaire ? Tableau 3 Attention, il y a des effectifs thoriques infrieurs 5. On ne peut donc pas calculer le Khi 4) Existe-t-il un lien entre le fait de possder un magntoscope et le fait de possder une rsidence secondaire ? Tableau 4 Le Khi est gal 5.47 Il y a un lien significatif entre les 2 variables. 5) Existe-t-il un lien entre le sexe de linterview et le fait de possder un magntoscope ? Tableau 5 Le Khi est gal 1,29 Il ny a pas de lien significatif entre les 2 variables. 6) Existe-t-il un lien entre le sexe de linterview et le fait de possder une rsidence secondaire ? Tableau 6 Le Khi est gal 3,49 Il ny a pas de lien significatif entre les 2 variables. EXERCICE 4 : Une entreprise commercialise 11 catgories de plats prpars possdant des noms diffrents (A, B, ..., K). On considre le tableau T N lignes et 11 colonnes codant, par 1 (ou 0), l'achat, mme pisodique, (ou le non achat) de chacun de ces 11 produits, par un chantillon de N consommateurs cibls. Le graphe 1 reprsente les projections de 9 de ces 11 produits sur les deux premiers axes F1 et F2 issus d'une analyse factorielle des correspondances sur le tableau T. Le tableau 2 donne par ailleurs une distance (issue du tableau T) entre les produits J et K d'une part ( non reprsents sur le graphe 1) et les dix autres produits. Graphe 1 A C G I D F2
H E B

A J F1 45

B 61

C 58

D 16

E 76

F 18

G 56

H 72

I 24

J 0

K 69 0

K 52 15 49 72 11 58 35 7 60 69 F ________________________________________________________________________ 5 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG tableau 2

Reprsentez, en les justifiant, les projections "plausibles" de J et K sur le graphe 1. Les plats plus faible distance de J sont D, F et I, J se trouve vraisemblablement dans le quadrant correspondant (essayer de conserver la proportion des 3 distances, en projection, avec les remarques idoines sur la fidlit des projections) Mme raisonnement pour K dans le quadrant de B, E et H.

b) Des considrations externes aux donnes analyses conduisent interprter : F1 comme un axe opposant des produits de consommation courante (valeurs ngatives de F1) des produits de luxe. F2 comme un axe opposant des produits plutt exotiques (valeurs ngatives de F2) des produits de "tradition franaise". Dans un souci de communication plus efficace, on souhaite dterminer un petit nombre de "marques ombrelles" pour ces catgories de plats prpars. Quel nombre, quelles connotations et quels noms de marques ombrelles proposez-vous ? Exemple de connotations et de nom: Pour D F I J ( consommation courante et exotique) Dlices dailleurs J,D,I,F => fta, poivre, pices K,B,E,H => champagne ACG ptes Dfinition dune marque ombrelle, tire de Cgarra, J.J, Lidentit nationale du produit , Actes du 6 congrs de lAssociation Franaise du Marketing, la Baule, 1990, pp459480 dsigne un ensemble htrogne de produits, dont chacun bnficie dune promesse spcifique . Ex : Buittoni EXERCICE 5 : Dans un pays d'Europe de l'Est, une banque locale Z dsire s'associer avec une importante banque internationale, dj implante dans le pays considr. Quatre banques A, B, C, D sont candidates cette association. Pour augmenter les chances de russite de l'association, Z a le souci (parmi d'autres critres de dcision) de s'allier avec un organisme ayant une image voisine de la sienne. Une tude d'image, auprs de 5 chantillons de 500 clients des diffrentes banques, permet d'obtenir le tableau suivant, donnant le pourcentage de clients interrogs plutt d'accord pour caractriser les banques existantes et Z, selon 5 attributs.

________________________________________________________________________ 6 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

A . proche de ses clients . bien gre . offrant des services de qualit . au service des particuliers . au service des entreprises 43 75 68 25 76

B 65 92 65 70 80

C 60 81 63 30 69

D 55 52 43 65 82

Z 63 86 58 62 85

a) Quel choix d'association conseillerez-vous Z ? Dtaillez les calculs permettant de fonder votre raisonnement. (on utilisera la distance city-block , sans diviser par le nombre de variables pour simplifier les calculs) d(Z,A) = I 63-43 I + I 86-75 I + I 58-68 I + I 62 25 I + I 85-76 I = 20 + 11 + 10 + 37 + 9 = 87 d(Z,B) = 28 ; d(Z,C) = 61 ; d(Z,D) = 63 La banque B est celle dont limage est la plus proche de celle de Z
A 43 75 68 25 76 A 20 11 10 37 9 87 A 400 121 100 1369 81 2071 45,5 B 65 92 65 70 80 B 2 6 7 8 5 28 B 4 36 49 64 25 178 13,3 C 60 81 63 30 69 C 3 5 5 32 16 61 C 9 25 25 1024 256 1339 36,6 D 55 52 43 65 82 D 8 34 15 3 3 63 D 64 1156 225 9 9 1463 38,2 Z 63 86 58 62 85

proche de ces clients bien grer offrant des services de qualit au service des particuliers au service des entreprises city-blok avec Z proche de ces clients bien grer offrant des services de qualit au service des particuliers au service des entreprises distance totale avec Z distance euclidienne proche de ces clients bien grer offrant des services de qualit au service des particuliers au service des entreprises total dsitance avec Z

b) Procdez une classification ascendante hirarchique des 4 banques internationales, partir de la matrice de distances city block suivante.

________________________________________________________________________ 7 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

A B C D

A 0 91 40 106

B 91 0 69 79

C 40 69 0 102

D 106 79 102 0

Vous utiliserez, comme indice dagrgation entre 2 groupes de banques, la moyenne des distances entre tous les couples de banques appartenant respectivement G1 et G2. : Exemple D ( B, (A,C) ) = moy ( d(B,A) , d(B,C) ) = ( 91 + 69 ) / 2 = 160 / 2 = 80 Il convient donc dagrger A et C La matrice des distances donne la matrice des indices dagrgation suivante A,C 0 80 104 B 80 0 79 D 104 79 0

A,C B D

Le minimum des indices dagrgation lieu pour le couple BD qui sagrge ce stade. Do la nouvelle matrice des indices dagrgation : A,C 0 92 B,D 92 0

A,C B,D

et larbre de classification : A -------I ---------C -------I I -B ---------------- I I--D ---------------EXERCICE 6 :

Compltez les donnes manquantes dans l'arbre de segmentation ci-dessous, obtenu l'issue d'une enqute sur la consommation de vin par des hommes adultes.

________________________________________________________________________ 8 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

22 L l 1400 31.8 L 2000

S1

32 L 400

S3

?1
600

S2

?2
200

S4 notation xL
N

signifie que les N individus d'un segment donn consomment, en moyenne, x litres de vin par an

Voir sur larbre les effectifs recherchs, obtenus par simples soustractions. Concernant les consommations par segment, il est possible de raisonner par les moyennes pondrs ou par les quantits globales consommes. Nous adoptons ce dernier type de calcul : Quantits globales consommes Sur les 2000 individus de lchantillon : 2000 x 31,8 L = 63600 L Sur S1 : 1400 x 22 L = 30800 L et sur S3 : 400 x 32 L = 12800 L Donc sur S2 : 63600 L 30800 L = 32800 L et sur S3 : 32800 L 12800 L = 20000 L do ?1 = 32800 L / 600 = 54,7 L Relativiser les rsultats, soit 1 litre par semaine et ?2 = 20000 L / 200 = 100 L (segment des gros buveurs de vin) Relativiser les rsultats : soit un peu moins de 2l par semaine, soit 1 litre pour les 3ou 4 jours, soit 2 ou 3 verres de vin par jour (cf les recommandations mdicales) N.B. En profiter pour rappeler lobjectif dune segmentation et, plus gnralement, dune analyse explicative (thme peu abord en cours). EXERCICE 7 : Donnes extraites de Probabilits, analyse des donnes et statistique Gilbert Saporta, d Technip (1990) Le tableau ci-aprs donne les consommations annuelles en 1972, exprimes en Francs, ________________________________________________________________________ 9 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

de 8 denres alimentaires selon 8 catgories socioprofessionnelles (CSP).


autre pain vin pommes lgumes raisin de ordinaire autre vin de terre secs table plats prpars

pain exploitant agricole salari agricole profession indpendante cadre suprieur cadre moyen Employ Ouvrier

167 162 119 87 103 111 130

1 2 6 11 5 4 3 7

163 141 69 63 68 72 76 117

23 12 56 111 77 66 52 74

41 40 39 27 32 34 43 53

8 12 5 3 4 6 7 8

6 4 13 18 11 10 7 12

6 15 41 39 30 28 16 20

Inactif

138

1) A partir des statistiques lmentaires que vous trouverez dans le tableau ci-aprs dterminez, pour chaque denre, les CSP fortement sur- et sous-consommatrices.

+-------------------------------------------------------+---| NUM . IDEN - LIBELLE | MOYENNE ECART-TYPE | +-------------------------------------------------------+---| 1 . pain - pain | 127.13 26.10 | | 2 . paia - autre pain | 4.88 2.98 | | 3 . vino - vin ordinaire | 96.13 36.29 | | 4 . vina - autre vin | 58.88 29.29 | | 5 . pomt - pommes de terre | 38.63 7.36 | | 6 . legu - lgumes secs | 6.63 2.64 | | 7 . rais - raisin de table | 10.13 4.17 | | 8 . plat - plats prpars | 24.38 11.46 | +-----------------------------------------------------------SOUS CONSOMMATEURS cadres agriculteurs Cadres + prof indp agriculteurs Ttes les csp au mme niveau Cadres ( ?) agriculteurs Agricult + ouvriers SUR CONSOMMATEURS agriculteurs Cadres sup agriculteurs cadres inactifs Sal agricoles + exploit ( ?) Cadres sup + prof indp Cadres sup + prof indp

pain autre pain vin ordinaire autre vin pommes de terre lgumes secs raisin de table plats prpars

________________________________________________________________________ 10 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

Ce tableau souligne une grande opposition entre les cadres et les agriculteurs en termes de consommation 2) A partir du tableau suivant, dterminez les groupes de variables qui varient dans le mme sens, celles qui varient en sens oppos, et celles qui ne semblent pas avoir de liens entre elles. MATRICE DES CORRELATIONS | pain paia vino vina pomt legu rais plat -----+-------------------------------------------------------pain | 1.00 paia | -0.77 1.00 vino | 0.93 -0.60 1.00 vina | -0.91 0.90 -0.75 1.00 pomt | 0.66 -0.33 0.52 -0.42 1.00 legu | 0.89 -0.67 0.79 -0.84 0.60 1.00 rais | -0.83 0.96 -0.67 0.92 -0.41 -0.82 1.00 plat | -0.86 0.77 -0.83 0.72 -0.55 -0.75 0.83 1.00 -----+-------------------------------------------------------| pain paia vino vina pomt legu rais plat

2 produits qui varient dans le mme sens

Pommes de T

Produit dont la consommation nest lie ni positivement ni ngativement dautres denres

Vin autre Pain autre

Groupe de produits qui varient en sens oppos

Lgumes sec Vin ord Pain ord


3 produits qui varient dans le mme sens

3) On ralise une analyse factorielle sur le tableau de donnes. A partir des rsultats cidessous, des positions gographiques des points et de leurs proximits, essayez de retrouver les conclusions de 2)

________________________________________________________________________ 11 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG

On retrouve le mme graphique quau 2) 4) A partir des positions des CSP sur le graphique suivant, retrouvez vous les sur- et les sous-consommations des CSP ?. Comment interprtez les 2 premiers facteurs ?

On retrouve la grande opposition du tableau ralis en 1), savoir une opposition entre les cadres sup et les agriculteurs. Les cadres moyens se rapprochent du centre. Et les inactifs se distinguent par leurs consommations de pdt. ________________________________________________________________________ 12 ___ UE ESC 101 Exercices Dirigs CNAM JPA VCG