Vous êtes sur la page 1sur 44

ANALYSE DES DONNEES

Partie I : ACP (analyse en composante principales) AFC (analyse factorielle des correspondances) AFCM (Analyse en composante multiple) AD (analyses discriminantes)

Partie II : Application informatique (ASA SPSS STATA R S plus SPAD..)

Rappels sur la statistique classique : IDonnes

La statistique descriptive classique se propose dtudier des populations composes dindividus vus sous langle dun seul caractre (quantitatif ou qualitatif) Remarque : en gnrale on parle de variable la place de caractre. Exemple : Population Secteur dactivit dune conomie Les factures de la socit X SA pour lconomie N Les points de ventes dun produit P Caractre qualitatif Valeur ajoute Montant Caractre quantitatif Rgion (localit) Type de clientle

Nombre dunit vendu la Conditionnement date N

Pour une interprtation plus leve les donnes collectes sont synthtis sous fourme de paramtre de position (moyenne, mdiane, mode etc.) ou de dispersion (Variances, tendus ..), de reprsentation graphique (Histogramme, diagramme en bton, en secteur.) Remarque 1: Ces synthses et reprsentions sont forcement rductrice mais elles facilitent linterprtation des donnes (en faisant les principales caractristiques). Remarque 2 : il est parfois souhaitable de rendre quantitatif certains caractres qualitatif ceci dans le but de pouvoir mener des calculs intressent. Exemple : ltude de satisfaction clientle Lopinion des clients sur les produits de la socit X SA, peut sexprimer travers une note de 1 5. b) Rappels sur les sries simples (tude dune seule variable) Valeur du caractre x Effectif partiel x1xp n1..np Total =n

La moyenne arithmtique = Variance ( ) (ni= 1 si les donnes sont individualises)

( ) Ecart-type = ( )

*La mdiane La mdiane est la valeur de la variable not Me qui partage les effectifs rangs dans lordre croissant ou dcroissant en deux groupes deffectifs gaux. *Le Mode Cest la valeur la plus frquente ou cest la valeur de la variable qui correspond leffectif le plus lev. C) Les srie statistiques doubles (bidimensionnelles) Il sagit dtudier ici une population vu sous langle de deux caractres ex : (valeur ajout et rgion). Population Secteur dactivit Caractre I Valeur Ajoute Caractre II Rgion

On sintresse essentiellement une ventuelle liaison existant entre les deux caractres Cas 1 : cas ou les deux variables sont quantitatives On vrifie sil y a une corrlation en reprsentant sur un plan les points des coordonnes (x, y) Exemple : Entreprises E1 E2 E3 Chiffre daffaire 20 25 35 Effectif moyen 37 45 49

Nuage des points

On peut chercher ajuster une courbe dquation y = f(x) ce nuage de points. En cas de corrlation linaire, lintensit est mesur par le coefficient de corrlation linaire not r(x,y)=
( )

. [-1 ; 1]
3

Corrlation forte

-1

0,9

0,9

Cas2 : Cas ou les deux variables sont qualitatives On obtient alors un tableau qui croise deux variables qualitatives. Lanalyse sera fonde sur un test dindpendance du Khi2. Exemple 1 : Rgion Centre Secteur dactivit Agriculture Industrie Nord .

Exemple 2 : X ayant 2 modalits Y ayant 3 modalits On pose :

On croise X & Y

X 1 2 1 2 2 2 2

Y 1 3 2 2 3 1 2

Y X 1 2

1 1 1

2 1 2

3 0 2

Cas3 : cas ou lune des variables est qualitative et lautre quantitative. On obtient une possibilit de comparaison des moyennes prise par la variable quantitative et ceci pour chaque modalit de la variable qualitative. Lanalyse peut alors se traduire par un test de comparaison de moyennes de deux chantillons. Rappels sur les sries bi-varies Etude simultane de deux variables X Y

Tableau

Moyenne arithmtique de la variable X

( ) ( )

Moyenne arithmtique de la variable Y Les variances ( ( ) )

Les cart-types = ( ) = ( ) Covariance entre les variables X et Y Cov (x, y) = ( ) ( )

Remarque : si X = Y alors Cov(x, y) = Cov(x, x) = Var(x)

2) Lanalyse des donnes multidimensionnelles


5

a) Les diffrents types de tableaux traiter Tableau de mesure : Individus crois avec caractres quantitatifs

Ex : trois entreprises Dakaroise sont tudis sous langle de plusieurs paramtres conomiques et financiers. CA PME1 PME2 PME3 3 26 54 Effectif moyen 9 48 47 Valeur Ajout 1,1 13 29 Rsultat net % du CA 0,9 1,2 3,5 Salaire net mensuel 1100 1200 1240

Tableaux de contingences (tableau qui croise deux variables qualitatives ou une variable qualitative et une variable quantitative)

Un tableau de contingence est un tableau crois qui ventile une certaine quantit selon les modalits de caractre. Ex : Nord n Est Deux variables qualitatives

Agricole Industrie

1 variable qualitative et 1 variable quantitative

Ex : enqutes sur les opinions politiques .. Opinions Benno Age [18-25[ [25-30[ [30-40[ [40-60[ 8 9 13 27 Fal 2012 12 17 11 32 Rewni 10 15 25 17 APR 11 17 19 15 YNM 25 19 27 08

Interprtations : Les lecteurs gs 30 40 ans ayant une sensibilit politique proche dYNM sont 27. Remarque : Dans un tableau de contingence la somme des lignes et la somme des colonnes a toujours un sens.

Tableaux logiques

Ces tableaux concernent des individus tudis sous langle de plusieurs variables qualitatives. Chaque variable pouvant prendre plusieurs modalits. Si lindividu possde la modalit dune variable on lui affecte le coefficient 1 si non le chiffre 0. Ex : tudiants sont regards sous langle de leur sexe de leur prfrence musicale et picturale. Sexe E1 E2 E3 . H 1 0 1 F 0 1 0 Jazz 1 0 0 Prfrence musicale Mbala RNB 0 0 1 0 0 0 Prfrence picturale Figuration Abstraite 0 1 0 1 1 0

Raggea 0 0 1

Remarque : les tableaux logiques permettent typiquement de coder des rsultats denqute dopinions. On dira que le tableau est mis sous forme disjonctive complte c d que lindividu possde une et une seule modalit pour chaque caractre. En cas denqute comportant des questions rponse multiple il faut, pour obtenir un tableau disjonctif complet, faire de chaque modalit une variable a par entire possdant deux modalit OUI ou NON. Ex : enqute de satisfaction client Question : Quel plat prfrez vous ? Thieboudjen Tableau Thieboudjene oui non 1 0 Mafe oui 1 non 0 Attiek oui non 1 0 Yassa non 0 oui 1 Maf Attik Yassa

Diallo

Ainsi lensemble des rponses aux questions dune enqute peut tre toujours cod sous la forme dun tableau logique disjonctif complet. (TLDC) b) Insuffisance de la statistique descriptive lmentaire La statique de manire gnrale a pour vocation de proposer des rsums de linformation. Ces rsums peuvent prendre une forme numrique (caractre de tendance centrale : moyenne mdiane mode ou de dispersion : variance cart-type tendu), ou une forme graphique. La statistique descriptive lmentaire permet au plus dtudier deux variable simultanment.
7

Remarque : jusqu' trois variables on peut toujours obtenir une reprsentation graphique. Exemple : Entreprise E1 ? Salaire moyen mensuel 25 ? Valeur ajout 30 ? CA 40 ?

On a E1 = (25 ; 30 ; 40) Reprsentation Question : y a-t-il alors une possibilit de visualisation en la rsument, limage multidimensionnelle du nuage des points. Remarque : partir de trois variables il faut des mthodes plus labors do lutilit de sappuyer sur lanalyse des donnes. c) Motivation et place de lADM dans lanalyse statistique Lanalyse statistique se dcompose en quatre tapes. Niveau 1 : Niveau 2 : Niveau 3 : Niveau 4 : Sondage collecte Mise en forme des donnes ADM Modlisation enqute Tableaux, graphiques Analyse des donnes interprtation Economtrie

d) Points commun aux diffrentes mthodes danalyse des donnes *Objectifs : Ces mthodes visent rduire les donnes pour mieux dgager les relations essentielles entre les lments du tableau tout en minimisant la perte dinformation entraine par la rduction opre. Les mthodes danalyse des donnes cherchent essentiellement dcrire et non construire des modles explicites et dcisionnelles. *Fondements mathmatiques et statistiques : Les tableaux de donnes constituent des matrices et lanalyse des donnes fait appel largement aux calculs matriciel. *Recours loutil informatiques : ces mthodes nont pu tre mise en uvre que grce lordinateur car elles conduisent des manipulations de nombres irralisables manuellement. Elles se sont donc considrablement dveloppes dans les entreprises paralllement au dveloppement des micro-ordinateurs. *mthodes prsentes et lapproche retenue :

Parmi les nombreuses mthodes actuellement utilises nous en prsenterons 3 qui font parti des mthodes factorielles. Lanalyse en composante principale Lanalyse factorielle des correspondances (AFC) Analyse discriminante (AD)

e) Principes de lanalyse factorielle des donnes : Principe 1 : il sintresse ltude de K variables observ sur n individus . ..

Xij = valeur prise par la variable j pour lindividu i Convention : Les individus sont en gnrales reprsent en ligne, les variables sont en colonne ;.. ; ; . ) peut tre considr comme un vecteur de

Ainsi chaque individu Ii ( Rk. Chaque variable Xj ( On dispose alors : -

) correspond a un vecteur de Rn

dun nuage dindividus dans lespace Rk dun nuage de variables dans lespace Rn

Rgles : De prfrence on commence dabord par tudier le nuage des variables afin de dtecter les ventuelles liaisons. En pratique on fournit lordinateur le tableau analyser en lui indiquant la mthode factorielle utiliser. Il se charge alors de reproduire la photographie. Lanalyste na donc aucun calcul affaire par contre il lui faut beaucoup de rigueur et de finesse pour interprter les photos fourni par lordinateur. Principe 2 : on pare du nuage des individus et on essaye de faire des regroupements les moins arbitraires possible : la classification automatique.

CHAP II : LANALYSE EN COMPOSANTES PRINCIPALE

LACP est une mthode de description des tableaux de mesures a) Tableau de donnes brutes (Z) - Les individus sont reprsents en ligne - Les variables sont reprsents en colonne Considrons n individus tudis travers p variables. Posons : Zi j la valeur prise par la variable Zj pour lindividu i

1 2 i n LACP cherche dcrire les relations entre les individus, entre les variables, et entre les individus et les variables. b) Nuage des points individus A chaque individu est associ en ligne la valeur des variables reprsentant les cordonnes de lindividu i dans lespace de dimension P. On pose pour lindividu i, Zi = ( ce contexte, lACP sintresse plus particulirement aux distances entre les individus. Exemple : Dans un espace de dimension deux, la distance euclidienne usuelle entre les points A (a ; a ) et B(b ; b) est : d = (b-a) + (b-a) ) dans

a b

10

En ACP les variables sont rarement de mme nature (certaines sont exprim en m3 dautres en Kg dautres en % etc.) et la distance ainsi mesur naura pas grande signification. Pour rendre les donnes homognes, elles sont centres et rduites (on obtient alors des nombres sans unit). Ainsi sera remplac par = ( ) /(( ) avec = moyenne de la variable et ( ) = cart-type de la variable . Ainsi est une variable centre rduite.

Le centrage est juste une technique alors que la rduction supprime linfluence des units. c) Nuage des p points variables A chaque variable sont associs en colonne les n valeurs attribu aux individus. On associe chaque vecteur Z j les coordonnes centres rduites.

Avec

( )

Ici lACP sintresse plus particulirement aux corrlations entre les variables. On sait que le coefficient de corrlation entre les variables et peut tre calcul avec les donnes initiales ou avec les donnes centres rduites( ). On a:

r( r(
Posons : r(

)=

( ( ) (

) )

)( ( ) (

) )

)=
= )= ) sous forme matricielle, on obtient :

En rcrivant r (

= ( r( )

et

= ( ) )=

) = corr. (

Remarque1 : si on note X la matrice des tous les coefficients de corrlation entre les variables prise deux deux peuvent tre obtenu en faisant le produit de la transpos de X par X. .X =
11

Rsum : En ACP les donnes initiales Z sont : On a: Remarque1 : la division par que modifier lchelle. Remarque 2: Calculons ( Et ) =( )= ( : var( = )= ( ( ) ) . ( ) ( ) ( ) ( )= (1) Centres et rduites pour mieux apprcier les distance entres les individus. Divis par pour permettre le calcul de corrlation entre les variables =

ne modifie pas la forme du nuage des individus. Elle ne fait

est rduite

)=1

Calculons la variance de Comme est centre

En rapprochant (1) et (2) on a : ( ) =. .= ,

= 1 on en dduit que

se trouve sur la sphre (0,1).

Remarque 3: Distance entre 2 variables ( ) = ( = ( ) ) + ( ) -2

=1+12 ( Si ( ) 2[ ) 1 ]= 2[ ( ) ( 0 )]

Conclusion : La distance entre deux variables est dautant plus petite que ses deux variables sont corrles. Remarque : Malheureusement, lensemble des corrlations (des variables prises 2 2) se trouve dans lespace de dimension n ; donc difficilement apprhendable.
12

IIAnalyse des nuages de points individus Cas dun espace de dimension 2 Considrons lexemple suivant o six (6) individus sont analyss avec deux (2) variables et . INDIVIDUS VAR Z1 1 2 3 4 5 6 TOTAL ECRAT TYPE MOYENNE 3 9 4 13 8 11 48 VAR Z2 500 700 1400 1900 1700 1000 7200

3,55 g 8

509,22 1200

2000 1800 1600 1400 1200 1000 800 600 400 200 0 0 2 4 6 8 10 12 14 G Series1

1) LACP centre les donnes du tableau, ce qui revient prendre pour nouvelle origine le point G ( ) appel centre de gravit ou point moyen de nuage. Ensuite, elle rduit et les divise par .

13

Individus 1 2 3 4 5 6 TOTAL Ecart-Type ( )

VAR - 0.5735 + 0.1147 - 0.4508 + 0.5735 0 + 0.3441 0 1/V6 1

VAR - 0.5604 - 0.4003 + 0.1601 + 0.5604 + 0.4003 - 0.1601 0 1/V6 1

* Mesure de ltalement : (inertie) : La somme des carrs des distances entre les points individus et le point moyen G est appel linertie totale du nuage. Elle mesure la distance des points autour du centre de gravit du nuage.

10 8 6 4 2 0 2 6 G

Gi = distance entre lindividu et le centre G Inertie totale = ( )

14

On a : le carr de la distance de 1 G ( ) = ( ) + ( Le carr de la distance de 2 G = 0,17339 de 3 G = 0,23612 de 4 G = 0,64295 de 5 G = 0,16024 de 6 G = 0,14403 Remarque : Lorsque lACP est norm, la somme des carrs de toute les donnes variables. Ici, linertie totale est donc gale 2. 2) Lintrt de lACP est de faire apparatre laxe principal dallongement du nuage cest- dire laxe passant par G sur lequel la distance entre les projections des points sur (D) sont maximales. On lappelle laxe factoriel N1. En rapprochant linertie de laxe 1 linertie total du nuage, on obtient le taux dinertie N1. Exemple : Si le taux de linertie N1 est de 70%. Interprtation : 1) En remplaant les points initiaux par une projection sur laxe 1, on passe dun espace de dimension 2 un espace de dimension 1 (laxe 1) et restitue 70% de linfo initiale. 2) Laxe N2, perpendiculaire laxe N1 et passant par G, est appel axe factoriel N2. Son taux dinertie est ncessairement plus faible. Remarque1 : Le plan factoriel N1 est le plan dtermin par les deux (2) premiers axes. Le graphe propos par lACP fait apparaitre uniquement les axes principaux darrangement du nuage de points. Ils seront utiliss comme axes de repre. Remarque2 : les axes 1 et 2 ont t remplac par les axes (axe1), (axe2) on les appelle composantes principales ou facteur. Remarque 3 : les individus loigns de lindividu moyen sont appels individus originaux et permettent de donner une signification aux axes factorielles. Remarque 4 : en dimension 3, deux points mme loigns peuvent avoir des points de projection trs proche voir confondus sur le plan factorielle. est gale au nombre des ( ) ) = 0,64295

15

Exemple 1 : deux points loigns


Les ponts x1 et x2 sont trs loigns dans la ralit, mais leurs projections sur le plan factoriel sont confondues.

Exemple 2 : deux points proches

Deux points proches dans la ralit resteront proches par rapport leurs points de projection. Remarque : Pour rduire le risque dinterprtation le logiciel dACP propose pour chaque point individu des indicateurs de la qualit de sa reprsentation. *Qualit de reprsentation dun individu i sur le plan factoriel dfini par les axes l et k Axe l
d i

Axe k

La qualit de la reprsentation de lindividu i sur laxe k est mesure par le rapport ( ) La qualit de la reprsentation de lindividu i sur laxe l est mesure par le rapport ( ) Ce rapport est dautant plus proche de 1 que le point est bien reprsent sur cet axe. On note QLT (k, l) (i) = ( On a en outre d2 = ( )2 . ip) 2 ou d2 = (Cki) 2 + (Cli) 2 )2= ( ) ( )

)2 + ( )2 + (

Soit alors QLT (k, l) (i) = (

16

On a: QLT (k, l) (i) =

III - Analyse du nuage des variables Considrons un exemple de dimension 3. Ex : Trois individus sont tudis travers 4 variables Variable 1 Variable 2 Variable 3 Variable 4 Ind1 14 160 7 90 Ind2 9 240 3 25 Ind3 37 110 15 40 Total 60 510 25 155 Moyenne 20 170 8,333 51,667 Ecart-Type 12,193 53 ,54 4,989 27,789 Chaque point variable est reprsent dans un espace de dimension 3 (les trois individus) ACP : aprs centrage, rduction et division par X1 -0,284 -0,521 +0,805 0 0 1/ 1 X2 -0,108 +0,755 -0,647 0 0 1/ 1 on obtient : X3 0,154 -0,617 +0,772 0 0 1/ 1 X4 +0,796 -0,554 -0,242 0 0 1/ 1

Ind1 Ind2 Ind3 Total Moyenne Ecart-Type ( )

On est sur la sphre de rayon unit Dans un espace de dimension 3 les points variables sont donc situs sur une sphre dorigine o et de rayon 1. On obtient la reprsentation des 4 points variables dans un espace de dimension 3.

17

Remarque : Deux points proches sur la sphre correspondent deux variables fortement corrls. Deux points quasiment opposs par rapport G correspondent deux variables fortement corrls ngativement. Deux ponts dans des directions quasiment orthogonales par rapport G correspondent deux variables faiblement corrles.

Pour la reprsentation graphique du nuage des points variables sur le premier plan factoriel on projette les points sur les axes principaux. Dans lexemple prcdent on obtient le tableau de corrlation. Le logiciel dACP fournit la matrice C de corrlation X1 X1 X2 X3 X4 1 0,883 -0,986 -O133 1 -0,948 -0,347 1 +0,032 1 X2 X3 X4

On sait que var ( )= Corr. ( , ) =


( ( ) ( ) )

=1

Le graphe montre que X1 et X3 sont fortement corrl ce que montre le coefficient de corrlation linaire. Un coefficient de corrlation lev entre la variable Xj et laxe k indique que la variable contribue fortement la dfinition de laxe k : ce qui peut aider donner une signification cet axe. Le logiciel dACP peut diter les coordonnes des points variables sur les axes factoriels c.--d. les coefficients de corrlation entre variables et les composantes principales. R( , )=

Dans lexemple prcdent, on obtient : Variables 0,966 -0,975 0,915 0,129 -0,258 -0,225 -0,096 0,992

Les variables X1, X2, X3, contribuent la formation de laxe 1


18

La variable X4 celle qui contribue la cration de laxe2. Dfinition : Le plan factoriel du nuage des individus est appel plan direct. Le plan factoriel du nuage des variables est appel plan dual. Remarque1 : les distances entre les projections des points variables sur le plan dual sont le reflet des corrlations entre les variables. Remarques 2 : linterprtation des graphs duaux (projections des points variables) doit se faire paralllement celle des graphs directs (projection des individus) IV- interprtation dune ACP a) Dmarche gnrale Etape1 : On dtermine le nombre daxe que lon dsire conserver dans linterprtation. Etape2 : On interprte en termes de corrlation les positions des variables sur les plans factoriels. On prcise ventuellement lorigine de ses corrlations en examinant les reprsentations factorielles des individus. Etape3 : On cherche donner une interprtation chaque axe Etape 4 : On commence sil y a lieu laide des lments dgags ci-dessus des photos des individus (par rapport lindividu moyen si cela a un sens) Etape 5 : On examine le bi-plot (superposition du graph dual et du graph direct) b) Etude dtaill Etape1 : On classe par ordre dcroissant de valeur propre les axes factoriels. Pour retenir le nombre daxe on examine lhistogramme des valeurs propre en essayant de dtecter le dcrochage (il sagit de pouvoir dire si les valeurs propres sont significativement diffrentes). Remarque : il nexiste pas de rgles propres pour la dtermination des axes ; le tout dpend des objectifs de ltude. tape 2 : On examine les graphs duaux en termes de corrlation Etape3 : Interprtation des axes Linterprtation des axes permet de trouver un sens au facteur correspondant Remarque : Tout facteur nest pas facilement interprtable Etape4 : A dfaut de toujours pouvoir illustrer un axe avec une ou plusieurs variables on peut chercher la faire avec les individus. Lanalyse des individus est celle de leur diffrence par rapport celle de lindividu moyen. Par consquent on doit imprativement procder par des regroupements pour rsumer ses diffrences en quelques grands traits. On cherche les points originaux, ceux qui sont isols des autres. Il faut en suite les commenter, en gnral en priorit
19

car ils peuvent avoir un impacte gnant sur la visualisation de disparit par rapport au reste des individus. (Remde : on peut les mettre en supplmentaire). Etape5 : On examine simultanment les graphs discrets et duaux : le bi-plot. Remarque1 : la qualit de la reprsentation des individus est sous forme dun tableau dindicateur QLT en fonction des cosinus carrs. Remarque2 : Les corrlations entre les variables sont donnes dans les matrices de corrlation. Etude de cas concret Enonc : les donnes rels considres ici proviennent de la revue de lUNICEF la situation des enfants dans le monde en 1999 Les 10 individus seront les 10 pays les plus peupls de lAfrique de louest et du centre. Ces pays sont tudi selon : Le PIB par habitant, exprim en dollar US de lanne 1999 (PNB) Esprance de vie la naissance en annes 1997 PNB 230 610 660 360 560 240 200 240 570 160 E V 97 46 56 51 58 46 48 48 52 51 48

Pays BF Cameroun CI Ghana Guine Mali Niger Nigeria Sngal Tchad

LACP donne : Num 1 2 IND PNB EV 97 MOY 383 50,4 E-TYPE 195,11 4,061 MIN 160 46 MAX 660 58

20

Matrice de corrlation PNB PNB EV97 1 0.33 EV97 0.33 1 1 2

Valeurs propres Val. propre 1.33 0.67 Pourcent 66.53 33.45 P. cumule 66.53 100

Coordonnes des variables sur les axes

Coordonnes Identif libell PNB EV97 1 0.82 0.82 2 0.58 -0.58

Corel var facteurs 1 0.82 0.82 2 0.82 -0.58

CERCLE DE CORELLATION

EV97

PNB

21

Graphe dual

EV97

PNB

Graphe direct et dual


.TCHAD .NIGER .MALI Nigeria.

.GHANA

EV97

.CAMEROUN G
.SENEGAL .GUINEE .COTE DIvoire

PNB

Question : Donner une interprtation de ce tableau de donnes. Correction Mthode adapte : ACP car on a un tableau de mesures :

PNB moyenne = 383 Ces deux variables ne sont exprim de mme nature. On utilisera donc 1 ACP norme EV99 moyenne = 50,4 Le graph indique que laxe 1 reprsente 66.5% de linertie total Cela signifie que cet axe restitue environ 67% de linformation. Laxe 2 traduit 33% de linformation

22

La matrice des corrlations montre que corr. (EV99 ; PNB) = 0,33 qui nest pas ngligeable La lecture des coordonnes sur les axes donne :

PNB = 0,82 sur laxe1 EV97 = 0 ,82 sur laxe 1 Ces deux variables avec leur forte coordonne participent la formation de laxe1, PNB= 0,58 EV97= -0,58 De mme les variables EV97 et PNB (fortes coordonnes) participent galement la formation de laxe2. Le cercle de corrlations montre que PNB et EV97 sont du mme cot de laxe 1 alors quelles sopposent sur laxe2.

On observe que sur la droite du graphique une corrlation entre EV97 et PNB Laxe 1 oppose dynamisme conomique et niveau de vie lev marasme conomique et niveau de vie faible. Interprtation des graphs individus et variables (bi-plot) Nous constatons que les pays Mali Niger Burkina Cote divoire sont bien reprsents sur laxe1 (voir indicateur) dautre part le Ghana Nigeria Guine expliquent laxe 2. On obtient sur laxe1 le groupe (Tchad Mali Niger Burkina) avec un PNB et une esprance de vie faible sopposent au groupe (Cameroun CI Sngal) ou ces deux indicateurs sont nettement meilleurs. Sur laxe 2 la faible esprance de vie et PNB sopposent le Nigeria le Ghana pour lesquels EV97 est lev et PNB est faible.

Remarque : Le Nigeria a une esprance de vie sup celle du group CI Sngal mais son PNB relativement faible le place loign de ces deux pays.

23

CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES Lanalyse de la correspondance est destine extraire de linformation a partir des tableaux de contingence (tout tableau de nombre dont la somme des lignes est gale la somme des colonnes). Exemple : supposons quun tablissement hospitalier est relev pour 5 services de ltablissement les dpenses faites ou estimes sur les postes suivants : Acte en K, Acte en B, Acte en Z, Htellerie, Divers

Sur une priode donne, ses dpenses mesures en franc sont exprim dans le tableau suivant : Actes K 60 27 135 450 36 708 Actes B 39 18 110 300 24 491 Actes Z 42 12 120 225 18 417 Htellerie 54 19 160 150 12 285 Divers 12 8 103 150 12 285 Total 207 84 628 1500 120 2539

Service1 Service2 Service3 Service4 Service5 Total

Ce tableau de contingence tudie les dpenses reparti selon deux critres : service et poste. Pour tenir compte du faite que la somme des lignes et la somme des colonnes a un sens on utilise une analyse spcifique : AFC 1) Tableau des profils a) Choix de la distance La distance euclidienne X= ( .. ) ( Y= ( ) Remarque : x1 et x2 se ressemblent (les dpenses sont proches) X4 et x5 diffrents (les dpenses sont loignes) La distance euclidienne transcrit les distances de mesure entre les services. Pour liminer leffet de masse li aux ordres de grandeur lAFC se propose de transformer les donnes. On calcule alors les tableaux des frquences partir du tableau des effectifs ) = ( )

24

.. .. .. .. Total .. .. .. .. ..

.. . .. .. .. . .

Total ..

On obtient : Actes K 0,29 0,32 0,21 0,30 0,30 0,28 Actes B 0,11 0,21 0,18 0,20 0,20 0,20 Actes Z 0,20 0,14 0,19 0,15 0,15 0,16 Htellerie 0,26 0,23 0,25 0,25 0,25 0,25 Divers 0,06 0,10 0,16 0,10 0,10 0,11 Total 1 1 1 1 1 1

Service1 Service2 Service3 Service4 Service5 Total

On observe que le service 4 et 5 ont le mme profile de dpense 30% 20% 15% 25% et 10% Remarque1 : On a utilis la distance euclidienne entre les profils ligne pour rduire leffet de masse. ( ) ( ) Distance euclidienne sur les profils

Remarque 2 : Pour liminer leffet de masse on pondre chaque diffrence par un coefficient gale linverse de la frquence de la modalit colonne. On obtient : ( ) ( )

Exemple : Enqute sur la clientle de deux mdecins Le nombre de consultation sur un an, class par catgorie socio professionnelle client en activit ou non (jeune chmeur, en retraite, sans profession). Patients Medecin1 Medecin2 Total En activit 1900 1910 3810 Inactifs 20 10 30 Total consultation 1920 1920 3840

Montons que la distance euclidienne nest pas satisfaisante. Profils ligne :


25

Patients X1 X2 Total

En activit

Inactifs

Total consultation 1 1

On obtient la distance euclidienne entre les deux profils lignes. ( ) ( ) ( ) =

Remarque3 : Pour la clientle active, la diffrence nest que de 10 clients pour une clientle de lordre de 1900. Pour la clientle inactive, la diffrence de 10 clients reprsente la moiti de la clientle du mdecin1. La distance euclidienne traite la diffrence de la mme faon. En ralit cette diffrence de 10 clients est dautant plus significative que leffectif de la colonne est faible. Pour liminer cet effet, on pondre chaque diffrence par un coefficient gale linverse de la frquence de la modalit colonne. On obtient : ( )= ( ) ( ) ). ( )

Cette nouvelle distance

est appel distance du khi 2 (

Cette distance renforce le poids des variables de masse faibles c..d. compense les diffrences de poids entre les variables. Rcapitulation des distances entre les services :

Distance euclidienne

Distance euclidienne relative

Distance du khi2

Fait ressortir leffet de masse

Elimine leffet de masse

Compense la diffrence de poids entre les variables

Remarque :

26

Lorsque deux caractres sont indpendants, les profils lignes sont tous identiques aux profils lignes moyens. = N
( )

Le khi2 calcul sera compar au khi2 lu sur la table de khi2 Rgle : si si indpendance dpendance

Remarque : Du fait du rle symtrique entre les lignes tout ce qui a t dit pour les profils lignes peut tre transpos aux profils colonnes. IIIAnalyse du nuage points profils.

De la mme manire que lACP sintresse aux points individus et aux points variables, lAFC sintresse aux points profils colonnes pour en proposer des projections orthogonales sur les plans factoriels. a) Nuage de ponts profils lignes Chaque ligne est associe aux profils lignes i ( ) ce point est affect du poids . .

Le centre de gravit du nuage est reprsent par le point profils-lignes moyen Le centre de gravit est reprsent par le point moyen ( )

Rgle : la distance entre deux points profils-ligne est dautant plus faible quils correspondent des profils-lignes voisins. Dfinition 1) Linertie du point profils-ligne i est gale au produit du carr de sa distance au point ) par son poids( ). ( 2) Linertie totale du nuage est gale la somme des inerties de ce point. b) Nuage des points profils-colonnes On procde par une dmarche analogue a celle utilis pour les profils-lignes. Exemple : Les 500 entreprises dun pays X ont t reparties entre 4 rgions R1= Nord, R2= Sud R3= Est R4= Ouest et 3 secteurs dactivits A1= primaire A2= secondaire A3= tertiaire A1 A1 A3 Total
27

R1 R2 R3 R4 Total

10 60 20 70 160

20 30 60 30 140

40 30 30 100 200

70 120 110 200 500

Question : Calculer linertie totale du nuage des points profils-lignes. Rponse : Calculons linertie du pont profil-ligne R1 Le poids de la ligne R1= Profil-ligne R1 : ( ;

; ) ;
)

Profil-ligne Moyen : ( ; (

)
( ) ( = 0,02403 )

Distance entre R1 et GL :

Inertie entre point profils-ligne R1 et GL = 0 ,17165 x De mme on calcule linertie des lignes. Profils-ligne R1 R2 R3 R4 Total

Inertie correspondante 0,02403 0,03857 0,07740 0,03527 0,17527

Pour mesurer la dpendance entre deux caractres, chaque profil-ligne conduit sa dpendance par son inertie Remarque 1: le nuage de point profil-ligne et celui des points profils- colonne ont exactement la mme inertie. Remarque2 : Linertie totale est donne par la formule tableau de contingence. Cela signifie que linertie totale est un indicateur du nuage et permet donc de mesurer la liaison entre les deux variables. c) Reprsentation graphique et interprtation Le logiciel AFC propose :
28

ou n dsigne leffectif total du

Une reprsentation graphique des points profils-lignes (graph direct) Une reprsentation graphique des points profils-colonnes (plan factoriel dual) Une superposition de deux graphs prcdents (graph du bi plot)

*Exemple de linterprtation de lexemple prcdent. 1) Commentaire des profils moyens (lignes et colonnes) A1 R1 R2 R3 R4 GL Lhistogramme associ est : A2 A3

16/50

14/50

20/50

A1 A2 A3

La rpartition par activit de lensemble des entreprises du pays X est relativement quilibre avec une lgre prdominance du secteur A3. 2) Examen spar du graph direct et du graph dual Linterprtation de chaque axe se fait par rapport au point qui lattire. Linterprtation des distances entre point se fait en termes de similitude ou en termes de profil. Remarque : Pour minimiser le risque derreur dinterprtation, on peut utiliser les indicateurs fournis par le logiciel dAFC. : Pour la qualit de la reprsentation. : Qualit de la reprsentation sur le plan factoriel. 3) Examen simultan des deux graphs (direct et dual) La superposition des deux graphs sinterprte en termes dattirance ou de rpulsion entre les modalits des deux variables. Exemple : du bi-plot
Axe2 (36%) 29

. R1 A3 .

R4 .

. A1

. R2

.R3 .A2

Axe1 (64%)

La proximit de A2 et R3 dune part, A1 et R2 dautre part confirme : Le poids important du secteur secondaire (A2) dans la rgion Est (R3) celui du secteur primaire (A1) dans la rgion Sud (R2). Les activits du secteur A3 sont gnralement reparties entre les rgions du Nord (R1) et la rgion Ouest (R4). IVInterprtation dun cas concret dAFC

Enonc : une enqute a t effectu par des tudiants au prs de 1392 personnes gs de 5 ans et plus. Les 2 questions suivantes ont t poses : Quel est votre ge (en annes rvolues) ? A quelle activit de loisir vous adonnez vous le plus volontaire ?

Les rponses ont t trait par un logiciel dAFC et les rsultats suivants on t obtenu : Loisir Age 5-14 15-24 28-39 40-59 60 ans + Total

lecture 10 16 19 17 23 85

cuisine 53 81 76 50 25 285

Tlvision 132 64 37 76 103 412

Restau 1 5 10 35 22 73

Spectacle 22 35 64 73 57 251

Sport 31 62 41 29 5 172

Autres 7 12 38 42 15 114

Total 256 275 285 322 254 1392

Indicateur dcart lindpendance du khi2 = 274,73


30

Axe factoriel 1 2 3 4

Taux dinertie % 48,5 45,1 3,3 31

Taux dinertie cumul 48,5 93,6 96,9 100

Nuage des points profils-lignes et profils-colonnes (bi-plot)

60ans et + Tlvision

Restaurant 40-59 ans

5-14 ans

spectacle

Cinma

lecture 25-39 ans

Autres 48,5

15-24 ans Sport

Axe1 Tranche dge 5-14 25-39 40-59

Tableau profils-lignes Contribution Tranche dge 56,2% 60 ans + 20,5% 15- 24 ans 20,1%

Axe2 Contribution 39,7% 37,8%

Axe1 Loisir Television Autres Spectacle Restau

Tableau profils-colonnes Contribution Loisir 49,4% Sport 22,4% Cinma 15,1% Restau 12,4%

Axe2 Contribution 32,7% 27,3% 18,8%

31

Le logiciel fournit un QLT lev (vision d1) pour tous les points lexception du point lecture sur le plan dual (QLT = 0,27) Commentaire sur les profils-moyens

Profils ligne moyen : la distribution marginale des loisirs tout ge confondu fait apparaitre une nette prdominance de la tlvision mais galement la place importante du cinma et du spectacle. Profils-colonne moyen : Les effectifs par classe dge sont assez voisins mais cela tient lamplitude variable des classes. Qualit globale de reprsentation et qualit de reprsentions de chaque point.

Lindicateur dcart lindpendance de khi2 est 274,73 traduit sil existe une dpendance significative entre lge et loisir. Tous les points variables sont bien reprsents (QLT proche de 1) lexception de lecture (QLT = 0,27). Lecture tant trs proche de lorigine il est prfrable de ne pas linterprter dans ce plan factoriel. *Graph direct. Laxe1 oppose les enfants (5-14 ans) aux adultes actifs (25-39 ans) et (40-59 ans). Laxe2 oppose les adolescents (15-24) aux personnes gs (60 ans et +). Les profils de loisir sont tres diffrent suivant les tranches dge (forte dispersion des points). On peut faire apparaitre une volution tres net en cheminant (chronologiquement) dun point un autre. *Graph dual : Limportance de la modalit autres peut ventuellement ncessiter de faire une AFC lintrieur de cette modalit. Laxe1 oppose tlvision au spectacle et restau c..d. une activit peu couteuse des activits couteuses. Laxe 2 oppose le sport et le cinma au restau. Il est cependant un peu plus difficile de donner un sens cet axe. On peut par contre les relier aux activits de tranche dge. *Graph superpos Cette superposition permet dclairer lvolution de la structure de loisir par tranche dge, si la tlvision a la faveur des classe de 5 14 ans la majeur partie des amateurs de sport et de cinma se situent parmi les 15-24 ans (attirance) par ailleurs peu friand de restau (rpulsion). Il ne faut pas croire htivement que les 14-24 ans sont plus sportifs que cinphiles. Un bref retour au tableau de contingence montre quil nen ait rien pour les 15-24 ans (81pour cinma
32

et 62 pour le sport). Cela sexplique par les attractions de tous les points de lautre nuage. Les 25-39 ans semblent tre attir plus particulirement par le cinma et le spectacle. Les 45 59 constituent lessentielle des personne frquentant les sales de spectacle mais subissent galement les attractions combines dautres activits comme autres et restaurant. Les 60 ans et plus, tout en frquentant les restaurants, rejoignent les enfants devant la tlvision.

33

CHAP IV : ANALYSE DES CORRESPONDANCES MULTIPLES (ACM) LACM est un cas particulier de lAFC. IPrincipe de lanalyse des correspondances multiples

On sait que lACP permet de traiter ltude dune population sur laquelle plusieurs variables quantitatives sont dfinies. LAFC permet de traiter lobservation simultane de deux variables qualitatives ou quantitative dcoup en classe. LACM sintresse aux cas ou la population considre est compos de plusieurs variables qualitatives (gnralisation de lAFC). ) modalit

Soit une population de individus sur laquelle on dfinit P variables ( Si (pour J=1p) est une variable qualitative alors on supposera que ses sont nots : Si

est une variable quantitative on supposera que les valeurs observes sont reparties classe ainsi pour tout individu appartenant et pour toute variable on a : } avec comme codage { avec ( ) {

X() { -

1 si la modalit est observ 0 si non

Variable Modalit Indiv 1

X1 . .

Xj

..

Xp

Indiv i

Indiv n

Exemple : supposons quil ait 3 variables dans une tude. = sexe ; = taille et = ge avec les modalits suivantes :

34

[ { { ] ]

] ] [ {

[ ] ] ]

] ] ] [

Et on considre 4 individus de la population ayant les caractristiques suivantes : Individu 1 : homme de 1,67m et 27 ans Individu 2 : femme de 1,59m et 31 ans Individu 3 : femme de 1,72m et 29 ans Individu 4 : homme de 1,83m et 45 ans Var
Indiv Indiv 1 Indiv 2 Indiv 3 Indiv 4

Sexe H F
1 1 1 1

Taille
1 1 1 1 1 1

Age

Total
3 3 3 3

1 1

Total

Remarque : Toutes les techniques dveloppes pour lAFC seront donc applicables lACM et lanalyse, celle de lAFC. II Caractristiques des indicateurs de lAFCM Comme dans le cas de lAFC le graph les individus et des modalits peuvent tre superpos et les proximits (non fortuites) peuvent tre sujettes interprtation. Lanalyse peut tre rendu dlicate par : a) Les analyses des correspondances multiples qui portent en gnrale sur des populations par fois impotente. b) Le nombre de colonnes qui correspond au nombre de modalit toute variables confondu est lui-mme assez lev (on peut avoir plus de modalits que dindividus) ce qui conduit a un nombre important daxe factorielles porteur de part relativement faible de linertie total. En fait lAFCM prsente un intrt plus dans les rvlations de proximit entre modalits entre individus ou encore entre individus et modalits plutt que sur linterprtation des axes qui est en gnral impossible. 1) Distance entre deux individus Considrons deux individus

35

Modalit 1

La distance du khi-deux entre les deux individus ( )

est :

La distance est nulle pour deux individus qui possdent les mmes modalits ( pour chacune des variables.

Cette distance est max pour deux individus qui ne possdent jamais la mme modalit observe c..d. et ou inversement. .

Conclusion : la distance du khi-deux est donc comprise entre 0 et

Exemple : considrons une tude qui sintresse et 3 variables : Sexe, tat de sant et ge. On obtient les informations concernant 4 individus sur 100 personnes enqutes : Sexe H F 1 1 1 0 48 52 Etat de Sant Mauvais Moyen bon 1 0 0 0 1 0 0 0 1 0 0 1 1 1 98 <30 0 0 1 1 30 Age 31 50 1 1 0 0 45 51 et + 0 0 0 0 25 3 3 3 3 300

1 2 3 4

0 0 0 1

Distance entre les individus 1 et 2 ( ( ( ) ) )) ( ( ) ) ( ( ) ) = ( ) ( ) ( )

36

2)

Modalit 1

On a ncessairement : 1= ( Avec { ( ( ) ) est gale au cas o c..d. ( ) ) ( { } ( ) ) ( ) ( ) } ( )

La distance maximale

3) Distance entre deux modalits de 2 variables diffrentes.

)
37

4) Liaison entre variables LAFCM est une mthode permettant la mise en vidence de liaisons ventuelles entre des variables. Ces liaisons ne sont pas ncessairement linaire ni fonctionnelle. ( les variables peuvent ne pas tre quantitatives). Exemple : considrons 20 individus et 4 variables. Sexe
H F

Age
< 20 20-50 >50

Dpense de sant
<2000 20003000 >3000

Dpense loisir
<2000 2000 5000 >5000

a b c d

1 1 1 1

1 1 1 1

1 1 1 1 1 1 1

Le rsultat dun AFCM fournit par un logiciel danalyse de donnes propose les rsultats suivants :

38

H = homme F = femme A1 : ge < 20 A2: 20 A3: S1: dpense sant <2000 S2: 2000 S3 : Dpense sant > 3000 L1 : Dpense loisir < 2000 L2 : 2000 L3 : Dpense loisir > 5000 Question ; Analyser ce rsultat Correction : Ce graph permet de mettre en vidence quelques points important : Les dpenses de sant les plus importantes sont le faite des classes dge extrmes (A1 A3) en revanche la classe dge intermdiaire (A2) correspond au dpenses de sant les plus faibles. Les dpenses de loisir ne semblent pas tre influences par les classes dge. Les femmes ont des dpenses de loisir lev alors que celles des hommes est relativement faibles.

39

CHAP : ANALYSE DISCRIMINANTE AD Lanalyse discriminante (AD) cherche dcrire pour une population donne les liaisons existant entre une variable qualitative et plusieurs variables quantitatives. Elle permet galement pour un individu de prvoir la modalit de la variable qualitative correspondant des valeurs donnes des variables quantitatives. IPrincipe de lanalyse discriminante

Une population de grand N individu est observ sous langle : Dun caractre qualitatif k modalits permettant de distinguer k groupe dindividus ; De p variables quantitatives

On cherche la combinaison linaire de p variables quantitatives qui discrimine ou spare au mieux le groupe c a d qui prennent des valeurs : Proche pour les individus du mme groupe Eloign pour des individus de deux groupes diffrents

Exemple : considrons une population qui sera observer sous langle de deux variables quantitatives et et dun caractre qualitatif 3 modalits : 3groupes sont donc dfinis. Chaque individu est sur le graphique par le n* du groupe auquel il appartient.

40

Remarque1 : Laxe (ox1) spare mal les projections : groupe 2 et 3 Remarque 2 : Lorsque le caractre qualitatif retenu ou dfini k groupe dindividus, on peut dfinir (k-1) fonctions discriminantes que le logiciel dAD dtermine dans lordre dcroissant de leur pouvoir discriminant. Remarque3 : si lACP dcrit la population concern, lAD se propose de sparer des groupes dindividus dfinis priori (classification supervise) IIAnalyse discriminante deux groupes : Application aux fonctions scores

Lorsque le caractre qualitatif dfinit seulement deux groupes dindividus, la fonction discriminante peut tre obtenue en faisant une rgression multiple : Y = variable qualitative sera transform en une variable quantitative

les P variables explicatives mesur sur chaque individu. Lquation de rgression linaire est obtenue par la mthode des moindres carrs (fonction discriminante recherch). Son pouvoir discriminant est mesur par le coefficient de corrlation multiple.

Exemple on considre 10 entreprises sur lesquelles on a une tude portant sur : 4 variables quantitatives :

Elles correspondent aux valeurs prise par 4 ratios calculs partir des documents de synthse de lexercice N. Un variable qualitative a t transform en une variable quantitative Y prenant la valeur 1 pour les entreprises saines et la valeur 0 pour les entreprise dfaillantes. Les rsultats de lenqute sont les suivantes :

1 2 3 4 5 6 7 8 9 10

0,34 0,21 0,08 0,18 0,12 0,44 0,32 0,07 0,31 0,11

0,37 0,27 0,42 0,33 0,39 0,26 0,44 0,09 0,21 0,54

0,31 0,26 0,54 0,38 0,42 0,33 0,42 0,47 0,59 0,35

0,50 0,68 0,41 0,52 0,53 0,25 0,31 0,82 0,65 0,71

1 0 1 0 0 1 1 0 1 0
41

La fonction discriminante appel ici fonction score est construite pas pas : les variables explicatives sont introduites successivement en commenant par celle qui est la plus fortement corrl avec la variable expliqu. Une entreprise sera prsum dfaillante si son score est inferieur 0,5 (Remarque : ) Si le coefficient de corrlation de seuil de y avec chacune des variables explicative est connues, on commencera la slection avec celles ayant la plus forte corrlation. ) ( ) ( ) ( )

Fonction score une variable ; On obtient Pour valuer le nombre dentreprises mal classes de lchantillon on compare valeurs relles . On pose : S : Si lentreprise est prsume saine D : si lentreprise est prsume dfaillante Entreprise Situation relle Yi Situation prsume 1 1 S 0,57 S 2 0 D 0,23 D 3 1 S 0,75 S 4 0 D 0,53 S 5 0 D 0,52 S 6 1 S 1,06 S 7 1 S 0,94 S 8 0 D -0,04 D 9 1 S 0,28 D 10 0 D 0,17 D avec les

On obtient trois entreprises sur dix mal classes par la fonction score une variable. On introduit une variable explicative supplmentaire pour amliorer le coefficient de corrlation et diminuer le nombre dentreprise mal classs. On obtient : Ce | | On obtient : Entreprise Situation reelle Yi Situation prsume 1 1 S 0,98 S 2 0 D 0,28 D 3 1 S 0,46 D 4 0 D 044 D 5 0 D 034 D 6 1 S 1,16 S 7 1 S 0,91 S 8 0 D -0,11 D 9 1 S 0,46 D 10 0 D ,009 D qui donne | |

On obtient ici deux entreprises sur dix sont mal class par la fonction score 2 variables. Fonction score trois variables :
42

On obtient : On obtient : Entreprise Situation relle Yi Situation prsume 1 1 S 092 S 2 0 D -0,14 D 3 1 S 0,68 S 4 0 D 0,32 D 5 0 D 0,29 D 6 1 S 1,03 S 7 1 S 0,97 S 8 0 D 0,007 D 9 1 S 1,07 S 10 0 D -0,13 D

Ici aucune entreprise nest mal class et le pouvoir discriminant de cette fonction score trois variables peut tre jug satisfaisant | | il nest donc pas ncessaire dintroduire la variable . Remarque : LAD nest pas seulement une mthode descriptive, mais elle est galement dcisionnelle.

43

Prnoms Marie Awa Abdou Michel Jeanne Moussa Allou Penda Robert Paul

Sexe Fminin Fminin Masculin Masculin Fminin Masculin Masculin Fminin Masculin Masculin

Taille 1,65 1,67 1,71 1,73 1,63 1,8 1,77 1,64 1,83 1,79

ge 28 32 33 40 38 27 29 42 36 35

Poids 57 62 73 69 65 81 76 56 75 79

Question oui NSP non non oui oui non non NSP NSP

NSP : ne se prononce pas

44

Vous aimerez peut-être aussi