3
()
( )
Ecart-type
= ()
*La mdiane
La mdiane est la valeur de la variable not Me qui partage les effectifs rangs dans lordre
croissant ou dcroissant en deux groupes deffectifs gaux.
*Le Mode
Cest la valeur la plus frquente ou cest la valeur de la variable qui correspond leffectif le
plus lev.
C) Les srie statistiques doubles (bidimensionnelles)
Il sagit dtudier ici une population vu sous langle de deux caractres ex : (valeur ajout et
rgion).
Population Caractre I Caractre II
Secteur dactivit Valeur Ajoute Rgion
On sintresse essentiellement une ventuelle liaison existant entre les deux caractres
Cas 1 : cas ou les deux variables sont quantitatives
On vrifie sil y a une corrlation en reprsentant sur un plan les points des coordonnes (x, y)
Exemple :
Entreprises Chiffre daffaire Effectif moyen
E1 20 37
E2 25 45
E3 35 49
Nuage des points
On peut chercher ajuster une courbe dquation y = f(x) ce nuage de points.
En cas de corrlation linaire, lintensit est mesur par le coefficient de corrlation linaire
not r(x,y)=
()
. [-1 ; 1]
4
Corrlation forte
-1 0,9 0,9 1
Cas2 : Cas ou les deux variables sont qualitatives
On obtient alors un tableau qui croise deux variables qualitatives. Lanalyse sera fonde sur un
test dindpendance du Khi2.
Exemple 1 :
Rgion
Secteur dactivit
Centre
Nord
.
Agriculture
Industrie
Exemple 2 :
X ayant 2 modalits
Y ayant 3 modalits
On pose :
X Y
1 1
2 3
1 2
2 2
2 3
2 1
2 2
Y
X
1 2 3
1 1 1 0
2 1 2 2
On croise X & Y
5
Cas3 : cas ou lune des variables est qualitative et lautre quantitative.
On obtient une possibilit de comparaison des moyennes prise par la variable quantitative et
ceci pour chaque modalit de la variable qualitative.
Lanalyse peut alors se traduire par un test de comparaison de moyennes de deux chantillons.
Rappels sur les sries bi-varies
Etude simultane de deux variables X Y
Tableau
Moyenne arithmtique de la variable X
Moyenne arithmtique de la variable Y
Les variances
()
( )
()
( )
Les cart-types
= ()
= ()
Covariance entre les variables X et Y
Cov (x, y) =
( )
( )
Remarque: si X = Y alors Cov(x, y) = Cov(x, x) = Var(x)
2) Lanalyse des donnes multidimensionnelles
6
a) Les diffrents types de tableaux traiter
Tableau de mesure : Individus crois avec caractres quantitatifs
Ex : trois entreprises Dakaroise sont tudis sous langle de plusieurs paramtres conomiques
et financiers.
CA Effectif
moyen
Valeur
Ajout
Rsultat net
% du CA
Salaire net
mensuel
PME1 3 9 1,1 0,9 1100
PME2 26 48 13 1,2 1200
PME3 54 47 29 3,5 1240
Tableaux de contingences (tableau qui croise deux variables qualitatives ou une variable
qualitative et une variable quantitative)
Un tableau de contingence est un tableau crois qui ventile une certaine quantit selon les
modalits de caractre.
- Deux variables qualitatives
Ex :
Nord Est
Agricole n
Industrie
- 1 variable qualitative et 1 variable quantitative
Ex : enqutes sur les opinions politiques ..
Opinions
Age
Benno Fal 2012 Rewni APR YNM
[18-25[ 8 12 10 11 25
[25-30[ 9 17 15 17 19
[30-40[ 13 11 25 19 27
[40-60[ 27 32 17 15 08
Interprtations :
Les lecteurs gs 30 40 ans ayant une sensibilit politique proche dYNM sont 27.
Remarque: Dans un tableau de contingence la somme des lignes et la somme des colonnes a
toujours un sens.
7
Tableaux logiques
Ces tableaux concernent des individus tudis sous langle de plusieurs variables qualitatives.
Chaque variable pouvant prendre plusieurs modalits.
Si lindividu possde la modalit dune variable on lui affecte le coefficient 1 si non le chiffre
0.
Ex : tudiants sont regards sous langle de leur sexe de leur prfrence musicale et
picturale.
Sexe Prfrence musicale Prfrence picturale
H F Jazz Mbala RNB Raggea Figuration Abstraite
E1 1 0 1 0 0 0 0 1
E2 0 1 0 1 0 0 0 1
E3 1 0 0 0 0 1 1 0
.
Remarque: les tableaux logiques permettent typiquement de coder des rsultats denqute
dopinions. On dira que le tableau est mis sous forme disjonctive complte c d que lindividu
possde une et une seule modalit pour chaque caractre.
En cas denqute comportant des questions rponse multiple il faut, pour obtenir un tableau
disjonctif complet, faire de chaque modalit une variable a par entire possdant deux modalit
OUI ou NON.
Ex : enqute de satisfaction client
Question : Quel plat prfrez vous ?
Thieboudjen Maf Attik Yassa
Tableau
Thieboudjene Mafe Attiek Yassa
oui non oui non oui non non oui
Diallo 1 0 1 0 1 0 0 1
Ainsi lensemble des rponses aux questions dune enqute peut tre toujours cod sous la
forme dun tableau logique disjonctif complet. (TLDC)
b) Insuffisance de la statistique descriptive lmentaire
La statique de manire gnrale a pour vocation de proposer des rsums de linformation. Ces
rsums peuvent prendre une forme numrique (caractre de tendance centrale : moyenne
mdiane mode ou de dispersion : variance cart-type tendu), ou une forme graphique. La
statistique descriptive lmentaire permet au plus dtudier deux variable simultanment.
8
Remarque : jusqu' trois variables on peut toujours obtenir une reprsentation graphique.
Exemple :
Entreprise Salaire moyen mensuel Valeur ajout CA
E1 25 30 40
? ? ? ?
On a E1 = (25 ; 30 ; 40)
Reprsentation
Question : y a-t-il alors une possibilit de visualisation en la rsument, limage
multidimensionnelle du nuage des points.
Remarque : partir de trois variables il faut des mthodes plus labors do lutilit de
sappuyer sur lanalyse des donnes.
c) Motivation et place de lADM dans lanalyse statistique
Lanalyse statistique se dcompose en quatre tapes.
Niveau 1 : Sondage collecte enqute
Niveau 2 : Mise en forme des donnes Tableaux, graphiques
Niveau 3 : ADM Analyse des donnes interprtation
Niveau 4 : Modlisation Economtrie
d) Points commun aux diffrentes mthodes danalyse des donnes
*Objectifs : Ces mthodes visent rduire les donnes pour mieux dgager les relations
essentielles entre les lments du tableau tout en minimisant la perte dinformation entraine
par la rduction opre.
Les mthodes danalyse des donnes cherchent essentiellement dcrire et non construire des
modles explicites et dcisionnelles.
*Fondements mathmatiques et statistiques : Les tableaux de donnes constituent des
matrices et lanalyse des donnes fait appel largement aux calculs matriciel.
*Recours loutil informatiques : ces mthodes nont pu tre mise en uvre que grce
lordinateur car elles conduisent des manipulations de nombres irralisables manuellement.
Elles se sont donc considrablement dveloppes dans les entreprises paralllement au
dveloppement des micro-ordinateurs.
*mthodes prsentes et lapproche retenue :
9
Parmi les nombreuses mthodes actuellement utilises nous en prsenterons 3 qui font parti des
mthodes factorielles.
- Lanalyse en composante principale
- Lanalyse factorielle des correspondances (AFC)
- Analyse discriminante (AD)
e) Principes de lanalyse factorielle des donnes :
Principe 1 : il sintresse ltude de K variables observ sur n individus
..
X
ij
= valeur prise par la variable j pour lindividu i
Convention :
- Les individus sont en gnrales reprsent en ligne,
- les variables sont en colonne
Ainsi chaque individu I
i
(
;..
; .
) correspond a un vecteur de R
n
On dispose alors :
- dun nuage dindividus dans lespace R
k
- dun nuage de variables dans lespace R
n
Rgles : De prfrence on commence dabord par tudier le nuage des variables afin de
dtecter les ventuelles liaisons.
En pratique on fournit lordinateur le tableau analyser en lui indiquant la mthode
factorielle utiliser. Il se charge alors de reproduire la photographie. Lanalyste na donc aucun
calcul affaire par contre il lui faut beaucoup de rigueur et de finesse pour interprter les photos
fourni par lordinateur.
Principe 2 : on pare du nuage des individus et on essaye de faire des regroupements les moins
arbitraires possible : la classification automatique.
10
CHAP II : LANALYSE EN COMPOSANTES PRINCIPALE
LACP est une mthode de description des tableaux de mesures
a) Tableau de donnes brutes (Z)
- Les individus sont reprsents en ligne
- Les variables sont reprsents en colonne
Considrons n individus tudis travers p variables.
Posons :
Z
i
j
la valeur prise par la variable Z
j
pour lindividu i
LACP cherche dcrire les relations entre les individus, entre les variables, et entre les
individus et les variables.
b) Nuage des points individus
A chaque individu est associ en ligne la valeur des variables reprsentant les cordonnes de
lindividu i dans lespace de dimension P. On pose pour lindividu i, Zi = (
) dans
ce contexte, lACP sintresse plus particulirement aux distances entre les individus.
Exemple :
Dans un espace de dimension deux, la distance euclidienne usuelle entre les points A (a ; a ) et
B(b ; b) est :
d = (b-a) + (b-a)
a b
a
b
d
11
En ACP les variables sont rarement de mme nature (certaines sont exprim en m
3
dautres en
Kg dautres en % etc.) et la distance ainsi mesur naura pas grande signification.
Pour rendre les donnes homognes, elles sont centres et rduites (on obtient alors des
nombres sans unit). Ainsi
= (
) /((
) avec
= moyenne de
la variable
et (
) = cart-type de la variable
. Ainsi
Ici lACP sintresse plus particulirement aux corrlations entre les variables. On sait que le
coefficient de corrlation entre les variables
et
) =
(
)
(
)(
)
=
)(
)
(
)(
)
r (
) =
Posons :
r (
) =
En rcrivant r (
=
(
et
=
(
()
()
r (
) = corr. (
)=
Remarque1 : si on note X la matrice des
.X =
=
Avec
)
12
Rsum :
En ACP les donnes initiales Z sont :
- Centres et rduites pour mieux apprcier les distance entres les individus.
- Divis par pour permettre le calcul de corrlation entre les variables
On a:
Remarque1 : la division par ne modifie pas la forme du nuage des individus. Elle ne fait
que modifier lchelle.
Remarque 2:
Calculons (
) =(
) =
)
Et
est rduite (
) = 1
(
) =
(1)
Calculons la variance de
:
Comme
) =
. ()
En rapprochant (1) et (2) on a :
= .
.=
= 1 on en dduit que ,
) = (
= (
+ (
- 2
= 1 + 1 2
) 2 [
]= 2[ (
)]
Si (
) 1
) 0
Conclusion : La distance entre deux variables est dautant plus petite que ses deux variables
sont corrles.
Remarque :
Malheureusement, lensemble des corrlations (des variables prises 2 2) se trouve dans
lespace de dimension n ; donc difficilement apprhendable.
13
II- Analyse des nuages de points individus
Cas dun espace de dimension 2
Considrons lexemple suivant o six (6) individus sont analyss avec deux (2) variables
et
.
INDIVIDUS VAR Z1 VAR Z2
1 3 500
2 9 700
3 4 1400
4 13 1900
5 8 1700
6 11 1000
TOTAL 48 7200
ECRAT
TYPE 3,55 g 509,22
MOYENNE 8 1200
1) LACP centre les donnes du tableau, ce qui revient prendre pour nouvelle origine le
point G (
VAR
1 - 0.5735 - 0.5604
2 + 0.1147 - 0.4003
3 - 0.4508 + 0.1601
4 + 0.5735 + 0.5604
5 0 + 0.4003
6 + 0.3441 - 0.1601
TOTAL 0 0
Ecart-Type 1/V6 1/V6
(
1 1
* Mesure de ltalement : (inertie) :
La somme des carrs des distances entre les points individus et le point moyen G est appel
linertie totale du nuage. Elle mesure la distance des points autour du centre de gravit du
nuage.
G
i
0
2
4
6
8
10
2 6
Gi = distance entre
lindividu et le centre G
Inertie totale = (
15
On a :
- le carr de la distance de 1 G (
= ()
+ ()
= 0,64295
- Le carr de la distance de 2 G = 0,17339
de 3 G = 0,23612
de 4 G = 0,64295
de 5 G = 0,16024
de 6 G = 0,14403
(
Remarque :
Lorsque lACP est norm, la somme des carrs de toute les donnes
Deux points proches dans la ralit resteront proches par rapport leurs points de projection.
Remarque : Pour rduire le risque dinterprtation le logiciel dACP propose pour chaque
point individu des indicateurs de la qualit de sa reprsentation.
*Qualit de reprsentation dun individu i sur le plan factoriel dfini par les axes l et k
Axe l
Axe k
La qualit de la reprsentation de lindividu i sur laxe k est mesure par le rapport (
La qualit de la reprsentation de lindividu i sur laxe l est mesure par le rapport (
Ce rapport est dautant plus proche de 1 que le point est bien reprsent sur cet axe.
On note QLT
(k, l)
(i) = (
)
2
On a en outre d
2
= (
)
2
+ (
. ip)
2
ou d
2
= (C
k
i
)
2
+ (C
l
i
)
2
Soit alors QLT
(k, l)
(i) = (
)
2
+ (
)
2
= ( ) ( )
Les ponts x1 et x2 sont trs loigns
dans la ralit, mais leurs
projections sur le plan factoriel sont
confondues.
i
d
17
On a: QLT
(k, l)
(i) = ( ) ( )
III - Analyse du nuage des variables
Considrons un exemple de dimension 3.
Ex : Trois individus sont tudis travers 4 variables
Variable 1 Variable 2 Variable 3 Variable 4
Ind1 14 160 7 90
Ind2 9 240 3 25
Ind3 37 110 15 40
Total 60 510 25 155
Moyenne 20 170 8,333 51,667
Ecart-Type 12,193 53 ,54 4,989 27,789
Chaque point variable est reprsent dans un espace de dimension 3 (les trois individus)
ACP : aprs centrage, rduction et division par on obtient :
X 1 X 2 X 3 X 4
Ind1 -0,284 -0,108 0,154 +0,796
Ind2 -0,521 +0,755 -0,617 -0,554
Ind3 +0,805 -0,647 +0,772 -0,242
Total 0 0 0 0
Moyenne 0 0 0 0
Ecart-Type
1/ 1/ 1/ 1/
()
1 1 1 1
On est sur la sphre de rayon unit
Dans un espace de dimension 3 les points variables sont donc situs sur une sphre dorigine o
et de rayon 1. On obtient la reprsentation des 4 points variables dans un espace de dimension
3.
18
Remarque:
- Deux points proches sur la sphre correspondent deux variables fortement corrls.
- Deux points quasiment opposs par rapport G correspondent deux variables
fortement corrls ngativement.
- Deux ponts dans des directions quasiment orthogonales par rapport G correspondent
deux variables faiblement corrles.
Pour la reprsentation graphique du nuage des points variables sur le premier plan factoriel on
projette les points sur les axes principaux.
Dans lexemple prcdent on obtient le tableau de corrlation. Le logiciel dACP fournit la
matrice C de corrlation
X
1
X
2
X
3
X
4
X
1
1
X
2
0,883 1
X
3
-0,986 -0,948 1
X
4
-O133 -0,347 +0,032 1
On sait que var (
)=
Corr. (
) =
(
)
(
)(
)
= 1
Le graphe montre que X
1
et X
3
sont fortement corrl ce que montre le coefficient de
corrlation linaire.
Un coefficient de corrlation lev entre la variable Xj et laxe k indique que la variable
contribue fortement la dfinition de laxe k : ce qui peut aider donner une signification cet
axe. Le logiciel dACP peut diter les coordonnes des points variables sur les axes factoriels
c.--d. les coefficients de corrlation entre variables et les composantes principales.
R(
) =
Dans lexemple prcdent, on obtient :
Variables
0,966 -0,258
-0,975 -0,225
0,915 -0,096
0,129 0,992
Les variables X
1
, X
2
, X
3
, contribuent la formation de laxe 1
19
La variable X
4
celle qui contribue la cration de laxe2.
Dfinition : Le plan factoriel du nuage des individus est appel plan direct.
Le plan factoriel du nuage des variables est appel plan dual.
Remarque1 : les distances entre les projections des points variables sur le plan dual sont le
reflet des corrlations entre les variables.
Remarques 2 : linterprtation des graphs duaux (projections des points variables) doit se faire
paralllement celle des graphs directs (projection des individus)
IV- interprtation dune ACP
a) Dmarche gnrale
Etape1 : On dtermine le nombre daxe que lon dsire conserver dans linterprtation.
Etape2 : On interprte en termes de corrlation les positions des variables sur les plans
factoriels. On prcise ventuellement lorigine de ses corrlations en examinant les
reprsentations factorielles des individus.
Etape3 : On cherche donner une interprtation chaque axe
Etape 4 : On commence sil y a lieu laide des lments dgags ci-dessus des photos des
individus (par rapport lindividu moyen si cela a un sens)
Etape 5 : On examine le bi-plot (superposition du graph dual et du graph direct)
b) Etude dtaill
Etape1 : On classe par ordre dcroissant de valeur propre les axes factoriels. Pour retenir le
nombre daxe on examine lhistogramme des valeurs propre en essayant de dtecter le
dcrochage (il sagit de pouvoir dire si les valeurs propres sont significativement diffrentes).
Remarque : il nexiste pas de rgles propres pour la dtermination des axes ; le tout dpend
des objectifs de ltude.
tape 2 : On examine les graphs duaux en termes de corrlation
Etape3 : Interprtation des axes
Linterprtation des axes permet de trouver un sens au facteur correspondant
Remarque : Tout facteur nest pas facilement interprtable
Etape4 : A dfaut de toujours pouvoir illustrer un axe avec une ou plusieurs variables on peut
chercher la faire avec les individus. Lanalyse des individus est celle de leur diffrence par
rapport celle de lindividu moyen. Par consquent on doit imprativement procder par des
regroupements pour rsumer ses diffrences en quelques grands traits. On cherche les points
originaux, ceux qui sont isols des autres. Il faut en suite les commenter, en gnral en priorit
20
car ils peuvent avoir un impacte gnant sur la visualisation de disparit par rapport au reste des
individus. (Remde : on peut les mettre en supplmentaire).
Etape5 : On examine simultanment les graphs discrets et duaux : le bi-plot.
Remarque1 : la qualit de la reprsentation des individus est sous forme dun tableau
dindicateur QLT en fonction des cosinus carrs.
Remarque2 : Les corrlations entre les variables sont donnes dans les matrices de corrlation.
Etude de cas concret
Enonc : les donnes rels considres ici proviennent de la revue de lUNICEF la situation
des enfants dans le monde en 1999
Les 10 individus seront les 10 pays les plus peupls de lAfrique de louest et du centre.
Ces pays sont tudi selon :
- Le PIB par habitant, exprim en dollar US de lanne 1999 (PNB)
- Esprance de vie la naissance en annes 1997
Pays PNB E V 97
BF 230 46
Cameroun 610 56
CI 660 51
Ghana 360 58
Guine 560 46
Mali 240 48
Niger 200 48
Nigeria 240 52
Sngal 570 51
Tchad 160 48
LACP donne :
Num IND MOY E-TYPE MIN MAX
1 PNB 383 195,11 160 660
2 EV 97 50,4 4,061 46 58
21
Matrice de corrlation Valeurs propres
Coordonnes des variables sur les axes
Coordonnes Corel var facteurs
Identif libell 1 2 1 2
PNB 0.82 0.58 0.82 0.82
EV97 0.82 -0.58 0.82 -0.58
CERCLE DE CORELLATION
Val.
propre
Pourcent P. cumule
1 1.33 66.53 66.53
2 0.67 33.45 100
PNB EV97
PNB 1 0.33
EV97 0.33 1
EV97
PNB
22
Graphe dual
Graphe direct et dual
Question : Donner une interprtation de ce tableau de donnes.
Correction
Mthode adapte : ACP car on a un tableau de mesures :
PNB moyenne = 383
Ces deux variables ne sont exprim de mme nature. On
utilisera donc 1 ACP norme
EV99 moyenne = 50,4
Le graph indique que laxe 1 reprsente 66.5% de linertie total
Cela signifie que cet axe restitue environ 67% de linformation.
Laxe 2 traduit 33% de linformation
G
EV97
PNB
G
.TCHAD
.NIGER
.MALI
.GHANA
EV97
.CAMEROUN
.SENEGAL
.COTE DIvoire
PNB
.GUINEE
Nigeria.
23
La matrice des corrlations montre que corr. (EV99 ; PNB) = 0,33 qui nest pas
ngligeable
La lecture des coordonnes sur les axes donne :
PNB = 0,82 sur laxe1
EV97 = 0 ,82 sur laxe 1
Ces deux variables avec leur forte coordonne participent la formation de laxe1,
PNB= 0,58
EV97= -0,58
De mme les variables EV97 et PNB (fortes coordonnes) participent galement la
formation de laxe2.
Le cercle de corrlations montre que PNB et EV97 sont du mme cot de laxe 1 alors
quelles sopposent sur laxe2.
On observe que sur la droite du graphique une corrlation entre EV97 et PNB
Laxe 1 oppose dynamisme conomique et niveau de vie lev marasme conomique et
niveau de vie faible.
Interprtation des graphs individus et variables (bi-plot)
Nous constatons que les pays Mali Niger Burkina Cote divoire sont bien reprsents sur
laxe1 (voir indicateur) dautre part le Ghana Nigeria Guine expliquent laxe 2.
- On obtient sur laxe1 le groupe (Tchad Mali Niger Burkina) avec un PNB et une
esprance de vie faible sopposent au groupe (Cameroun CI Sngal) ou ces deux
indicateurs sont nettement meilleurs.
- Sur laxe 2 la faible esprance de vie et PNB sopposent le Nigeria le Ghana pour
lesquels EV97 est lev et PNB est faible.
Remarque: Le Nigeria a une esprance de vie sup celle du group CI Sngal mais son PNB
relativement faible le place loign de ces deux pays.
24
CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES
Lanalyse de la correspondance est destine extraire de linformation a partir des tableaux de
contingence (tout tableau de nombre dont la somme des lignes est gale la somme des
colonnes).
Exemple : supposons quun tablissement hospitalier est relev pour 5 services de
ltablissement les dpenses faites ou estimes sur les postes suivants :
- Acte en K, Acte en B, Acte en Z, Htellerie, Divers
Sur une priode donne, ses dpenses mesures en franc sont exprim dans le tableau suivant :
Actes K Actes B Actes Z Htellerie Divers Total
Service1 60 39 42 54 12 207
Service2 27 18 12 19 8 84
Service3 135 110 120 160 103 628
Service4 450 300 225 150 150 1500
Service5 36 24 18 12 12 120
Total 708 491 417 285 285 2539
Ce tableau de contingence tudie les dpenses reparti selon deux critres : service et poste.
Pour tenir compte du faite que la somme des lignes et la somme des colonnes a un sens on
utilise une analyse spcifique : AFC
1) Tableau des profils
a) Choix de la distance
La distance euclidienne
X= (
..
( ) = (
Y= (
)
Remarque :
x1 et x2 se ressemblent (les dpenses sont proches)
X4 et x5 diffrents (les dpenses sont loignes)
La distance euclidienne transcrit les distances de mesure entre les services. Pour liminer leffet
de masse li aux ordres de grandeur lAFC se propose de transformer les donnes. On calcule
alors les tableaux des frquences partir du tableau des effectifs
25
..
..
Total
..
.. .. .. . ..
..
..
.. .. ..
..
Total
..
On obtient :
Actes K Actes B Actes Z Htellerie Divers Total
Service1 0,29 0,11 0,20 0,26 0,06 1
Service2 0,32 0,21 0,14 0,23 0,10 1
Service3 0,21 0,18 0,19 0,25 0,16 1
Service4 0,30 0,20 0,15 0,25 0,10 1
Service5 0,30 0,20 0,15 0,25 0,10 1
Total 0,28 0,20 0,16 0,25 0,11 1
On observe que le service 4 et 5 ont le mme profile de dpense 30% 20% 15% 25% et 10%
Remarque1 : On a utilis la distance euclidienne entre les profils ligne pour rduire leffet de
masse.
) (
Exemple : Enqute sur la clientle de deux mdecins
Le nombre de consultation sur un an, class par catgorie socio professionnelle client en
activit ou non (jeune chmeur, en retraite, sans profession).
Patients En activit Inactifs Total consultation
Medecin1 1900 20 1920
Medecin2 1910 10 1920
Total 3810 30 3840
Montons que la distance euclidienne nest pas satisfaisante.
Profils ligne :
26
Patients En activit Inactifs Total consultation
X1
1
X2
1
Total
On obtient la distance euclidienne entre les deux profils lignes.
) (
Remarque3 :
Pour la clientle active, la diffrence nest que de 10 clients pour une clientle de lordre de
1900.
Pour la clientle inactive, la diffrence de 10 clients reprsente la moiti de la clientle du
mdecin1.
La distance euclidienne traite la diffrence de la mme faon.
En ralit cette diffrence de 10 clients est dautant plus significative que leffectif de la
colonne est faible.
Pour liminer cet effet, on pondre chaque diffrence par un coefficient gale linverse de la
frquence de la modalit colonne.
On obtient :
) =
Cette nouvelle distance
) .
Cette distance renforce le poids des variables de masse faibles c..d. compense les diffrences
de poids entre les variables.
Rcapitulation des distances entre les services :
Remarque :
Distance euclidienne
Distance euclidienne
relative
Distance du khi2
Fait ressortir leffet de masse Elimine leffet de masse
Compense la diffrence de
poids entre les variables
27
Lorsque deux caractres sont indpendants, les profils lignes sont tous identiques aux profils
lignes moyens.
= N
(
Le khi2 calcul sera compar au khi2 lu sur la table de khi2
Rgle:
si
indpendance
si
dpendance
Remarque: Du fait du rle symtrique entre les lignes tout ce qui a t dit pour les profils
lignes peut tre transpos aux profils colonnes.
III- Analyse du nuage points profils.
De la mme manire que lACP sintresse aux points individus et aux points variables, lAFC
sintresse aux points profils colonnes pour en proposer des projections orthogonales sur les
plans factoriels.
a) Nuage de ponts profils lignes
Chaque ligne est associe aux profils lignes i (
.
Le centre de gravit du nuage est reprsent par le point profils-lignes moyen
.
Le centre de gravit est reprsent par le point moyen
)
Rgle: la distance entre deux points profils-ligne est dautant plus faible quils correspondent
des profils-lignes voisins.
Dfinition
1) Linertie du point profils-ligne i est gale au produit du carr de sa distance au point
). (
2) Linertie totale du nuage est gale la somme des inerties de ce point.
b) Nuage des points profils-colonnes
On procde par une dmarche analogue a celle utilis pour les profils-lignes.
Exemple :
Les 500 entreprises dun pays X ont t reparties entre 4 rgions R1= Nord, R2= Sud R3= Est
R4= Ouest et 3 secteurs dactivits A1= primaire A2= secondaire A3= tertiaire
A1 A1 A3 Total
28
R1 10 20 40 70
R2 60 30 30 120
R3 20 60 30 110
R4 70 30 100 200
Total 160 140 200 500
Question : Calculer linertie totale du nuage des points profils-lignes.
Rponse :
Calculons linertie du pont profil-ligne R1
- Le poids de la ligne R1=
- Profil-ligne R1 : (
)
- Profil-ligne Moyen : (
)
Distance entre R1 et GL :
Inertie entre point profils-ligne R1 et GL = 0 ,17165 x
= 0,02403
De mme on calcule linertie des lignes.
Profils-ligne Inertie correspondante
R1 0,02403
R2 0,03857
R3 0,07740
R4 0,03527
Total 0,17527
Pour mesurer la dpendance entre deux caractres, chaque profil-ligne conduit sa dpendance
par son inertie
Remarque1: le nuage de point profil-ligne et celui des points profils- colonne ont exactement
la mme inertie.
Remarque2 : Linertie totale est donne par la formule
La rpartition par activit de lensemble des entreprises du pays X est relativement quilibre
avec une lgre prdominance du secteur A3.
2) Examen spar du graph direct et du graph dual
Linterprtation de chaque axe se fait par rapport au point qui lattire.
Linterprtation des distances entre point se fait en termes de similitude ou en termes de profil.
Remarque: Pour minimiser le risque derreur dinterprtation, on peut utiliser les indicateurs
fournis par le logiciel dAFC.
)
Si
(pour J=1p) est une variable qualitative alors on supposera que ses
modalit
sont nots :
- Si
est une variable quantitative on supposera que les valeurs observes sont reparties
on a :
X() {
} avec comme codage
avec
()
- 1 si la modalit est observ
- 0 si non
Variable X1 Xj .. Xp
Modalit
Indiv 1
P
Indiv i
P
Indiv n
P
Exemple : supposons quil ait 3 variables dans une tude.
= sexe ;
= taille et
[ ]
] ]
] [
[ ]
] ]
] ]
] [
Et on considre 4 individus de la population ayant les caractristiques suivantes :
Individu 1 : homme de 1,67m et 27 ans
Individu 2 : femme de 1,59m et 31 ans
Individu 3 : femme de 1,72m et 29 ans
Individu 4 : homme de 1,83m et 45 ans
Var Sexe Taille Age Total
Indiv H F
Indiv 1 1 1 1 3
Indiv 2 1 1 1 3
Indiv 3 1 1 1 3
Indiv 4 1 1 1 3
Total 4 4 4
Remarque : Toutes les techniques dveloppes pour lAFC seront donc applicables lACM
et lanalyse, celle de lAFC.
II Caractristiques des indicateurs de lAFCM
Comme dans le cas de lAFC le graph les individus et des modalits peuvent tre superpos et
les proximits (non fortuites) peuvent tre sujettes interprtation.
Lanalyse peut tre rendu dlicate par :
a) Les analyses des correspondances multiples qui portent en gnrale sur des populations
par fois impotente.
b) Le nombre de colonnes qui correspond au nombre de modalit toute variables
confondu est lui-mme assez lev (on peut avoir plus de modalits que dindividus) ce
qui conduit a un nombre important daxe factorielles porteur de part relativement faible
de linertie total. En fait lAFCM prsente un intrt plus dans les rvlations de
proximit entre modalits entre individus ou encore entre individus et modalits plutt
que sur linterprtation des axes qui est en gnral impossible.
1) Distance entre deux individus
Considrons deux individus
36
Modalit
1
La distance du khi-deux entre les deux individus
est :
La distance est nulle pour deux individus qui possdent les mmes modalits (
)
pour chacune des variables.
Cette distance est max pour deux individus qui ne possdent jamais la mme modalit observe
c..d.
et
ou inversement.
Conclusion : la distance du khi-deux est donc comprise entre 0 et
.
Exemple : considrons une tude qui sintresse et 3 variables : Sexe, tat de sant et ge.
On obtient les informations concernant 4 individus sur 100 personnes enqutes :
Sexe Etat de Sant Age
H F Mauvais Moyen bon <30 31 50 51 et +
1 1 0 1 0 0 0 1 0 3
2 1 0 0 1 0 0 1 0 3
3 1 0 0 0 1 1 0 0 3
4 0 1 0 0 1 1 0 0 3
48 52 1 1 98 30 45 25 300
Distance entre les individus 1 et 2
))
37
2)
Modalit
1 1
On a ncessairement :
1=
Avec
La distance maximale
c..d.
3) Distance entre deux modalits de 2 variables diffrentes.
38
4) Liaison entre variables
LAFCM est une mthode permettant la mise en vidence de liaisons ventuelles entre des
variables. Ces liaisons ne sont pas ncessairement linaire ni fonctionnelle. ( les variables
peuvent ne pas tre quantitatives).
Exemple : considrons 20 individus et 4 variables.
Sexe Age Dpense de sant Dpense loisir
H F < 20 20-50 >50 <2000 2000-
3000
>3000 <2000 2000
-
5000
>5000
a
b
c
d
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Le rsultat dun AFCM fournit par un logiciel danalyse de donnes propose les rsultats
suivants :
39
H = homme
F = femme
A1 : ge < 20
A2: 20
A3:
S1: dpense sant <2000
S2: 2000
S3 : Dpense sant > 3000
L1 : Dpense loisir < 2000
L2 : 2000
L3 : Dpense loisir > 5000
Question ; Analyser ce rsultat
Correction :
Ce graph permet de mettre en vidence quelques points important :
- Les dpenses de sant les plus importantes sont le faite des classes dge extrmes (A1
A3) en revanche la classe dge intermdiaire (A2) correspond au dpenses de sant les
plus faibles.
- Les dpenses de loisir ne semblent pas tre influences par les classes dge.
- Les femmes ont des dpenses de loisir lev alors que celles des hommes est
relativement faibles.
40
CHAP : ANALYSE DISCRIMINANTE AD
Lanalyse discriminante (AD) cherche dcrire pour une population donne les liaisons
existant entre une variable qualitative et plusieurs variables quantitatives.
Elle permet galement pour un individu de prvoir la modalit de la variable qualitative
correspondant des valeurs donnes des variables quantitatives.
I- Principe de lanalyse discriminante
Une population de grand N individu est observ sous langle :
- Dun caractre qualitatif k modalits permettant de distinguer k groupe dindividus ;
- De p variables quantitatives
On cherche la combinaison linaire de p variables quantitatives qui discrimine ou spare au
mieux le groupe c a d qui prennent des valeurs :
- Proche pour les individus du mme groupe
- Eloign pour des individus de deux groupes diffrents
Exemple : considrons une population qui sera observer sous langle de deux variables
quantitatives
et
Exemple on considre 10 entreprises sur lesquelles on a une tude portant sur :
- 4 variables quantitatives :
Elles correspondent aux valeurs prise par 4 ratios calculs partir des documents de
synthse de lexercice N.
- Un variable qualitative a t transform en une variable quantitative Y prenant la valeur
1 pour les entreprises saines et la valeur 0 pour les entreprise dfaillantes.
- Les rsultats de lenqute sont les suivantes :
1 0,34 0,37 0,31 0,50 1
2 0,21 0,27 0,26 0,68 0
3 0,08 0,42 0,54 0,41 1
4 0,18 0,33 0,38 0,52 0
5 0,12 0,39 0,42 0,53 0
6 0,44 0,26 0,33 0,25 1
7 0,32 0,44 0,42 0,31 1
8 0,07 0,09 0,47 0,82 0
9 0,31 0,21 0,59 0,65 1
10 0,11 0,54 0,35 0,71 0
42
- La fonction discriminante appel ici fonction score est construite pas pas : les
variables explicatives sont introduites successivement en commenant par celle qui est
la plus fortement corrl avec la variable expliqu.
- Une entreprise sera prsum dfaillante si son score est inferieur 0,5 (Remarque :
)
- Si le coefficient de corrlation de seuil de y avec chacune des variables explicative est
connues, on commencera la slection avec celles ayant la plus forte corrlation.
(
) (
) (
) (
)
Fonction score une variable ;
On obtient
Pour valuer le nombre dentreprises mal classes de lchantillon on compare
avec les
valeurs relles
. On pose :
S : Si lentreprise est prsume saine
D : si lentreprise est prsume dfaillante
Entreprise 1 2 3 4 5 6 7 8 9 10
Situation
relle Yi
1 0 1 0 0 1 1 0 1 0
S D S D D S S D S D
Situation
prsume
0,57 0,23 0,75 0,53 0,52 1,06 0,94 -0,04 0,28 0,17
S D S S S S S D D D
On obtient trois entreprises sur dix mal classes par la fonction score une variable. On
introduit une variable explicative supplmentaire pour amliorer le coefficient de
corrlation et diminuer le nombre dentreprise mal classs.
On obtient :
Ce qui donne
||
||
On obtient :
Entreprise 1 2 3 4 5 6 7 8 9 10
Situation
reelle Yi
1 0 1 0 0 1 1 0 1 0
S D S D D S S D S D
Situation
prsume
0,98 0,28 0,46 044 034 1,16 0,91 -0,11 0,46 ,009
S D D D D S S D D D
On obtient ici deux entreprises sur dix sont mal class par la fonction score 2 variables.
Fonction score trois variables :
43
On obtient :
On obtient :
Entreprise 1 2 3 4 5 6 7 8 9 10
Situation
relle Yi
1 0 1 0 0 1 1 0 1 0
S D S D D S S D S D
Situation
prsume
092 -0,14 0,68 0,32 0,29 1,03 0,97 0,007 1,07 -0,13
S D S D D S S D S D
Ici aucune entreprise nest mal class et le pouvoir discriminant de cette fonction score
trois variables peut tre jug satisfaisant |
.
Remarque : LAD nest pas seulement une mthode descriptive, mais elle est galement
dcisionnelle.
44
Prnoms Sexe Taille ge Poids Question
Marie Fminin 1,65 28 57 oui
Awa Fminin 1,67 32 62 NSP
Abdou Masculin 1,71 33 73 non
Michel Masculin 1,73 40 69 non
Jeanne Fminin 1,63 38 65 oui
Moussa Masculin 1,8 27 81 oui
Allou Masculin 1,77 29 76 non
Penda Fminin 1,64 42 56 non
Robert Masculin 1,83 36 75 NSP
Paul Masculin 1,79 35 79 NSP
NSP : ne se prononce pas