Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
ANALYSE DES
DONNEES
1
Syllabus
MATIERE : Analyse des données
PRE-REQUIS :
Statistique descriptive
Notions d’estimation
OBJECTIF
Une aide à l’interprétation des sorties fournies par les logiciels statistiques
METHODOLOGIE
2
Interprétation des sorties du programme statistique correspondant à la
méthode présentée.
PLAN DU COURS.
Introduction générale
Evaluation :
Bibliographie :
3
Introduction
L’ordinateur et la statistique
•L’ordinateur est devenu un outil essentiel pour l’analyse de données
•L’industrie des logiciels statistiques et des ordinateurs ne cessent de croître
•Les logiciels et les ordinateurs sont maintenant accessibles à un très grand nombre de gens
•Les logiciels sont de plus en plus faciles à utiliser
• Avantage:
permet d’utiliser des méthodes statistiques sophistiquées et d’obtenir les résultats
relativement rapidement.
• Danger:
facile d’appliquer une méthode statistique à un ensemble de données même si cette
dernière n’est pas valide ou appropriée.
Le simple fait de savoir comment utiliser un logiciel n’est pas une garantie d’une
analyse statistique valide. Une bonne connaissance de la statistique est nécessaire pour
savoir quelle méthode choisir et pourquoi, et comment interpréter les résultats.
L'ensemble des méthodes de l'analyse des données peut être divisé en deux catégories :
•les méthodes pour décrire
•les méthodes pour expliquer
Nous allons nous intéresser ici aux méthodes descriptives
Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont
les éléments sont des individus ou unités statistiques. Chaque individu est décrit par une ou
plusieurs variables, ou caractères statistiques. Chaque variable peut être, selon le cas :
•Variable qualitative
Ses valeurs peuvent être des états, des opinions, des propriétés,... des modalités qui
correspondent à des « qualités »
Exemple :
Population : les résidents d‘Agadir
4
Unité statistique : un résident
Variable X : la langue maternelle d'un résident
Valeurs : Arabe, Berbère, Français, Anglais, Autres.
• Variable quantitative
Ses valeurs sont des nombres réels et correspondent à des quantités. On distingue deux
types de variables quantitatives :
• la variable quantitative discrète
• la variable quantitative continue
Ses valeurs a priori sont des nombres isolés les uns des autres.
Exemple,
Population : les ménages de la ville de Settat
Unité statistique : un ménage
Variable étudiée : X : le nombre d'individus dans le ménage
Valeurs : xi = 1, 2, 3, 4, .., 11. (Valeurs observées)
Pourquoi discrétiser :
-Traiter simultanément des variables quantitatives et qualitatives
-Appréhender des liaisons non linéaires entres variables quantitatives
-Neutraliser des valeurs extrêmes
-Gérer les valeurs manquantes
Comment discrétiser :
5
-Il faut garder en tête que
-Il faut éviter d’avoir un grand écart entre le nombre de modalités des différentes
variables
-Un nombre convenable tourne autour de 4 à 6 modalités
-Pour les raisons que
-Le poids d’une variable est proportionnel à son nombre de modalités
-Le poids d’une modalité est inversement proportionnel à son effectif
-Avoir peu de modalités fait perdre de l’information
-Avoir beaucoup de modalités implique de petits effectifs et une moindre lisibilité
Forme de la distribution
6
Distribution symétrique : moyenne = médiane = mode
Biais positif: mode < médiane < moyenne Biais négatif: Moyenne < médiane < mode
2. Position
3. Dispersion
- étendue
- variance et écart-type : calculés généralement en complément de la moyenne, pour
mesurer la plus ou moins grande dispersion autour de celle-ci.
- intervalle interquartile : sa longueur, l'écart-interquartile mesure la dispersion des 50
% valeurs les plus centrales.
- Coefficient de variation :
Cv = écart-type/moyenne
Cv < 25% concentration
Cv > 25% dispersion
Représentation :
Box plot
1,2 1,100
Maximum
1
3ème quartile
0,8
0,631 Moyenne
Intervalle
0,6 interquartiles (50 %
0,620
des valeurs) Médiane
0,4
1er quartile
0,2
Minimum
0,180
0
8
alphajus :
Boîte-à-Moustache
14
max
12
10
8 Q3
6
médiane
4
Q1
min
0
consommation de boisson
alphajus :
Boîte-à-moustache multiple
boîte à mouc htache
12,5
12 ,5
consommation de boisson
consommation de boisson
10,0
10 ,0
7,5
7,5
5,0
5,0
2,5
2,5
n= 19 n= 21
n=14 n=13 n=13
oui non
9
Skewness et Kurtosis :
( y i y )3
Estimation sur un échantillon : skewness i 1
(n 1) s
3
( y i y )4
kurtosis i 1
3
( n 1) s 4
10
Allure d’une distribution selon que le skewness et le kurtosis
sont positifs, négatifs ou nuls :
Skewness
Kurtosis
N Valide 40
Manquante 0
Moyenne 5,88
Médiane 5,50
Mode 3(a)
Ecart-type 2,97
2
Variance 8,83
0
Asymétrie ,504
Aplatissement -,375
11
alphajus :
25 %
20 %
Pourcen tage
15 %
10 %
5%
1 3 5 7 9 11 13
consommat io n de boisso n
consommation
de boisson logconsom racineconsom
N Valide 40 40 40
Manquante 0 0 0
Asymétrie ,504 -,658 -,021
Erreur std.
,374 ,374 ,374
d'asymétrie
Aplatissement -,375 ,177 -,625
Erreur std.
,733 ,733 ,733
d'aplatissement
12
Traitement bivarié
Croisement de variable métrique :
KILOMETRAGE KILOMETRAGE
407.22 407.22
257.51 DEPENSE 257.51 DEPENSE
13
Attention!! Il est important d’interpréter le coefficient de corrélation avec le graphique.
Tableau de contingence
Mode d'hébergement Non Hôtel Cam Locatio Famille / TOTAL
CSP réponse ping n / gîte amis
Non réponse 1 3 2 13 14 33
Agriculteur 0 1 2 2 6 11
Patr indust commerce 1 17 4 10 13 45
Profession libérale/cadre 1 23 6 26 24 80
Cadre moyen 7 12 17 25 32 93
Employé 1 10 32 29 35 107
Ouvrier 1 7 20 8 9 45
Personnel de service 2 0 8 2 12 24
Autre 2 31 22 25 34 114
TOTAL 16 104 113 140 179 552
14
Comment les CSP choisissent leurs modes d’hébergements?
Profil ligne
15
ECHANTILLONNAGE
16
•Offre plus de possibilités, dans certains cas il peut être impossible de faire un recensement
(ex: contrôle de qualité)
On veut une méthode scientifique telle que chaque personne dans la population possède une
chance mesurable (que l’on peut quantifier) de sélection.
PROCESSUS D’ÉCHANTILLONNAGE
- UNIVERS IDÉAL: Toutes les personnes qui possèdent les caractéristiques recherchées par
l'enquêteur
- UNIVERS OPÉRATIONNEL: Ensemble des personnes qui composent l'univers idéal et
avec lesquelles on peut communiquer compte tenu des contraintes de temps et d'argent
imposées par l'étude
- BASE D’ÉCHANTILLONNAGE : Liste à partir de laquelle on peut sélectionner tous les
individus qui composent l'univers opérationnel.
Construction d’une base d’échantillonnage :
–Idéalement, on tente de trouver une base de sondage existante. Sinon, l’on doit en construire
une.
–Une base d’échantillonnage contient la numérotation de tous les éléments de la population
cible; elle contient des étiquettes.
Choses à être conscient:
•Est que la base d’échantillonnage correspond à la population visée?
•Si on s’intéresse à la population de la ville de Marrakech et que l’on utilise les listes de
téléphone, est-ce que la population cible = base d’échantillonnage?
- MÉTHODE D’ÉCHANTILLONNAGE : C’est le comment choisir les individus
•Méthodes probabilistes:
–Chaque personne à une probabilité connue d'être choisie
•Méthodes non - probabilistes :
–On ne connaît pas la probabilité qu'un individu soit choisi.
TAILLE DE L’ECHANTILLON : C’est quoi le n?
–On va y revenir! Il faut introduire des critères.
–De manière générale, cela dépend de la qualité de l’information que l’on désire.
–Souvent n=1000 fait l’affaire.
17
Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000 fournira une
précision comparable. La taille de la population n’est pas une considération si importante que
ça.
Ce plan est tel que tout échantillon de taille n, où n est déterminée à l’avance, possède la
même probabilité. Ce tirage est essentiellement ce que l’on a en tête quand on tire dans une
urne n boules sans remise qui sont bien mélangées et indétectable au toucher. Toutes les
unités ont la même probabilité d’inclusion. En pratique, il faut des algorithmes pour mettre en
œuvre ce plan.
02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08
85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74
00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90
64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15
94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44
Tirage systématique
Supposons que l’on veut un échantillon de taille n. Pour simplifier, on suppose que N/n=a,
avec a un entier.
Définition formelle d’un tirage systématique:
1. On prend une unité, à chances égales, parmi les a premières unités dans la base de
sondage. Supposons que l’on a pris l’unité j.
2. On prend ensuite de manière successives les unités, j+a, j+2a, …, j+(n-1)a
18
Propriétés :
On note qu’il n’y a seulement que a différents échantillons possibles.
Si on a choisit l’unité j, l’échantillon est alors
s j, j a,, j n 1a
Plan systématique
On utilise souvent ce plan avec les tirages téléphoniques. On prend au hasard une unité,
disons parmi les 20 premières, on se muni d’un pas, disons valant 30, et on lit « un nom sur
30 » dans le bottin.
Sondage en grappes
Les plans de grappes sont surtout utiles lorsque l’on ne peut pas lister toutes les unités de 1 à
N, s’il y a absence de base de sondage.
Elles présentent l’avantage d’avoir un échantillon moins dispersé géographiquement.
Sondage aréolaire
C’est une méthode d’échantillonnage probabiliste en grappes qui consiste à découper en zones
géographiques un territoire déterminé, à tirer au sort un certain nombre de ces zones et à
interroger tous les individus statistique y résidant
19
Supposons que l’on dispose de notre échantillon de grappes. Pour les grappes sélectionnées,
on peut
–Soit observer toutes les unités. C’est un plan de grappes à un degré.
–Soit lister les unités dans chaque grappe choisie et dans cette liste tirer un échantillon
d’unités. C’est un exemple d’échantillonnage à deux degrés.
S’il y a deux degrés d’échantillonnage, alors les unités d’analyse sont également des unités
d’échantillonnage au second degré.
Avantages du sondage en grappes.
Même si on ne dispose pas d’une base de sondage, on peut tout de même s’assurer que toutes
les unités dans la population U possède une probabilité d’inclusion strictement supérieure à 0.
Souvent moins dispendieux à organiser. Sonder la population marocaine par un plan aléatoire
simple pourrait engendrer de nombreux déplacements. Un plan de grappes pourrait permettre
de contrôler cet aspect.
Inconvénients
Habituellement, pour une taille d’échantillonnage similaire, le plan de grappes donne moins
de précision qu’un tirage aléatoire simple. Par exemple, dans l’exemple des ménages de
Marrakech, les ménages d’une même grappe ont tendance à se ressembler
Une grappe n’est pas toujours représentative de la population.
Sondages stratifiés.
20
•L’échantillon devrait représenter adéquatement les hommes et les femmes, car il est connu
que les hommes fument davantage que les femmes.
•La proportion de fumeurs varie beaucoup selon l’âge et la profession. Il serait donc bon
d’avoir un échantillon qui représente bien ces groupes.
•Si on a ces renseignements, on peut les utiliser avec un sondage stratifié avec tirage aléatoire
simple.
2 2
x - z / 2 , x + z / 2
n n
si la variance 2 est connue et par
s2 s2
x - t (n-1); / 2 , x + t (n-1); / 2
n n
si elle est inconnue.
21
La quantité qu'on ajoute et qu'on retire:
p (1 - p )
z /2
n
0,5(10,5) 2
1,96*0,25 0,9604
e 1,96
* n 2
= 2
n e e
1 . 96
n [ ]
2
e
dans le cas d'une moyenne de valeurs quantitatives.
22
Que fait-on en pratique?
On utilise habituellement les formules obtenues pour le tirage aléatoire simple. Ainsi, on fait
« comme si » l’échantillon était obtenu par tirage aléatoire simple.
Cas stratifié
Notons :
N taille de la population
n taille de l’échantillon
Ni taille de la strate au niveau de la population
ni taille de la strate au niveau de l’échantillon
i variances des strates
A- échantillon à effectif égal
n1 = n2 = … = nk
B- échantillon à allocation proportionnelle
Ni / N = ni / n
C- répartition de Neyman
ni = (Ni i/ Nj j)n
Un échantillon est non exhaustif si la taille de l’échantillon est petite par rapport à la
population N > 7n. Dans ce cas la taille de la population n’influence pas la taille de
l’échantillon qui ne dépend que de la précision recherché et de l’erreur toléré.
Un échantillon est exhaustif si la taille de la population est petite par rapport à celle de
l’échantillon N<7n. Dans ce cas la taille de l’échantillon n peut épuiser celle de la population
N.
La taille de l’échantillon définitive est
n’ = Nn /N+n
Utilisé dans les enquêtes d’opinion, les études de marché. On demande aux interviewers de
faire un nombre déterminé d’interviews dans divers groupes définis de la population. Ces
groupes sont définis en fonction de variables socio-économiques (âge, sexe, géographie,
démographie, etc.). Les quotas sont souvent établis de façon à être sensiblement
proportionnels à la fraction de la population représentée par chaque groupe.
23
Pour le mettre en œuvre:
- Pas besoin d’une base de sondage!
- Pas besoin d’un plan d’échantillonnage!
Âge
<30 30-50 50>
H n 11 n 12 n 13 n 1.
F n 21 n 22 n 23 n 2.
n .1 n .2 n .3 n
Taille de la population N
•On doit déterminer les nij de sorte que: n ij n
N ij
•On utilise alors la règle « proportionnelle »: nij n
N
où Nij = effectifs connus de la population (obtenu par recensement par exemple)
On constitue l’échantillon par des individus passant par des points de passage connus, lorsque
la population passe quasi-obligatoirement par ces points.
Exemple : stations d’essence, agence bancaire, sortie de salle de cinéma ,…
En pratique, elle nécessite trois phase de mise en place :
•On recense tous les points de passage possibles.
•On sélectionne les points d’enquête, soit par tirage au sort, soit par un choix raisonné.
•On complète cet échantillon spatial par un échantillon temporel, pour éviter d’interroger des
personnes ayant même profil.
24
L’échantillonnage temporel se fait, soit par tirage au sort des jours et des heures d’enquête,
soit en répartissant les interviews sur tous les créneaux horaires de la période d’enquête.
Principe : La méthode consiste à faire construire l’échantillon par les individus eux même.
Intérêt : Enquête auprès de populations rares
Méthode de convenance
Principe : on obtient un tel échantillon quand rien n’a été fait pour s’assurer que les individus
qui le composent posséderont bien certaines caractéristiques désirés. Il est constitué
d’individus qui se trouvait à l’endroit et au moment où l’information a été collectée
Intérêt : Simplicité.
Il est lié aux décisions prises dans différentes phases d’élaboration de l’enquête. Le choix de
l’échantillon est influencé par :
•Les objectifs de l’enquête.
On cherche un compromis entre les objectifs de l’enquête au meilleur coût et dans les délais
impartis
•La nature de la population étudié.
-population dispersée géographiquement
-population rare
-existence d’une base de sondage (complète ou liste d’unités intermédiaire.
•Le budget disponible
L’échantillon est calculé en fonction du coût unitaire d’enquête.
•Le mode d’administration du questionnaire
•La précision souhaitée
Ce qui favorise les méthodes probabilistes
25
Analyse en Composantes Principales
Définition
Ensemble de techniques multivariées qui ont pour but principal de réduire et de résumer les
données.
Une technique d’interdépendance dans laquelle toutes les variables sont considérées
simultanément.
L'ACP permet une analyse des diverses variables statistiques définies sur les
caractères étudiés. Elle permet de construire des variables artificielles (car non mesurées mais
calculées à partir des données) qui "expliquent " l'ensemble des variables statistiques prises en
compte dans l'ACP.
On obtient ainsi un ensemble de nouvelles variables, en plus petit nombre que les
variables initiales. Chacune de ces variables initiales est liée à l'ensemble des variables
artificielles retenues.
Matrice de corrélations
C’est une matrice R dont les éléments sont les corrélations des variables prises deux à deux
R=(rij=cor(Xi,Xj))
26
Examen de la matrice de corrélation
Plus les variables présentent de fortes corrélations plus elles peuvent être regroupées en
dimensions homogènes. Dans le cas contraire, les variables sont hétérogènes.
Problème = grand nombre de variables et visualisations
Matrice de corrélation
27
Espace de représentation des individus
Un premier point est de calculer la distance entre individus. La distance entre deux individus
sera donc la longueur du segment joignant les deux points de l'espace qui représentent les
deux individus.
La dispersion du nuage autour de son centre de gravité est mesurée par l’inertie du nuage qui
correspond à la somme des variances des variables initiales.
Afin de donner aux variables la même importance on centre et on réduit les variables initiales.
Dorénavant on travaillera sur des données centrées réduites. Notre nuage est donc de centre
de gravité l’origine et d’inertie p. On cherche à obtenir une représentation approchée de ce
nuage dans un espace de dimension plus faible. La question est de savoir comment passer
d’un espace de dimension supérieure ou égale à 3 à un espace de dimension plus restreinte
Intuitivement, il s'agit de trouver un sous espace F tel que la distance entre points - individus
soit conservée dans le processus de projection sur ce sous-espace. Ainsi, la ressemblance entre
individus est conservée dans cette opération de projection. L’inertie du nuage projeté est donc
maximale.
28
Principe de l’ACP
29
Recherche du deuxième axe principal et de la deuxième composante
principale
Propriétés
V ariance e xpliquée totale
•Les composantes principales sont centrées et non corrélées entres elles
Valeurs propres initiales Sommes des carrés chargées
•L’inertie expliquée par chaque
% de axe
la principale = variance de la composante
% de la associée
•1Les composantes3,455
Composante Total variance ==
sont classées
% cumulés
par ordre décroissant
38,390 38,390
Total
des
3,455
variance ==
variances 38,390
% cumulés
38,390
2 2,859 31,771 70,161 2,859 31,771 70,161
3 1,093 12,144 82,304 1,093 12,144 82,304
4 ,637 7,074 89,378 ,637 7,074 89,378
5 ,342 3,799 93,177 ,342 3,799 93,177
6 ,247 2,750 95,927 ,247 2,750 95,927
7 ,220 2,443 98,370
8 9,52E-02 1,058 99,428
9 5,14E-02 ,572 100,000
Méthode d'extraction : Analyse des principaux composants.
Remarque.
Le premier plan principal est le plan formé par les deux premiers axes principaux.
La part d’inertie expliquée par ce plan est la somme des parts d’inertie expliquée par les deux
premiers axes principaux.
30
Représentations graphiques. (Premier plan principal)
- L’individu est représenté suivant ces coordonnés selon les deux premières composantes
principales. Il sera bien représenté lorsque le point est proche du plan principal
- La variable est représentée selon ces corrélations avec les deux premières composantes. Elle
sera bien représentée lorsque le point est proche du cercle de corrélation.
Composante
1 2 3
SOLD ,603 -,541 ,213
NDEC -,762 -1,6E-02 ,527
MDEC -,605 ,116 ,722
NBPR ,633 ,659 ,235
NEMP ,231 ,909 -8,4E-03
MEMP ,623 ,322 ,197
VADD ,764 -,438 ,314
DEPO ,759 -,555 ,214
RETR ,376 ,830 ,102
Méthode d'extraction : Analyse en composantes principales.
a. 3 composantes extraites.
Interprétation
Composante
1 2 3
SOLD ,603 -,541 ,213
NDEC -,762 -1,6E-02 ,527
MDEC -,605 ,116 ,722
NBPR ,633 ,659 ,235
NEMP ,231 ,909 -8,4E-03
MEMP ,623 ,322 ,197
VADD ,764 -,438 ,314
DEPO ,759 -,555 ,214
RETR ,376 ,830 ,102
Méthode d'extraction : Analyse en composantes principales.
a. 3 composantes extraites.
III) Observer le cercle de corrélation et mettre en évidence les fortes corrélations entre
variables initiales
Comment lire les corrélations?
31
On ne peut lire la corrélation entre deux variables que si ces dernières sont proches du
cercle.
La corrélation est d’autant plus forte que le cosinus de l’angle formé par les deux
variables est proche de 1.
Diagramme de composantes
1,0 nemp
retr
nbpr
,5
memp
mdec
ndec
0,0
Composante 2
vadd
-,5 sold depo
-1,0
-1,0 -,5 0,0 ,5 1,0
Composante 1
IV) Observer la répartition des individus sur le plan et essayer de mettre en évidence la
formation de groupes homogènes. L’origine des axes (0, 0) correspond à la moyenne sur
l’échantillon.
Il convient de mettre en valeur :
– les groupes d’individus (ayant donc un comportement identique) ;
– les individus isolés ;
– la position relative des (groupe d’) individus par rapport aux axes.
11
2
6
4
20 288
23 5
29
1
25
10 19
7 1524
0 1 9 13 16
14
3 17
2
18
26
-1 12 22 21
30 27
-2
-3 -2 -1 0 1 2
32
Combien de composantes ou facteurs retenir?
Règle des valeurs propres : toute composante qui a une valeur propre supérieure à 1.
2
Valeur propre
0
1 2 3 4 5 6 7 8 9
Numéro de composant
La Rotation
But = obtenir une structure plus sensée. Les axes initiaux sont tournés autour de l’origine
jusqu’à ce qu’une autre position soit atteinte.
Rotation orthogonale = obtenir une structure factorielle dans laquelle chaque variable (ex.
question) contribue essentiellement à une seule et seulement une seule dimension.
La variable devrait présenter une forte corrélation avec la composante et presque une
corrélation nulle avec les autres composantes.
Les axes sont maintenus à 90° - les facteurs sont mathématiquement orthogonaux.
33
Diagramme de composantes
1,0 nemp
retr
nbpr
,5
memp
mdec
ndec
0,0
Composante 2
vadd
-,5 sold depo
-1,0
-1,0 -,5 0,0 ,5 1,0
Composante 1
Après rotation, les variables V1, V2, …V5 ci-dessus ont de nouvelles coordonnées. Les
coordonnées de V1 et V2 sont plus grandes sur l’axe II (Facteur II après rotation) alors que
V3, V4 et V5 contribuent plus à la dimension I (Facteur I après rotation)
Facteur II
après rotation
Facteur II avant rotation
+1
.V1
.V2
+0.5
Facteur I
.V3 avant
-1 -0.5 0 +0.5.V4 +1 rotation
- 0.5 .V5
Facteur I
après rotation
-1
Composante
1 2
SOLD ,793 -,167
NDEC -,652 -,395
MDEC -,582 -,202
NBPR ,219 ,888
NEMP -,255 ,903
MEMP ,379 ,591
VADD ,880 3,12E-03
DEPO ,935 -,101
RETR -8,9E-02 ,906
Méthode d'extraction : Analyse en composantes principales.
Méthode de rotation : Varimax avec normalisation de Kaiser.
a. La rotation a convergé en 3 itérations.
34
Diagramme de composantes dans l'espace après rotation
1,0 nemp retr nbpr
memp
,5
vadd
0,0 depo
mdec sold
ndec
Composante 2
-,5
-1,0
-1,0 -,5 0,0 ,5 1,0
Composante 1
35
ANALYSE FACTORIELLE DES
CORRESPONDANCES : A.F.C.
Opinions
Qui pense
quoi Quelles
significations
Motifs
b1 bj bp
a1
kij ki .
a
i f ij fi. k
k
a n
k. j
f. j
k
Exemple :
Croisement de variables nominales :
36
- Quelle est la C.S.P. du chef de famille ?
# Agriculteur # Patr indust commerce# Profession libérale/cadre
#Cadre moyen #Employé #Ouvrier #Personnel de service #Autre
b1 bj bp
a1
f ij
fj
i
ai
fi.
an
masse f. j
Exemple (suite)
37
Profils lignes
a1
f ij f
fi i.
j
ai
f. j
an
Profils colonnes
On réalise une ACP en considérant les profils lignes comme des individus et les modalités de
la deuxième variable comme des variables.
i 1 k
n p
où 2 k 1
f i . f. j ( f ij f i. f. j )2
i 1 j 1
qui est une mesure de la liaison entre les deux variables qualitatives.
39
Première composante principale F1.
F1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la
projection de l’individu sur .
F1 est une variable centrée de variance ..
d ( fJ , fJ )
Étude des autres dimensions.
On cherche le deuxième axe principal orthogonal à passant au milieu du nuage N(I),
puis orthogonal à et vérifiant le même critère, etc. …
Le nombre d’axes que l’on peut construire est au plus égal à r=inf (n-1, p-1).
Axes principaux.
Les axes principaux rpassent par le centre de gravité fJ et sont portés par les vecteurs
propres u1,…,ur associé aux valeurs propres r rangées par ordre décroissant.
Propriétés.
- L’inertie expliquée par chaque axe principale = variance de la composante associée
- Les composantes sont classées par ordre décroissant des variances
- Les composantes principales sont centrées et non corrélées entres elles
r nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes.
Exemple (suite)
40
Résumé
Valeur singulière de
Proportion d'inertie confiance
Corrélatio
Valeur Pris en n
Dimension singulière Inertie Khi-deux Sig. compte Cumulé Ecart-type 2
1 ,311 ,097 ,707 ,707 ,039 ,005
2 ,166 ,027 ,201 ,908 ,044
3 ,112 ,013 ,092 1,000
Total ,137 68,884 ,000 a 1,000 1,000
a. 21 degrés de liberté
Score dans la
dimension Contribution
De point à inertie de
Quelle est la C.S.P. dimension De dimension à inertie de point
du chef de famille ? Masse 1 2 Inertie 1 2 1 2 Total
Agriculteur ,022 -,323 ,915 ,005 ,007 ,110 ,140 ,601 ,741
Patr indust commerce ,087 ,854 -,257 ,022 ,205 ,035 ,892 ,043 ,935
Profession libérale/ ,157 ,689 ,190 ,025 ,239 ,034 ,917 ,037 ,954
Cadre moyen ,171 -,101 ,398 ,006 ,006 ,163 ,097 ,798 ,896
Employ ,210 -,498 ,092 ,019 ,168 ,011 ,872 ,016 ,888
Ouvrier ,087 -,733 -,968 ,028 ,151 ,494 ,516 ,481 ,997
Personnel de service ,044 -1,112 ,539 ,024 ,174 ,077 ,709 ,089 ,798
Autre ,222 ,266 -,240 ,008 ,050 ,077 ,598 ,260 ,858
Total actif 1,000 ,137 1,000 1,000
a. Normalisation principale symétrique
On réalise une ACP en considérant les profils colonnes comme des individus et les modalités
de la première variable comme des variables.
b1 bj bp G
a1
f ij
fi
j fi.
ai
f. j
an
masse f. j
f I ( f1 j ,..., f n j ) point modalité b j
j
41
Distance entre profils colonnes : distance du khi-2.
n
d 2 ( f I j , f Ik ) f1i . ( f i f i )2
j k
i 1
Inertie du nuage des profils colonnes.
p
2
I ( N ( I ), f I ) f. j d 2 ( f I j , f I )
j 1 k
Axes principaux.
Les axes principaux r passent par le centre de gravité fI et sont portés par les
vecteurs propres v1,…,vr associé aux valeurs propres r rangées par ordre décroissant.
Propriétés
- L’inertie expliquée par chaque axe principale = variance de la composante associée
- Les composantes sont classées par ordre décroissant des variances
- Les composantes principales sont centrées et non corrélées entres elles
r nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes
f ij d ij 1 attractionentre a iet b j
d ij
f i . f. j d ij 1 répulsion entre a iet b j
1 i et j independence des variables
Indice d’attraction répulsion exprimé en fonction des composantes
r
d ij 1 1
h
Fh (i )Gh ( j )
h 1
r nombrede composantes
42
Par conséquent :
r
Si
h 1
1
h
Fh (i )Gh ( j ) 0
Représentations graphiques.
Ouvrier
Axe 2 (20.1%)
Famille / amis
Location / gîte
Axe 1 (70.7%)
Hôtel Camping
Représentation simultanée
On superpose ici les deux ACP (ACP des profils lignes et ACP des profils colonnes)
43
Si des modalités des 2 variables sont dans le même cadran cela traduit ici des modalités
qui s’attirent.
Si des modalités des 2 variables sont dans des cadrans opposés cela traduit ici des modalités
qui se repousses.
Si des modalités des 2 variables sont dans des cadrans adjacents on ne peut conclure que si
ces modalités sont proches de l’un des axes.
44
ANALYSE TYPOLOGIQUE
Objectifs
•Construire à partir des variables choisies a priori des groupes d’individus.
•Constituer des groupes de façon à ce que :
a) les individus appartenant à un même groupe se rassemblent le plus possible
b) les groupes soient les plus différents possible les uns des autres.
Etapes de l’analyse
Données : On doit transformer les données brutes en une matrice de proximité des objets ou
individus
45
Exemple
Revenu Éducation
(en milliers) (années)
O1 5 5
Individus
O2 6 6
O3 15 14
O4 16 15
O5 25 20
O6 30 19
O1 O2 O3 O4 O5 O6
O1 0 2 181 221 625 821
O2 2 0 145 181 557 745
C) Choix de l’algorithme
•Méthodes hiérarchiques :
- Ascendantes : procèdent par agglomération
- Descendantes : procèdent par décomposition
L’Analyse Hiérarchique
Les méthodes hiérarchiques réalisent des fusions ou divisions successives des données.
L’allocation d’un individu à une classe donnée est irrévocable ; une fois qu’un individu a été
associé à une classe, il ne peut plus être dissocié pour être fusionné avec d’autres individus
appartenant à une autre classe.
46
le saut minimum _
la distance moyenne entre classes
l’individu le plus proche
Méthode de Ward
Minimiser
la variance
intra classe
La nouvelle matrice
O1&O2 O3&O4 O5 O6
O1&O2 0
O3&O4 145 0
D(2)
O5 557 106
0
O6 745 212 26 0
47
Nouvelle matrice
O1&O2 O3&O4 O5&O6
O1&O2 0
Distance
145
106
~
26
~
5
0
1 2 3 4 5 6
Individus
48
Chaîne des agrégations
Dendrogramme
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Case 13 13
Case 15 15
Case 24 24
Case 16 16
Case 17 17
Case 9 9
Case 25 25
Case 1 1
Case 19 19
Case 3 3
Case 7 7
Case 14 14
Case 10 10
Case 4 4
Case 6 6
Case 8 8
Case 23 23
Case 20 20
Case 28 28
Case 29 29
Case 5 5
Case 11 11
Case 27 27
Case 30 30
Case 18 18
Case 21 21
Case 12 12
Case 22 22
Case 2 2
Case 26 26
Pour la méthode du saut maximum, la méthode est exactement l’opposé du saut minimum
dans ce sens que la distance est maintenant définie entre les deux pairs d’individus les plus
distants
Pour la méthode de la distance moyenne - même approche sauf que la distance représente la
distance moyenne entre toutes les pairs de points venant de chaque classe.
49
Pour la méthode de Ward, le classement se fait en regroupant les individus qui minimisent le
mieux la perte d’information.
Procédure
•Choisir k centres de classes, où k est le nombre de classes désiré.
•Assigner chaque individu à la classe qui lui est la plus proche
•Réassigner chaque individu à l’une des k classes selon une règle prédéterminée
•S’arrêter s’il n’y a plus d’observations à assigner ou si la réassignation satisfait toujours la
règle retenue.
Algorithme
classes
variables 1 2 3
Revenu 5 6 15
éducation 5 6 14
Ensuite, il s’agit de calculer la distance euclidienne (au carré) de chaque observation par
rapport au centre de chaque classe. Puis, assigner chaque observation à chacune des classes.
Le processus se poursuit jusqu’a ce que les nouveaux centres ne changent plus ou très peu
(critère d’arrêt).
Distances par rapport aux centres de classes
O1 0 2 181 1
O2 2 0 145 2
O3 181 145 0 3
2 3
O4 221 181
Calculer les centres des classes précédentes (à partir de leurs données brutes)
50
Nouveaux centres de classes
Classes
Variables 1 2 3
Revenu 5 6 21.5
Éducation 5 6 17.0
O1 0 2 416.25 1 1
O2 2 0 361.25 2 2
181 145 51.25 3 3
O3
34.25 3 3
O4 221 181
O5 625 557 21.25 3 3
O6 821 990 76.25 3 3
Classe
1 2 3
Zscore: SOLD -,10714 3,66279 -,61145
Zscore: NDEC -,68681 -,68681 2,94923
Zscore: MDEC -,76785 -,76785 2,46584
Zscore: NBPR 1,70914 ,07273 -1,01821
Zscore: NEMP 1,65956 -,92677 -,92677
Zscore: MEMP 2,85851 -,68222 -,68222
Zscore: VADD ,22205 1,00575 -,95350
Zscore: DEPO ,06710 1,41741 -,82318
Zscore: RETR 3,74042 -,62999
51 -,64556
Historique des itérationsa
ANOVA
Classe Erreur
Moyenne Moyenne
des carrés ddl des carrés ddl F Signification
Zscore: SOLD 7,003 2 ,555 27 12,610 ,000
Zscore: NDEC 4,531 2 ,738 27 6,136 ,006
Zscore: MDEC 1,892 2 ,934 27 2,026 ,151
Zscore: NBPR 12,916 2 ,117 27 110,116 ,000
Zscore: NEMP 12,534 2 ,146 27 86,070 ,000
Zscore: MEMP 4,105 2 ,770 27 5,331 ,011
Zscore: VADD 12,771 2 ,128 27 99,687 ,000
Zscore: DEPO 12,984 2 ,112 27 115,598 ,000
Zscore: RETR 9,947 2 ,337 27 29,496 ,000
Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de
manière à maximiser les différences entre les observations des diverses classes. Les niveaux de
signification observés ne sont pas corrigés et ne peuvent par conséquent pas être interprétés
comme des tests de l'hypothèse que les moyennes des classes sont égales.
Nombre d'observations dans chaque classe
Classe 1 9,000
2 8,000
3 13,000
Valides 30,000
Manquentes ,000
52
3
11
2
6
4
20 288
23 5
29
1
25
10 19
7 1524
0 1 9 13 16
14
3 17
2
18
26
-1 12 22 21
30 27
-2
-3 -2 -1 0 1 2
53
Validation des groupes
•Des méthodes différentes doivent aboutir à des résultats semblables.
•Après séparation aléatoire de l’échantillon en deux moitiés, on doit aboutir aux mêmes
résultats.
•Les distributions des groupes sur les variables de classification ne se chevauchent pas.
•Utiliser une analyse discriminante.
Problèmes pratiques et conséquences
•Problème posé Choix des critères de classification
54
ANALYSE FACTORIELLE DES CORRESPONDANCES
MULTIPOLES :
A.F.C.M.
Objectifs de l’A.F.C.M
Objectifs de l’A.F.C.M est de mettre en évidence :
- Les similitudes entre les modalités des variables : carte des variables.
- Les proximités entre les individus : carte des individus.
- Les liens entre les individus et les modalités des variables.
Intérêt de l’A.F.C.M
Son Intérêt est de :
- Tenir compte de l’aspect multidimensionnel des données
- Très adaptées au dépouillement des questionnaires.
- Analyse de plusieurs variables nominales.
Les données
Tableau : Individus X Variables Qualitatives
55
Principe :
- Réduction de l’espace de représentation des individus
- Réduction de l’espace de représentation des modalités des variables.
Algorithme :
- Réaliser une ACP sur les profils lignes du tableau disjonctif complet (individus)
- Réaliser une ACP sur les profils colonnes du tableau disjonctif complet (modalités)
- Étudier le lien entre les deux ACP.
k nm
xijl
f ijl
nm
pj
m xijl 1
f i.
j 1 l 1 nm n
n n jl
f. jl f ijl
i 1 nm
f ijl xijl
Profils lignes associés à l’individu i : f J (..., ,...) (...,
i
,...)
f i. m
f ijl xijl
Profils colonnes associés à la modalité l de la variable Xj : f I (..., ,...) (...,
jl
,...)
f. jl n jl
n jl
Profils lignes marginaux : f J (..., f. jl ,...) (..., ,...)
nm
1
Profils colonnes marginaux : f I (..., f i. ,...) (..., ,...)
n
N ( I ) nuage des profils lignes ..., f Ji ,... munis des poids
..., f i. ,...et de la métrique du 2
dans R p
pj
m
1 f ijl f kjl
d 2 ( f Ji , f Jk ) f ( )2
j 1 l 1 . jl f i. fk.
56
Ainsi plus un individu possède des modalités rares, plus il est loin du centre de gravité du
nuage N(I).
L’inertie totale du nuage s’écrit
p
I ( N ( I ), f J ) 1
m
Propriétés du nuage N(J)
La distance du profil-colonne f I jl au centre de gravité f I s’écrit
n
d 2 ( f I jl , f I ) 1
n jl
Ainsi un profil-colonne est d’autant plus éloigné du centre de gravité que son effectif est
faible.
La contribution de Xj à l’inertie totale vaut (pj -1)/m. Elle est d’autant plus élevée que le
nombre de modalités de la variable Xj est élevé. Il est préférable en AFCM d’utiliser des
variables ayant le même nombre de modalités. L’inertie totale du nuage s’écrit
p
I ( N ( I ), f J ) 1
m
Propriétés
Les composantes principales sont centrées de variance h et sont non corrélées entres elles.
Taux d’inertie
h
Le taux d’inertie associé à l’axe h définie par p m est majoré par m p m .
m
57
On remarque que plus le nombre de modalités des questions est important plus le taux
d’inertie associé aux axes est faible. On ne peut donc ici appliquer les résultats de l’AFC sur
tableau de contingence.
Deux attitudes peuvent être adoptées :
- Concentrer l’analyse sur le premier plan principale.
- Retenir les axes pour lesquels il est possible d’établir une interprétation claire et
constructive.
CTRh ( j ) CTRh ( jl )
l 1
r nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes.
58
Distance entre individus
La distance entre deux individus i et k s’écrit
m pj
n
d 2 ( f Ji , f Jk ) (xijl xkjl ) 2
j 1 l 1 n jl
On en déduit
- 2 individus sont d’autant plus éloignés que sont nombreuses les modalités pour
lesquelles ils ont fait des choix opposés. Un individu est d’autant plus éloigné des
autres individus qu’il a opté pour des modalités rares
- 2 individus sont d’autant plus proches que sont nombreuses les modalités pour
lesquelles ils ont fait les mêmes choix. Leur proximité est renforcée lorsque les
modalités pour lesquelles ils ont fait des choix opposés ont des fréquences élevées
r nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes.
Relations de transition
On a les deux relations de transition suivantes :
m pj n
Gh ( jl )
f ijl
Fh (i )
f ijl 1
1
Gh ( jl ) h
Fh (i )
h fi. f . jl
j 1 l 1 i 1
n
x
m pj
1 1
1 1
xijl Gh ( jl ) h n jl ijl Fh (i )
h m
i 1
j 1 l 1
1
A h près
- Fh(i) est au barycentre des Gh(jl) pour l’ensemble des modalités jl caractérisant
l’individu i.
- Gh(jl) est au barycentre des Fh(i) pour l’ensemble des individus i possédant la
modalité jl.
59
Représentation graphique
60
61