Analyse de Données

ANALYSE DE DONNEES
Blaise TIOTSOP – blaise.tiotsop@ensea.ed.ci
Introduction
Définition et Problématique
L’Analyse De Données : Ensemble de méthodes qui font un résumé descriptif (état des
lieux) d’un grand nombre de variables, en utilisant des liaisons multiples simultanément
pour faire ressortir des ressemblances, correspondances, le poids des variables, et des
individus particuliers.
L’analyse des données multidimensionnelle peut se définir comme un ensemble de
méthodes permettant la description d’une population, à partir des liaisons multiples
simultanées d’un grand nombre de variables, de manière à faire ressortir les ressemblances
entre les individus, les correspondances entre les catégories, les poids des variables, et les
individus particuliers.
L’intérêt des méthodes d’analyse multidimensionnelle est de dépasser les limites des analyses
descriptives élémentaires, qui traitent les variables de façon individuelle, ou tout au plus en
couple. En réalité, la description d’un phénomène fournit des meilleurs résultats lorsqu’on
tient compte de façon simultanée des relations entre les variables. Par exemple, si on
s’intéresse aux déterminants du revenu sur une population hétérogène, en croisant séparément
le revenu avec : le niveau d’études (le nombre d’années d’étude), l’expérience
professionnelle, le domaine de formation, le secteur d’activités, etc. Chaque croisement
pourrait produire des résultats limités, mais un modèle qui tiendrait compte de façon
simultanée des liaisons entre toutes ces variables donnerait une interprétation bien plus
satisfaisante du phénomène.
En outre, l’analyse multidimensionnelle permet d’éviter la redondance de l’information, tout
en ramenant l’analyse aux variables les plus pertinentes pour décrire le phénomène étudié.
Il y’a donc au moins trois (03) raisons qui justifient les analyses multidimensionnelles :
- Les statistiques croisées des variables 2 à 2 pour analyser la liaison peut devenir
laborieux en cas d’un grand nombre de variables. Pour 17 variables par exemple, on a
136 croisements (corrélations, nuages de points, etc.) ;
- L’étude séparée de plusieurs nuages de points conduit à une redondance de
l’information (multi colinéarité) ;
- Bien souvent, les liaisons bivariées ne fournissent pas la bonne description du
phénomène global.
Finalement, un rapport qui ferait les 136 analyses bivariées serait monotone, donnerait une
impression de répétition, et serait aussi volumineux. Pourtant, le même rapport avec une
analyse factorielle serait succinct, pertinent, synthétique.
Wodje Appolini – Toucan 44

Le problème est que, si des analyses ou des commentaires contiennent une redondance de
l’information, alors, la synthèse doit mettre cette information en facteur. L’analyse des
données est donc une analyse factorielle ; on dit encore analyse factorielle des données. Elle
regroupe donc des méthodes qui cherchent à mettre en facteur une information qui se répète
dans les donné0es. Cela est cohérent, parce que c’est justement le facteur qui se répète entre
plusieurs variables qui crée la liaison entre ces variables.
Place dans la démarche statistique :
- Conception : définit la population et unités statistiques, les caractères à étudier, le
questionnaire et le plan de sondage ;
- Collecte de données : exécution de l’enquête, saisie des données
- Apurement des données : vérification, contrôle, redressement, traitement des points
particuliers ;
- Analyse de données : représentation (graphique + tableau, relations entre
caractères).
- Rapport et diffusion : rédaction du rapport et des recommandations, et diffusion.
Différentes méthodes d’analyse multidimensionnelle
- Analyse en Composantes Principales (ACP) : structure imprimée par des variables
quantitatives ;
- Analyse Factorielle des Composantes simples (AFC) : étudie les correspondances
entre les modalités de deux caractères qualitatifs ;
- Analyse factorielle des Correspondances Multiples (ACM) : prolongement de
l’AFC (étudie les correspondances entre les modalités de plusieurs (3 et +) caractères
qualitatifs ;
- Classification Automatique : Classification Ascendante Hiérarchique (CAH)
structurer une population en sous-groupes homogènes ;
- Pour aller plus loin, analyse discriminante et scoring.
L’ACM, la CAH, et l’analyse discriminante seront abordés l’année prochaine
Usage des analyses factorielles
- Construction des scores (indicateurs) : par exemple, l’indicateur de bien être des
ménages, construits à partir des données d’enquête, en l’absence des dépenses de
consommation ;
Pour évaluer le revenu, on se base sur les 13 postes de consommation…, et sur ce qu’on nous
donne en matériel. En Statistiques, Normes, Standard, règlementation.
- Détermination des pondérations des variables ;
- Description de la structure d’un point ;
- Recherche des correspondances entre les modalités des caractères qualitatifs ;
- Recherche des déterminants d’un phénomène ;
- Construction des profils ;
- Segmentation de la clientèle ;
- Réduction de la dimension.

L’analyse des données est utilisée par tous les domaines socioéconomiques. Le cours suppose
que les données sont déjà collectées, apurées et traitées. Les exposés magistraux seront suivis
d’exemples d’application sur le logiciel Spad.
Pourquoi pourcentage de population urbaine est important pour mesurer le taux de
développement.
Travaux Pratiques :
Le R2 est le pourcentage de variation expliquée ; Si Y =aX +b, le R2 donne la proportion de Y
2
qui a varié due à la variation de X . R =( )
Var ( Y )
Var ( x )
.
C’est la distance qui traduit l’information.
LECON 1 : ANALYSE EN AXES PRINCIPAUX : ACP,
AFC, ACM
Cette leçon a pour objectif final de présenter la notion de facteurs ou d’axes principaux.
Puisque ce concept découle de la liaison, une explication approfondie du concept de liaison
est faite au préalable.
I. Vocabulaire général en statistiques descriptives

Lorsqu’on réalise l’étude d’un phénomène, à partir des objectifs, on définit la population,
ainsi que les critères d’inclusion des individus. Ensuite, pour décrire le phénomène, on
collecte des informations sur certaines caractéristiques des individus. A partir de ces
caractéristiques, on définit des caractères qui peuvent être de deux (02) types :
- Lorsque le caractère porte sur une information qui est quantitative, on dit que le
caractère est quantitatif, et on peut encore l’appeler variable. Si le nombre de
valeurs distinctes est très élevé, ou est libellé dans une unité dont la précision peut
toujours être améliorée, la variable est dite continue, sinon, elle est discrète.
Note : les variables portant sur le temps, la taille ou des valeurs monétaires sont toujours
considérées comme continues. Les variables qui traduisent une appréciation (variables
d’échelle) sont codifiées de façon séquentielle, et sont manipulées comme les variables
quantitatives.
- Lorsque les caractères sont relatifs à des informations catégorielles, elles sont
qualitatives. Si en plus, il existe un ordre, un classement intrinsèque entre les
catégories, le caractère est dit qualitatif ordinal, sinon, qualitatif nominal.
Remarques : Toutes les analyses en statistiques distinguent les méthodes en fonction des
types de la variable. Aucun processus ne permet de transformer un caractère qualitatif en
variable quantitative. Cependant, on peut regrouper les valeurs quantitatives en intervalles
pour constituer des classes, qui s’interprètent comme des catégories, et manipuler la variable

comme si elle était qualitative. Lors du regroupement, pour choisir les bornes, on fera
référence aux normes, aux standards, et à la règlementation.
Nuage de points : Lorsque les points sont décrits par des variables quantitatives au nombre
de p, chaque unité statistique peut être représentée par un point dans un système d’axes
orthonormés de R p . L’ensemble des points est appelé nuage de points.
Remarques : La lecture du nuage n’est commode qu’en dimension 2. Au-delà de la dimension
2, il est recommandé de faire des projections.
Centre de gravité : En dimension 1, le centre de gravité c’est la moyenne ; En dimension
p>1, le centre de gravité est le point moyen du nuage. Ses coordonnées sont les valeurs
moyennes sur les axes.
II. Notion de liaison

a. Cas du croisement qualitatif – quantitatif
En statistiques descriptives, on peut présenter sous forme de tableaux ou de graphiques les
statistiques générales des variables quantitatives par catégorie ou pour le total. L’association
se mesure en moyenne. Une différence numérique n’est pas toujours significative ou
pertinente ; il peut être nécessaire de conduire des tests de comparaison des moyennes, si les
écarts types ne sont pas les mêmes. Lorsqu’on a deux catégories, on utilise le test de
comparaison des moyennes. Mais avec plus de 02 catégories, en général, on utilise l’analyse
de la variance ANOVA (Statistique de Fisher). Mais dans le cadre des analyses
factorielles, le logiciel fait toujours des comparaisons deux à deux, en changeant chaque fois
la catégorie de référence qui est comparée au reste de la population.
V test – Valeur test (Statistique de Student)
La différence des moyennes est significative lorsque la valeur test est hors de l’intervalle
¿−2; 2 ¿.
Le rapport de corrélation linéaire : rapport de variance.
b. Cas du croisement qualitatif – qualitatif

Vocabulaire générique adéquat pour traduire la liaison qualitatif – qualitatif :
Correspondance.
L’existence d’une liaison entre deux caractères qualitatifs traduit toujours une
correspondance entre des modalités d’un caractère et celles de l’autre caractère.
Exemples : Rechercher la liaison entre des types de voiture et le genre (sexe) revient à
rechercher les types de voitures qui correspondent aux hommes, et les types de voitures qui
correspondent aux femmes. De même, établir une liaison entre le niveau d’étude, et le niveau
de revenu revient à identifier des niveaux de revenus qui correspondent à des niveaux d’étude.
Remarques : Dire que le véhicule de type A correspond aux femmes, n’induit pas que tous les
véhicules A appartiennent aux femmes, encore moins que toutes les femmes n’ont que des
véhicules de type A. Cela traduit simplement une forte fréquence d’une catégorie dans la
distribution de l’autre catégorie.

Distance entre le tableau de contingence et le tableau des effectifs théoriques → Distance du
khi deux.
c. Cas du croisement quantitatif – quantitatif

Au-delà du nuage de points pour apprécier la tendance, nous porterons un intérêt prioritaire à
la liaison linéaire, qui nous indique le sens d’évolution croissant ou décroissant d’une
variable, lorsque l’autre croît. Cette relation ou association linéaire sera d’autant plus
importante que la relation est forte. Et dans ce cas, la connaissance des valeurs de l’une nous
fournit suffisamment d’informations pour estimer les valeurs de l’autre. On fixera donc notre
attention sur le R2 qui mesure la qualité d’un tel ajustement (Le R2 est le pourcentage de
variation expliquée ; Si Y =aX +b , le R2 donne la proportion de Y qui a varié due à la
2
variation de X . R = (
Var ( Y )
Var ( x ) )
).
(Si Y est fonction de X , on s’interroge de savoir comment est-ce que Y va varier si X varie.
V ( Y^ )
Avec Y i=a X i +b+ ϵ i =Y^i+ ϵ i, on a : R =
2
).
V (Y )
2 V ( Y^ )
Par définition, R = se définit comme le pourcentage des variations de Y qui peuvent
V (Y )
s’expliquer par les variations de X . En effet, lorsque Y =Y^ + ϵ avec Y^ =aX +b, on fait
l’hypothèse qu’on a initialisé le processus, et pour X on connait Y . Si X ne change pas, on
veut être certain que Y ne change pas ; mais si X varie, le modèle sera d’autant plus de bonne
qualité que la variation se répercute sur Y . C’est dans ce sens qu’il faut comprendre le
pourcentage de variation de Y expliquée par les variations de X traduit par le R2 ( R2 %
des variations de X se répercutent sur les variations de Y).
Coefficient de détermination ( R2 ¿ fiable en dessus de 70%.
« Le principe de l’ajustement est utilisé pour interpréter les positions des points individus
dans le nuage, à partir du graphique des variables et cela en transitant par les axes. » Lorsque
les coordonnées des points varient sur un axe, cela signifie que, les valeurs des variables
corrélées à l’axe de même rang dans le graphique des variables varient aussi, sous réserve que
la qualité de l’ajustement ( R2) de la variable par l’axe est bon.
III. Notion d’axe principal d’inertie ou de facteur

La liaison entre deux variables traduit toujours l’existence d’un facteur commun. Par
exemple, il y’a une liaison entre le PNB par habitant et l’espérance de vie à la naissance.
Parmi les facteurs que ces deux variables ont en commun et qui constituent la liaison, on peut
citer l’argent, la technologie, et le capital humain.
Lorsqu’on étudie plusieurs variables, l’élément majeur qui soutient les relations et qui définit
le phénomène est donc le facteur. Lors de l’analyse, les commentaires sont faits sur le
facteur commun. C’est lui la dimension importante sur laquelle porte l’analyse/les
commentaires.

En outre, si on se contente des analyses bivariées, le fait de citer plusieurs fois le facteur
représente une redondance.
Finalement, pour éviter la redondance et/ou les répétitions, il faut extraire, de la multitude des
variables, les facteurs qui représentent les dimensions d’intérêt, c’est-à-dire les axes
principaux d’intérêt et d’analyse. Or mathématiquement, la direction, l’axe ou la dimension,
renvoie aux vecteurs. L’analyse factorielle consiste donc à traduire les « facteurs »
(information commune) sous forme de direction c’est-à-dire de vecteur. On laissera donc le
repère canonique dans lequel le nuage de points est représenté pour interpréter le même nuage
dans un nouveau repère dont les axes traduisent des facteurs. En d’autres termes, le principe
de l’analyse factorielle est de construire de nouveaux vecteurs sur lesquels le nuage sera
projeté.
LECON 2 : ANALYSE CANONIQUE D’UN NUAGE DE
POINTS
Cette leçon déroule le formalisme mathématique de construction de facteurs, ainsi que les
règles générales d’interprétation des résultats.
I. Interprétation mathématique des données

Le premier objectif est de réduire la dimension de l’espace d’analyse.
On suppose au départ des données statistiques avec n individus décrits par p variables
quantitatives. La table des données X s’assimile à une matrice de données rectangulaire n × p .
Les variables s’interprètent donc comme des vecteurs colonnes de Rn. Les individus
s’interprètent comme des points de R p . L’ensemble des points est appelé nuage noté N . Il
appartient à un sous espace vectoriel de R p engendré par les n individus.
Le nuage appartient en réalité à un espace vectoriel dont la dimension est le rang de X : rg( X)
, et est inférieur à p. De façon duale, les variables appartiennent aussi à un sous espace de Rn
de dimension égale à rg( X). S’il y’a des liaisons entre les variables, alors l’ensemble des
variables forme une famille liée, et le rang est strictement inférieur à p, et il y’a donc
réduction de dimension.
Le second objectif est de décrire la structure du nuage.
Cet objectif nous renvoie à la distance entre les points. La distance est l’indicateur de
ressemblance ou de différence ; la distance est donc l’information. Dans l’espace R p , on
considère la distance définie par la matrice des inverses des variances.
[ ]
1
2
0 … 0
σ1
D1= 0 ⋱ 0
1
2
σ
0 … 0 2
σp

2 T
Pour deux points e 1 et e 2, on a : d ( e 1 , e 2 )=( e1 e2 ) × D 1 ×(e ¿ ¿1 e 2) ¿ 2
σ
[ ]
p 2
X 2 j−X j X 1 j− X j
Avec e i=( X i 1 , … , X ip ) , on a : d ( e 1 , e 2 )=∑
T 2
−
j=1 σj σj
Remarques :
D1
- Utiliser la matrice sur les données brutes est équivalent à utiliser le produit
σ2
scalaire euclidien sur les données centrées réduites.
- L’information totale contenue dans la table de données X se mesure par un
indicateur qui agrège les distances entre les points, c’est-à-dire qui traduit
l’étalement qui est la dispersion en dimension supérieure ou égale à 1. Cet indicateur
se calcule par rapport au centre de gravité qui est le point moyen.
[ ]
p 2
X ij −X j
On note g le centre de gravité. d ( e i , g ) =∑ 2
.
j =1 σj
[ ]
n p 2
1 X ij −X j
L’information totale est donc : ∑ ∑
n i=1 j=1 σj
.
( )
p n
1 1
En réécrivant, on a : ∑ 2 ∑ ( X ij −X j ) = p.
2
j=1 σ j n i =1
Le troisième objectif est d’établir les corrélations entre variables (quantitatives).
[ ]
p1 0 0
Dans l’espace des variables R , on considère la matrice diagonale D= 0 ⋱
n
0 , comme
0 0 pn
n
matrice du produit scalaire, avec pi le poids des individus : ∑ pi =1.
i
1 1
En cas d’uniformité, pi= , pour tout i , et D= I n .
n n
Pour simplifier, on va supposer les poids uniformes. Le coefficient de corrélation linéaire
( )( )
Cov ( X j , X k ) 1 n X ij − X j X ik −X k
entre deux variables X j et X k est corr ( X j , X k ) = = ∑ .
σjσk n i σj σk
¿ X ij − X j
Notons X ij = ; On obtient :
σj
n
1 T 1
corr ( X j , X k ) = ∑ X ¿ij X ¿ik =( X ¿1 j ,… , X ¿nj ) ( I n)( X ¿1 k ,… , X ¿nk );
n i n
Donc corr ( X j , X k ) =¿ X ¿j∨X ¿k ≥‖X ¿j‖×‖ X ¿k‖× cos ( ^

X ¿j , X ¿k ).
Or pour toute variable centrée réduite X j, on a : ‖ X j‖=1;

¿ ¿

D’où corr ( X j , X k ) =cos( ^
X ¿j , X ¿k )=cos ( ^
X j , X k ).
Ce résultat permet de détecter les associations linéaires, les oppositions, et les indépendances
1
directement sur les graphiques. En particulier, avec la matrice D= I n définissant le produit
n
n D1
scalaire dans R , et la matrice le produit scalaire dans R p , toutes les variables
σ2
n
appartiennent à la sphère unité de R . Par conséquent, en projection dans un plan factoriel,
une variable sera dotant mieux représentée qu’elle se rapprochera du cercle unité.
(Plus la longueur d’une variable dans le plan factoriel est petite, plus il provient d’un espace
qui est orthogonal au plan factoriel, donc plus il y’a indépendance entre cette variable et le
plan factoriel. De ce fait, pour interpréter, on ne tient pas compte de cette variable.)
En effet, la longueur d’une variable représentée dans un plan de projection est le cosinus de
l’angle entre la variable et ce plan. Plus ce cosinus est petit, plus l’angle entre la variable et le
π
plan se rapproche de , et donc la variable provient d’un espace orthogonal au plan, et n’a
2
donc aucune information en commun avec le plan.
II. Construction des facteurs ou axes factoriels

En général, les données sont décrites par une dimension p élevée, sinon l’analyse
multidimensionnelle ne se justifierait pas. Mathématiquement, dans un tel contexte, pour
observer le nuage, il faut faire des projections. Mais toute projection entraine une perte
d’informations. Il nous faut donc identifier les axes de projection qui conservent au mieux
l’information. On peut donc dire que, l’analyse factorielle se résume dans son principe, à la
construction d’une nouvelle base dans laquelle observer le nuage de points. Plus un axe de
projection conserve l’information, plus il est meilleur, or l’information conservée par un
axe, c’est la variance des coordonnées des projections des points du nuage.
Mathématiquement, on a le résultat suivant :
La projection d’un point e i sur l’axe dirigée par le vecteur unitaire u⃗ et passant par le centre de
gravité g est c i=¿ ⃗
g e i∨⃗u >¿ . Le vecteur de coordonnées de tous les projetés est donné par
~
X D 1 u⃗ avec ~ T ~
X =X−1n g . X est la matrice des valeurs centrées.
2
σ
L’information portée par notre axe n’est rien d’autre que la variance des coordonnées, c’est-à-
~
‖ ‖
2
dire le carré de la norme du vecteur des projetés : X D 1 u⃗ .
σ
2
D
‖
~
X D 1 u⃗ = ~
2
σ 2 ‖ (
X D 1 u⃗
D σ 2
() 1n I )(~X D ⃗u)= 1n [(⃗u D )( D ~X )(~X D )( D ⃗u)]=(u⃗ D )[ 1n X X ]( D u⃗ )
T
n 1
σ2
T
1
σ
1
σ
T
1
σ
1
σ
T
1
σ
¿ ¿
1
σ
T
¿ ~
D =D 1 × D 1
Avec X = X D 1 , et sachant que 1 σ σ
.
σ σ2
1 ¿ ¿
La matrice X X est la matrice des covariances.
n

{ ( )[ ]( )
1 ¿ ¿
max u⃗T D 1 X X D 1 u⃗ T
⃗u n
Le vecteur u⃗ directeur de l’axe est donc solution du programme σ
2
σ
s /c :‖u⃗ ‖ =⃗u T D 1 ⃗u=1

D1
σ
2
2
σ
)[ n X X ] (D ⃗u )−α (u⃗ D u⃗ )
1
(
T ¿ ¿ T T
Le lagrangien donne : L (u⃗ , α )= u⃗ D 1 1 1
σ σ σ2
( )[ ](
∂L 1 ¿ ¿
On a, avec les CPO :
∂ u⃗
( ⃗u , α )=0 ⟺2 D 1
σ
n σ σ
)
X X D 1 ⃗u−2 α D 1 ⃗u=0
2
Donc D 1
σ
[ 1 ¿ ¿
n σ
](
X X D 1 u⃗ =α D 1 D 1 u⃗ . Comme D 1 est bijectif, il vient :
σ )σ ( σ )
[ 1 ¿ ¿
n σ
](
X X D 1 u⃗ =α D 1 u⃗ ; Par suite, D 1 u⃗ est vecteur propre de la matrice 1 X ¿ X ¿.
σ ) ( σ ) n
On démontre que, partant d’un nombre variables p dans la matrice X , on peut construire
encore p vecteurs D 1 u⃗ , donc p axes factoriels. La quantité d’informations détenue par un axe
σ
dirigé par u⃗ est :
(u⃗ D )[ n X X ] ( ( [ ] )
1 1 ¿ ¿
) ( ) ( )
T ¿ ¿ T T T T T T
1 D1 u
⃗ =⃗u D 1 X X D 1 u
⃗ =⃗u α D 1 u⃗ =α u⃗ D 1 u⃗ =α (en utilisant
σ σ σ
n σ σ σ
2 2
la contrainte du programme de maximisation). Donc quantité d’informations détenue par un

axe dirigé par u⃗ est la valeur propre associée ; Plus une valeur propre est grande, plus l’axe est
important.
Si on devait utiliser tous les axes factoriels construits, il n’y aurait pas de gain véritable en
termes de réduction d’efforts d’analyse.
Partant de p axes ayant chacun la même information, on aboutit à p axes ayant des
informations différentes ; Il y’a donc nécessairement des axes importants et des axes non
importants. Il existe trois (03) critères que l’on combine pour sélectionner les axes utiles pour
l’analyse.
- Le critère le plus simple stipule qu’il faut retenir pour l’analyse les premiers axes qui
nous donnent un cumul d’inertie compris entre 60% et 80%. (Comprendre en cela
que nous devons interpréter au moins 60% de l’inertie, même si on n’excède pas
80%).
- Le critère de Kaiser qui suggère de retenir les axes dont les valeurs propres associées
sont supérieures à la moyenne (qui est 1 dans le cas de l’ACP, mais à calculer pour les
méthodes qualitatives). Rappelons que les variables (actives) étant centrées réduites,
1
chacune d’elles apportent une part d’information (inertie). Un facteur dont la valeur
p
propre est supérieure à 1 apporte donc une part d’information supérieure à la
moyenne.
- Le critère du coude (ou de Cattle) se réfère à la forme dégressive des valeurs propres
et

cherche à identifier les axes les plus riches en information. Les valeurs propres
formant
une suite décroissante, cette règle cherche à détecter l’existence d’un coude ou d’un
pallier correspondant à une forte diminution relative de l’inertie. De façon visuelle, le
coude se situe sur un axe sur lequel l’écart absolu de la valeur propre associée par
rapport à la valeur propre directement inférieure est supérieure au même écart absolu
par rapport à la valeur propre directement supérieure.
→ Règles de sélection des axes ;
Sélection des axes à retenir pour l’analyse

Le nombre d’axes à retenir dépend des objectifs spécifiques ; Si l’objectif est de construire un
indicateur, on se limite au premier axe le plus important ; les coordonnées des individus sur
cet axe le plus important représente l’indicateur ; plus le poids du premier axe est important,
plus l’indicateur est fiable. Mais attention, il s’agit d’un indicateur ordinal.
Exemples :
- Pour l’analyse pays, le poids du premier axe est très important (61%), les coordonnées
des pays sur le premier axe peuvent bien être considérés comme leur indicateur de
développement.
- Le score de bien-être économique des ménages utilise le même principe.
Dans certains cas, on préfère utiliser plutôt les coordonnées des variables sur le premier axe
comme leur poids et on calcule la moyenne pondérée des variables pour construire
l’indicateur ; cette approche est généralement utilisée lorsque les variables sont de même
nature. (Généralement, si les variables sont de même nature, les pondérations correspondent
aux coordonnées des variables sur le premier axe, après l’ACP).
Dans le cas où on désire faire une description globale du phénomène, les axes importants sont
sélectionnés par combinaison des trois critères :
i) Le pourcentage d’inertie cumulée : retenir pour l’analyse les premiers axes qui
donnent un cumul d’inertie compris entre 60% et 80%. (Comprendre en cela qu’il
faut interpréter au moins 60% de l’inertie, même si on n’excède pas 80%) ;
ii) Kaiser : Retenir les axes dont les valeurs propres associées sont supérieures à la
moyenne (qui est 1 dans le cas de l’ACP, mais à calculer pour les méthodes
qualitatives). Ces axes sont plus importants que la moyenne et sont des « facteurs
communs » ;
iii) Coude : (différence seconde négative) – Arrêter la sélection à un coude.
→ Outils d’aide à l’interprétation ;
III. Outils d’aide à l’interprétation

Il existe 05 types d’aide à l’interprétation :
1. DISTO – Distance à l’Origine

C’est un indicateur d’originalité ; Les individus ayant des DISTO particulièrement grandes
sont originaux, et on dit atypiques c’est-à-dire « hors normes ».

2. Contribution CTR
C’est un indicateur d’originalité par rapport à l’information portée par un axe. Les individus
« atypiques » du point de vue de l’axe sont ceux qui ont une contribution particulièrement
élevée.
(En qualitatif, il n’y a pas de coordonnées de variables, l’importance d’une variable est
donnée par le cumul des contributions. Sur plusieurs axes, l’importance d’une variable
correspond au cumul pondéré des différentes contributions (pondérés par les valeurs
propres)).
Pour les analyses qualitatives (AFC & ACM), le sens des axes est donné par les modalités qui
ont fortement contribué. En ACM en particulier, l’importance des variables est donnée par la
somme pondérée des cumuls des contributions.
L’information étant la variable, un point qui a une forte contribution est distant de l’origine.
3. Corrélations
Lorsque les variables quantitatives sont centrées réduites, ou ce qui est équivalent, lorsqu’on
D
utilise la matrice 1 , on dit qu’on fait une analyse normée. Dans ce cas, la corrélation
σ2
linéaire entre une variable et un axe est égale à la coordonnée de la variable sur l’axe. Un axe
est illustré par les variables à fortes coordonnées. La coordonnée indique aussi l’importance
de la variable pour le facteur représenté par l’axe.
4. La V. test
La V. test d’une catégorie par rapport à un axe indique si la position des individus qui sont de
la catégorie par rapport à un axe est significativement différente de la position moyenne de
tous les autres individus qui ne sont pas de la catégorie. La procédue utilise un test de Student,
et donc la position moyenne d’une catégorie est significativement différente de celle des
autres si la V. test est hors de l’intervalle ¿−2;2 ¿ (
¿−fractile de la loi de Student à 5 % , fractile de laoi de Student à 5 % ¿)
En ACP, le logiciel fait une dichotomie de la variable qualitative. Il divise la variable en deux
groupes. En quantitatif, on prend les coordonnées.
5. Le Cosinus carré COS 2

L’information détenue par un point e i est :
p p p
d ( e i , g ) =∑ c ij =∑ ‖⃗ ∑ cos2 (α ij).
2 2
g e i‖ cos (α ij )=‖⃗
g e i‖
2 2 2
j =1 j=1 j=1
Le cosinus carré d’un point par rapport à un axe indique la part d’information que l’axe
détient sur le point. Si le cosinus carré est faible, le point projeté vient d’un espace presque
orthogonal à l’axe, c’est-à-dire d’un espace dont l’information n’a rien à voir avec celle
détenue par l’axe. Dans ce cas, on déduit que le point n’est pas ben représenté sur l’axe. Le

cosinus carré est donc l’indicateur de la qualité de représentation, et on interprète un individu
qu’avec les axes sur lesquels il a un bon cosinus carré. Dans un plan, la qualité de
représentation d’un point est la somme des cosinus carrés sur les deux axes.
Chapitre 4 : Analyse en Composantes Principales

ACP, pour apprécier les liaisons multiples linaires (exemple du restaurant : qualité, quantité,
accueil, cadre, …)
Contexte de mise en place de l’ACP :
 Présence de variables quantitatives ;
 Grande nombre de variables
 Relations linéaires multiples.
Objectifs :
 Réduction de dimension
 Identification des individus particuliers
 Mise en évidence des individus atypiques.
 Structure du nuage
Uniquement les variables quantitatives sont actives.
Principe : traduire la ressemblance par les notions de distance, construire un nouveau repère
qui permet d’observer le positionnement relatif entre les individus.
En qualitatif, les modalités sont positionnées en fonction de la moyenne des coordonnées des
individus concernés.
Avant de faire l’analyse on interprète les individus atypiques.
AFC :
Il faudrait que le tableau permette de faire les profils.
Deux caractères qualitatifs, tableau de contingence, tableau de profil ligne/colonne
Sur le tableau de profil ligne, on fait une ACP.
Les modalités lignes sont les individus, et les modalités colonnes sont les variables.
Sur le profil colonne, les
(Probabilité que la valeur réelle soit supérieure à la valeur calculée – khi2) = erreur de 1 ère
espèce.

Analyse de Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse de Données

Transféré par

Droits d'auteur :

Formats disponibles

ANALYSE DE DONNEES

Blaise TIOTSOP – blaise.tiotsop@ensea.ed.ci

Wodje Appolini – Toucan 44

Wodje Appolini – Toucan 44

C’est la distance qui traduit l’information.

LECON 1 : ANALYSE EN AXES PRINCIPAUX : ACP,

I. Vocabulaire général en statistiques descriptives

Wodje Appolini – Toucan 44

II. Notion de liaison

b. Cas du croisement qualitatif – qualitatif

Wodje Appolini – Toucan 44

c. Cas du croisement quantitatif – quantitatif

III. Notion d’axe principal d’inertie ou de facteur

Wodje Appolini – Toucan 44

LECON 2 : ANALYSE CANONIQUE D’UN NUAGE DE

I. Interprétation mathématique des données

Wodje Appolini – Toucan 44

Le troisième objectif est d’établir les corrélations entre variables (quantitatives).

Donc corr ( X j , X k ) =¿ X ¿j∨X ¿k ≥‖X ¿j‖×‖ X ¿k‖× cos ( ^

Or pour toute variable centrée réduite X j, on a : ‖ X j‖=1;

Wodje Appolini – Toucan 44

II. Construction des facteurs ou axes factoriels

Wodje Appolini – Toucan 44

s /c :‖u⃗ ‖ =⃗u T D 1 ⃗u=1

la contrainte du programme de maximisation). Donc quantité d’informations détenue par un

Wodje Appolini – Toucan 44

Sélection des axes à retenir pour l’analyse

III. Outils d’aide à l’interprétation

1. DISTO – Distance à l’Origine

Wodje Appolini – Toucan 44

5. Le Cosinus carré COS 2

Wodje Appolini – Toucan 44

Chapitre 4 : Analyse en Composantes Principales

Wodje Appolini – Toucan 44

Vous aimerez peut-être aussi