Vous êtes sur la page 1sur 61

ENCG SETTAT

ANALYSE DES
DONNEES

Professeur : Rachid JAHIDI

1
Syllabus
MATIERE : Analyse des données

NIVEAU : 3ème année

PRE-REQUIS :

Statistique descriptive

Notions d’estimation

Notions d’algèbre linéaire

PROFESSEUR : M. Rachid JAHIDI

OBJECTIF

Le traitement des tableaux de données multidimensionnelles exige des méthodes


de description statistique élaborées. L’objectif de ce cours est de présenter les
principales méthodes d’Analyse Des Données (ADD) utiles dans les études
marketing à base d’enquêtes et sondages.

Ce cours propose à la fois ;

Une présentation générale et pratique des principales méthodes d’ADD


disponibles dans les logiciels

Une aide à l’interprétation des sorties fournies par les logiciels statistiques

Des exemples entièrement traités à l’aide de logiciels statistiques,


principalement SPSS.

METHODOLOGIE

Description des données utilisées pour présenter la méthode ;

Présentation de la méthode en minimisant les aspects mathématiques et


les démonstrations et en valorisant les aspects pratiques et méthodologiques ;

2
Interprétation des sorties du programme statistique correspondant à la
méthode présentée.

PLAN DU COURS.

Introduction générale

Analyse en Composantes Principales (ACP)

Analyse Factorielle des Correspondances (AFC)

Analyse Typologique (AT)

Analyse Factorielle des Correspondances multiples (AFCM)

Evaluation :

• examen (60% de la note finale)


• contrôle écrit (40% de la note finale)

Bibliographie :

 P. Ardilly : Les techniques de sondage. Technip.


 L. Lebart et N. Tabard : Techniques de la description statistique. Dunod.
 M. Volle : Analyse des données. Economica.
 L. Lebart et Grangé : Traitement statistique des données. Dunod.
 B. Escofier et J Pagès : analyse factorielles simples et multiples
 M. Tenenhaus : Méthodes statistiques en gestion
 Y. Evrard ; B. Pras ;E. Roux : Market étude et recherche en marketing.

3
Introduction

La multiplication des grandes bases de données nécessite le traitement de masses


d'informations toujours plus grandes. Il est donc nécessaire de disposer de méthodes
permettant d'extraire cette information à partir de grands tableaux de données. Ces méthodes
sont regroupées dans ce qu'on appelle l‘Analyse Des Données.

L’ordinateur et la statistique
•L’ordinateur est devenu un outil essentiel pour l’analyse de données
•L’industrie des logiciels statistiques et des ordinateurs ne cessent de croître
•Les logiciels et les ordinateurs sont maintenant accessibles à un très grand nombre de gens
•Les logiciels sont de plus en plus faciles à utiliser
• Avantage:
permet d’utiliser des méthodes statistiques sophistiquées et d’obtenir les résultats
relativement rapidement.
• Danger:
facile d’appliquer une méthode statistique à un ensemble de données même si cette
dernière n’est pas valide ou appropriée.

Le simple fait de savoir comment utiliser un logiciel n’est pas une garantie d’une
analyse statistique valide. Une bonne connaissance de la statistique est nécessaire pour
savoir quelle méthode choisir et pourquoi, et comment interpréter les résultats.

L'ensemble des méthodes de l'analyse des données peut être divisé en deux catégories :
•les méthodes pour décrire
•les méthodes pour expliquer
Nous allons nous intéresser ici aux méthodes descriptives

Rappels sur la statistique descriptive unidimensionnelle et


bidimensionnelle
La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de
présenter, de décrire et de résumer des données nombreuses et variées.

Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont
les éléments sont des individus ou unités statistiques. Chaque individu est décrit par une ou
plusieurs variables, ou caractères statistiques. Chaque variable peut être, selon le cas :

•Variable qualitative
Ses valeurs peuvent être des états, des opinions, des propriétés,... des modalités qui
correspondent à des « qualités »
Exemple :
Population : les résidents d‘Agadir

4
Unité statistique : un résident
Variable X : la langue maternelle d'un résident
Valeurs : Arabe, Berbère, Français, Anglais, Autres.
• Variable quantitative
Ses valeurs sont des nombres réels et correspondent à des quantités. On distingue deux
types de variables quantitatives :
• la variable quantitative discrète
• la variable quantitative continue

Variable quantitative discrète

Ses valeurs a priori sont des nombres isolés les uns des autres.
Exemple,
Population : les ménages de la ville de Settat
Unité statistique : un ménage
Variable étudiée : X : le nombre d'individus dans le ménage
Valeurs : xi = 1, 2, 3, 4, .., 11. (Valeurs observées)

Variable quantitative continue

•Ses valeurs a priori ne peuvent être isolées.


•Les valeurs se situent donc dans des intervalles de la droite réelle.
•Exemple
Population : les modèles automobiles sur le marché marocain
Unité statistique : un modèle de voiture
Variable étudiée : X : la consommation en litres sur 100 km (urbain)
Valeurs : x appartient à [5 , 6) ou [6 , 7) ou ... ou [22 , 23)
•Les données continues et discrètes sont des quantités :
-On peut effectuer sur elles des opérations arithmétiques
-Elles sont ordonnées
•Les données qualitatives ne sont pas des quantités
-Mais sont parfois ordonnées
-Données ordinales souvent traités comme discrètes
-Les données nominales ne sont pas ordonnées.
Discrétisation des variables

Pourquoi discrétiser :
-Traiter simultanément des variables quantitatives et qualitatives
-Appréhender des liaisons non linéaires entres variables quantitatives
-Neutraliser des valeurs extrêmes
-Gérer les valeurs manquantes
Comment discrétiser :

5
-Il faut garder en tête que
-Il faut éviter d’avoir un grand écart entre le nombre de modalités des différentes
variables
-Un nombre convenable tourne autour de 4 à 6 modalités
-Pour les raisons que
-Le poids d’une variable est proportionnel à son nombre de modalités
-Le poids d’une modalité est inversement proportionnel à son effectif
-Avoir peu de modalités fait perdre de l’information
-Avoir beaucoup de modalités implique de petits effectifs et une moindre lisibilité

Analyse exploratoire des données

•Explorer la distribution des variables


•Vérifier la fiabilité des variables : Valeurs incohérentes ou manquantes
•Détecter les valeurs extrêmes : Si valeur aberrantes à éliminer
•Tester la normalité des variables
•Détecter les liaisons entre variables
–Entre variables explicatives et à expliquer
–Entres variables explicatives elles même
•Variables continues
–Détecter la non linéarité justifiant la discrétisation
–Transformer pour augmenter la normalité
•Variables discrètes
–Regrouper certaines modalités aux effectifs trop petits
Tendance centrale

• la moyenne (arithmétique), éventuellement pondérée.


• la médiane : M est insensible aux valeurs aberrantes, mais se prête moins bien aux calculs
que la moyenne.
• le mode dans le cas particulier d'une distribution unimodale.
La comparaison de ces trois paramètres donne des indications sur la symétrie de la
distribution.

Forme de la distribution

6
Distribution symétrique : moyenne = médiane = mode

Biais positif: mode < médiane < moyenne Biais négatif: Moyenne < médiane < mode

2. Position

Les fractiles (quartiles, déciles, centiles) : ils subdivisent la série ordonnée en un


certain nombre d'intervalles (4, 10, 100) contenant environ le même nombre de valeurs
observées chacun.

3. Dispersion

- étendue
- variance et écart-type : calculés généralement en complément de la moyenne, pour
mesurer la plus ou moins grande dispersion autour de celle-ci.
- intervalle interquartile : sa longueur, l'écart-interquartile mesure la dispersion des 50
% valeurs les plus centrales.
- Coefficient de variation :
Cv = écart-type/moyenne
Cv < 25% concentration
Cv > 25% dispersion

Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey

Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa


médiane, ses 1er et 3éme quartiles et ses valeurs extrêmes. Il permet de repérer
rapidement, de façon visuelle, l’allure générale de la distribution.

Construction utilisée ici :

Une boîte, deux moustaches et des valeurs extrêmes :


• La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre
les deux se trouve la médiane. Parfois la moyenne est ajoutée.
• Les extrémités des moustaches ou valeurs extrêmes sont :
• Le min et le max ;
•Ou encore, souvent proposées dans les logiciels:
la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et
la plus grande valeur inférieure à q3 + 1,5*(q3 - q1)
7
avec (q1 = premier quartile ; q3 = troisième quartile).
Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites
définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites).
•Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution
est Normale.

Représentation :

Box plot

1,2 1,100
Maximum
1

3ème quartile
0,8
0,631 Moyenne
Intervalle
0,6 interquartiles (50 %
0,620
des valeurs) Médiane
0,4
1er quartile

0,2
Minimum
0,180
0

Le box plot permet de visualiser rapidement :


• La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle inter-
quartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des
valeurs).
•Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande
(petite) plus les valeurs correspondantes sont étalées (concentrées).

•La symétrie de la distribution : position de la médiane dans la boîte et globalement ;


différence de longueur des pattes. Plus la moyenne s’écarte de la médiane plus la distribution
est asymétrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et
inversement plus la médiane et la moyenne sont proches plus la distribution est symétrique.
Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement
concentrées, les valeurs supérieures plus fortement étalées.

8
alphajus :
Boîte-à-Moustache
14

max
12

10

8 Q3

6
médiane

4
Q1

min
0

consommation de boisson

alphajus :
Boîte-à-moustache multiple
boîte à mouc htache

12,5
 12 ,5


consommation de boisson

consommation de boisson

10,0
10 ,0

7,5
7,5

5,0
5,0

2,5
2,5
n= 19 n= 21
n=14 n=13 n=13
oui non

d'accord j e ne su is pa s sû r pa s d 'a ccord


achat préalable
goût pour le sucré

9
Skewness et Kurtosis :

Deux indicateurs de la forme de la distribution des valeurs observées.


Le skewness permet de mesurer le degré d’asymétrie de la distribution des valeurs.
 Moment centré d’ordre 3 sur le cube de l’écart type.

( y i  y )3
Estimation sur un échantillon : skewness  i 1

(n  1) s
3

Le kurtosis permet de mesurer le degré d’aplatissement d’une distribution.


 Moment centré d’ordre 4 sur le carré de la variance.
Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c’est pourquoi les logiciels
proposent souvent le calcul du kurtosis en ôtant la valeur 3.
Estimation sur un échantillon :
n

( y i  y )4
kurtosis  i 1
3
( n  1) s 4

Utilité du skewness et du kurtosis

Une distribution symétrique autour de sa moyenne aura un skewness proche de 0.


Skewness positif  étalement des valeurs à droite
Skewness négatif  étalement des valeurs à gauche
Le kurtosis d’une loi Normale est nul ; une distribution des valeurs proche de la forme en
cloche de la loi normale donnera un kurtosis proche de 0.
Kurtosis positif  forte concentration, pic prononcé
Kurtosis négatif  aplatissement de la distribution, faible concentration
Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution
observée : ils donnent un indice de l’éloignement ou du rapprochement de la distribution de la
série de valeurs de celle d’une distribution de loi Normale.

10
Allure d’une distribution selon que le skewness et le kurtosis
sont positifs, négatifs ou nuls :

Négatif Positif Nul

Skewness

Kurtosis

alphajus : Skewness et Kurtosis de


la variable consommation

N Valide 40

Manquante 0
Moyenne 5,88
Médiane 5,50
Mode 3(a)
Ecart-type 2,97
2
Variance 8,83
0
Asymétrie ,504
Aplatissement -,375

11
alphajus :

25 % 

20 % 


Pourcen tage

15 % 

10 % 

5% 

    
    
    
    
    
    

1 3 5 7 9 11 13

consommat io n de boisso n

Normalisation d’une variable.

•Si Skewness > 0


–Log(V) ou Log(V+1) si V >= 0
–Racine carré de V
– -1 / V ou -1 / V²
•Si Skewness < 0
–V² ou V3
Exemple alphajus

consommation
de boisson logconsom racineconsom
N Valide 40 40 40
Manquante 0 0 0
Asymétrie ,504 -,658 -,021
Erreur std.
,374 ,374 ,374
d'asymétrie
Aplatissement -,375 ,177 -,625
Erreur std.
,733 ,733 ,733
d'aplatissement

12
Traitement bivarié
Croisement de variable métrique :
KILOMETRAGE KILOMETRAGE

407.22 407.22
257.51 DEPENSE 257.51 DEPENSE

Coefficient de corrélation : 0,997


Équation de la droite de régression : KILOMETRAGE = 1,57 * DEPENSE + 40,61
(DEPENSE explique 99% de la variance de KILOMETRAGE)

Le coefficient de corrélation r de Pearson sert à mesurer l’intensité de la relation linéaire


entre deux variables quantitatives.
•Le coefficient de corrélation r prendra des valeurs entre -1 et 1.
•S’il existe une relation linéaire parfaite entre X et Y alors r = 1 (r =1 si X et Y varient
dans le même sens et r = -1 si X varie dans le sens opposé à Y).
•Si r = 0, ceci indique qu’il n ’y a pas de lien linéaire entre X et Y.
•Plus la valeur de r s’éloigne de 0 pour s’approcher de 1 plus l’intensité du lien linéaire entre
X et Y grandit.

13
Attention!! Il est important d’interpréter le coefficient de corrélation avec le graphique.

Croisement de variable nominale


•Quel est votre mode d'hébergement ?
#Hôtel #Camping # Location / gîte #Famille / amis
•Quelle est la C.S.P. du chef de famille ?
# Agriculteur # Patr indust commerce
# Profession libérale/cadre
#Cadre moyen #Employé #Ouvrier #Personnel de service #Autre

Tableau de contingence
Mode d'hébergement Non Hôtel Cam Locatio Famille / TOTAL
CSP réponse ping n / gîte amis
Non réponse 1 3 2 13 14 33
Agriculteur 0 1 2 2 6 11
Patr indust commerce 1 17 4 10 13 45
Profession libérale/cadre 1 23 6 26 24 80
Cadre moyen 7 12 17 25 32 93
Employé 1 10 32 29 35 107
Ouvrier 1 7 20 8 9 45
Personnel de service 2 0 8 2 12 24
Autre 2 31 22 25 34 114
TOTAL 16 104 113 140 179 552

14
Comment les CSP choisissent leurs modes d’hébergements?
Profil ligne

Mode d'hébergement Non Hôtel Cam Locatio Famille / TOTAL


CSP réponse ping n / gîte amis
Non réponse 3,0% 9,1% 6,1% 39,4% 42,4% 100%
Agriculteur 0,0% 9,1% 18,2% 18,2% 54,5% 100%
Patr indust commerce 2,2% 37,8% 8,9% 22,2% 28,9% 100%
Profession libérale/cadre 1,3% 28,7% 7,5% 32,5% 30,0% 100%
Cadre moyen 7,5% 12,9% 18,3% 26,9% 34,4% 100%
Employé 0,9% 9,3% 29,9% 27,1% 32,7% 100%
Ouvrier 2,2% 15,6% 44,4% 17,8% 20,0% 100%
Personnel de service 8,3% 0,0% 33,3% 8,3% 50,0% 100%
Autre 1,8% 27,2% 19,3% 21,9% 29,8% 100%
TOTAL 2,9% 18,8% 20,5% 25,4% 32,4% 100%

Comment se fait le choix du mode d’hébergement par rapport à la CSP?


Profil colonne

Mode d'hébergement Non Hôtel Cam Locatio Famille / TOTAL


CSP réponse ping n / gîte amis
Non réponse 6,3% 2,9% 1,8% 9,3% 7,8% 6,0%
Agriculteur 0,0% 1,0% 1,8% 1,4% 3,4% 2,0%
Patr indust commerce 6,3% 16,3% 3,5% 7,1% 7,3% 8,2%
Profession libérale/cadre 6,3% 22,1% 5,3% 18,6% 13,4% 14,5%
Cadre moyen 43,8% 11,5% 15,0% 17,9% 17,9% 16,8%
Employé 6,3% 9,6% 28,3% 20,7% 19,6% 19,4%
Ouvrier 6,3% 6,7% 17,7% 5,7% 5,0% 8,2%
Personnel de service 12,5% 0,0% 7,1% 1,4% 6,7% 4,3%
Autre 12,5% 29,8% 19,5% 17,9% 19,0% 20,7%
TOTAL 100% 100% 100% 100% 100% 100%

15
ECHANTILLONNAGE

Exemple de sondage douteux


En 1912, le magazine Literacy Digest a commencé à produire des sondages pour prédire le
résultat de l’élection américaine. Entre 1912 et 1932, les prévisions étaient toujours justes!
Ceci a eu pour effet que le magazine a acquis une réputation solide dans la prévision des
résultats.
Les éditeurs étaient confiants dans la prévision de l’élection de 1936. Le sondage prévoyait
55% pour Landon, 41% pour Roosevelt.Dans les faits, les résultats de l’élection furent 61%
pour Roosevelt et 37% pour Landon!
Pourquoi un si grand écart dans les résultats?

Problèmes possibles dans le sondage du Literacy Digest de 1936.


La base de sondage reposait fortement sur les bottins téléphoniques et les listes
d’enregistrement automobiles. On est en 1936. À cette époque, posséder une
voiture/téléphone était réservée à une classe sociale/économique peut-être plus privilégiée.
Problème potentiel de biais dans la base de sondage.
En second lieu, 10 millions de questionnaires ont été envoyés, cependant seulement 2.3
millions ont été retournés. Le taux de réponse était moins de 25%.
Des analyses subséquentes ont montré qu’en fait il était plus vraisemblable que les partisans
de Landon retournent le sondage que les partisans de Roosevelt. Toujours s’interroger sur
la non-réponse, ses raisons et son impact potentiel.

Leçons du sondage du Literacy Digest de 1936.


Les éditeurs du Digest étaient confiants, car ils avaient un large échantillon (2.3 millions).
Cependant l’échantillon était associé à un taux de non-réponse de plus de 75%. L’échantillon,
bien que grand, était non représentatif de la population.
Un grand échantillon non représentatif peut faire plus de dommages qu’un petit échantillon
non représentatif! En fait, les dommages peuvent être plus importants, dans la mesure où l’on
a la fausse impression de justesse, uniquement car on dispose de résultats sur 2.3 millions
d’individus.
La mise en œuvre du sondage est plus importante que la taille de l’échantillon!

Au même moment: Georges Gallup prélève un échantillon «aléatoire» de 6 500 personnes


et obtient comme prédictions :
•Landon : 35%
•et Roosevelt : 64%.
DEFINITIONS
•Recensement = vérité
L’information que l’on désire est disponible pour tous les individus de la population étudiée.
•Échantillon = estimation de la vérité
L’information n’est disponible que pour un sous-ensemble des individus de la population
étudiée.
Avantages d’un échantillon
•Coût réduit
•Rapidité accrue

16
•Offre plus de possibilités, dans certains cas il peut être impossible de faire un recensement
(ex: contrôle de qualité)

Comment choisir l’échantillon?


•À l’aveuglette? NON! On veut une méthode objective.
•Parmi les volontaires? NON! Sur les questions sensibles, seulement ceux qui se sentent
concernés sans être compromis sont susceptibles de participer.
•NON aux : Sondages télé où les gens appellent; lignes ouvertes. Les gens avec des préjugés,
fortes opinions (souvent négatives) s’expriment souvent sur ces questions (avortement,
racisme, etc.).

On veut une méthode scientifique telle que chaque personne dans la population possède une
chance mesurable (que l’on peut quantifier) de sélection.

Avantages de la méthode scientifique


•On peut projeter les résultats de l’échantillon sur toute la population.
•Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un
profil, de la population.

PROCESSUS D’ÉCHANTILLONNAGE

- UNIVERS IDÉAL: Toutes les personnes qui possèdent les caractéristiques recherchées par
l'enquêteur
- UNIVERS OPÉRATIONNEL: Ensemble des personnes qui composent l'univers idéal et
avec lesquelles on peut communiquer compte tenu des contraintes de temps et d'argent
imposées par l'étude
- BASE D’ÉCHANTILLONNAGE : Liste à partir de laquelle on peut sélectionner tous les
individus qui composent l'univers opérationnel.
Construction d’une base d’échantillonnage :
–Idéalement, on tente de trouver une base de sondage existante. Sinon, l’on doit en construire
une.
–Une base d’échantillonnage contient la numérotation de tous les éléments de la population
cible; elle contient des étiquettes.
Choses à être conscient:
•Est que la base d’échantillonnage correspond à la population visée?
•Si on s’intéresse à la population de la ville de Marrakech et que l’on utilise les listes de
téléphone, est-ce que la population cible = base d’échantillonnage?
- MÉTHODE D’ÉCHANTILLONNAGE : C’est le comment choisir les individus
•Méthodes probabilistes:
–Chaque personne à une probabilité connue d'être choisie
•Méthodes non - probabilistes :
–On ne connaît pas la probabilité qu'un individu soit choisi.
TAILLE DE L’ECHANTILLON : C’est quoi le n?
–On va y revenir! Il faut introduire des critères.
–De manière générale, cela dépend de la qualité de l’information que l’on désire.
–Souvent n=1000 fait l’affaire.

17
Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000 fournira une
précision comparable. La taille de la population n’est pas une considération si importante que
ça.

PROBLEME : Comment choisir l’échantillon pour qu’il fournisse des informations


s’apparentant à celles que l’on aurait obtenues par recensement ?
La réponse dépend de l’existence ou pas :
- D’une base de sondage
- D’informations auxiliaires
•Pas de base de sondage : méthode non probabiliste
•Base de sondage mais pas d’information auxiliaire : sondage aléatoire simple, sondage en
grappe et à plusieurs degrés
•Base de sondage plus information auxiliaire : sondage stratifié.
Sondage aléatoire simple (SAS)

Ce plan est tel que tout échantillon de taille n, où n est déterminée à l’avance, possède la
même probabilité. Ce tirage est essentiellement ce que l’on a en tête quand on tire dans une
urne n boules sans remise qui sont bien mélangées et indétectable au toucher. Toutes les
unités ont la même probabilité d’inclusion. En pratique, il faut des algorithmes pour mettre en
œuvre ce plan.

Les tables de nombres au hasard


Elles se présentent sous la forme de liste de nombres dont le tirage a été effectué
aléatoirement.
Pour les utiliser à la main, il est nécessaire de numéroter tous les individus de la base de
sondage puis on se fixe une règle pour se déplacer dans la table et tirer les chiffres.

02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08

85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74

00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90

64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15

94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44

Tirage systématique

Supposons que l’on veut un échantillon de taille n. Pour simplifier, on suppose que N/n=a,
avec a un entier.
Définition formelle d’un tirage systématique:
1. On prend une unité, à chances égales, parmi les a premières unités dans la base de
sondage. Supposons que l’on a pris l’unité j.
2. On prend ensuite de manière successives les unités, j+a, j+2a, …, j+(n-1)a

18
Propriétés :
On note qu’il n’y a seulement que a différents échantillons possibles.
Si on a choisit l’unité j, l’échantillon est alors
s   j, j  a,, j  n  1a
Plan systématique
On utilise souvent ce plan avec les tirages téléphoniques. On prend au hasard une unité,
disons parmi les 20 premières, on se muni d’un pas, disons valant 30, et on lit « un nom sur
30 » dans le bottin.

Sondage en grappes

Cette méthode d’échantillonnage consiste à tirer au sort un certain nombre de groupes


d’unités statistiques appelées grappes puis à interroger toutes les unités appartenant aux
groupes retenues.

Les plans de grappes sont surtout utiles lorsque l’on ne peut pas lister toutes les unités de 1 à
N, s’il y a absence de base de sondage.
Elles présentent l’avantage d’avoir un échantillon moins dispersé géographiquement.

Exemple : Combien de ménages de Settat possèdent un écran LCD?


•Option 1: On pourrait prendre un échantillon de résidents selon le tirage aléatoire simple,
disons n = 500.
•Option 2: On pourrait diviser Marrakech en pâtés de maisons d’environ 20 ménages et
prendre un échantillon de 25 pâtés de maisons parmi la liste de tous les pâtés de maison.
C’est un exemple de tirage par grappes.

Unités d’échantillonnage primaires et secondaires.


•Unité d’échantillonnage primaires: ce sont les pâtés de maisons. Ce sont les unités
d’échantillonnage.
•Unités d’échantillonnage secondaires : ce sont les ménages. Ici ce sont les unités
d’analyse, que l’on veut mesurer.

Sondage aréolaire

C’est une méthode d’échantillonnage probabiliste en grappes qui consiste à découper en zones
géographiques un territoire déterminé, à tirer au sort un certain nombre de ces zones et à
interroger tous les individus statistique y résidant

Plan à un ou plusieurs degrés.

19
Supposons que l’on dispose de notre échantillon de grappes. Pour les grappes sélectionnées,
on peut
–Soit observer toutes les unités. C’est un plan de grappes à un degré.
–Soit lister les unités dans chaque grappe choisie et dans cette liste tirer un échantillon
d’unités. C’est un exemple d’échantillonnage à deux degrés.
S’il y a deux degrés d’échantillonnage, alors les unités d’analyse sont également des unités
d’échantillonnage au second degré.
Avantages du sondage en grappes.
Même si on ne dispose pas d’une base de sondage, on peut tout de même s’assurer que toutes
les unités dans la population U possède une probabilité d’inclusion strictement supérieure à 0.
Souvent moins dispendieux à organiser. Sonder la population marocaine par un plan aléatoire
simple pourrait engendrer de nombreux déplacements. Un plan de grappes pourrait permettre
de contrôler cet aspect.

Inconvénients
Habituellement, pour une taille d’échantillonnage similaire, le plan de grappes donne moins
de précision qu’un tirage aléatoire simple. Par exemple, dans l’exemple des ménages de
Marrakech, les ménages d’une même grappe ont tendance à se ressembler
Une grappe n’est pas toujours représentative de la population.

Sondages stratifiés.

Sondages stratifiés: quelques motivations


Dans un SAS: la sélection de l’échantillon se fait totalement au hasard, et ne fait aucun usage
de renseignements que l’on pourrait posséder sur les membres de la population.
Dans un sondage stratifié: On utilise de telles données pour accroître l’efficacité (petite
variance) de la démarche.
On a besoin d’une partition de la population en sous-groupes relativement homogènes (les
strates). On procède à la sélection d’échantillons indépendants dans chaque strate.
•Il faut préciser comment chaque échantillon sera pris dans chaque strate.
•On pourrait opter pour SAS dans chaque strate, ou sondage systématique dans chaque strate.
•On pourrait combiner des plans d’échantillonnages.

Distinctions entre strates et grappes


Strates sont des sous-populations telles que:
–On peut lister, strate par strate, les unités d’analyse dans les strates.
–On prend un échantillon dans chaque strate, h = 1,2,…,H.
Grappes sont des sous-populations telles que:
–On ignore, avant le tirage, l’identité des unités d’analyse dans une grappe.
–On peut cependant lister les grappes.
–Dans les grappes sélectionnées, on observe ou bien toutes les unités d’analyse (tirage de
grappes), ou bien un sous-échantillon (tirage à deux ou plusieurs degrés).
–La taille de la population N pourrait être inconnue.

Exemple: Enquête ayant pour objet la détermination de la proportion de fumeurs dans


la population.

20
•L’échantillon devrait représenter adéquatement les hommes et les femmes, car il est connu
que les hommes fument davantage que les femmes.
•La proportion de fumeurs varie beaucoup selon l’âge et la profession. Il serait donc bon
d’avoir un échantillon qui représente bien ces groupes.
•Si on a ces renseignements, on peut les utiliser avec un sondage stratifié avec tirage aléatoire
simple.

Choix des variables de stratification


Elles peuvent être qualitatives ou quantitatives.
•Géographiques: région, province, zone rurale, zone urbaine
•Socio-démographiques: groupes d’âges, sexe, occupation.
•Taille: mesure de tailles quantitatives.
Avantages de l’échantillonnage stratifié: représentativité
•Il contribue à réduire le nombre d’échantillons possibles à ceux qui représente mieux la
population.
•Représentativité améliorée: élimination (réduction) des échantillons qui produiraient des
estimations aberrantes en s’assurant que l’échantillon représente tous les éléments de la
population.
•Estimation distinctes dans les strates: On peut obtenir des estimations séparées pour chaque
strate.
•On a souvent une précision plus élevée des estimations au niveau de la population.
TAILLE DE L’ÉCHANTILLON (cas du tirage aléatoire simple)

•Est déterminé en fonction du théorème de la limite centrale et du niveau de confiance:


–La distribution des moyennes des échantillons tend vers une distribution normale
–La moyenne des moyennes des échantillons = moyenne dans la population
•Ceci permet de dire que:
–La moyenne de la population est égale à la moyenne de l'échantillon +/- une marge d'erreur
(E)

Lorsqu'on désire déterminer l'intervalle de confiance pour une proportion p de succès, la


formule est donnée par:
 p (1 - p ) p (1 - p ) 
p  p - z / 2 , p + z / 2 
 n n 
Lorsqu'on désire déterminer l'intervalle de confiance pour la moyenne  d'une caractéristique
quantitative, la formule est donnée par:

 2 2 
   x - z / 2 , x + z / 2 
 n n 
si la variance 2 est connue et par
 s2 s2 
   x - t (n-1); / 2 , x + t (n-1); / 2 
 n n 
si elle est inconnue.

21
La quantité qu'on ajoute et qu'on retire:
p (1 - p )
z /2
n

est appelée la précision de l'intervalle.


La formule suivante donne la taille d'échantillon minimale pour avoir une précision minimale
(ou marge d’erreur maximale) donnée e au niveau de confiance 95%:

0,5(10,5) 2
1,96*0,25 0,9604
e 1,96
* n 2
= 2
n e e

La taille de l'échantillon nécessaire pour atteindre une précision e désirée au niveau de


confiance 95% sera de

1,96 2 * 0,25 0,9604


n  2
= 2
e e
dans le cas d'une proportion et de

1 . 96 
n  [ ]
2

e
dans le cas d'une moyenne de valeurs quantitatives.

Tableau donnant au niveau de confiance 95% la marge d’erreur en % p et n étant connus

10% 15% 20% 25% 30% 35% 40% 50%


Ou Ou Ou Ou Ou Ou Ou
90% 85% 80% 75% 70% 65% 60%
100 8 8,6 9,2 9,6 9,8 10
150 5,7 6,4 6,9 7,3 7,6 7,8 8
200 4,3 5,1 5,7 6,1 6,5 6,8 6,9 7,1
250 3,8 4,5 5 5,4 5,8 6 6,2 6,3
300 3,5 4,2 4,6 5 5,3 5,6 5,7 5,8
350 3,2 3,8 4,2 4,6 4,9 5,1 5,2 5,3
400 3 3,6 4 4,3 4,6 4,8 4,9 5
500 2,7 3,2 3,6 3,9 4,1 4,3 4,4 5
600 2,4 3 3,3 3,5 3,8 3,9 4 4,1
700 2,3 2,7 3 3,3 3,5 3,5 3,7 3,8
800 2,1 2,5 2,8 3 3,2 3,3 3,4 3,5
900 2 2,4 2,7 2,9 3 3,1 3,2 3,3
1000 1,8 2,3 2,5 2,7 2,9 3 3 3,1
1500 1,5 1,9 2,1 2,3 2,4 2,5 2,6 2,6
2000 1,3 1,6 1,8 2 2,1 2,2 2,2 2,3
3000 1,1 1,3 1,4 1,5 1,6 1,7 1,8 1,8
5000 0,8 1 1,1 1,2 1,3 1,4 1,4 1,4
10000 0,6 0,7 0,8 0,9 0,9 1 1 1

22
Que fait-on en pratique?
On utilise habituellement les formules obtenues pour le tirage aléatoire simple. Ainsi, on fait
« comme si » l’échantillon était obtenu par tirage aléatoire simple.

Cas stratifié
Notons :
N taille de la population
n taille de l’échantillon
Ni taille de la strate au niveau de la population
ni taille de la strate au niveau de l’échantillon
i variances des strates
A- échantillon à effectif égal
n1 = n2 = … = nk
B- échantillon à allocation proportionnelle
Ni / N = ni / n
C- répartition de Neyman
ni = (Ni i/ Nj j)n

Échantillon exhaustif et non exhaustif.

Un échantillon est non exhaustif si la taille de l’échantillon est petite par rapport à la
population N > 7n. Dans ce cas la taille de la population n’influence pas la taille de
l’échantillon qui ne dépend que de la précision recherché et de l’erreur toléré.

Un échantillon est exhaustif si la taille de la population est petite par rapport à celle de
l’échantillon N<7n. Dans ce cas la taille de l’échantillon n peut épuiser celle de la population
N.
La taille de l’échantillon définitive est
n’ = Nn /N+n

MÉTHODES D'ÉCHANTILLONNAGE NON-PROBABILISTES

Avec ces méthodes, habituellement,


–Moins grande exactitude que les méthodes probabilistes.
–Impossible de mesurer la précision.
Gros avantage des méthodes non-probabilistes: Ces méthodes sont souvent moins coûteuses.
Inconvénients statistiques des méthodes non probabilistes : Avec les méthodes probabilistes,
le hasard dans la sélection est pris en compte. Avec les méthodes non-probabilistes, des
concepts comme le biais des estimateurs, ou les marges d’erreurs, ne peuvent pas être
considérés ou calculés.
En particulier, les écarts-types des estimateurs ne peuvent pas être calculés.

Méthode des quotas (échantillonnage dirigé, échantillonnage par choix raisonné)

Utilisé dans les enquêtes d’opinion, les études de marché. On demande aux interviewers de
faire un nombre déterminé d’interviews dans divers groupes définis de la population. Ces
groupes sont définis en fonction de variables socio-économiques (âge, sexe, géographie,
démographie, etc.). Les quotas sont souvent établis de façon à être sensiblement
proportionnels à la fraction de la population représentée par chaque groupe.

23
Pour le mettre en œuvre:
- Pas besoin d’une base de sondage!
- Pas besoin d’un plan d’échantillonnage!

Inconvénients de la méthode des quotas


- La méthode des quotas est toujours sujette à des problèmes de biais de sélection.
- Cette méthode masque le problème de la non-réponse.
Si un individu refuse de participer ou s’il est absent de son domicile, l’interviewer ira voir un
autre individu car il a à combler son quota. Ainsi, il y a un sérieux risque de ne jamais
rejoindre certaines catégories de la population ayant de la réticence à répondre ou difficile à
rejoindre.
De manière générale, il faut retenir qu’avec les méthodes non probabilistes, on NE peut
PAS vraiment mesurer la précision des estimations.
Exemple: population de personnes; on veut une représentativité de toute la population;
variables âge et sexe

Âge
<30 30-50 50>
H n 11 n 12 n 13 n 1.
F n 21 n 22 n 23 n 2.
n .1 n .2 n .3 n

Taille de la population N
•On doit déterminer les nij de sorte que:  n ij n
N ij
•On utilise alors la règle « proportionnelle »: nij  n
N
où Nij = effectifs connus de la population (obtenu par recensement par exemple)

Méthode des itinéraires

Principe : C’est une variante de la méthode des quotas où on impose à l’enquêteur de ne


réaliser ses interviews qu’auprès d’individus localisés préalablement.
Intérêt : Permet de contrôler l’enquêteur et de se rapprocher du cadre aléatoire.

Méthode d’échantillonnage sur place

On constitue l’échantillon par des individus passant par des points de passage connus, lorsque
la population passe quasi-obligatoirement par ces points.
Exemple : stations d’essence, agence bancaire, sortie de salle de cinéma ,…
En pratique, elle nécessite trois phase de mise en place :
•On recense tous les points de passage possibles.
•On sélectionne les points d’enquête, soit par tirage au sort, soit par un choix raisonné.
•On complète cet échantillon spatial par un échantillon temporel, pour éviter d’interroger des
personnes ayant même profil.

24
L’échantillonnage temporel se fait, soit par tirage au sort des jours et des heures d’enquête,
soit en répartissant les interviews sur tous les créneaux horaires de la période d’enquête.

Méthode boule de neige

Principe : La méthode consiste à faire construire l’échantillon par les individus eux même.
Intérêt : Enquête auprès de populations rares

Méthode de convenance

Principe : on obtient un tel échantillon quand rien n’a été fait pour s’assurer que les individus
qui le composent posséderont bien certaines caractéristiques désirés. Il est constitué
d’individus qui se trouvait à l’endroit et au moment où l’information a été collectée
Intérêt : Simplicité.

Choix d’une méthode de sondage.

Il est lié aux décisions prises dans différentes phases d’élaboration de l’enquête. Le choix de
l’échantillon est influencé par :
•Les objectifs de l’enquête.
On cherche un compromis entre les objectifs de l’enquête au meilleur coût et dans les délais
impartis
•La nature de la population étudié.
-population dispersée géographiquement
-population rare
-existence d’une base de sondage (complète ou liste d’unités intermédiaire.
•Le budget disponible
L’échantillon est calculé en fonction du coût unitaire d’enquête.
•Le mode d’administration du questionnaire
•La précision souhaitée
Ce qui favorise les méthodes probabilistes

25
Analyse en Composantes Principales

Définition

Ensemble de techniques multivariées qui ont pour but principal de réduire et de résumer les
données.
Une technique d’interdépendance dans laquelle toutes les variables sont considérées
simultanément.

L'ACP fournit une méthode de représentation d'une population afin :


- de repérer des groupes d'individus, homogènes vis à vis de l'ensemble des caractères.
- de révéler des différences entre individus ou groupes d'individus, relativement à l'ensemble
des caractères.
- de mettre en évidence des individus au comportement atypique.
- de réduire l'information qui permet de décrire la position d'un individu dans l'ensemble de la
population.

L'ACP permet une analyse des diverses variables statistiques définies sur les
caractères étudiés. Elle permet de construire des variables artificielles (car non mesurées mais
calculées à partir des données) qui "expliquent " l'ensemble des variables statistiques prises en
compte dans l'ACP.

On obtient ainsi un ensemble de nouvelles variables, en plus petit nombre que les
variables initiales. Chacune de ces variables initiales est liée à l'ensemble des variables
artificielles retenues.

Enfin, ces variables statistiques artificielles peuvent être interprétées (subjectivement),


ce qui peut amener à mettre en évidence des phénomènes "latents", cachés dans les données
initiales. Des aides à l'interprétation doivent donc être définies de manière à valider
proprement ces interprétations.

Nature des données :


On mesure sur les individus des variables de nature quantitatives selon le tableau :

Variables quantitatives X Individus


X1 X2 X3 … Xp
O1
O2

Op

Evaluation de la qualité des données


Les données sont-elles appropriées pour une analyse en composantes principales?
Quelques règles empiriques ...

Matrice de corrélations
C’est une matrice R dont les éléments sont les corrélations des variables prises deux à deux
R=(rij=cor(Xi,Xj))

26
Examen de la matrice de corrélation
Plus les variables présentent de fortes corrélations plus elles peuvent être regroupées en
dimensions homogènes. Dans le cas contraire, les variables sont hétérogènes.
Problème = grand nombre de variables et visualisations

Matrice de corrélation

SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR


Corrélation SOLD 1,000 -,331 -,277 ,111 -,290 ,109 ,652 ,729 -,163
NDEC -,331 1,000 ,722 -,393 -,179 -,319 -,395 -,467 -,241
MDEC -,277 ,722 1,000 -,123 -,048 -,241 -,306 -,357 -,063
NBPR ,111 -,393 -,123 1,000 ,775 ,503 ,297 ,140 ,766
NEMP -,290 -,179 -,048 ,775 1,000 ,333 -,211 -,331 ,774
MEMP ,109 -,319 -,241 ,503 ,333 1,000 ,323 ,344 ,457
VADD ,652 -,395 -,306 ,297 -,211 ,323 1,000 ,890 -,055
DEPO ,729 -,467 -,357 ,140 -,331 ,344 ,890 1,000 -,140
RETR -,163 -,241 -,063 ,766 ,774 ,457 -,055 -,140 1,000

La Mesure de précision de l’échantillonnage de Kaiser-Meyer-Olkin (KMO)


Le KMO est un réel compris entre 0 et 1. Un KMO assez élevé (> 0.6) est
indispensable pour obtenir une ACP intéressante. Dans la négative, il peut être nécessaire de
supprimer certaines variables.

Mesure KMO Recommandation


 0.90 Très excellent
0.80+ Excellent
0.70+ Moyen
0.60+ Médiocre
0.50+ Misérable
<0.50 Inacceptable

Le test de sphéricité de Barlett


On test l’hypothèse H0 : indépendance entre les variables contre H1: association entre les
variables
Le test doit être significatif (p<0.10, p<0.05, p<0.01, p<0.001) pour exprimer le fait que les
variables sont corrélées entre elles.
Indice KMO e t test de Bartlett

Mesure de précision de l'échantillonnage de


Kaiser-Meyer-Olkin. ,645

Test de sphéricité de Khi-deux approché 185,606


Bartlett ddl 36
Signification ,000

27
Espace de représentation des individus

Soit le tableau de données suivant


individu sold ndec mdec
1 2305 7 2,3
2 15259 0 0
3 1236 10 5,4
4 8241 1 0,1
5 6210 2 0,3
6 6871 1 3
7 1580 9 6,1
8 9630 1 4
9 4230 3 2,7

A chaque individu on associe l’ensemble des caractéristiques de cet individu.


Chaque individu peut être représenté par un point défini par 3 coordonnées et être considéré
comme un élément d’un espace F appelé espace des individus. L’ensemble des n individus est
alors un nuage de points de F noté N

Un premier point est de calculer la distance entre individus. La distance entre deux individus
sera donc la longueur du segment joignant les deux points de l'espace qui représentent les
deux individus.

La dispersion du nuage autour de son centre de gravité est mesurée par l’inertie du nuage qui
correspond à la somme des variances des variables initiales.
Afin de donner aux variables la même importance on centre et on réduit les variables initiales.

Dorénavant on travaillera sur des données centrées réduites. Notre nuage est donc de centre
de gravité l’origine et d’inertie p. On cherche à obtenir une représentation approchée de ce
nuage dans un espace de dimension plus faible. La question est de savoir comment passer
d’un espace de dimension supérieure ou égale à 3 à un espace de dimension plus restreinte

Intuitivement, il s'agit de trouver un sous espace F tel que la distance entre points - individus
soit conservée dans le processus de projection sur ce sous-espace. Ainsi, la ressemblance entre
individus est conservée dans cette opération de projection. L’inertie du nuage projeté est donc
maximale.

28
Principe de l’ACP

C’est la réduction de l’espace de représentation des individus par la définition de nouvelles


variables « synthétiques » pour lesquelles la variance (inertie) est maximale : les composantes
principales.
La première composante principale est celle pour laquelle la variance des individus est
maximale.
La deuxième composante est cherchée sous deux conditions :
–Avoir une corrélation nulle avec la première composante
–Exprimer à son tour la plus grande variance des individus
Le processus se déroule jusqu’à l’obtention des p composantes.

Recherche du premier axe principal et de la première composante


principale

Premier axe principal 


La droite  passe par l’origine O et est engendrée par le vecteur u1 vecteur propre normé
de la matrice de corrélation R associée à la plus grande valeur propre .
La droite  maximise l’inertie des points du nuage projetés sur  qui vaut 

Première composante principale Y1


Y1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la
projection de l’individu sur .
Y1 est une variable centrée de variance 

Qualité globale de la première composante principale.


La corrélation entre la première composante et les variables initiales permet de donner un sens
à la composant.
Mesure de la qualité globale de la première composante : part d’inertie expliquée

Qualité de représentation des individus sur le premier axe principal


Est mesurée par le cosinus carré de l’angle formé par l’individu et le premier axe principal.
Plus le cosinus est proche de 1 plus le point est proche de l’axe  .

29
Recherche du deuxième axe principal et de la deuxième composante
principale

Deuxième axe principal 


La droite  passe par l’origine O et est engendrée par le vecteur u2, vecteur propre normé
de la matrice de corrélation R associée à la deuxième plus grande valeur propre .
La droite  maximise l’inertie des points du nuage projetés sur  qui vaut .

Deuxième composante principale Y2


Y2 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la
projection de l’individu sur .
Y2 est une variable centrée de variance 

Qualité globale de la deuxième composante principale.


Est mesurée par la corrélation entre la deuxième composante et les variables initiales
Mesure de la qualité globale de la deuxième composante : part d’inertie expliquée

Qualité de représentation des individus sur le deuxième axe principal


Est mesurée par le cosinus carré de l’angle formé par l’individu et le deuxième axe principal.
Plus le cosinus est proche de 1 plus le point est proche de l’axe 

Le processus se déroule jusqu’à l’obtention des p axes principaux et des p


composantes principales

Propriétés
V ariance e xpliquée totale
•Les composantes principales sont centrées et non corrélées entres elles
Valeurs propres initiales Sommes des carrés chargées
•L’inertie expliquée par chaque
% de axe
la principale = variance de la composante
% de la associée
•1Les composantes3,455
Composante Total variance ==
sont classées
% cumulés
par ordre décroissant
38,390 38,390
Total
des
3,455
variance ==
variances 38,390
% cumulés
38,390
2 2,859 31,771 70,161 2,859 31,771 70,161
3 1,093 12,144 82,304 1,093 12,144 82,304
4 ,637 7,074 89,378 ,637 7,074 89,378
5 ,342 3,799 93,177 ,342 3,799 93,177
6 ,247 2,750 95,927 ,247 2,750 95,927
7 ,220 2,443 98,370
8 9,52E-02 1,058 99,428
9 5,14E-02 ,572 100,000
Méthode d'extraction : Analyse des principaux composants.

Remarque.
Le premier plan principal est le plan formé par les deux premiers axes principaux.
La part d’inertie expliquée par ce plan est la somme des parts d’inertie expliquée par les deux
premiers axes principaux.

30
Représentations graphiques. (Premier plan principal)

- L’individu est représenté suivant ces coordonnés selon les deux premières composantes
principales. Il sera bien représenté lorsque le point est proche du plan principal
- La variable est représentée selon ces corrélations avec les deux premières composantes. Elle
sera bien représentée lorsque le point est proche du cercle de corrélation.

Matrice des composantesa

Composante
1 2 3
SOLD ,603 -,541 ,213
NDEC -,762 -1,6E-02 ,527
MDEC -,605 ,116 ,722
NBPR ,633 ,659 ,235
NEMP ,231 ,909 -8,4E-03
MEMP ,623 ,322 ,197
VADD ,764 -,438 ,314
DEPO ,759 -,555 ,214
RETR ,376 ,830 ,102
Méthode d'extraction : Analyse en composantes principales.
a. 3 composantes extraites.
Interprétation

I) Observer la part d’inertie expliquée par le plan principal


II) Expliquer la première et la seconde composante principale : observer les fortes
contributions.
Quelles sont les variables à retenir pour expliquer une composante?
- Règle empirique: une variable n’est significative que si sa contribution est d’au moins 0.50.
- La contribution de la variable représente la corrélation entre la variable originale et son
facteur.
- Par conséquent, plus une variable a une forte corrélation plus elle contribue à la formation de
cette composante, et plus elle sert à sa désignation.

Matrice des composantesa

Composante
1 2 3
SOLD ,603 -,541 ,213
NDEC -,762 -1,6E-02 ,527
MDEC -,605 ,116 ,722
NBPR ,633 ,659 ,235
NEMP ,231 ,909 -8,4E-03
MEMP ,623 ,322 ,197
VADD ,764 -,438 ,314
DEPO ,759 -,555 ,214
RETR ,376 ,830 ,102
Méthode d'extraction : Analyse en composantes principales.
a. 3 composantes extraites.

III) Observer le cercle de corrélation et mettre en évidence les fortes corrélations entre
variables initiales
Comment lire les corrélations?

31
On ne peut lire la corrélation entre deux variables que si ces dernières sont proches du
cercle.
La corrélation est d’autant plus forte que le cosinus de l’angle formé par les deux
variables est proche de 1.

Diagramme de composantes
1,0 nemp
retr
nbpr

,5
memp

mdec
ndec
0,0
Composante 2

vadd
-,5 sold depo

-1,0
-1,0 -,5 0,0 ,5 1,0

Composante 1

IV) Observer la répartition des individus sur le plan et essayer de mettre en évidence la
formation de groupes homogènes. L’origine des axes (0, 0) correspond à la moyenne sur
l’échantillon.
Il convient de mettre en valeur :
– les groupes d’individus (ayant donc un comportement identique) ;
– les individus isolés ;
– la position relative des (groupe d’) individus par rapport aux axes.

11

2
6
4
20 288
23 5
29
1

25
10 19
7 1524
0 1 9 13 16
14
3 17
2
18
26
-1 12 22 21

30 27
-2
-3 -2 -1 0 1 2

REGR factor score 1 for analysis 1

32
Combien de composantes ou facteurs retenir?
Règle des valeurs propres : toute composante qui a une valeur propre supérieure à 1.

V ariance e xpliquée totale

Valeurs propres initiales Sommes des carrés chargées


% de la % de la
Composante Total variance == % cumulés Total variance == % cumulés
1 3,455 38,390 38,390 3,455 38,390 38,390
2 2,859 31,771 70,161 2,859 31,771 70,161
3 1,093 12,144 82,304 1,093 12,144 82,304
4 ,637 7,074 89,378 ,637 7,074 89,378
5 ,342 3,799 93,177 ,342 3,799 93,177
6 ,247 2,750 95,927 ,247 2,750 95,927
7 ,220 2,443 98,370
8 9,52E-02 1,058 99,428
9 5,14E-02 ,572 100,000
Méthode d'extraction : Analyse des principaux composants.

Règle du scree test


Repérer dans le Scree plot, le «coude» des valeurs propres. Il faudrait retenir toutes les valeurs
propres (et donc les axes associés) jusqu’au coude.
Graphique des valeurs propres
4

2
Valeur propre

0
1 2 3 4 5 6 7 8 9

Numéro de composant

La Rotation
But = obtenir une structure plus sensée. Les axes initiaux sont tournés autour de l’origine
jusqu’à ce qu’une autre position soit atteinte.

Rotation orthogonale = obtenir une structure factorielle dans laquelle chaque variable (ex.
question) contribue essentiellement à une seule et seulement une seule dimension.
La variable devrait présenter une forte corrélation avec la composante et presque une
corrélation nulle avec les autres composantes.
Les axes sont maintenus à 90° - les facteurs sont mathématiquement orthogonaux.

33
Diagramme de composantes
1,0 nemp
retr
nbpr

,5
memp

mdec
ndec
0,0
Composante 2

vadd
-,5 sold depo

-1,0
-1,0 -,5 0,0 ,5 1,0

Composante 1

Après rotation, les variables V1, V2, …V5 ci-dessus ont de nouvelles coordonnées. Les
coordonnées de V1 et V2 sont plus grandes sur l’axe II (Facteur II après rotation) alors que
V3, V4 et V5 contribuent plus à la dimension I (Facteur I après rotation)

Facteur II
après rotation
Facteur II avant rotation
+1
.V1
.V2

+0.5

Facteur I
.V3 avant
-1 -0.5 0 +0.5.V4 +1 rotation

- 0.5 .V5
Facteur I
après rotation

-1

Matrice des composantes après rotation a

Composante
1 2
SOLD ,793 -,167
NDEC -,652 -,395
MDEC -,582 -,202
NBPR ,219 ,888
NEMP -,255 ,903
MEMP ,379 ,591
VADD ,880 3,12E-03
DEPO ,935 -,101
RETR -8,9E-02 ,906
Méthode d'extraction : Analyse en composantes principales.
Méthode de rotation : Varimax avec normalisation de Kaiser.
a. La rotation a convergé en 3 itérations.

34
Diagramme de composantes dans l'espace après rotation
1,0 nemp retr nbpr

memp

,5

vadd
0,0 depo
mdec sold

ndec
Composante 2

-,5

-1,0
-1,0 -,5 0,0 ,5 1,0

Composante 1

35
ANALYSE FACTORIELLE DES
CORRESPONDANCES : A.F.C.

Objectifs de l’A.F.C. : Évaluer


- Les ressemblances entre modalités d’une même variable.
- Les proximités entre les modalités des deux variables.
Intérêt de l’A.F.C.:
- Expliquer graphiquement une variable à partir d’une autre variable.
- Aspect non inférentiel de la méthode.

Croisement de variables nominales : Mise en relation des thèmes d’un questionnaire

Opinions
Qui pense
quoi Quelles
significations

Qui fait quoi


Identité Comportement

Qui veut Pour quelles


quoi raisons

Motifs

Données : Tableau des fréquences

b1 bj bp

a1  
 kij  ki .
a 
i f ij   fi.  k
 k 

a  n 
k. j
f. j 
k

Exemple :
Croisement de variables nominales :

36
- Quelle est la C.S.P. du chef de famille ?
# Agriculteur # Patr indust commerce# Profession libérale/cadre
#Cadre moyen #Employé #Ouvrier #Personnel de service #Autre

- Quel est votre mode d'hébergement ?


#Hôtel #Camping # Location / gîte #Famille / amis

Tableau des correspondances

Quelle est la C.S.P. Quel est votre mode d'hébergement ?


du chef de famille ? Hôtel Camping Location / gîte Famille / amis Marge active
Agriculteur 1 2 2 6 11
Patr indust commerce 17 4 10 13 44
Profession libérale/ 23 6 26 24 79
Cadre moyen 12 17 25 32 86
Employ 10 32 29 35 106
Ouvrier 7 20 8 9 44
Personnel de service 0 8 2 12 22
Autre 31 22 25 34 112
Marge active 101 111 127 165 504

Comment les CSP choisissent leurs modes d’hébergements?


La réponse à cette question est donnée par :

Tableau des profils lignes

b1 bj bp

a1
 
 f ij 
fj 
i
ai
 
 fi. 
an  
masse f. j

Exemple (suite)

37
Profils lignes

Quelle est la C.S.P. Quel est votre mode d'hébergement ?


du chef de famille ? Hôtel Camping Location / gîte Famille / amis Marge active
Agriculteur ,091 ,182 ,182 ,545 1,000
Patr indust commerce ,386 ,091 ,227 ,295 1,000
Profession libérale/ ,291 ,076 ,329 ,304 1,000
Cadre moyen ,140 ,198 ,291 ,372 1,000
Employ ,094 ,302 ,274 ,330 1,000
Ouvrier ,159 ,455 ,182 ,205 1,000
Personnel de service ,000 ,364 ,091 ,545 1,000
Autre ,277 ,196 ,223 ,304 1,000
Masse ,200 ,220 ,252 ,327

Comment se fait le choix du mode d’hébergement par rapport à la CSP?


La réponse à cette question est donnée par :

Tableau des profils colonnes


b1 bj bp masse

a1  
 f ij  f
 fi   i.
j
ai

 f. j 
an  

Profils colonnes

Quelle est la C.S.P. Quel est votre mode d'hébergement ?


du chef de famille ? Hôtel Camping Location / gîte Famille / amis Masse
Agriculteur ,010 ,018 ,016 ,036 ,022
Patr indust commerce ,168 ,036 ,079 ,079 ,087
Profession libérale/ ,228 ,054 ,205 ,145 ,157
Cadre moyen ,119 ,153 ,197 ,194 ,171
Employ ,099 ,288 ,228 ,212 ,210
Ouvrier ,069 ,180 ,063 ,055 ,087
Personnel de service ,000 ,072 ,016 ,073 ,044
Autre ,307 ,198 ,197 ,206 ,222
Marge active 1,000 1,000 1,000 1,000

L’A.F.C. s’applique aux tableaux de contingence. Elle se propose


- d’évaluer les ressemblances entre modalités d’une même variable en réalisant une ACP sur
la matrice des profils lignes ou des profils colonnes.
-d’évaluer les proximités entre les modalités des deux variables en étudiant le lien entre les
deux ACP ( ACP des profils lignes et des profils colonnes).
38
ACP des profils lignes

On réalise une ACP en considérant les profils lignes comme des individus et les modalités de
la deuxième variable comme des variables.

Tableau des profils lignes


b1 bj bp masse
a1
 
 f ij 
fj 
i
ai
  fi.
 fi. 
an  
G=( f. j )= f J

f J  ( f ,..., f )  point modalité a i


i i i
1 p

Nuage des profils lignes.


A chaque modalité on associe le point f J  ( f 1i ,..., f pi )  point modalité a i
i

et une masse égale à sa fréquence marginale fi.

Le nuage de points N(I) de Rp est de centre de gravité f J

Distance entre profils lignes : distance du khi-2.


p
d ( f , f )   f1. j ( f j  f j )2
2 i l i l
J J
j 1
Le fait de diviser par f.j gomme l’effet taille et permet de mieux mesurer la forme des
liaisons entres profils.

Inertie du nuage des profils lignes.


n
2
I ( N ( I ), f J )   f i.d ( f , f J ) 
2
J
i

i 1 k
n p
où 2  k   1
f i . f. j ( f ij  f i. f. j )2
i 1 j 1
qui est une mesure de la liaison entre les deux variables qualitatives.

Recherche du premier axe principal et de la première composante principale.

Premier axe principal 


La droite  passe par le centre de gravité fJ du nuage N(I) et est engendrée par le vecteur u1
vecteur propre normé associée à la plus grande valeur propre  .
La droite  maximise l’inertie des points du nuage projetés sur  qui vaut  ..

39
Première composante principale F1.
F1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la
projection de l’individu sur .
F1 est une variable centrée de variance  ..

Qualité globale de la première composante principale.


- Part d’inertie expliquée :
Inertie expliquée par  sur l’Inertie totale
- Contribution de la modalité ai à la composante
f i. F12 i 
CTR1 i  
1
Un profil ligne est d’autant plus important dans la construction de l’axe que sa contribution
est
élevée. L’interprétation de l’axe s’appuie en priorité sur les modalités à fortes contributions.

Qualité de représentation des individus sur le premier axe principal.


Elle est mesurée par le cosinus carré de l’angle formé par l’individu et le premier axe
principal qui vaut :
F12 (i )
cos1  2 i
2

d ( fJ , fJ )
Étude des autres dimensions.
On cherche le deuxième axe principal  orthogonal à  passant au milieu du nuage N(I),
puis  orthogonal à  et  vérifiant le même critère, etc. …
Le nombre d’axes que l’on peut construire est au plus égal à r=inf (n-1, p-1).

Axes principaux.
Les axes principaux rpassent par le centre de gravité fJ et sont portés par les vecteurs
propres u1,…,ur associé aux valeurs propres r rangées par ordre décroissant.

Les composantes principales.


i
Les composantes F1,…,Fr sont les coordonnées des projections des profils lignes f J sur les
axes r.

Propriétés.
- L’inertie expliquée par chaque axe principale = variance de la composante associée
- Les composantes sont classées par ordre décroissant des variances
- Les composantes principales sont centrées et non corrélées entres elles

Distance, entre profils lignes, exprimée en fonction des composantes :


r
d 2 ( f Ji , f Jl )   ( Fh (i )  Fh (l ))2
h 1

r  nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes.
Exemple (suite)

40
Résumé

Valeur singulière de
Proportion d'inertie confiance
Corrélatio
Valeur Pris en n
Dimension singulière Inertie Khi-deux Sig. compte Cumulé Ecart-type 2
1 ,311 ,097 ,707 ,707 ,039 ,005
2 ,166 ,027 ,201 ,908 ,044
3 ,112 ,013 ,092 1,000
Total ,137 68,884 ,000 a 1,000 1,000
a. 21 degrés de liberté

Caractéristiques des points lignesa

Score dans la
dimension Contribution
De point à inertie de
Quelle est la C.S.P. dimension De dimension à inertie de point
du chef de famille ? Masse 1 2 Inertie 1 2 1 2 Total
Agriculteur ,022 -,323 ,915 ,005 ,007 ,110 ,140 ,601 ,741
Patr indust commerce ,087 ,854 -,257 ,022 ,205 ,035 ,892 ,043 ,935
Profession libérale/ ,157 ,689 ,190 ,025 ,239 ,034 ,917 ,037 ,954
Cadre moyen ,171 -,101 ,398 ,006 ,006 ,163 ,097 ,798 ,896
Employ ,210 -,498 ,092 ,019 ,168 ,011 ,872 ,016 ,888
Ouvrier ,087 -,733 -,968 ,028 ,151 ,494 ,516 ,481 ,997
Personnel de service ,044 -1,112 ,539 ,024 ,174 ,077 ,709 ,089 ,798
Autre ,222 ,266 -,240 ,008 ,050 ,077 ,598 ,260 ,858
Total actif 1,000 ,137 1,000 1,000
a. Normalisation principale symétrique

ACP des profils colonnes

On réalise une ACP en considérant les profils colonnes comme des individus et les modalités
de la première variable comme des variables.

Tableau des profils colonnes

b1 bj bp G
a1  
 f ij 
 fi  
j fi.
ai

 f. j 
an  
masse f. j
f I  ( f1 j ,..., f n j )  point modalité b j
j

Nuage des profils colonnes.


A chaque modalité on associe le point f I j  ( f1 j ,..., f n j )  point modalité b j
et une masse égale à sa fréquence marginale f. j .
Le nuage de points N(I) de Rn est de centre de gravité f I .

41
Distance entre profils colonnes : distance du khi-2.
n
d 2 ( f I j , f Ik )   f1i . ( f i  f i )2
j k

i 1
Inertie du nuage des profils colonnes.
p
2
I ( N ( I ), f I )   f. j d 2 ( f I j , f I ) 
j 1 k
Axes principaux.
Les axes principaux r passent par le centre de gravité fI et sont portés par les
vecteurs propres v1,…,vr associé aux valeurs propres r rangées par ordre décroissant.

Les composantes principales


Les composantes G1,…,Gr sont les coordonnées des projections des profils colonnes
sur les axes r.

Propriétés
- L’inertie expliquée par chaque axe principale = variance de la composante associée
- Les composantes sont classées par ordre décroissant des variances
- Les composantes principales sont centrées et non corrélées entres elles

Distance, entre profils colonnes, exprimé en fonction des composantes


r
d 2 ( f I j , f Ik )   (Gh ( j )  Gh (k ))2
h 1

r  nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes

Lien entre les deux analyses : Relations de transition


Les composantes des deux analyses sont liées par les relations suivantes
p
Fh (i )  
1 f ij
h fi . Gh ( j )
j 1
n
Gh ( j )  
1 f ij
h f. j Fh (i )
i 1
Indice d’attraction répulsion

f ij  d ij  1  attractionentre a iet b j
d ij  
f i . f. j d ij  1  répulsion entre a iet b j
 1  i et j  independence des variables
Indice d’attraction répulsion exprimé en fonction des composantes
r
d ij  1   1
h
Fh (i )Gh ( j )
h 1

r  nombrede composantes

42
Par conséquent :
r
Si 
h 1
1
h
Fh (i )Gh ( j )  0

 attraction entre les modalités ai et b j


r
Si 
h 1
1
h
Fh (i )Gh ( j )  0

 répulsion entre les modalités ai et b j

Représentations graphiques.

Représentation graphique : profil ligne.


Axe 2 (20.1%)
Agriculteur

Cadre moyen Personnel de service


Profession libérale/cadre Employé
Axe 1 (70.7%) Autre
Patr indust commerce

Ouvrier

La proximité entre deux modalités traduit ici des profils proches.

Représentation graphique : profil colonne.

Axe 2 (20.1%)

Famille / amis
Location / gîte
Axe 1 (70.7%)
Hôtel Camping

La proximité entre deux modalités traduit ici des profils proches.

Représentation simultanée
On superpose ici les deux ACP (ACP des profils lignes et ACP des profils colonnes)

43
Si des modalités des 2 variables sont dans le même cadran cela traduit ici des modalités
qui s’attirent.

Si des modalités des 2 variables sont dans des cadrans opposés cela traduit ici des modalités
qui se repousses.

Si des modalités des 2 variables sont dans des cadrans adjacents on ne peut conclure que si
ces modalités sont proches de l’un des axes.

44
ANALYSE TYPOLOGIQUE

Objectifs
•Construire à partir des variables choisies a priori des groupes d’individus.
•Constituer des groupes de façon à ce que :
a) les individus appartenant à un même groupe se rassemblent le plus possible
b) les groupes soient les plus différents possible les uns des autres.

Etapes de l’analyse

A) Choix des variables de classifications.


Dépend de
•l’objectif de l’étude
•la forte hétérogénéité entre individus
Ne retenir que les variables importantes par rapport à ce que l’on cherche à montrer.

B) Nature des Données et choix de la métrique.


Tableau individus x variables (qualitative ou quantitative) d’où l’on tire la matrice des
proximités entre individus

Données : On doit transformer les données brutes en une matrice de proximité des objets ou
individus

Variables Objets ou individus


X1 X2 X3 ... Xp O1 O2 O3 ... On
O1
O1
O
Objets
2
O2
Objets
ou O3
Individus .. ou O3
. Individus ..
On .
On

Variable métrique : distance euclidienne


p
d ij2   ( X im  X jm )2
m 1

Xim & Xjm = valeurs standardisées du mième attribut des individus i et j

Variable nominale : indice de similarité


( indice de Jacard par exemple)

45
Exemple

Revenu Éducation
(en milliers) (années)

O1 5 5
Individus

O2 6 6

O3 15 14

O4 16 15
O5 25 20
O6 30 19

Matrice des proximités (distance euclidienne au carré)

O1 O2 O3 O4 O5 O6
O1 0 2 181 221 625 821
O2 2 0 145 181 557 745

O3 181 145 0 2 136 250

O4 221 181 2 0 106 212


O5 625 557 136 106 0 26
O6 821 745 250 212 26 0

C) Choix de l’algorithme
•Méthodes hiérarchiques :
- Ascendantes : procèdent par agglomération
- Descendantes : procèdent par décomposition

•Méthodes non hiérarchiques


- Méthode des K-means
- Nuées dynamiques

L’Analyse Hiérarchique
Les méthodes hiérarchiques réalisent des fusions ou divisions successives des données.
L’allocation d’un individu à une classe donnée est irrévocable ; une fois qu’un individu a été
associé à une classe, il ne peut plus être dissocié pour être fusionné avec d’autres individus
appartenant à une autre classe.

Analyse Hiérarchique - Les méthodes ascendantes


Chaque individu constitue une classe en soi. Dans la première étape, les deux individus les
plus proches sont fusionnés pour former une classe et ainsi de suite, la fusion pouvant se faire
entre les classes, entre une classe et un individu.
Puisque la première classe sera composée de deux individus, il faudra déterminer la méthode
de sélection des individus.

46
le saut minimum _
la distance moyenne entre classes
l’individu le plus proche

   
       
     
     
   

l’individu le plus éloigné


Méthode des centres de classe

       
     
     
       

Méthode de Ward


 

 Minimiser  
  la variance 
   
intra classe

Application : agrégation selon le saut minimum


1ère étape: Fusion de O1 & O2 (ou O3 & O4) - d(O1, O2) = 2
2ème étape: Fusion de O3 & O4
Calcul de la distance entre ces classes et les autres individus ou classes - O5 & O6:
d(O1O2 ) O5 = min dO1O5, dO2O5 = dO2O5 =557
d(O1O2 ) O6 = min dO1O6, dO2O6 = dO2O6 =745
d(O3O4 ) O5 = min dO3O5, dO4O5 = dO4O5 =106
d(O3O4 ) O6 = min dO3O6, dO4O6 = dO4O6 =212
d(O1O2 ) O3O4= min dO1O3, dO2O3,dO1O4, dO2O4= dO2O3,=145

La nouvelle matrice

O1&O2 O3&O4 O5 O6
O1&O2 0

O3&O4 145 0
D(2)
O5 557 106
0
O6 745 212 26 0

Décision = fusionner 5 et 6 car distance = 26

d(O1O2) O5O6 = min dO1O2&dO5, dO1O2&dO6=557


d(O3O4) O5O6 = min dO3O4&dO5, dO3O4&dO6=106

47
Nouvelle matrice
O1&O2 O3&O4 O5&O6
O1&O2 0

D(3) O3&O4 145 0

O5&O6 557 106 0

Décision = fusionner les classes O3&O4 + O5&O6

Dendrogramme : permet de visualiser l’historique des agrégations entre individus :

Distance
145

106

~
26
~
5

0
1 2 3 4 5 6
Individus

Classification hiérarchique sur données Lc banq (méthode Word)

48
Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 13 15 4,135E-02 0 0 2
2 13 24 ,397 1 0 18
3 12 22 ,780 0 0 19
4 3 7 1,241 0 0 16
5 28 29 1,727 0 0 14
6 8 23 2,267 0 0 11
7 16 17 2,810 0 0 12
8 9 25 3,636 0 0 12
9 2 26 4,670 0 0 19
10 1 19 5,755 0 0 22
11 8 20 6,843 6 0 20
12 9 16 8,020 8 7 18
13 4 6 9,232 0 0 24
14 5 28 10,522 0 5 20
15 18 21 12,019 0 0 23
16 3 14 13,715 4 0 21
17 27 30 15,572 0 0 26
18 9 13 17,880 12 2 27
19 2 12 20,713 9 3 23
20 5 8 24,588 14 11 24
21 3 10 28,756 16 0 22
22 1 3 34,429 10 21 27
23 2 18 40,300 19 15 26
24 4 5 46,810 13 20 25
25 4 11 60,857 24 0 28
26 2 27 75,860 23 17 28
27 1 9 103,634 22 18 29
28 2 4 180,025 26 25 29
29 1 2 261,000 27 28 0

Dendrogramme
Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Case 13 13 
Case 15 15 
Case 24 24 
Case 16 16  
Case 17 17  
Case 9 9   
Case 25 25   
Case 1 1   
Case 19 19    
Case 3 3    
Case 7 7  
Case 14 14   
Case 10 10  
Case 4 4  
Case 6 6   
Case 8 8    
Case 23 23   
Case 20 20    
Case 28 28     
Case 29 29   
Case 5 5    
Case 11 11  
Case 27 27  
Case 30 30   
Case 18 18  
Case 21 21   
Case 12 12  
Case 22 22 
Case 2 2 
Case 26 26 

Pour la méthode du saut maximum, la méthode est exactement l’opposé du saut minimum
dans ce sens que la distance est maintenant définie entre les deux pairs d’individus les plus
distants
Pour la méthode de la distance moyenne - même approche sauf que la distance représente la
distance moyenne entre toutes les pairs de points venant de chaque classe.

49
Pour la méthode de Ward, le classement se fait en regroupant les individus qui minimisent le
mieux la perte d’information.

L’Analyse Non Hiérarchique


L’allocation d’un individu à une classe donnée est révocable; une fois qu’un individu a été
associé à une classe, il peut être dissocié pour être fusionné avec d’autres individus
appartenant à une autre classe.
Le nombre de classe doit être connu d’avance.

Procédure
•Choisir k centres de classes, où k est le nombre de classes désiré.
•Assigner chaque individu à la classe qui lui est la plus proche
•Réassigner chaque individu à l’une des k classes selon une règle prédéterminée
•S’arrêter s’il n’y a plus d’observations à assigner ou si la réassignation satisfait toujours la
règle retenue.

Algorithme

Cette algorithme choisit les k premières observations comme centres de classes.


Pour cet exemple, les trois premières observations sont retenues comme centres de classe.

classes
variables 1 2 3
Revenu 5 6 15
éducation 5 6 14

Ensuite, il s’agit de calculer la distance euclidienne (au carré) de chaque observation par
rapport au centre de chaque classe. Puis, assigner chaque observation à chacune des classes.
Le processus se poursuit jusqu’a ce que les nouveaux centres ne changent plus ou très peu
(critère d’arrêt).
Distances par rapport aux centres de classes

Distance par rapport


à la classe Assigné
1 à la classe
Observation 2 3

O1 0 2 181 1
O2 2 0 145 2

O3 181 145 0 3

2 3
O4 221 181

O5 625 557 136 3


O6 821 745 250 3

Calculer les centres des classes précédentes (à partir de leurs données brutes)

50
Nouveaux centres de classes
Classes
Variables 1 2 3
Revenu 5 6 21.5
Éducation 5 6 17.0

Changement au niveau des classes


1 2 3
Revenu 0 0 +6.5
Éducation 0 0 +3.0
Changement > 0.02, donc il faut réassigner les observations
Nouvelles Distances par rapport aux centres de classes

Distance par rapport


Ancienne Nouvelle
à la classe
Obs. 1 classe classe
2 3

O1 0 2 416.25 1 1
O2 2 0 361.25 2 2
181 145 51.25 3 3
O3
34.25 3 3
O4 221 181
O5 625 557 21.25 3 3
O6 821 990 76.25 3 3

Nouveaux centres de classes


après cette étape
Classes
Variables 1 2 3
Revenu 5 6 21.5
Éducation 5 6 17.0

Changement au niveau des classes


1 2 3
Revenu 0 0 0
Éducation 0 0 0

Changement < 0.02, donc FIN


Solution = 3 classes dont une de 4 individus

Classification non hiérarchique sur données Lc banq (méthode Nuées dynamiques)

Centre s de classes initiaux

Classe
1 2 3
Zscore: SOLD -,10714 3,66279 -,61145
Zscore: NDEC -,68681 -,68681 2,94923
Zscore: MDEC -,76785 -,76785 2,46584
Zscore: NBPR 1,70914 ,07273 -1,01821
Zscore: NEMP 1,65956 -,92677 -,92677
Zscore: MEMP 2,85851 -,68222 -,68222
Zscore: VADD ,22205 1,00575 -,95350
Zscore: DEPO ,06710 1,41741 -,82318
Zscore: RETR 3,74042 -,62999
51 -,64556
Historique des itérationsa

Changements dans les centres de


classes
Itération 1 2 3
1 3,534 2,886 3,070
2 ,000 ,389 ,158
3 ,000 ,000 ,000
a. Convergence atteinte - la distance parcourue est nulle
ou très faible. La distance maximum parcourue par un
centre est ,000. L'itération actuelle est 3. La distance
minimum entre les centres initiaux est 7,211.

ANOVA

Classe Erreur
Moyenne Moyenne
des carrés ddl des carrés ddl F Signification
Zscore: SOLD 7,003 2 ,555 27 12,610 ,000
Zscore: NDEC 4,531 2 ,738 27 6,136 ,006
Zscore: MDEC 1,892 2 ,934 27 2,026 ,151
Zscore: NBPR 12,916 2 ,117 27 110,116 ,000
Zscore: NEMP 12,534 2 ,146 27 86,070 ,000
Zscore: MEMP 4,105 2 ,770 27 5,331 ,011
Zscore: VADD 12,771 2 ,128 27 99,687 ,000
Zscore: DEPO 12,984 2 ,112 27 115,598 ,000
Zscore: RETR 9,947 2 ,337 27 29,496 ,000
Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de
manière à maximiser les différences entre les observations des diverses classes. Les niveaux de
signification observés ne sont pas corrigés et ne peuvent par conséquent pas être interprétés
comme des tests de l'hypothèse que les moyennes des classes sont égales.
Nombre d'observations dans chaque classe

Classe 1 9,000
2 8,000
3 13,000
Valides 30,000
Manquentes ,000

Interprétation des groupes


•Choix du nombre de groupes (méthode hiérarchique)
Détecter un saut important au niveau des indices d’agrégation
•Description des groupes basée sur les variables de classification
Cas LC Banq (suite)

La carte ACP suggère des solutions en trois ou quatre classes

52
3

11

2
6
4
20 288
23 5
29
1

25
10 19
7 1524
0 1 9 13 16
14
3 17
2
18
26
-1 12 22 21

30 27
-2
-3 -2 -1 0 1 2

REGR factor score 1 for analysis 1

Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 13 15 4,135E-02 0 0 2
2 13 24 ,397 1 0 18
3 12 22 ,780 0 0 19
4 3 7 1,241 0 0 16
5 28 29 1,727 0 0 14
6 8 23 2,267 0 0 11
7 16 17 2,810 0 0 12
8 9 25 3,636 0 0 12
9 2 26 4,670 0 0 19
10 1 19 5,755 0 0 22
11 8 20 6,843 6 0 20
12 9 16 8,020 8 7 18
13 4 6 9,232 0 0 24
14 5 28 10,522 0 5 20
15 18 21 12,019 0 0 23
16 3 14 13,715 4 0 21
17 27 30 15,572 0 0 26
18 9 13 17,880 12 2 27
19 2 12 20,713 9 3 23
20 5 8 24,588 14 11 24
21 3 10 28,756 16 0 22
22 1 3 34,429 10 21 27
23 2 18 40,300 19 15 26
24 4 5 46,810 13 20 25
25 4 11 60,857 24 0 28
26 2 27 75,860 23 17 28
27 1 9 103,634 22 18 29
28 2 4 180,025 26 25 29
29 1 2 261,000 27 28 0

On détecte un saut à l’étape 26 : solution en quatre classes

53
Validation des groupes
•Des méthodes différentes doivent aboutir à des résultats semblables.
•Après séparation aléatoire de l’échantillon en deux moitiés, on doit aboutir aux mêmes
résultats.
•Les distributions des groupes sur les variables de classification ne se chevauchent pas.
•Utiliser une analyse discriminante.
Problèmes pratiques et conséquences
•Problème posé Choix des critères de classification

•Construction des groupes


-calcul des distances Choix de la métrique
-agglomération ou séparation Choix de l’algorithme de classification

•Interprétation et validation des groupes Choix du nombre de groupes


Description des groupes

54
ANALYSE FACTORIELLE DES CORRESPONDANCES
MULTIPOLES :
A.F.C.M.
Objectifs de l’A.F.C.M
Objectifs de l’A.F.C.M est de mettre en évidence :
- Les similitudes entre les modalités des variables : carte des variables.
- Les proximités entre les individus : carte des individus.
- Les liens entre les individus et les modalités des variables.

Intérêt de l’A.F.C.M
Son Intérêt est de :
- Tenir compte de l’aspect multidimensionnel des données
- Très adaptées au dépouillement des questionnaires.
- Analyse de plusieurs variables nominales.

Mise en relation des thèmes d’un questionnaire

Les données
Tableau : Individus X Variables Qualitatives

Avec - xijl= 1 si l’individu i choisi la modalit l de la variable Xj


= 0 sinon,
- m nombre de variables observées
- n nombre d’individus.
La variable Xj possède pj modalités et p=pj est le nombre total de modalités..

55
Principe :
- Réduction de l’espace de représentation des individus
- Réduction de l’espace de représentation des modalités des variables.

Algorithme :
- Réaliser une ACP sur les profils lignes du tableau disjonctif complet (individus)
- Réaliser une ACP sur les profils colonnes du tableau disjonctif complet (modalités)
- Étudier le lien entre les deux ACP.

En utilisant les mêmes notations que l’AFC il vient que

k  nm
xijl
f ijl 
nm
pj
m xijl 1
f i.   
j 1 l 1 nm n
n n jl
f. jl   f ijl 
i 1 nm
f ijl xijl
Profils lignes associés à l’individu i : f J  (..., ,...)  (...,
i
,...)
f i. m
f ijl xijl
Profils colonnes associés à la modalité l de la variable Xj : f I  (..., ,...)  (...,
jl
,...)
f. jl n jl
n jl
Profils lignes marginaux : f J  (..., f. jl ,...)  (..., ,...)
nm
1
Profils colonnes marginaux : f I  (..., f i. ,...)  (..., ,...)
n
N ( I )  nuage des profils lignes ..., f Ji ,... munis des poids  
..., f i. ,...et de la métrique du  2
dans R p

pj
m
1 f ijl f kjl
d 2 ( f Ji , f Jk )   f (  )2
j 1 l 1 . jl f i. fk.

N ( J )  nuage des profils colonnes ..., f I jl ,... munis des poids  


..., f . jl ,...et de la métrique du  2 dans R n
n
1 f ijl f ist 2
d 2 ( f I jl , f Ist )   (  )
i 1 f i. f. jl f.st
Propriétés du nuage N(I)
i
Distance du profil-ligne f J au centre de gravité f J
pj
m
n xijl
d 2 ( f Ji , f J )   m n 1
j 1 l 1 jl

56
Ainsi plus un individu possède des modalités rares, plus il est loin du centre de gravité du
nuage N(I).
L’inertie totale du nuage s’écrit
p
I ( N ( I ), f J )   1
m
Propriétés du nuage N(J)
La distance du profil-colonne f I jl au centre de gravité f I s’écrit
n
d 2 ( f I jl , f I )  1
n jl
Ainsi un profil-colonne est d’autant plus éloigné du centre de gravité que son effectif est
faible.
La contribution de Xj à l’inertie totale vaut (pj -1)/m. Elle est d’autant plus élevée que le
nombre de modalités de la variable Xj est élevé. Il est préférable en AFCM d’utiliser des
variables ayant le même nombre de modalités. L’inertie totale du nuage s’écrit
p
I ( N ( I ), f J )  1
m

ACP des nuages N(I) et N(J)

Les axes principaux du nuage N(I) (respectivement N(J))


Les axes principaux (resp. ) passent par le centre de gravité fJ ( resp. fI) et
sont portés par les vecteurs propres u1,…,ur (resp.v1,…,vr ) de la matrice A (resp.B ) associé
aux valeurs propres rangées par ordre décroissant.
Remarque : r est au plus égal à p-m. On ne retient donc un axe factoriel que si la valeur propre
associée est supérieure à 1/m (moyenne des p-m valeurs propres).
La matrice A est de terme général
n
a jlj 'l '    f. jl
f ijl f ij 'l '
f i . f . j 'l '
i 1
m pj
(Resp. la matrice B est de terme général bii '     f i. )
f ijl f i ' jl
f i '. f. jl
j 1 l 1

Les composantes principales


Les composantes F1,…,Fr (resp. G1,…,Gr ) sont les coordonnées des projections des profils
lignes (resp. colonnes ) sur les axes (resp. )..

Propriétés
Les composantes principales sont centrées de variance h et sont non corrélées entres elles.

Taux d’inertie
h
Le taux d’inertie associé à l’axe h définie par p m est majoré par m p  m .
m

57
On remarque que plus le nombre de modalités des questions est important plus le taux
d’inertie associé aux axes est faible. On ne peut donc ici appliquer les résultats de l’AFC sur
tableau de contingence.
Deux attitudes peuvent être adoptées :
- Concentrer l’analyse sur le premier plan principale.
- Retenir les axes pour lesquels il est possible d’établir une interprétation claire et
constructive.

Interprétation des axes factoriels


Elle se base sur les modalités à forte contribution selon les règles suivantes :
- On classe les modalités par contribution décroissante et partant des premières on
extrait assez de modalités de rangs consécutifs pour que la somme des contributions
soit comprise entre 50% et 80%.
- On prend en compte que les modalités dont la contribution est supérieure à 1/p.

La contribution de la modalité jl à la composante Gh vaut


n jl Gh2 ( jl )
CTRh ( jl ) 
nmh
On en déduit la contribution de la variable Xj à la composante Gh qui vaut
pj

CTRh ( j )   CTRh ( jl )
l 1

Distance entre modalités


La distance entre les modalités jl et ts s’écrit :
n xijl x
d 2 ( f I jl , f Its )   n(  its ) 2
i 1 n jl nts
On en déduit :
- 2 modalités sont confondues lorsque tous les individus qui ont choisi une modalité
ont choisi l’autre.
- 2 modalités sont proches lorsqu’ elles ont été fortement associées. Cette proximité
est renforcée lorsque ces modalités ont été choisies par un grand nombre
d’individus.
- 2 modalités sont éloignées lorsqu’elles ont été très peu associées. Cette distance est
renforcée lorsque ces modalités sont rares.

Distance entre profils colonnes exprimé en fonction des composantes


La distance entre deux modalités jl et ts s’écrit aussi
r
d 2 ( f I jl , f Its )   (Gh ( jl )  Gh (ts))2
h 1

r  nombrede composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes.

58
Distance entre individus
La distance entre deux individus i et k s’écrit
m pj
n
d 2 ( f Ji , f Jk )    (xijl  xkjl ) 2
j 1 l 1 n jl

On en déduit
- 2 individus sont d’autant plus éloignés que sont nombreuses les modalités pour
lesquelles ils ont fait des choix opposés. Un individu est d’autant plus éloigné des
autres individus qu’il a opté pour des modalités rares
- 2 individus sont d’autant plus proches que sont nombreuses les modalités pour
lesquelles ils ont fait les mêmes choix. Leur proximité est renforcée lorsque les
modalités pour lesquelles ils ont fait des choix opposés ont des fréquences élevées

Distance entre profils lignes exprimé en fonction des composantes


La distance entre deux individus i et l s’écrit aussi
r
d 2 ( f Ji , f Jl )   ( Fh (i )  Fh (l )) 2
h 1

r  nombrede composantes

La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes.

Relations de transition
On a les deux relations de transition suivantes :

m pj n

 Gh ( jl )  
f ijl
Fh (i ) 
f ijl 1
1
Gh ( jl ) h
Fh (i )
h fi. f . jl
j 1 l 1 i 1
n

x
m pj


1 1
 1 1
xijl Gh ( jl ) h n jl ijl Fh (i )
h m
i 1
j 1 l 1

1
A h près
- Fh(i) est au barycentre des Gh(jl) pour l’ensemble des modalités jl caractérisant
l’individu i.
- Gh(jl) est au barycentre des Fh(i) pour l’ensemble des individus i possédant la
modalité jl.

Indice d’attraction répulsion


Il s’écrit
f ij
xijl
d ij  
f i. f. j n jl
n
Il est d’autant plus élevé que l’individu i possède une modalité jl rare.

59
Représentation graphique

L’individu i est représenté par le point profil-ligne


Ai  ( F1 (i), F2 (i))
La modalité l de la de la variable j est représentée par le point profil-colonne
B jl  (G1 ( jl ), G2 ( jl ))

La représentation graphique suivante résume les différentes situations rencontrées en AFCM

60
61

Vous aimerez peut-être aussi