Vous êtes sur la page 1sur 22

COURS :

ANALYSE QUALITATIVE ET QUANTITATIVE

Avril 2023

ANNÉE ACADÉMIQUE : 2022 - 2023

@paul tonye mbeng


ANALYSE DES DONNÉES (AD)

Objectifs du cours :
Ce cours a pour objectif de procurer aux étudiants les méthodes leur permettant de :
- représenter synthétiquement de vastes ensembles numériques pour faciliter la prise des
décisions
- traiter des données qualitatives, ce qui en fait des méthodes capables de considérer un grand
nombre de problèmes.
- Chercher les ressemblances entre les individus et les liaisons entre les variables. Ces
proximités entre individus et variables vont permettre à l'étudiant de déterminer une typologie
des individus et des variables, et ainsi il pourra interpréter ses données et fournir une synthèse
des résultats des analyses.
Les étudiants devront :
 Comprendre les principes de base mathématiques justifiant les méthodes
expliquées dans le cours
 être capables d'interpréter les résultats d'une AFC ou d'une ACM (discussion
des inerties, interprétation des axes, mise en évidence de modalités
particulières)

Chapitre 1 : Analyse en composante principale (ACP)

Chapitre 2 : Analyse factorielle par correspondances (AFC)

Chapitre 3 : Analyse en correspondance multiple (ACM)

Chapitre 4 : application dans le logiciel XLstat ou R

Bibliographie

L. Lebart, A. Morineau, M. Piron, Statistique exploratoire multidimensionnelle,


Dunod, 2006
X. Bry, Analyses factorielles simples, Economica, 1995

@paul tonye mbeng


Introduction générale :

Domaines d'application
Aujourd'hui les méthodes d'analyse de données sont employées dans un grand nombre de
domaines qu'il est impossible d'énumérer. Actuellement ces méthodes sont beaucoup utilisées
en marketing par exemple pour la gestion de la clientèle (pour proposer de nouvelles mesures
ciblées). Elles permettent également l'analyse d'enquêtes par exemple par l'interprétation de
sondages (où de nombreuses données qualitatives doivent être prises en compte). Nous
pouvons également citer la recherche documentaire qui est de plus en plus utile notamment
avec internet (la difficulté porte ici sur le type de données textuelles ou autres). Le grand
nombre de données en météorologie a été une des premières motivations pour le
développement des méthodes d'analyse de données. En fait, tout domaine scientifique qui
doit gérer de grande quantité de données de type varié ont recours à ces approches (écologie,
linguistique, économie, etc) ainsi que tout domaine industriel (assurance, banque, téléphonie,
etc). En ingénierie mécanique, elles peuvent aussi permettre d'extraire des informations
intéressantes sans avoir recours à des modèles parfois alourdis pour tenir compte de toutes les
données.
Les données
Nous considérons tout d'abord que la population peut être décrite par des données de deux
types de caractères : qualitatif ou quantitatif. Les caractères qualitatifs peuvent être : purs
(variables nominales) i.e. que les modalités ne possèdent pas de structure d'ordre ou
ordonnés (variables ordinales) i.e. que les modalités qualitatives sont ordonnées. Il est aisé
de comprendre que les données à caractère qualitatif doivent être adaptées pour les méthodes
numériques.
Les méthodes d'analyse de données supposent souvent une organisation des données
particulière, naturelle, mais parfois difficile à réaliser selon l'application et les données. Le
choix d'un tableau permet une organisation dans le plan de toutes les données et ainsi de
traiter simultanément toute l'information. Ainsi la plupart des méthodes nécessitent une
organisation des données présentée sous forme de tableau.
Les méthodes
L'analyse de données regroupe deux familles de méthodes suivant les deux objectifs cités
précédemment :
Une partie des méthodes cherche à représenter de grands ensembles de données par peu de
variables i.e. recherche les dimensions pertinentes de ces données. Les variables ainsi
déterminées permettent une représentation synthétique recherchée.

@paul tonye mbeng


Parmi ces méthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que
l'analyse en composantes principales, l'analyse factorielle des correspondances, l'analyse
factorielle des correspondances multiples.

L'analyse en composantes principales est l'une des méthodes les plus employées. Elle est
particulièrement adaptée aux variables quantitatives, continues, à priori corrélées entre elles.
Une fois les données projetées dans différents plans, les proximités entre variables
s'interprètent en termes de corrélations, tandis que les proximités entre individus
s'interprètent en termes de similitudes globales des valeurs observées.

L'analyse factorielle des correspondances (ou analyse des correspondances binaires) a été
conçue pour l'étude des tableaux de contingence obtenus par croisement de variables
qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout
adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes ont un rôle
symétrique et s'interprètent de la même façon.

L'analyse factorielle des correspondances multiples est une extension de l'analyse factorielle
des correspondances qui ne permet que le croisement de deux variables qualitatives. Elle est
donc adaptée à la description de grands tableaux de variables qualitatives par exemple pour le
traitement d'enquêtes.

_ Une autre partie des méthodes cherche à classer les données de manière automatique. Ces
méthodes sont complémentaires avec les précédentes pour synthétiser et analyser les données
et répondre plus particulièrement à l'objectif fixé de caractériser les proximités entre
individus et celles entre variables. Ces méthodes de classification sont soit à apprentissage
supervisé (i.e. qui nécessitent une base de données d'apprentissage - ces méthodes sont
appelées en statistique les analyses discriminantes) soit à apprentissage non-supervisée (i.e.
qui ne nécessitent aucune donnée préalable).
_ Parmi les méthodes issues de l'analyse discriminante et directement rattachées à l'analyse de
données il y a l'analyse linéaire discriminante, la régression logistique, les k plus proches
voisins ou encore les arbres de décision.
L'analyse linéaire discriminante est aussi appelée analyse factorielle discriminante car elle est
en fait une analyse en composantes principales supervisée. Elle décrit les individus en classes
(celles-ci sont données par une variable issue de l'apprentissage) et ensuite affecte de
nouveaux individus dans ces classes. C'est donc une méthode à la fois descriptive et
prédictive. Elle permet de traiter aussi bien des variables quantitatives que qualitatives.
La régression logistique consiste à exprimer les probabilités à posteriori d'appartenance à une
classe p(C=x) comme une fonction de l'observation. Bien souvent c'est la régression linéaire
qui est employée.
L'approche des k plus proches voisins repose sur l'idée simple d'attribuer un nouvel individu à
la classe majoritaire parmi ses k plus proches voisins (individus de la base d'apprentissage les
plus proches au sens d'une certaine distance).

@paul tonye mbeng


Les arbres de décision nécessitent souvent une construction délicate et difficilement
généralisable si les données d'apprentissage sont peu représentatives de la réalité.
Les logiciels
Les méthodes d'analyse de données nées de la recherche universitaire sont depuis longtemps
entrées dans le monde industriel. Il y a cependant peu de logiciels qui savent intégrer ces
méthodes pour une recherche exploratoire aisée dans les données. Nous citons ici cinq
logiciels : Excel, Stata, SPSS, Eviews, R etc.
1) Pourquoi une approche multidimensionnelle de l’AD

Dans la plus part des études appliquées, on observe que les individus ne sont caractérisés par
une ou deux variables, mais par un nombre élevé de variables. L’étude univariée ou bivariée
est certes une phase indispensable, mais elle reste tout à fait insuffisante, car elle laisse de
côté les multiples liaisons qui peuvent exister entre les variables.
Les méthodes d’AD cherchent à analyser les données en tenant compte de leur caractère
multidimensionnel. Ces méthodes fournissent des graphiques claires qui permettent de
résumer l’information contenu dans les données.

2) Quelles méthodes pour quels types de données

Les techniques multidimensionnelles diffèrent selon le type de variables considérées, mais


permettent toutes de réduire la dimension afin de résumer un tableau de grande dimension et
de relever ses caractéristiques :
 L’analyse en composantes principales (ACP) pour les données quantitatives :
Tableau protocole individus x variables numériques. Exemple : On dispose des
consommations annuelles de 8 types de denrées alimentaires pour 8 catégories socio-
professionnelles (en 2016).
PAO PAA VIO VIA POT LEC RAI PLP
AGRI 167 1 163 23 41 8 6 6
SAAG 162 2 141 12 40 12 4 15
PRIN 119 6 69 56 39 5 13 41
CSUP 87 11 63 111 27 3 18 39
CMOY 103 5 68 77 32 4 11 30
EMPL 111 4 72 66 34 6 10 28
OUVR 130 3 76 52 43 7 7 16
INAC 138 7 117 74 53 8 12 20
Légende :
Variables : Individus :
PAO : pain ordinaire AGRI : exploitants agricoles
PAA : autre pain SAAG : salariés agricoles
VIO : vin ordinaire PRIN : professionnels indépendants
VIA : autre vin CSUP : cadres supérieurs
POT : pommes de terre CMOY : cadres moyens
LEC : légumes secs EMPL : employés
RAI : raisin de table OUVR : ouvriers
PLP : plats préparés INAC : inactifs

@paul tonye mbeng


 L’analyse factorielle par correspondances (AFC) pour analyser la liaison entre deux
variables qualitatives

Tableau de contingence. Exemple : Répartition des étudiants selon la catégorie socio-


professionnelle des parents et le type d'études suivi en 1975-1976 (simplifié) :

Droit Sciences Médecine IUT


Exp, agri 80 99 65 58
Patron 168 137 208 62
Cadre sup 470 400 876 79
Employé 145 133 135 54
Ouvrier 166 193 127 129
 L’analyse par correspondances multiples (ACM) pour analyser les liaisons entre
plusieurs variables qualitatives

Tableau protocole pour des variables nominales

Sexe Revenu Préférence


1 F M A
2 F M A
3 F E B
4 F E C
5 F E C
6 H E C
7 H E B
8 H M B
9 H M B
10 H M A
Terminologie :
Population Ω (ou population statistique) : ensemble (au sens mathématique du terme)
concerné par une étude statistique. On parle parfois de champ de l’étude.
Individu ω ∈ Ω (ou unité statistique) : tout élément de la population.
Échantillon : sous–ensemble de la population sur lequel sont effectivement
réalisées les observations.
Taille de l’échantillon n : cardinal du sous-ensemble correspondant.
Enquête (statistique) : opération consistant à observer (ou mesurer, ou questionner. . .)
l’ensemble des individus d’un échantillon.
Recensement : enquête dans laquelle l’échantillon observé est la population
tout entière (enquête exhaustive).
Sondage : enquête dans laquelle l’échantillon observé est un sous–ensemble
strict de la population (enquête non exhaustive).
Variable (statistique) : caractéristique (âge, salaire, sexe, glycémie. . .), définie sur la
population et observée sur l’échantillon ; mathématiquement, il s’agit d’une application
définie sur l’échantillon. Si la variable est à valeurs dans R (ou une partie de R, ou un
ensemble de parties de R), elle est dite quantitative (âge, salaire, taille. . .) ; sinon elle est dite
qualitative (sexe, catégorie socioprofessionnelle. . .).
Données (statistiques) : ensemble des individus observés (échantillon), des variables

@paul tonye mbeng


considérées, et des observations de ces variables sur ces individus. Elles sont en général
présentées sous forme de tableaux (individus en lignes et variables en colonnes) et stockées
dans un fichier informatique. Lorsqu’un tableau ne comporte que des nombres (valeurs des
variables quantitatives ou codes associés aux variables qualitatives), il correspond à la notion
mathématique de matrice.

Logiciels : Xlstat , SPAD, R, SAS, SPSS, Tanagra, STATA etc

@paul tonye mbeng


CHAPITRE 0 : QUELQUES NOTIONS DE BASE

I- Définitions fondamentales

1) La science statistique, population, échantillon


C’est la méthode scientifique du traitement des données quantitatives et qualitatives.
La statistique s'applique à la plupart des disciplines : agronomie, Biologie, Démographie,
Economie,
Sociologie, Linguistique, Psychologie, ...
L’étude statistique porte sur les unités statistiques ou unités d’observation dont l’ensemble
constitue la population. Par exemple : Les véhicules automobiles immatriculés à Yaoundé, La
population des P.M.E. du Cameroun, Les salariés du Digital college, Les habitants du
quartier Ahala.
Pour étudier une population statistique, on a recours à deux méthodes :
 la méthode exhaustive (ou recensement) : on examine chacun des éléments de la
population. En général, cette méthode est jugée trop longue.
 la méthode des sondages : on n'examine qu'une partie de la population pour essayer
d'en déduire des informations sur la totalité de la population. Cette méthode comprend
deux parties :
- l'échantillonnage qui permet de passer de la population totale (ou population mère) à
une partie seulement de cette population (ou échantillon).
- l'estimation qui permet d'induire, à partir des résultats observés sur l'échantillon, des
informations sur la population totale.

Le choix de l’échantillon est fondamental. Il existe deux techniques de base :


- La méthode probabiliste ou aléatoire : chaque individu de la population a les mêmes
chances d’être sélectionné.
- La méthode non probabiliste ou méthode par quotas. Dans ce cas, l’échantillon est un
modèle réduit qui reflète la composition de la population totale à étudier.

2) La collecte des données : le questionnaire


Le questionnaire désigne l’ensemble des questions administrées à l’enquêté en vue de
collecter les informations. Ces questions doivent être directement liées aux informations

@paul tonye mbeng


recherchées. Elles peuvent concerner le sexe, le statut matrimonial, le niveau scolaire, le
niveau de revenu, le chiffre d’affaire, la valeur ajoutée, le niveau des dépenses, etc.
La durée de l’enquête ne doit pas dépasser 20 à 30 minutes. Les questions doivent être
claires, précises et adaptées à la personne interrogée, Le questionnaire doit ainsi stimuler la
personne questionnée. Il doit attirer l’attention, éveiller l’intérêt et développer le désir de
répondre.

II- La notion de variable

1) Définition
En sciences humaines, on s'intéresse dans la plupart des cas à un nombre d’unités. Sur ces
unités, on mesure un caractère ou une variable, le chiffre d'affaires de l'entreprise, le revenu
du ménage, l'âge de la personne, la catégorie socio-professionnelle d'une personne.
On suppose que la variable prend toujours une seule valeur sur chaque unité. Les variables
sont désignées par simplicité par une lettre (X; Y; Z). Les valeurs possibles de la variable,
sont appelées modalités. L'ensemble des valeurs possibles ou des modalités est appelé le
domaine de la variable.
Exemple : Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F). Le
domaine de la variable est {M; F}.
Exemple : Les modalités de la variable nombre d'enfants par famille sont 0,1,2,3,4,5,.... C'est
une variable quantitative discrète.

2) Typologie des variables


On distingue deux principaux types de variable :
o Variable qualitative : La variable est dite qualitative quand les modalités sont des
catégories.
- Variable qualitative nominale : La variable est dite qualitative nominale quand les
modalités ne peuvent pas être ordonnées. Exemple : le sexe, le teint, etc.
- Variable qualitative ordinale : La variable est dite qualitative ordinale quand les
modalités peuvent être ordonnées. Le fait de pouvoir ou non ordonner les modalités
est parfois discutable. Par exemple : dans les catégories socioprofessionnelles, on
admet d'ordonner les modalités : `ouvriers', `employés', `cadres'. Si on ajoute les
modalités `sans profession', `enseignant', `artisan', l'ordre devient beaucoup plus
discutable.

@paul tonye mbeng


o Variable quantitative : Une variable est dite quantitative si toutes ses valeurs possibles
sont numériques.
- Variable quantitative discrète : Une variable est dite discrète, si l'ensemble des
valeurs possibles est dénombrable. Exemple : nombre d’entreprises
- Variable quantitative continue : Une variable est dite continue, si l'ensemble des
valeurs possibles est continu. Exemple : la taille
Remarque : Ces définitions sont à relativiser, l'âge est théoriquement une variable
quantitative continue, mais en pratique, l'âge est mesuré dans le meilleur des cas au jour près.
Toute mesure est limitée en précision.

3) Série statistique
On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d'observation. Le nombre d'unités d'observation est noté n. Les valeurs de la variable X sont
notées x1; :::; xi; :::; xn:
Exemple : On s'intéresse à la variable ‘état-civil' notée X et à la série statistique des valeurs
prises par X sur 20 personnes. La codification est :
C : célibataire, M : marié(e), V : veuf(ve), D : divorcé (e).
Le domaine de la variable X est {C;M; V;D} Considérons la série statistique suivante :
MMDCCMCCCMCMVMVDCCCM

@paul tonye mbeng


CHAP 1 : ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Introduction :

L’ACP est une technique statistique qui permet d’obtenir un résumé descriptif, sous forme
graphique de l’information contenue dans un vaste tableau de données quantitatives. A
travers ces graphiques, l’ACP cherche à :

 Dégager les corrélations entre les variables ;


 Repérer une structuration des individus en groupes homogènes et à les caractérisés;
 Identifier les individus atypiques dont le comportement est différent de l’ensemble de
autres individus ;
 Résumer l’information à l’aide d’un nombre réduit de variables synthétiques.

Les objectifs de l’ACP sont :

 Une réduction de l’information : les variables sont regroupées en un petit nombre de


nouvelles variables appelées composantes principales;
 La typologie des individus : le positionnement des individus par rapport à ces
composantes principales permet de mettre en valeur des groupes d’individus.
I. Données – Notations – Définitions

Les données à analyser se présentent généralement sous la forme d’un vaste tableau
(individus*variables). Les individus sont en ligne et les variables en colonne. Avant de
procéder à l’AD, il convient de définir un thème précis et de choisir les variables qui décrit ce
thème. Les variables choisies sont appelées variables actives, elles sont quantitatives. Ce sont
ces variables qui participent aux calculs qu’implique l’ACP. D’autres variables peuvent
intervenir au stade de l’interprétation, celle sont qualifiées de variables illustratives. Elles
peuvent être quantitatives ou qualitatives.

Supposons qu’on a p-variables quantitatives observées sur une population de


n-individus. est la valeur de la variable pour l’individu

Le tableau des données se présente sous la forme suivant :

[ ]

On désignera par X ce tableau ou cette matrice

1) Représention graphique des individus et des variables

En ACP, on s’intéresse à la fois aux variables et aux individus, on définit donc deux nuages
de point à partir de la matrice X

@paul tonye mbeng


a. Le nuage des variables

Chaque colonne de la matrice X est considérée comme un vecteur noté :


∈ . Le nuage des variables est obtenu en représentant les vecteurs
dans l’espace (espace des individus)

Pour chaque variable, on calcule :

 La moyenne : ̅ ∑
 La variance : ∑ ̅ on obtient ainsi le tableau de variance covariance
 On peut déterminer le tableau des valeurs centrées et réduites c’est-à-dire :
̅
, la moyenne de ces nouvelles variables est nulle et leur variance égale à

1 : on dit qu’on effectue une ACP normée.
b. Le nuage des individus

Chaque ligne de la matrice X peut être considérée comme un vecteur


dont les coordonnées sont les valeurs des p-variables pour l’individu i ( ∈

Deux individus sont proches l’un de l’autre, si leurs p-coordonnées sont proches. On mesure
la proximité entre 2 individus en utilisant la distance euclidienne :

‖ ‖ ∑

Au nuage de point des individus, on associe un point moyen dont les coordonnées sont les
moyennes des p-variables : ̅ ∑̅ ̅ ̅

c. Notion d’inertie (variance) du nuage de point

L’inertie d’un nuage de point est la dispersion pondérée de ces points autour de leur centre de
gravité (moyenne) elle est notée (I) et sa formule est : ̅ ∑‖ ̅‖

En ACP normée, l’inertie totale du nuage de point est égale au nombre de variables actives
c’est-à-dire : ∑ avec valeur propre

Exemple :

On a recueilli le poids, la taille et la note moyenne annuelle de 3 élèves. Le tableau des


données est le suivant :

Poids en kg Taille en m Age Note


1 60 1,5 15 9
2 60 1,7 14 10
3 60 1,8 14 7
1) Calculer l’inertie du nuage de point
2) Calculer les distances : et comparer

@paul tonye mbeng


II. Principe de l’ACP

En pratique, nous disposons de plus de 2 variables observées sur un nombre d’individu. Cela
signifie que les nuages des individus et des variables appartiennent à un espace de dimension
supérieur ou égale à 2. Pour bien explorer l’information contenue dans ces nuages, il faut
trouver un moyen de la représenter graphiquement : c’est l’intérêt de l’ACP.

L’ACP cherche le plan de projection dans lequel les nuages se projettent en restant le plus
fidèle possible du nuage c’est-à-dire de minimiser la perte de distance entre les points.

III. Interprétation des résultats de l’ACP

Interpréter, c’est donner du sens : aux axes, à des proximités, au regroupement entre les
variables ou entre les individus. L’interprétation d’une ACP passe par l’interprétation d’un
nuage de variables et par celui des individus.

L’interprétation du nuage de variables se fait en termes de corrélation : il s’agit


principalement d’examiner en termes de corrélation, le positionnement des variables par
rapport aux autres, de même que par rapport aux axes factoriels

On appelle axes factoriels ou axes principaux, les vecteurs propres donnant les directions
d’inertie maximale.

Les composantes principales sont les projections des individus sur les axes principaux.

L’interprétation du nuage des individus se réfère aux phénomènes sous-jacents à l’analyse du


nuage des variables ; et s’opère en termes de proximité. On veut savoir quel individu
ressemble à l’autre. Cependant, l’analyse des nuages de points doit être complétée par de
éléments appelés outils d’aide à l’interprétation. Qui sont : le cosinus carré et la contribution.

1) Le cosinus carré permet d’apprécier la qualité de représentation d’un point par rapport
à son positionnement réel dans l’espace. Les points les mieux représenter et donc
facilement interprétable sont ceux dont le cosinus carré est proche de un (1)
 Si le cosinus carré = 1, cela signifie que le point se trouve sur l’axe de projection : on
parlera d’une bonne représentation

@paul tonye mbeng


 Si le cosinus carré = 0, cela signifie que le point se trouve dans la projection
orthogonale et donc une mauvaise représentation
 Le cosinus carré d’une variable indique le pourcentage de l’information apporté par
cette variable
 Le cosinus carré d’un individu mesure la part de l’originalité de l’individu expliquée
par l’axe
 Si le cosinus carré d’un individu = 0,90, cela signifie que 90% du comportement de
l’individu est expliqué par l’axe
 Si dans un plan, deux points sont proches et leur cosinus carré élevé, alors ils sont
proche dans la réalité. Mais si au moins un des deux points a un cosinus carré faible,
alors la proximité graphique n’est pas réelle.
2) La contribution : permet de voir la part d’inertie expliquée par une variable active
dans la formation des axes. Un axe restitue une partie de l’information initiale
contenue dans les données. Cette part d’information est mesurée par les valeurs
propres associées à cet axe.
3) Choix du nombre d’axe à retenir :

En ACP, la question est de savoir s’il faut interpréter tous les axes factoriels. En effet, le
nombre d’axes obtenus à l’issue d’une ACP est égale au nombre de variable (p). Chacun de
ces axes explique une partie de l’information mesurée par la somme des valeurs propres.

Dans la pratique le choix du nombre d’axes à retenir peut se faire à l’aide de :

 La part d’inertie : suivant cette règle, on examinera les axes jusqu’à ce que l’on
atteigne un cumul d’information jugé suffisant.
 Critère de Kaiser : ce critère recommande de ne s’intéresser qu’à des axes factoriels
associé à des valeurs propres supérieur ou égale à un (1)

@paul tonye mbeng


CHAP 2 : ANALYSE FACTORIELLE DE CORRESPONDANCE (AFC)

L’AFC étudie la liaison entre deux variables qualitatives et détermine les modalités des qui
interviennent dans la liaison ainsi que la manière dont elles interviennent. L’AFC est adapté à
l’analyse des données se présentant sous forme d’un tableau croisé ou de contingence.

I. Données et notation

Considérons un échantillon de n – individus ventilés selon deux caractères qualitatifs X et Y


ayant respectivement I et J modalités. Le tableau de contingence se présente comme suit :

X/Y 1 ... j ... J total


1

I
Total ... ...
nombre d’individus ayant pris les modalités i pour X et j pour Y

c’est la fréquence

∑ nombre d’individu ayant pris la modalité i de X

∑ nombre d’individu ayant pris la modalité j de Y

II. ANALYSE BIVARIEE DES VARIABLES QUALITITATIVES, LA


NOTION DE DEPENDANCE : LE TEST DE CHI-DEUX

1) L’association sur les variables qualitatives :


L’objectif du test du X2 est de déterminer si les lignes et les colonnes d’un tableau croisé
(c’est à dire les deux variables étudiées) ne sont pas indépendantes. Par indépendantes, on
veut dire que le fait d’appartenir à une modalité de la première variable n’a pas d’influence
sur la modalité d’appartenance de la deuxième variable.
En consultant les résultats issus d'une analyse de tableau croisé, nous observons que dans
certaines cases les écarts entre les valeurs des effectifs réels et des effectifs théoriques, les
résidus, sont élevés. Cela indique la possibilité d'une relation entre les deux variables formant
les axes du tableau.
Malheureusement, la valeur du résidu dépend de la taille de l'échantillon. Plus l'effectif est
élevé plus les résidus s'écartent de zéro. Ce qui est normal. Un effectif de 1000 individus a
naturellement des écarts plus élevés qu'un autre de 100 individus. Pour contrer cela, il faut

@paul tonye mbeng


calculer un facteur de pondération qui tient compte de l'ampleur de l'effectif théorique de
chacune des cellules.
Cette mesure statistique s'appelle le khi carré et est symbolisée par . On l'appelle aussi le
khi deux, le carré de contingence et le khi carré de Pearson.

a) Avantages du khi-deux
Le khi carré est une mesure qui :
 S'utilise aussi bien avec les variables nominales et aussi bien avec les classes;
 Indique l'existence d'un lien entre deux variables;
 S'applique quel que soit la distribution des variables.

b) Inconvénient
N'indique que l'existence d'un lien, mais non la force du lien entre les variables. Cela nous
limite considérablement. Pour étudier la relation entre deux variables, il faut prendre les
coefficients de contingence, le T de Tschuprow ou le V de Cramer ou le phi.

c) Analyse statistique avec le khi-deux

Plus le khi carré est élevé, plus forte est la probabilité qu'il y ait une relation entre les
variables étudiées. Cependant, il n'y a pas de lien direct entre la valeur du khi carré et la force
du lien entre deux variables. Il faut soit consulter des tables ou, le plus souvent, examiner la
probabilité que notre logiciel statistique y associe.

d) Les degrés de liberté

Pour consulter les tables, il faut calculer le degré de liberté souvent abrégé sous la
forme ddl. Dans le calcul du khi carré pour une variable, le degré de liberté est simplement le
nombre de modalités moins un. Dans un tableau contenant deux variables, c'est le produit du
degré de liberté de chaque variable

2) LES TESTS DES HYPOTHESES


Soient M et M" deux variables qualitatives (n’ayant pas nécessairement le même nombre de
modalités, mais représentées dans le même échantillon). Il est possible de donner une
définition rigoureuse de l’idée intuitive d’indépendance entre deux telles variables.

@paul tonye mbeng


On formule alors l’hypothèse H0 selon laquelle M et M" sont effectivement indépendantes.
Le test de khi-deux permet d’estimer la plausibilité de cette affirmation, au vu des fréquences
constatées de chaque paire de modalités dans l’échantillon.

L’interprétation de nos résultats peut se faire de deux manière différente ;


1. Soit en comparant la valeur du khi-deux calculé avec celle lue dans le tableau
statistique en tenant compte du dégré de liberté. Si khi-deux calculé est supérieur au khi-deux
lu dans le tableau statistique, alors on rejette l’hypothèse nulle pour prendre en considération
l’hypothèse alternative. Dans le cas contraire, c’est l’hypothèse nulle qui est considérée.
2. Soit nous comparons la valeur de la p-value (noté Pr) affichée dans le tableau de
résultat avec celle de α = 5 %. Si notre Pr est inférieur à α = 5 %, alors, nous rejettons
l’hypothèse nulle pour prendre en considération l’hypotèse alternative. Si c’est le cas
contraire qui se présente, nous rejettons l’hypothèse alternative.
Pour montrer le degré de dépendance éventuel entre deux variables, nous utilisons le
test de Khi 2 ou x2. Sa formule est la suivante :

- Si l’échantillon est égal ou supérieur à 100 personnes :

n  ni . n. j / n..   Fo 
2 2
I J I J  Feij
    
2 ij ij

i 1 j 1 ni . n. j / n.. i 1 j 1 Eij

Avec : Fo= fréquences observées ; Fe= fréquences théoriques ; = somme.

3) Règle de décision :

Si p-value < 0,05, rejeté l’hypothèse nulle

Si p-value > 0,05, ne pas rejeté l’hypothèse nulle

En AFC, on s’intéresse aux profils (profil ligne et profil colonne). On obtient les profils en
divisant l’effectif de chaque case du tableau croisé par l’effectif marginal. Ainsi on a :

Profil d’une ligne

Profil d’une colonne

@paul tonye mbeng


L’ensemble des profils lignes (respectivement colonne) forme un nuage des I-points
(respectivement J-points)

L’AFC est une double ACP : une ACP sur les tableaux des profils lignes et une ACP sur les
tableaux des profils colonnes.

Les éléments d’aide à l’interprétation en ACP ainsi que les règles de choix des axes sont les
même qu’en AFC.

Un axe est interprétée à la fois par les modalités lignes et les modalités colonnes. Les profils
les mieux représentés sur un axe illustre bien cet axe. Ils permettent en fait d’expliquer son
sens. Mais le fait qu’en AFC, chaque point soit affecté d’un poids rend indispensable l’usage
des contributions. Ainsi la contribution d’un point i dépend de ses coordonnées sur l’axe et de
son poids. Un point peut donc avoir une forte coordonnée sur un axe, sans pour autant
contribuer fortement à son positionnement : cela dépend du poids. Un point de coordonnée
faible (moins éloigné) peut avoir une contribution forte si son poids est élevé. Les points à
forte contribution permettent d’expliquer la formation des axes.

@paul tonye mbeng


Chapitre 3 : ANALYSE DES CORRESPONDANCES MULTIPLES (ACM)

Introduction :

L’ACM étudie les tableaux des données d’individus décrit par plusieurs variables
qualitatives. Il s’agit d’une généralisation de l’AFC. L’ACM est la méthode d’analyse
privilégiée des données, car elle se prête à l’analyse des questionnaires et d’un ensemble plus
vaste de tableau. Cependant, sur un plan formel, l’ACM est une simple application de l’AFC.
Toutefois, elle présente des propriétés mathématiques particulières et des règles
d’interprétation différentes de celles de l’AFC.

I. Données, notations et définition

On dispose d’un échantillon de n-individus décrit par p-variables qualitatives. Les p-variables
peuvent être considérées comme des questions. Soit Q l’ensemble des questions, pour une
question q, on note l’ensemble des modalités des réponses. ⋃ l’ensemble des
tableaux des données. On notera X l’ensemble des tableaux des données

Soit le tableau X suivant :

Individu Sexe Situation matrimoniale Niveau d’instruction


1 F Marié Supérieur
2 M Célibataire Primaire
3 F Autre Secondaire

1) Tableau disjonctif complet

Ici, chaque modalité devient une variable. A partir du tableau des données X, on définit ce
tableau de la façon suivante : , on pose :

Individu Masculin Féminin Marié Célibataire Autre


1 0 1 1 0 0
2 1 0 0 1 0
3 0 1 0 0 1

@paul tonye mbeng


Ce tableau est appelé tableau disjonctif complet (TDC) par ce que deux modalités
s’excluent mutuellement.

∑ somme des pour une question

∑ nombre de questions

∑ nombre d’individu ayant pris la modalité j

∑ ∑ ∑ nombre total d’individu

2) Tableau de Burt

On obtient le tableau de Burt associé au tableau X en juxtaposant les tableaux de contingence


croissant 2 à 2 les p-variables qualitatives

Sexe Situation matrimoniale


M F Marié Célibataire Autres
Sexe M 10 0 3 5 2
F 0 20 10 7 3
Situation M 3 10 13 0 0
Matrimoniale C 5 7 0 12 0
A 2 3 0 0 5
Si K désigne le TDC et B le tableau de Burt associé au tableau X, on a : de terme
général, ∑

II. Description d’une ACM

La description d’une ACM est la même que une AFC, on s’intéresse aux profils (profil ligne
et profil colonne). On obtient les profils en divisant l’effectif de chaque case du tableau croisé
par l’effectif marginal. Ainsi on a :

Profil d’une ligne

Profil d’une colonne

L’ensemble des profils lignes (respectivement colonne) forme un nuage des I-points
(respectivement J-points)

@paul tonye mbeng


L’AFC est une double ACP : une ACP sur les tableaux des profils lignes et une ACP sur les
tableaux des profils colonnes.

17

@paul tonye mbeng


@paul tonye mbeng

Vous aimerez peut-être aussi