Académique Documents
Professionnel Documents
Culture Documents
Avril 2023
Objectifs du cours :
Ce cours a pour objectif de procurer aux étudiants les méthodes leur permettant de :
- représenter synthétiquement de vastes ensembles numériques pour faciliter la prise des
décisions
- traiter des données qualitatives, ce qui en fait des méthodes capables de considérer un grand
nombre de problèmes.
- Chercher les ressemblances entre les individus et les liaisons entre les variables. Ces
proximités entre individus et variables vont permettre à l'étudiant de déterminer une typologie
des individus et des variables, et ainsi il pourra interpréter ses données et fournir une synthèse
des résultats des analyses.
Les étudiants devront :
Comprendre les principes de base mathématiques justifiant les méthodes
expliquées dans le cours
être capables d'interpréter les résultats d'une AFC ou d'une ACM (discussion
des inerties, interprétation des axes, mise en évidence de modalités
particulières)
Bibliographie
Domaines d'application
Aujourd'hui les méthodes d'analyse de données sont employées dans un grand nombre de
domaines qu'il est impossible d'énumérer. Actuellement ces méthodes sont beaucoup utilisées
en marketing par exemple pour la gestion de la clientèle (pour proposer de nouvelles mesures
ciblées). Elles permettent également l'analyse d'enquêtes par exemple par l'interprétation de
sondages (où de nombreuses données qualitatives doivent être prises en compte). Nous
pouvons également citer la recherche documentaire qui est de plus en plus utile notamment
avec internet (la difficulté porte ici sur le type de données textuelles ou autres). Le grand
nombre de données en météorologie a été une des premières motivations pour le
développement des méthodes d'analyse de données. En fait, tout domaine scientifique qui
doit gérer de grande quantité de données de type varié ont recours à ces approches (écologie,
linguistique, économie, etc) ainsi que tout domaine industriel (assurance, banque, téléphonie,
etc). En ingénierie mécanique, elles peuvent aussi permettre d'extraire des informations
intéressantes sans avoir recours à des modèles parfois alourdis pour tenir compte de toutes les
données.
Les données
Nous considérons tout d'abord que la population peut être décrite par des données de deux
types de caractères : qualitatif ou quantitatif. Les caractères qualitatifs peuvent être : purs
(variables nominales) i.e. que les modalités ne possèdent pas de structure d'ordre ou
ordonnés (variables ordinales) i.e. que les modalités qualitatives sont ordonnées. Il est aisé
de comprendre que les données à caractère qualitatif doivent être adaptées pour les méthodes
numériques.
Les méthodes d'analyse de données supposent souvent une organisation des données
particulière, naturelle, mais parfois difficile à réaliser selon l'application et les données. Le
choix d'un tableau permet une organisation dans le plan de toutes les données et ainsi de
traiter simultanément toute l'information. Ainsi la plupart des méthodes nécessitent une
organisation des données présentée sous forme de tableau.
Les méthodes
L'analyse de données regroupe deux familles de méthodes suivant les deux objectifs cités
précédemment :
Une partie des méthodes cherche à représenter de grands ensembles de données par peu de
variables i.e. recherche les dimensions pertinentes de ces données. Les variables ainsi
déterminées permettent une représentation synthétique recherchée.
L'analyse en composantes principales est l'une des méthodes les plus employées. Elle est
particulièrement adaptée aux variables quantitatives, continues, à priori corrélées entre elles.
Une fois les données projetées dans différents plans, les proximités entre variables
s'interprètent en termes de corrélations, tandis que les proximités entre individus
s'interprètent en termes de similitudes globales des valeurs observées.
L'analyse factorielle des correspondances (ou analyse des correspondances binaires) a été
conçue pour l'étude des tableaux de contingence obtenus par croisement de variables
qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout
adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes ont un rôle
symétrique et s'interprètent de la même façon.
L'analyse factorielle des correspondances multiples est une extension de l'analyse factorielle
des correspondances qui ne permet que le croisement de deux variables qualitatives. Elle est
donc adaptée à la description de grands tableaux de variables qualitatives par exemple pour le
traitement d'enquêtes.
_ Une autre partie des méthodes cherche à classer les données de manière automatique. Ces
méthodes sont complémentaires avec les précédentes pour synthétiser et analyser les données
et répondre plus particulièrement à l'objectif fixé de caractériser les proximités entre
individus et celles entre variables. Ces méthodes de classification sont soit à apprentissage
supervisé (i.e. qui nécessitent une base de données d'apprentissage - ces méthodes sont
appelées en statistique les analyses discriminantes) soit à apprentissage non-supervisée (i.e.
qui ne nécessitent aucune donnée préalable).
_ Parmi les méthodes issues de l'analyse discriminante et directement rattachées à l'analyse de
données il y a l'analyse linéaire discriminante, la régression logistique, les k plus proches
voisins ou encore les arbres de décision.
L'analyse linéaire discriminante est aussi appelée analyse factorielle discriminante car elle est
en fait une analyse en composantes principales supervisée. Elle décrit les individus en classes
(celles-ci sont données par une variable issue de l'apprentissage) et ensuite affecte de
nouveaux individus dans ces classes. C'est donc une méthode à la fois descriptive et
prédictive. Elle permet de traiter aussi bien des variables quantitatives que qualitatives.
La régression logistique consiste à exprimer les probabilités à posteriori d'appartenance à une
classe p(C=x) comme une fonction de l'observation. Bien souvent c'est la régression linéaire
qui est employée.
L'approche des k plus proches voisins repose sur l'idée simple d'attribuer un nouvel individu à
la classe majoritaire parmi ses k plus proches voisins (individus de la base d'apprentissage les
plus proches au sens d'une certaine distance).
Dans la plus part des études appliquées, on observe que les individus ne sont caractérisés par
une ou deux variables, mais par un nombre élevé de variables. L’étude univariée ou bivariée
est certes une phase indispensable, mais elle reste tout à fait insuffisante, car elle laisse de
côté les multiples liaisons qui peuvent exister entre les variables.
Les méthodes d’AD cherchent à analyser les données en tenant compte de leur caractère
multidimensionnel. Ces méthodes fournissent des graphiques claires qui permettent de
résumer l’information contenu dans les données.
I- Définitions fondamentales
1) Définition
En sciences humaines, on s'intéresse dans la plupart des cas à un nombre d’unités. Sur ces
unités, on mesure un caractère ou une variable, le chiffre d'affaires de l'entreprise, le revenu
du ménage, l'âge de la personne, la catégorie socio-professionnelle d'une personne.
On suppose que la variable prend toujours une seule valeur sur chaque unité. Les variables
sont désignées par simplicité par une lettre (X; Y; Z). Les valeurs possibles de la variable,
sont appelées modalités. L'ensemble des valeurs possibles ou des modalités est appelé le
domaine de la variable.
Exemple : Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F). Le
domaine de la variable est {M; F}.
Exemple : Les modalités de la variable nombre d'enfants par famille sont 0,1,2,3,4,5,.... C'est
une variable quantitative discrète.
3) Série statistique
On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d'observation. Le nombre d'unités d'observation est noté n. Les valeurs de la variable X sont
notées x1; :::; xi; :::; xn:
Exemple : On s'intéresse à la variable ‘état-civil' notée X et à la série statistique des valeurs
prises par X sur 20 personnes. La codification est :
C : célibataire, M : marié(e), V : veuf(ve), D : divorcé (e).
Le domaine de la variable X est {C;M; V;D} Considérons la série statistique suivante :
MMDCCMCCCMCMVMVDCCCM
Introduction :
L’ACP est une technique statistique qui permet d’obtenir un résumé descriptif, sous forme
graphique de l’information contenue dans un vaste tableau de données quantitatives. A
travers ces graphiques, l’ACP cherche à :
Les données à analyser se présentent généralement sous la forme d’un vaste tableau
(individus*variables). Les individus sont en ligne et les variables en colonne. Avant de
procéder à l’AD, il convient de définir un thème précis et de choisir les variables qui décrit ce
thème. Les variables choisies sont appelées variables actives, elles sont quantitatives. Ce sont
ces variables qui participent aux calculs qu’implique l’ACP. D’autres variables peuvent
intervenir au stade de l’interprétation, celle sont qualifiées de variables illustratives. Elles
peuvent être quantitatives ou qualitatives.
[ ]
En ACP, on s’intéresse à la fois aux variables et aux individus, on définit donc deux nuages
de point à partir de la matrice X
La moyenne : ̅ ∑
La variance : ∑ ̅ on obtient ainsi le tableau de variance covariance
On peut déterminer le tableau des valeurs centrées et réduites c’est-à-dire :
̅
, la moyenne de ces nouvelles variables est nulle et leur variance égale à
√
1 : on dit qu’on effectue une ACP normée.
b. Le nuage des individus
Deux individus sont proches l’un de l’autre, si leurs p-coordonnées sont proches. On mesure
la proximité entre 2 individus en utilisant la distance euclidienne :
‖ ‖ ∑
Au nuage de point des individus, on associe un point moyen dont les coordonnées sont les
moyennes des p-variables : ̅ ∑̅ ̅ ̅
L’inertie d’un nuage de point est la dispersion pondérée de ces points autour de leur centre de
gravité (moyenne) elle est notée (I) et sa formule est : ̅ ∑‖ ̅‖
En ACP normée, l’inertie totale du nuage de point est égale au nombre de variables actives
c’est-à-dire : ∑ avec valeur propre
Exemple :
En pratique, nous disposons de plus de 2 variables observées sur un nombre d’individu. Cela
signifie que les nuages des individus et des variables appartiennent à un espace de dimension
supérieur ou égale à 2. Pour bien explorer l’information contenue dans ces nuages, il faut
trouver un moyen de la représenter graphiquement : c’est l’intérêt de l’ACP.
L’ACP cherche le plan de projection dans lequel les nuages se projettent en restant le plus
fidèle possible du nuage c’est-à-dire de minimiser la perte de distance entre les points.
Interpréter, c’est donner du sens : aux axes, à des proximités, au regroupement entre les
variables ou entre les individus. L’interprétation d’une ACP passe par l’interprétation d’un
nuage de variables et par celui des individus.
On appelle axes factoriels ou axes principaux, les vecteurs propres donnant les directions
d’inertie maximale.
Les composantes principales sont les projections des individus sur les axes principaux.
1) Le cosinus carré permet d’apprécier la qualité de représentation d’un point par rapport
à son positionnement réel dans l’espace. Les points les mieux représenter et donc
facilement interprétable sont ceux dont le cosinus carré est proche de un (1)
Si le cosinus carré = 1, cela signifie que le point se trouve sur l’axe de projection : on
parlera d’une bonne représentation
En ACP, la question est de savoir s’il faut interpréter tous les axes factoriels. En effet, le
nombre d’axes obtenus à l’issue d’une ACP est égale au nombre de variable (p). Chacun de
ces axes explique une partie de l’information mesurée par la somme des valeurs propres.
La part d’inertie : suivant cette règle, on examinera les axes jusqu’à ce que l’on
atteigne un cumul d’information jugé suffisant.
Critère de Kaiser : ce critère recommande de ne s’intéresser qu’à des axes factoriels
associé à des valeurs propres supérieur ou égale à un (1)
L’AFC étudie la liaison entre deux variables qualitatives et détermine les modalités des qui
interviennent dans la liaison ainsi que la manière dont elles interviennent. L’AFC est adapté à
l’analyse des données se présentant sous forme d’un tableau croisé ou de contingence.
I. Données et notation
I
Total ... ...
nombre d’individus ayant pris les modalités i pour X et j pour Y
c’est la fréquence
a) Avantages du khi-deux
Le khi carré est une mesure qui :
S'utilise aussi bien avec les variables nominales et aussi bien avec les classes;
Indique l'existence d'un lien entre deux variables;
S'applique quel que soit la distribution des variables.
b) Inconvénient
N'indique que l'existence d'un lien, mais non la force du lien entre les variables. Cela nous
limite considérablement. Pour étudier la relation entre deux variables, il faut prendre les
coefficients de contingence, le T de Tschuprow ou le V de Cramer ou le phi.
Plus le khi carré est élevé, plus forte est la probabilité qu'il y ait une relation entre les
variables étudiées. Cependant, il n'y a pas de lien direct entre la valeur du khi carré et la force
du lien entre deux variables. Il faut soit consulter des tables ou, le plus souvent, examiner la
probabilité que notre logiciel statistique y associe.
Pour consulter les tables, il faut calculer le degré de liberté souvent abrégé sous la
forme ddl. Dans le calcul du khi carré pour une variable, le degré de liberté est simplement le
nombre de modalités moins un. Dans un tableau contenant deux variables, c'est le produit du
degré de liberté de chaque variable
n ni . n. j / n.. Fo
2 2
I J I J Feij
2 ij ij
i 1 j 1 ni . n. j / n.. i 1 j 1 Eij
3) Règle de décision :
En AFC, on s’intéresse aux profils (profil ligne et profil colonne). On obtient les profils en
divisant l’effectif de chaque case du tableau croisé par l’effectif marginal. Ainsi on a :
L’AFC est une double ACP : une ACP sur les tableaux des profils lignes et une ACP sur les
tableaux des profils colonnes.
Les éléments d’aide à l’interprétation en ACP ainsi que les règles de choix des axes sont les
même qu’en AFC.
Un axe est interprétée à la fois par les modalités lignes et les modalités colonnes. Les profils
les mieux représentés sur un axe illustre bien cet axe. Ils permettent en fait d’expliquer son
sens. Mais le fait qu’en AFC, chaque point soit affecté d’un poids rend indispensable l’usage
des contributions. Ainsi la contribution d’un point i dépend de ses coordonnées sur l’axe et de
son poids. Un point peut donc avoir une forte coordonnée sur un axe, sans pour autant
contribuer fortement à son positionnement : cela dépend du poids. Un point de coordonnée
faible (moins éloigné) peut avoir une contribution forte si son poids est élevé. Les points à
forte contribution permettent d’expliquer la formation des axes.
Introduction :
L’ACM étudie les tableaux des données d’individus décrit par plusieurs variables
qualitatives. Il s’agit d’une généralisation de l’AFC. L’ACM est la méthode d’analyse
privilégiée des données, car elle se prête à l’analyse des questionnaires et d’un ensemble plus
vaste de tableau. Cependant, sur un plan formel, l’ACM est une simple application de l’AFC.
Toutefois, elle présente des propriétés mathématiques particulières et des règles
d’interprétation différentes de celles de l’AFC.
On dispose d’un échantillon de n-individus décrit par p-variables qualitatives. Les p-variables
peuvent être considérées comme des questions. Soit Q l’ensemble des questions, pour une
question q, on note l’ensemble des modalités des réponses. ⋃ l’ensemble des
tableaux des données. On notera X l’ensemble des tableaux des données
Ici, chaque modalité devient une variable. A partir du tableau des données X, on définit ce
tableau de la façon suivante : , on pose :
∑ nombre de questions
2) Tableau de Burt
La description d’une ACM est la même que une AFC, on s’intéresse aux profils (profil ligne
et profil colonne). On obtient les profils en divisant l’effectif de chaque case du tableau croisé
par l’effectif marginal. Ainsi on a :
L’ensemble des profils lignes (respectivement colonne) forme un nuage des I-points
(respectivement J-points)
17