Académique Documents
Professionnel Documents
Culture Documents
Enseignant :
Brice DONGMEZO, PhD
Ingénieur statisticien économiste
Octobre 2023
Plan du cours
Plan du cours ................................................................................................................................... 2
Chapitre 1. Introduction ................................................................................................................. 5
1.1. Quelques rappels mathématiques ............................................................................................................... 5
1.2. Les types de données .................................................................................................................................... 7
1.3. Inventaire des données ................................................................................ Erreur ! Signet non défini.
1.4. Constitution de la base de données ............................................................ Erreur ! Signet non défini.
1.5. Exploration et traitement préliminaire des données ................................................................................ 9
1.5.1 Analyse exploratoire univariée et bivariée .......................................................................................... 9
1.5.2 Traitement préliminaire sur les données ............................................................................................. 9
1.5. Quelques conseils........................................................................................................................................ 12
Chapitre 2. Analyse en Composantes Principales (ACP) .......................... Erreur ! Signet non défini.
2.1. Données utilisées en ACP ........................................................................... Erreur ! Signet non défini.
2.2. Objectifs d’une ACP .................................................................................... Erreur ! Signet non défini.
2.3. Principe de l’ACP.......................................................................................... Erreur ! Signet non défini.
2.4. Ajustement des nuages, dualité ................................................................... Erreur ! Signet non défini.
2.5. Reconstitution de la matrice de données de départ ................................. Erreur ! Signet non défini.
2.6. Individus et variables illustratifs ................................................................. Erreur ! Signet non défini.
2.7. Indices d’aide à l’interprétation ................................................................... Erreur ! Signet non défini.
2.8. L’effet taille .................................................................................................... Erreur ! Signet non défini.
2.9. Rotation des facteurs .................................................................................... Erreur ! Signet non défini.
2.10. ACP sur corrélations partielles ................................................................. Erreur ! Signet non défini.
2.11. Application .................................................................................................. Erreur ! Signet non défini.
Chapitre 3. Analyse Factorielle des Correspondances (AFC) .................... Erreur ! Signet non défini.
3.1. Les données utilisées en AFC et rappel sur le test du Khi-2 .................. Erreur ! Signet non défini.
3.2. Objectifs et principe de l’analyse factorielle des correspondances ........ Erreur ! Signet non défini.
3.3. Configurations particulières du tableau de contingence et nuage de pointsErreur ! Signet non
défini.
3.4. Analyse et interprétation des résultats d’une AFC ................................... Erreur ! Signet non défini.
3.5. Application..................................................................................................... Erreur ! Signet non défini.
Chapitre 4. Analyse des Correspondances Multiples (ACM) .................... Erreur ! Signet non défini.
2
©Brice DONGMEZO, Ing. Ph.D
4.1. Organisation des données et prise en compte des variables quantitativesErreur ! Signet non
défini.
4.1.1 Tableau de données ............................................................................... Erreur ! Signet non défini.
4.1.2. Prise en compte des variables quantitatives ...................................... Erreur ! Signet non défini.
4.2 Objectifs et principe de l’ACM .................................................................... Erreur ! Signet non défini.
4.3. Interprétation des résultats de l’ACM ........................................................ Erreur ! Signet non défini.
4.4. Application..................................................................................................... Erreur ! Signet non défini.
Chapitre 5. Analyse Factorielle des Correspondances Multiples (AFCM) Erreur ! Signet non défini.
5.1. Objectifs et données ..................................................................................... Erreur ! Signet non défini.
5.2. Principe de l’AFM ......................................................................................... Erreur ! Signet non défini.
5.3. Domaines et exemples d’application.......................................................... Erreur ! Signet non défini.
5.4. Application et interprétation. ...................................................................... Erreur ! Signet non défini.
Chapitre 6. Classification ........................................................................... Erreur ! Signet non défini.
6.1 Généralités sur la classification .................................................................... Erreur ! Signet non défini.
6.1.1. Tableau de données .............................................................................. Erreur ! Signet non défini.
6.1.2. But de la classification .......................................................................... Erreur ! Signet non défini.
6.2 Définition des distances ................................................................................ Erreur ! Signet non défini.
6.3 Méthodes d’agrégation .................................................................................. Erreur ! Signet non défini.
6.2 Construction d’un arbre ascendant hiérarchique et choix de la meilleure partitionErreur ! Signet
non défini.
6.4 Comparaison de deux arches hiérarchiques ............................................... Erreur ! Signet non défini.
6.5 Classification hiérarchique descendante ..................................................... Erreur ! Signet non défini.
6.6 Classification non hiérarchique .................................................................... Erreur ! Signet non défini.
6.6.1. Méthodes k-means ................................................................................ Erreur ! Signet non défini.
6.6.1. Extension de la méthode k-means aux variables qualitatives ou mixtesErreur ! Signet non
défini.
6.6.2 Méthode des k-medoides ...................................................................... Erreur ! Signet non défini.
6.7. Utilisation conjointe de CH et CNH ......................................................... Erreur ! Signet non défini.
6.5 Interprétation des résultats d’une classification et cas pratiques sur logicielsErreur ! Signet non
défini.
3
©Brice DONGMEZO, Ing. Ph.D
Bibliographie .............................................................................................. Erreur ! Signet non défini.
4
©Brice DONGMEZO, Ing. Ph.D
Contenu du cours d’Analyse Multidimensionnelle
de Données (AMD) de AS2
5
©Brice DONGMEZO, Ing. Ph.D
Chapitre I : Rappels et Introduction
L’analyse des données regroupe de nombreuses méthodes ayant un noyau théorique commun. C’est pour
cela que nous commençons par des rappels mathématiques (notions d’algèbre principalement) à la base de
l’analyse de données. Ensuite, quelques rappels de statistiques descriptives permettront d’exposer les
données utilisées et les traitements préliminaires à effectuer sur ces dernières. Nous finirons par introduire
l’analyse de données multidimensionnel en soulignant son intérêt capital dans la démarche d’analyse
statistique.
Ces deux opérations confèrent à l’ensemble Mij (IK) des matrices de m lignes et n colonnes sur le corps
IK, une structure d’espace vectoriel de dimension mn qui sera aussi noté IKmxn.
Outre les opérations liées à la structure d’espace vectoriel, il existe le produit matriciel. Soient :
A = ( aij ) et B = ( bij )n p , alors le produit AB des deux matrices est la matrice m p définie par :
mn
n
C = AB = cij = aik bkj
k =1
6
©Brice DONGMEZO, Ing. Ph.D
Trace d’une matrice : soit A une matrice carrée n n , alors la trace de A notée Tr ( A ) est la somme des
éléments de sa diagonale principale :
n
Tr ( A ) = aii
i =1
• Tr ( ) = , étant un scalaire
• Tr ( A) = Tr ( A ) = Tr ( A )
• Tr ( AB ) = Tr ( BA )
Inverse d’une matrice : Soit A une matrice carrée d’ordre n. B est dite inverse de A si AB = BA = I n
où I n est la matrice identité d’ordre n. On écrit alors B = A−1
NB : (i) Si la matrice inverse de A existe, alors elle est unique ; (ii) A est dite régulière si elle admet un
inverse. Dans le cas contraire, A est dite singulière.
Rang d’une matrice : Soit A une matrice, le rang de la matrice A est le nombre maximum de colonnes
de A linéairement indépendants. (Les vecteurs v1 , v2 , …. sont dits linéairement indépendants si la
relation linéaire 1v1 + 2 v2 + ... = 0 implique 1 = 2 = ... = 0 )
Soit A une matrice, le déterminant de A noté Det(A) est donnée par la formule suivante : Etant donné
la ligne ou la colonne j , on a :
i =1
Où Aij est la matrice A dans laquelle on a barré la ligne i et la colonne j. On a les propriétés suivantes
liées au déterminant :
• Det ( A ) = 0 si 2 colonnes ou 2 lignes sont égales ou proportionnelles ;
Det ( A−1 ) =
1
• ;
Det ( A)
• Det ( A ) = n Det ( A ) si A est une matrice carré d’ordre n ;
Si A est une matrice carrée d’ordre n , les trois propriétés suivantes sont équivalentes :
7
©Brice DONGMEZO, Ing. Ph.D
(i) Det ( A ) 0 ;
(ii) A est inversible ;
(iii) rg ( A ) = n
Soit A une matrice carrée d’ordre n . On peut définir les valeurs propres ( ) et vecteurs propres ( u ) de
la matrice A par la relation :
Au = u
Le scalaire est une valeur propre de A et le vecteur non nul u est un vecteur propre associé à .
NB :
(i) Les valeurs propres de la matrice A sont les solutions obtenues de la résolution de l’équation :
Det ( A − I ) = 0 ; le polynôme Det ( A − I ) est aussi appelé polynôme caractéristique de A.
(ii) Après avoir obtenu la valeur propre , un vecteur propre u associé à la valeur propre est
déterminé en résolvant l’équation suivante : ( A − I ) u = 0
Diagonalisation
Soit A une matrice carrée d’ordre n. A est dite diagonalisable si elle possède n vecteurs propres indépendants.
On a alors :
A = UDU −1
Où U est la matrice dont les colonnes sont les vecteurs propres de A et D , diagonale, est celle dont les
éléments diagonaux sont les valeurs propres de A. Les matrices A et D sont dites semblables.
Dans les techniques d’analyse des données, on appelle population l’ensemble des individus ou unités
statistiques effectivement étudiés.
Définition : Un individu est une unité statistique sur laquelle on effectue des mesures ou observations.
Les unités statistiques sont numérotées de 1 à n : on note généralement I = 1, 2, , n l’ensemble de ces
indices.
Sur chaque individu d’une population donnée, on observe une ou plusieurs variables, ou caractères
statistiques.
Définition : Une variable est une caractéristique commune aux individus ou observations d’une étude.
Les données manipulées en statistique peuvent se présenter sous différentes formes. Ces formes influent
de façon décisive sur la manière de représenter celle-ci et sur les types de traitements qui pourront lui être
8
©Brice DONGMEZO, Ing. Ph.D
appliqués en vue de son analyse. On distingue de manière générale, deux grands types de variables en
statistique.
• Les variables quantitatives. Elles sont mesurables/quantifiables (exemples : âge, taille, nombre
d’enfants, salaire). Elles peuvent être de nature discrète ou continue.
• Les variables qualitatives, en revanche, sont non quantifiables. Elles peuvent être nominales,
c’est-à-dire que leurs modalités ne sont pas hiérarchisables (situation matrimoniale : marié,
célibataire, veuf, divorcé ; nationalité : Mauritanien, Sénégalais, Béninois, Ivoirien, Guinéen etc.),
ou ordinale (taille vestimentaire (S, M, L, XL), la satisfaction d’un client pour un produit qui prend
les modalités : pas du tout satisfait, pas satisfait, satisfait, très satisfait), ou binaire/dichotomique
(le sexe qui prend l’une des deux modalités masculin ou féminin).
Le traitement d’une problématique en statistique ou en économie passe inévitablement par la collecte (au
sens large, ça peut juste être un regroupement de données) de données. En général, les bases de données
qui sont une collection des variables de différents type (cité précédemment) peuvent être obtenues de
diverses façons, il s’agit par exemple :
• Les recensements (de la population, agricole, bétail etc., important pour les bases de sondages) ;
• Les enquêtes (programmée et précises, se concentrent sur une population cible dit échantillon) ;
• Les sondages (rapide et très ciblé, généralement utilisé en politique) ;
• Les entretiens (ou focus group, utilisés par les sociologues) ;
• L’enregistrement (systématique et parfois obligatoire : registres, licences) ;
• Les consultations de bases de données (issue d’une collecte automatique) ;
9
©Brice DONGMEZO, Ing. Ph.D
• Les déclarations (qui sont issue de la loi, devoir etc. : Naissances, décès etc.) ;
• Les méthodes liées aux big data (obtenues généralement à travers internet), etc.
Les données obtenues par l’une ou plusieurs méthodes sus mentionnées doivent passer par des étapes
importantes visant à répondre à la problématique posée.
En général ces incohérences ou problèmes détectés sont traités au cas par cas en fonction du type de la
variable et de la méthode qui va être utilisée. C’est ensuite la recherche de prétraitements des données afin
de les rendre conformes aux techniques de modélisation ou d’apprentissage qu’il sera nécessaire de mettre
en œuvre afin d’atteindre les objectifs fixés :
En principe, le côté rudimentaire voire trivial de ces outils ne doit pas conduire à les négliger au profit
d’une mise en œuvre immédiate de méthodes beaucoup plus sophistiquées, donc beaucoup plus sensibles
aux problèmes cités ci-dessus. S’ils ne sont pas pris en compte, ils risquent de dénaturer voire de fausser
les analyses.
Pour analyser une variable qualitative, on dresse un tableau qui donne les effectifs et les pourcentages des
différentes modalités de la variable. On peut ensuite réaliser à partir de ce tableau un diagramme circulaire
ou un diagramme en bandes qui donne la répartition de cette variable.
Exemple : Tri à plat sur la situation maritale (substituable par un camembert ou diagramme en bandes)
Fréquence (%)
Situation maritale Effectif
Remarquer la disposition du signe pourcentage
Marié 10 29,4
Célibataire 15 44,1
Veuf 6 17,6
Divorcé 3 8,8
Total 34 100,0
On peut également rechercher le mode. On appelle mode d'une variable qualitative la ou les valeur(s) ayant
le plus grand effectif ou la plus grande proportion. Pour notre exemple, le mode c’est Célibataire.
(i) Indicateurs de tendances centrales : les moyennes, le mode, la médiane, les quantiles.
(ii) Indicateurs de dispersion : étendue, variance, écart type.
(iii) Indicateurs de forme : Coefficient d’asymétrie et coefficient d’aplatissement.
Nous allons rappeler deux indicateurs clés : la moyenne et la variance, avec leur interprétation. On note X
une variable quantitative quelconque, avec les observations x1 , x2 , , xn .
• La moyenne X : c’est la valeur qu’aurait pris chaque individu si la variable était répartie de façon
égalitaire entre tous les individus. La moyenne est un indicateur de tendance centrale qui a
l’inconvénient de cacher les inégalités au sein de la population. Sa formule est :
1 n
X= xi
n i =1
• La variance Var ( X ) ou X2 : C’est la moyenne des carrés des écarts à la moyenne. Elle permet
de mesurer la dispersion des observations autour de la moyenne. On utilise surtout à l’écart-type
𝜎𝑋 qui est sa racine carrée. La formule de calcul de la variance est :
1 n
( xi − X )
2
X2 =
n i =1
11
©Brice DONGMEZO, Ing. Ph.D
• Le coefficient de variation est obtenu en divisant l’écart-type par la moyenne. Lorsque le
coefficient de variation est faible (inférieur à 5-10%) (𝜎𝑋 faible par rapport à la moyenne), cela
signifie une faible dispersion autour de la moyenne. Ce qui veut dire que la population est
relativement homogène et dans ce cas, la moyenne 𝑿 ̅ est représentative et son interprétation a un
sens. En revanche, si le coefficient de variation est élevé, cela indique une forte hétérogénéité de
̅ n’a pas de sens. Et il vaut mieux recourir à la médiane.
la population. Dans ce cas 𝑿
Comme représentation graphique, on peut synthétiser l’information contenue dans une variable
quantitative grâce à un diagramme en bâtons (cas d’une variable quantitative discrète) ou à l’aide d’un
histogramme ou d’une boîte à moustache (cas d’une variable quantitative continue).
Comme son nom l’indique, l’analyse bivariée s’intéresse aux relations entre les variables prises deux à deux.
12
©Brice DONGMEZO, Ing. Ph.D
D’après l’analyse graphique, pour valider l’existence d’une liaison linéaire (corrélation linéaire) entre deux
variables X et Y on calcule le coefficient de corrélation de Pearson noté : ( X , Y ) ou rXY :
Cov ( X , Y )
( X ,Y ) =
X Y
Sur un échantillon de taille n il est calculé comme suit :
1 n
( xi − X )( yi − Y )
n i =1
( X ,Y ) =
X Y
Le coefficient de corrélation est indépendant des unités de mesure des variables, ce qui autorise les
comparaisons. Il varie entre -1 et 1, en conséquence s’interprète comme suit :
• +1 : on dit qu’il y a une forte corrélation positive (liaison linéaire positive) entre X et Y ; les
deux variables évoluent dans le même sens. Ex Revenu et consommation ;
• −1 : il y a une forte liaison linéaire négative entre X et Y ; les deux variables évoluent dans le
sens contraire : Ex prix et consommation ;
• 0 : indique l’absence de corrélation entre X et Y. Notons que l’absence de liaison linéaire ne
veut pas dire absence de relation. Il peut bien avoir une relation de type fonctionnelle ente X et Y.
L’analyse univariée ou bivariée est certes une étape importante de l’analyse statistique, mais insuffisante
lorsqu’il s’agit de grands tableaux de données contenant un nombre important de variables. Par
exemple pour un tableau avec p = 5 variables, on doit faire 10 analyses bivariées pour faire ressortir
l’ensemble des liens qui existent entre les variables. En outre faire plusieurs analyses bivariées sur un
tableau de données est une approche inappropriée car elle laisse de côté les liaisons multidimensionnelles
qui peuvent exister entre les variables. Ces liaisons ne sont en effet visibles que grâce à la confrontation de
nombreuses informations issues des variables du tableau croisées entre elles. Aussi, pouvoir analyser
rapidement, et simultanément, les relations entre plusieurs variables, est infiniment plus riche que l’analyse
séparée des variables prises deux à deux.
Tout domaine scientifique qui doit gérer de grandes quantités de données de type varié a recourt aux
méthodes d’analyse de données multidimensionnelles. Le champ d’application des méthodes d’AMD est
donc très vaste. On les retrouve :
13
©Brice DONGMEZO, Ing. Ph.D
• En physique et télécommunications, elles sont également utilisées pour le traitement du signal et
des images.
Les méthodes d’AMD ou de statistique exploratoire multidimensionnelles ont pour but de synthétiser, de
résumer et de structurer l’information contenue dans les données. Elles utilisent pour cela une
représentation des données sous forme de graphiques ou d’indicateurs numériques. Ces représentations
graphiques constituent le meilleur résumé possible de l’information contenu dans de gros tableaux de
données. Les méthodes d’AMD extraient les tendances les plus marquantes qui structurent les données,
les hiérarchisent et éliminent les effets marginaux (bruits) qui perturbent la perception globale des faits.
• L’Analyse en Composantes Principales (ACP) qui s’applique à l’analyse des tableaux dans
lesquels des variables quantitatives continues sont mesurées sur des individus (ou observations).
On parle de tableau Individus x variables quantitatives continues ;
• L’Analyse Factorielle des Correspondances (AFC) ou analyse des correspondances binaires,
appropriée pour l’étude des tableaux de contingence obtenus par croisement de variables
qualitatives ;
• L’Analyse des Correspondance Multiple (ACM) qui est une extension de l’analyse factorielle
des correspondances et permet le croisement de plus de deux variables qualitatives. Elle est adaptée
à la description de grands tableaux de variables qualitatives, par exemple pour le traitement
d’enquêtes ;
• Les méthodes de Classification Automatique (CA) (la méthode des K-means, DBScan, la
classification hiérarchique ascendante ou descendante) qui permettent de construire des classes
d’individus homogènes à partir d’un ensemble d’individus ;
Parmi les logiciels utilisés pour mettre en œuvre les méthodes d’analyse de données multidimensionnelles,
nous nous intéresserons dans le cadre de ce cours aux logiciels SPAD, SPSS, Stata, Python et R. C’est avec
ces logiciels que les travaux pratiques seront réalisés.
14
©Brice DONGMEZO, Ing. Ph.D