ADD Chapitre 1

Cycle des Analystes Statisticiens
Deuxième année – Semestre 1

AS-2
COURS D’ANALYSE MULTIDIMENSIONNEL DES

DONNNEES (AMD)
Enseignant :
Brice DONGMEZO, PhD
Ingénieur statisticien économiste
Enseignant – Chercheur - Consultant
Octobre 2023
Plan du cours
Plan du cours ................................................................................................................................... 2
Chapitre 1. Introduction ................................................................................................................. 5
1.1. Quelques rappels mathématiques ............................................................................................................... 5
1.2. Les types de données .................................................................................................................................... 7
1.3. Inventaire des données ................................................................................ Erreur ! Signet non défini.
1.4. Constitution de la base de données ............................................................ Erreur ! Signet non défini.
1.5. Exploration et traitement préliminaire des données ................................................................................ 9
1.5.1 Analyse exploratoire univariée et bivariée .......................................................................................... 9
1.5.2 Traitement préliminaire sur les données ............................................................................................. 9
1.5. Quelques conseils........................................................................................................................................ 12
Chapitre 2. Analyse en Composantes Principales (ACP) .......................... Erreur ! Signet non défini.
2.1. Données utilisées en ACP ........................................................................... Erreur ! Signet non défini.
2.2. Objectifs d’une ACP .................................................................................... Erreur ! Signet non défini.
2.3. Principe de l’ACP.......................................................................................... Erreur ! Signet non défini.
2.4. Ajustement des nuages, dualité ................................................................... Erreur ! Signet non défini.
2.5. Reconstitution de la matrice de données de départ ................................. Erreur ! Signet non défini.
2.6. Individus et variables illustratifs ................................................................. Erreur ! Signet non défini.
2.7. Indices d’aide à l’interprétation ................................................................... Erreur ! Signet non défini.
2.8. L’effet taille .................................................................................................... Erreur ! Signet non défini.
2.9. Rotation des facteurs .................................................................................... Erreur ! Signet non défini.
2.10. ACP sur corrélations partielles ................................................................. Erreur ! Signet non défini.
2.11. Application .................................................................................................. Erreur ! Signet non défini.
Chapitre 3. Analyse Factorielle des Correspondances (AFC) .................... Erreur ! Signet non défini.
3.1. Les données utilisées en AFC et rappel sur le test du Khi-2 .................. Erreur ! Signet non défini.
3.2. Objectifs et principe de l’analyse factorielle des correspondances ........ Erreur ! Signet non défini.
3.3. Configurations particulières du tableau de contingence et nuage de pointsErreur ! Signet non
défini.
3.4. Analyse et interprétation des résultats d’une AFC ................................... Erreur ! Signet non défini.
3.5. Application..................................................................................................... Erreur ! Signet non défini.
Chapitre 4. Analyse des Correspondances Multiples (ACM) .................... Erreur ! Signet non défini.
2
©Brice DONGMEZO, Ing. Ph.D
4.1. Organisation des données et prise en compte des variables quantitativesErreur ! Signet non
défini.
4.1.1 Tableau de données ............................................................................... Erreur ! Signet non défini.
4.1.2. Prise en compte des variables quantitatives ...................................... Erreur ! Signet non défini.
4.2 Objectifs et principe de l’ACM .................................................................... Erreur ! Signet non défini.
4.3. Interprétation des résultats de l’ACM ........................................................ Erreur ! Signet non défini.
4.4. Application..................................................................................................... Erreur ! Signet non défini.
Chapitre 5. Analyse Factorielle des Correspondances Multiples (AFCM) Erreur ! Signet non défini.
5.1. Objectifs et données ..................................................................................... Erreur ! Signet non défini.
5.2. Principe de l’AFM ......................................................................................... Erreur ! Signet non défini.
5.3. Domaines et exemples d’application.......................................................... Erreur ! Signet non défini.
5.4. Application et interprétation. ...................................................................... Erreur ! Signet non défini.
Chapitre 6. Classification ........................................................................... Erreur ! Signet non défini.
6.1 Généralités sur la classification .................................................................... Erreur ! Signet non défini.
6.1.1. Tableau de données .............................................................................. Erreur ! Signet non défini.
6.1.2. But de la classification .......................................................................... Erreur ! Signet non défini.
6.2 Définition des distances ................................................................................ Erreur ! Signet non défini.
6.3 Méthodes d’agrégation .................................................................................. Erreur ! Signet non défini.
6.2 Construction d’un arbre ascendant hiérarchique et choix de la meilleure partitionErreur ! Signet
non défini.
6.4 Comparaison de deux arches hiérarchiques ............................................... Erreur ! Signet non défini.
6.5 Classification hiérarchique descendante ..................................................... Erreur ! Signet non défini.
6.6 Classification non hiérarchique .................................................................... Erreur ! Signet non défini.
6.6.1. Méthodes k-means ................................................................................ Erreur ! Signet non défini.
6.6.1. Extension de la méthode k-means aux variables qualitatives ou mixtesErreur ! Signet non
défini.
6.6.2 Méthode des k-medoides ...................................................................... Erreur ! Signet non défini.
6.7. Utilisation conjointe de CH et CNH ......................................................... Erreur ! Signet non défini.
6.5 Interprétation des résultats d’une classification et cas pratiques sur logicielsErreur ! Signet non
défini.
• Parangons .................................................................................................. Erreur ! Signet non défini.
• Variables dominantes dans la classification .......................................... Erreur ! Signet non défini.
3
Bibliographie .............................................................................................. Erreur ! Signet non défini.
4
Contenu du cours d’Analyse Multidimensionnelle
de Données (AMD) de AS2
Chapitre I – Rappels et introduction à l’Analyse Multidimensionnelle de Données

Rappels d’algèbre sur la décomposition matricielle, Rappels de statistique descriptive et
nécessité de l’analyse multidimensionnelle.
Chapitre II – Analyse en Composantes principales

Nuages d’individus, Nuage de variables, Inertie etc. Résumé dune grande base de données
quantitatives : Objectifs, principe et interprétations.
Chapitre III – Analyse Factorielle des correspondances

Comment analyser de façon exhaustive les liens existants entre deux variables qualitatives !
Objectifs, principe et interprétations. Notion de test du Khi deux, Nuage de modalités etc.
Chapitre IV – Analyse des Correspondances Multiples

Comment ressortir les liaisons existantes entre plusieurs variables qualitatives ! Objectifs, principe
et interprétations. Tableau de Burt, tableau disjonctif complet etc.
Chapitre V – Méthodes de classification

Comment regrouper les individus d’une base de données en fonction de leur ressemblances et
dissemblances ! Objectifs, principe et interprétations. Notion de distance, Classification Ascendante
et descendance hiérarchique, Classifications non hiérarchiques etc.
5
Chapitre I : Rappels et Introduction
L’analyse des données regroupe de nombreuses méthodes ayant un noyau théorique commun. C’est pour
cela que nous commençons par des rappels mathématiques (notions d’algèbre principalement) à la base de
l’analyse de données. Ensuite, quelques rappels de statistiques descriptives permettront d’exposer les
données utilisées et les traitements préliminaires à effectuer sur ces dernières. Nous finirons par introduire
l’analyse de données multidimensionnel en soulignant son intérêt capital dans la démarche d’analyse
statistique.
1.1. Quelques rappels mathématiques

Dans cette partie, nous faisons un rappel succinct des principales définitions et propriétés d’algèbre
matricielle. En effet, l’AMD se fonde principalement sur les méthodes de décomposition d’algèbre
matriciel. On suppose que les notions de IK-espace vectoriel (IK est ou ) et d’applications linéaires
sont connues. De façon commode en dimension finie, lorsqu’une base de l’espace vectoriel est spécifiée,
l’expression d’un vecteur dans la base est assimilée à une matrice colonne. La base choisie par défaut est
la base canonique.
Notations et premières définitions
Une matrice m  n , A , est un tableau d’éléments de IK, tel que

 a11 . . . a1n 
 
 . . . . . 
A= . . aij . .  , avec aij l’élément de i-ème ligne et j-ème colonne
 
 . . . . . 
a . amn 
 m1 . .
On a les définitions suivantes :
• Somme de deux matrices A et B : A + B = ( aij ) + ( bij ) = ( aij + bij )
• Produit d’une matrice par un scalaire   R :  A = A = (  aij )
Ces deux opérations confèrent à l’ensemble Mij (IK) des matrices de m lignes et n colonnes sur le corps
IK, une structure d’espace vectoriel de dimension mn qui sera aussi noté IKmxn.
Outre les opérations liées à la structure d’espace vectoriel, il existe le produit matriciel. Soient :
A = ( aij ) et B = ( bij )n p , alors le produit AB des deux matrices est la matrice m  p définie par :
mn
 n

C = AB =  cij =  aik bkj 
 k =1 
6
Trace d’une matrice : soit A une matrice carrée n  n , alors la trace de A notée Tr ( A ) est la somme des
éléments de sa diagonale principale :
n
Tr ( A ) =  aii
i =1
On a les propriétés suivantes :
• Tr (  ) =  ,  étant un scalaire
• Tr (  A) = Tr ( A ) = Tr ( A )
• Tr ( AB ) = Tr ( BA )
Si A, B, et C sont trois matrices carrées d’ordre n, Tr ( ABC ) = Tr ( BAC ) = Tr ( ACB ) = ...
Inverse d’une matrice : Soit A une matrice carrée d’ordre n. B est dite inverse de A si AB = BA = I n
où I n est la matrice identité d’ordre n. On écrit alors B = A−1
NB : (i) Si la matrice inverse de A existe, alors elle est unique ; (ii) A est dite régulière si elle admet un
inverse. Dans le cas contraire, A est dite singulière.
Rang d’une matrice : Soit A une matrice, le rang de la matrice A est le nombre maximum de colonnes
de A linéairement indépendants. (Les vecteurs v1 , v2 , …. sont dits linéairement indépendants si la
relation linéaire 1v1 +  2 v2 + ... = 0 implique 1 =  2 = ... = 0 )
Déterminant d’une matrice
Soit A une matrice, le déterminant de A noté Det(A) est donnée par la formule suivante : Etant donné
la ligne ou la colonne j , on a :
aij Det ( Aij )

n
Det ( A) =  ( −1)
i+ j
i =1
Où Aij est la matrice A dans laquelle on a barré la ligne i et la colonne j. On a les propriétés suivantes
liées au déterminant :
• Det ( A ) = 0 si 2 colonnes ou 2 lignes sont égales ou proportionnelles ;
• Det (  ) =  si  est un scalaire ;
• Det ( I n ) = 1 où I n est la matrice identité ;
Det ( A−1 ) =
1
• ;
Det ( A)
• Det (  A ) =  n Det ( A ) si A est une matrice carré d’ordre n ;
Si A est une matrice carrée d’ordre n , les trois propriétés suivantes sont équivalentes :
7
(i) Det ( A )  0 ;
(ii) A est inversible ;
(iii) rg ( A ) = n
Valeur propre, vecteur propre :
Soit A une matrice carrée d’ordre n . On peut définir les valeurs propres (  ) et vecteurs propres ( u ) de
la matrice A par la relation :
Au =  u
Le scalaire  est une valeur propre de A et le vecteur non nul u est un vecteur propre associé à  .
NB :
(i) Les valeurs propres de la matrice A sont les solutions obtenues de la résolution de l’équation :
Det ( A −  I ) = 0 ; le polynôme Det ( A −  I ) est aussi appelé polynôme caractéristique de A.
(ii) Après avoir obtenu la valeur propre , un vecteur propre u associé à la valeur propre  est
déterminé en résolvant l’équation suivante : ( A −  I ) u = 0
Diagonalisation
Soit A une matrice carrée d’ordre n. A est dite diagonalisable si elle possède n vecteurs propres indépendants.
On a alors :
A = UDU −1
Où U est la matrice dont les colonnes sont les vecteurs propres de A et D , diagonale, est celle dont les
éléments diagonaux sont les valeurs propres de A. Les matrices A et D sont dites semblables.
1.2. Les sources et types de données

1.2.1 Rappel : notion d’individu et de variable
Dans les techniques d’analyse des données, on appelle population l’ensemble des individus ou unités
statistiques effectivement étudiés.
Définition : Un individu est une unité statistique sur laquelle on effectue des mesures ou observations.
Les unités statistiques sont numérotées de 1 à n : on note généralement I = 1, 2, , n l’ensemble de ces
indices.
Sur chaque individu d’une population donnée, on observe une ou plusieurs variables, ou caractères
statistiques.
Définition : Une variable est une caractéristique commune aux individus ou observations d’une étude.
Les données manipulées en statistique peuvent se présenter sous différentes formes. Ces formes influent
de façon décisive sur la manière de représenter celle-ci et sur les types de traitements qui pourront lui être
8
appliqués en vue de son analyse. On distingue de manière générale, deux grands types de variables en
statistique.
• Les variables quantitatives. Elles sont mesurables/quantifiables (exemples : âge, taille, nombre
d’enfants, salaire). Elles peuvent être de nature discrète ou continue.
• Les variables qualitatives, en revanche, sont non quantifiables. Elles peuvent être nominales,
c’est-à-dire que leurs modalités ne sont pas hiérarchisables (situation matrimoniale : marié,
célibataire, veuf, divorcé ; nationalité : Mauritanien, Sénégalais, Béninois, Ivoirien, Guinéen etc.),
ou ordinale (taille vestimentaire (S, M, L, XL), la satisfaction d’un client pour un produit qui prend
les modalités : pas du tout satisfait, pas satisfait, satisfait, très satisfait), ou binaire/dichotomique
(le sexe qui prend l’une des deux modalités masculin ou féminin).
1.2.2 Différentes sources de données
Le traitement d’une problématique en statistique ou en économie passe inévitablement par la collecte (au
sens large, ça peut juste être un regroupement de données) de données. En général, les bases de données
qui sont une collection des variables de différents type (cité précédemment) peuvent être obtenues de
diverses façons, il s’agit par exemple :
• Les recensements (de la population, agricole, bétail etc., important pour les bases de sondages) ;
• Les enquêtes (programmée et précises, se concentrent sur une population cible dit échantillon) ;
• Les sondages (rapide et très ciblé, généralement utilisé en politique) ;
• Les entretiens (ou focus group, utilisés par les sociologues) ;
• L’enregistrement (systématique et parfois obligatoire : registres, licences) ;
• Les consultations de bases de données (issue d’une collecte automatique) ;
9
• Les déclarations (qui sont issue de la loi, devoir etc. : Naissances, décès etc.) ;
• Les méthodes liées aux big data (obtenues généralement à travers internet), etc.
Les données obtenues par l’une ou plusieurs méthodes sus mentionnées doivent passer par des étapes
importantes visant à répondre à la problématique posée.
1.3. Exploration et traitement préliminaire des données

Une fois les données à notre disposition, l’analyse passe par deux étapes : Le traitement préliminaire sur
les données et les analyses univariées et bivariées.
1.3.1 Traitement préliminaire sur les données

Au-delà de la familiarisation avec les données, l’analyse exploratoire permet également et surtout de
dépister les sources éventuelles de problèmes dans les données afin d’y apporter les prétraitements
adéquats. Les sources de problèmes habituels dans les données sont :
• Valeurs manquantes, erronées (aberrantes) ou atypiques ;
• Modalités trop rares ;
• Distributions "anormales" (dissymétrie, multimodalité, épaisseur des queues) ;
• Incohérences, liaisons non linéaires…
En général ces incohérences ou problèmes détectés sont traités au cas par cas en fonction du type de la
variable et de la méthode qui va être utilisée. C’est ensuite la recherche de prétraitements des données afin
de les rendre conformes aux techniques de modélisation ou d’apprentissage qu’il sera nécessaire de mettre
en œuvre afin d’atteindre les objectifs fixés :
• Transformation : logarithme, puissance, réduction, rangs. . . des variables,

• Codage en classe ou recodage de classes,
• Imputation ou non des données manquantes,
• Lissage, décompositions de courbes,
• Réduction de dimension, classification et premier choix de variables,
En principe, le côté rudimentaire voire trivial de ces outils ne doit pas conduire à les négliger au profit
d’une mise en œuvre immédiate de méthodes beaucoup plus sophistiquées, donc beaucoup plus sensibles
aux problèmes cités ci-dessus. S’ils ne sont pas pris en compte, ils risquent de dénaturer voire de fausser
les analyses.
1.3.2 Analyse exploratoire univariée et bivariée

L’étape d’exploration des données (résumés numériques et graphiques) est la seule façon de se familiariser
avec des données et reste une étape obligatoire dans la résolution d’une problématique. Dans ce cadre, les
variables sont analysées différemment selon leur type que ce soit en analyse statistique univariée ou
bivariée. Dans certains cas, elle peut permettre de solutionner le problème posé !
a) Analyse statistique univariée

10
• Analyse d’une variable qualitative
Pour analyser une variable qualitative, on dresse un tableau qui donne les effectifs et les pourcentages des
différentes modalités de la variable. On peut ensuite réaliser à partir de ce tableau un diagramme circulaire
ou un diagramme en bandes qui donne la répartition de cette variable.
Exemple : Tri à plat sur la situation maritale (substituable par un camembert ou diagramme en bandes)
Fréquence (%)
Situation maritale Effectif
Remarquer la disposition du signe pourcentage
Marié 10 29,4
Célibataire 15 44,1
Veuf 6 17,6
Divorcé 3 8,8
Total 34 100,0
On peut également rechercher le mode. On appelle mode d'une variable qualitative la ou les valeur(s) ayant
le plus grand effectif ou la plus grande proportion. Pour notre exemple, le mode c’est Célibataire.
• Analyse d’une variable quantitative
La description d'une variable quantitative se base sur les statistiques suivantes :
(i) Indicateurs de tendances centrales : les moyennes, le mode, la médiane, les quantiles.
(ii) Indicateurs de dispersion : étendue, variance, écart type.
(iii) Indicateurs de forme : Coefficient d’asymétrie et coefficient d’aplatissement.
Nous allons rappeler deux indicateurs clés : la moyenne et la variance, avec leur interprétation. On note X
une variable quantitative quelconque, avec les observations x1 , x2 , , xn .
• La moyenne X : c’est la valeur qu’aurait pris chaque individu si la variable était répartie de façon
égalitaire entre tous les individus. La moyenne est un indicateur de tendance centrale qui a
l’inconvénient de cacher les inégalités au sein de la population. Sa formule est :
1 n
X=  xi
n i =1
• La variance Var ( X ) ou  X2 : C’est la moyenne des carrés des écarts à la moyenne. Elle permet
de mesurer la dispersion des observations autour de la moyenne. On utilise surtout à l’écart-type
𝜎𝑋 qui est sa racine carrée. La formule de calcul de la variance est :
1 n
 ( xi − X )
2
 X2 =
n i =1
11
• Le coefficient de variation est obtenu en divisant l’écart-type par la moyenne. Lorsque le
coefficient de variation est faible (inférieur à 5-10%) (𝜎𝑋 faible par rapport à la moyenne), cela
signifie une faible dispersion autour de la moyenne. Ce qui veut dire que la population est
relativement homogène et dans ce cas, la moyenne 𝑿 ̅ est représentative et son interprétation a un
sens. En revanche, si le coefficient de variation est élevé, cela indique une forte hétérogénéité de
̅ n’a pas de sens. Et il vaut mieux recourir à la médiane.
la population. Dans ce cas 𝑿
Comme représentation graphique, on peut synthétiser l’information contenue dans une variable
quantitative grâce à un diagramme en bâtons (cas d’une variable quantitative discrète) ou à l’aide d’un
histogramme ou d’une boîte à moustache (cas d’une variable quantitative continue).
b) Analyse statistique bivariée
Comme son nom l’indique, l’analyse bivariée s’intéresse aux relations entre les variables prises deux à deux.
• Liaison entre deux variables qualitatives

Pour analyser la relation entre deux variables qualitatives, on a recours au test de Khi-deux que nous
verrons plus loin en détail dans l’AMD.
• Analyse de la relation entre deux variables quantitatives

L’analyse graphique de l’évolution d’ensemble de deux variables X et Y est une bonne manière de se faire
une première idée de l’existence ou non de liaison entre ces variables. Le graphique représenté pour ce fait
est appelé « nuage de points ». Ce graphique sert non seulement à déterminer s’il existe une relation entre
les 2 variables, mais aussi à caractériser la forme de la liaison entre elles (positive ou négative, linéaire ou
non linéaire, monotone ou non monotone). Les nuages de points ci-après illustrent quelques types de
liaisons qui peuvent exister entre deux variables quantitatives X et Y :
12
D’après l’analyse graphique, pour valider l’existence d’une liaison linéaire (corrélation linéaire) entre deux
variables X et Y on calcule le coefficient de corrélation de Pearson noté :  ( X , Y ) ou rXY :
Cov ( X , Y )
 ( X ,Y ) =
 X Y
Sur un échantillon de taille n il est calculé comme suit :
1 n
 ( xi − X )( yi − Y )
n i =1
 ( X ,Y ) =
 X Y
Le coefficient de corrélation est indépendant des unités de mesure des variables, ce qui autorise les
comparaisons. Il varie entre -1 et 1, en conséquence s’interprète comme suit :
•  +1 : on dit qu’il y a une forte corrélation positive (liaison linéaire positive) entre X et Y ; les
deux variables évoluent dans le même sens. Ex Revenu et consommation ;
•  −1 : il y a une forte liaison linéaire négative entre X et Y ; les deux variables évoluent dans le
sens contraire : Ex prix et consommation ;
•  0 : indique l’absence de corrélation entre X et Y. Notons que l’absence de liaison linéaire ne
veut pas dire absence de relation. Il peut bien avoir une relation de type fonctionnelle ente X et Y.
1.4. Introduction à l’analyse multidimensionnelle

1.4.1 Nécessité de l’analyse multidimensionnelle et domaines d’application
L’analyse univariée ou bivariée est certes une étape importante de l’analyse statistique, mais insuffisante
lorsqu’il s’agit de grands tableaux de données contenant un nombre important de variables. Par
exemple pour un tableau avec p = 5 variables, on doit faire 10 analyses bivariées pour faire ressortir
l’ensemble des liens qui existent entre les variables. En outre faire plusieurs analyses bivariées sur un
tableau de données est une approche inappropriée car elle laisse de côté les liaisons multidimensionnelles
qui peuvent exister entre les variables. Ces liaisons ne sont en effet visibles que grâce à la confrontation de
nombreuses informations issues des variables du tableau croisées entre elles. Aussi, pouvoir analyser
rapidement, et simultanément, les relations entre plusieurs variables, est infiniment plus riche que l’analyse
séparée des variables prises deux à deux.
Tout domaine scientifique qui doit gérer de grandes quantités de données de type varié a recourt aux
méthodes d’analyse de données multidimensionnelles. Le champ d’application des méthodes d’AMD est
donc très vaste. On les retrouve :
• En marketing elles permettent de proposer de nouvelles offres ciblées à la clientèle ;

• En économie, à partir de ces méthodes appliquées sur les bilans d’entreprises, on peut décrire la
structure et la taille des entreprises et opérer une classification des entreprises ;
• En finance, elles sont utilisées pour développer des méthodes de détection de fraudes dans les
banques ;
13
• En physique et télécommunications, elles sont également utilisées pour le traitement du signal et
des images.
1.4.2 Objectif, Structure de données et différentes méthodes
Les méthodes d’AMD ou de statistique exploratoire multidimensionnelles ont pour but de synthétiser, de
résumer et de structurer l’information contenue dans les données. Elles utilisent pour cela une
représentation des données sous forme de graphiques ou d’indicateurs numériques. Ces représentations
graphiques constituent le meilleur résumé possible de l’information contenu dans de gros tableaux de
données. Les méthodes d’AMD extraient les tendances les plus marquantes qui structurent les données,
les hiérarchisent et éliminent les effets marginaux (bruits) qui perturbent la perception globale des faits.
Il existe plusieurs méthodes d’analyse multidimensionnelles de données :
• L’Analyse en Composantes Principales (ACP) qui s’applique à l’analyse des tableaux dans
lesquels des variables quantitatives continues sont mesurées sur des individus (ou observations).
On parle de tableau Individus x variables quantitatives continues ;
• L’Analyse Factorielle des Correspondances (AFC) ou analyse des correspondances binaires,
appropriée pour l’étude des tableaux de contingence obtenus par croisement de variables
qualitatives ;
• L’Analyse des Correspondance Multiple (ACM) qui est une extension de l’analyse factorielle
des correspondances et permet le croisement de plus de deux variables qualitatives. Elle est adaptée
à la description de grands tableaux de variables qualitatives, par exemple pour le traitement
d’enquêtes ;
• Les méthodes de Classification Automatique (CA) (la méthode des K-means, DBScan, la
classification hiérarchique ascendante ou descendante) qui permettent de construire des classes
d’individus homogènes à partir d’un ensemble d’individus ;
Parmi les logiciels utilisés pour mettre en œuvre les méthodes d’analyse de données multidimensionnelles,
nous nous intéresserons dans le cadre de ce cours aux logiciels SPAD, SPSS, Stata, Python et R. C’est avec
ces logiciels que les travaux pratiques seront réalisés.
14

ADD Chapitre 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ADD Chapitre 1

Transféré par

Droits d'auteur :

Formats disponibles

Cycle des Analystes Statisticiens

Deuxième année – Semestre 1

COURS D’ANALYSE MULTIDIMENSIONNEL DES

Enseignant – Chercheur - Consultant

• Parangons .................................................................................................. Erreur ! Signet non défini.

• Variables dominantes dans la classification .......................................... Erreur ! Signet non défini.

Chapitre I – Rappels et introduction à l’Analyse Multidimensionnelle de Données

Chapitre II – Analyse en Composantes principales

Chapitre III – Analyse Factorielle des correspondances

Chapitre IV – Analyse des Correspondances Multiples

Chapitre V – Méthodes de classification

1.1. Quelques rappels mathématiques

Notations et premières définitions

Une matrice m  n , A , est un tableau d’éléments de IK, tel que

On a les définitions suivantes :

• Somme de deux matrices A et B : A + B = ( aij ) + ( bij ) = ( aij + bij )

• Produit d’une matrice par un scalaire   R :  A = A = (  aij )

On a les propriétés suivantes :

Si A, B, et C sont trois matrices carrées d’ordre n, Tr ( ABC ) = Tr ( BAC ) = Tr ( ACB ) = ...

Déterminant d’une matrice

aij Det ( Aij )

• Det (  ) =  si  est un scalaire ;

• Det ( I n ) = 1 où I n est la matrice identité ;

Valeur propre, vecteur propre :

1.2. Les sources et types de données

1.2.2 Différentes sources de données

1.3. Exploration et traitement préliminaire des données

1.3.1 Traitement préliminaire sur les données

• Transformation : logarithme, puissance, réduction, rangs. . . des variables,

1.3.2 Analyse exploratoire univariée et bivariée

a) Analyse statistique univariée

• Analyse d’une variable quantitative

La description d'une variable quantitative se base sur les statistiques suivantes :

b) Analyse statistique bivariée

• Liaison entre deux variables qualitatives

• Analyse de la relation entre deux variables quantitatives

1.4. Introduction à l’analyse multidimensionnelle

• En marketing elles permettent de proposer de nouvelles offres ciblées à la clientèle ;

1.4.2 Objectif, Structure de données et différentes méthodes

Il existe plusieurs méthodes d’analyse multidimensionnelles de données :

Vous aimerez peut-être aussi