Vous êtes sur la page 1sur 60

Analyse de données

Pr Dr. Hasna CHAIBI


2021-2022

1
2021-2022

Plan
par Dr. Hasna CHAIBI

❑Introduction
❑Analyse en Composantes Principales
❑Analyses Factorielles
❑Analyse Factorielle des Correspondances
❑Analyse des Correspondances Multiples
❑Classification
Analyse de donnée

2
2021-2022

Introduction
par Dr. Hasna CHAIBI

• Les statistiques peuvent être vues en fonction de l'objectif fixé ;


• Les méthodes statistiques sont employées soit pour:
➢Explorer les données (nommée statistique exploratoire)
➢Prédire un comportement (nommée statistique prédictive ou décisionnelle)
• La statistique exploratoire s'appuie sur des techniques descriptives et
graphiques. Elle est généralement décrite par la statistique
descriptive qui regroupe des méthodes exploratoires simples, uni- ou
Analyse de donnée

bidimensionnelle (moyenne, variance, corrélation, ...) et la statistique


exploratoire multidimensionnelle.

3
2021-2022

Introduction
• Statistiques Descriptives permettent de résumer des données grâce à des calculs ou des
par Dr. Hasna CHAIBI

graphique simple ( en calculant la moyenne, la variance, l’écart types…)


• Statistiques exploratoire permettent de tirer les informations de jeu de données qui
sont un peu plus volumineux, Autrement dit c’est d’extraire des informations à partir
d’un jeu de données sans nécessairement avoir une question précise derrière la tête ou
sans avoir des attentes particulières sur une information précise, donc vous laissez plus
ou moins guider par l’analyse.

• Statistiques prédictive permettent de prédire un comportement c-à-d d'extraction de


connaissances à partir de données qui analysent des faits présents et passés pour faire
des hypothèses prédictives sur des événements futurs. Une des applications les plus
connues est l'évaluation du risque-client, qui est utilisée dans l'ensemble des services
Analyse de donnée

financiers. Les modèles d'évaluation traitent les antécédents de crédit d'un client, les
demandes de prêt, les données client, etc. , afin de classer les individus selon la
probabilité de rembourser leurs crédits en temps voulu.

4
Analyse de donnée par Dr. Hasna CHAIBI 2021-2022

Introduction

5
Analyse de donnée par Dr. Hasna CHAIBI 2021-2022

Introduction
Statistiques exploratoire

6
Analyse de donnée par Dr. Hasna CHAIBI 2021-2022

Introduction
Statistiques exploratoire

7
2021-2022

Introduction
par Dr. Hasna CHAIBI

• La statistique exploratoire décrite par:


➢La statistique descriptive qui regroupe des méthodes exploratoires
simples, uni- ou bidimensionnelle (moyenne, variance, corrélation, ...)
➢ La statistique exploratoire multidimensionnelle.

L'analyse de données s'inscrit dans ce cadre de la statistique


exploratoire multidimensionnelle.
Analyse de donnée

8
2021-2022

Introduction
par Dr. Hasna CHAIBI

• Les méthodes d’analyse factorielle sont incontestablement des outils


fondamentaux de l’analyse des tableaux de données qui ne
présentent pas de structure particulière.

• Elles visent essentiellement un but descriptif, en condensant


l’information contenue dans un tableau, constitué souvent d’un
nombre élevé de lignes et de colonnes, en quelques représentations
Analyse de donnée

graphiques à deux dimensions, accompagnées de tableaux reprenant


les valeurs numériques de caractéristiques destinées à aider
l’utilisateur lors de l’interprétation.

9
2021-2022

Introduction
par Dr. Hasna CHAIBI

➢ Si on a une seule variable nous pouvons tracer les données sur une
droite numérique (représentation axiale)
Maths

Elève1 17
Elève2 18
Elève3 15
Elève4 6
Interprétation: Les élèves 1, 2et 3 ont valeurs relativement élevées et les
Elève5 5 élèves 4,5 et 6 ont des faibles valeurs
Analyse de donnée

Elève6 3

10
2021-2022

Introduction
par Dr. Hasna CHAIBI

➢ Si on a deux variables on trace les données en deux dimension


Maths Histoire

Elève1 17 16 Les élèves 1,2 et 3


forment une classe
Elève2 18 12 dans le côté droit
Elève3 15 14 Et les élèves 4,5 et 6
forment une classe
Elève4 8 10
dans le côté gauche
Elève5 4 9
Analyse de donnée

Elève6 7 6

11
2021-2022

Introduction
par Dr. Hasna CHAIBI

➢ Si on a trois variables, nous devons ajouter un autre axe ( graphe


de 3 dimensions)
Maths Histoire Philos.
Les petits points ont
Elève1 18 4 17.5 des valeurs plus
Elève2 17 7 16.5 élevées pour la
philosophie et sont
Elève3 16 8 15.75 plus éloignés
Elève4 14 10 8
Elève5 13 12 6
Analyse de donnée

Elève6 10 14 4.25
Les points les plus
grands ont des
valeurs plus petites
pour la philosophie
12
et sont plus proches
2021-2022

Introduction
Tirer des conclusion à partir d’un tableau de 6 lignes (individus) et deux ou trois colonnes (variables) est
un exercice simple
par Dr. Hasna CHAIBI

Mais lorsque le tableau a plus de 3 colonnes (variables) les choses deviennent plus complexes.

Maths Histoire Philos. Arabe Franc physiq

Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Analyse de donnée

Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … … 13
2021-2022

Introduction
Maths Histoire Philos. Arabe Franc physiq
par Dr. Hasna CHAIBI

Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Analyse de donnée

Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … …

Comment représenter les données


dans un seul graphique? 14
2021-2022

Introduction
L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les
plus intéressants de la structure de celles-ci. Le succès de cette discipline dans les dernières années est dû,
par Dr. Hasna CHAIBI

dans une large mesure, aux représentations graphiques fournies.

Maths Histoire Philos. Arabe Franc physiq

Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Analyse de donnée

Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …
Elève7 8 16 8.75 … … …
Elève8 6 17 5.75 … … …
Elève9 3 18 3.25 … … … 15
2021-2022

Analyse de Données
par Dr. Hasna CHAIBI

L’Objectif est de:


• Résumer, synthétiser ou condenser le comportement de P variables
(observer n fois)
• Réduire les dimensions qui permettent de retirer la redondance ou la
duplicité dans un ensemble de variables corrélées
Analyse de donnée

16
2021-2022

Les Méthodes d’Analyse de Données


par Dr. Hasna CHAIBI

❑Analyse par réduction des dimensions


• Analyse en composantes principales
• Analyse factorielle des correspondances
• Analyse des correspondances multiples
• Analyse canonique
• Positionnement multidimensionnel
• Analyse Factorielle Multiple
❑Analyse par classification
Analyse de donnée

• Classification automatique
• Analyse factorielle discriminante
❑Analyse des données et régressions
17
2021-2022

Les Méthodes d’Analyse de Données


par Dr. Hasna CHAIBI

Méthode statistique
exploratoire multidimensionnelle
est

Méthode factorielle
recherche
Facteurs
qui remplacent les variables initiales
Analyse de donnée

Réduit
Nombre données en
déformant le moins
possible la réalité

18
2021-2022

Logiciels
par Dr. Hasna CHAIBI

• L'analyse des données moderne ne peut être dissociée de


l'utilisation des ordinateurs ; de nombreux logiciels permettant
d'utiliser les méthodes d'analyse des données
Analyse de donnée

SPSS XLSTAT Statistica Logiciel R

19
2021-2022
Analyse en Composantes Principales (ACP)
par Dr. Hasna CHAIBI

• Le principe de l’ACP consiste à


représenter le nuage des n points dans
un espace 𝑶, 𝒖𝟏 , 𝒖𝟐 , … , 𝒖𝒑

qui permettra, en des projections dans


l’espace engendré par les premiers
Analyse de donnée

vecteurs, de montrer les grands


allongements de ce nuage.
𝑶, 𝒖𝟏 , 𝒖𝟐 , … , 𝒖𝒒 𝒂𝒗𝒆𝒄 𝒒 ≪ 𝒑

20
2021-2022

Analyse en Composantes Principales (ACP)


par Dr. Hasna CHAIBI

• ACP est une méthode de la famille de l'analyse des données et plus


généralement de la statistique multivariée, qui consiste à transformer
des variables liées entre elles (dites « corrélées » en statistique) en
nouvelles variables décorrélées les unes des autres.
• Ces nouvelles variables sont nommées « composantes principales »,
ou axes principaux. Elle permet au praticien de réduire le nombre de
variables et de rendre l'information moins redondante.
• ACP est un outil de réduction de dimension qui permet de retirer la
Analyse de donnée

redondance ou la duplicité dans un ensemble de variables corrélées

21
2021-2022

Analyse en Composantes Principales (ACP)


par Dr. Hasna CHAIBI

• Une technique exploratoire pour résumer les relations entre les


variables à l’aide d’un jeu des facteurs aussi réduit que possible.
• En plus de l’aspect réduction des données, ces facteurs sont sensées
discriminer les données de manière à être facilement interprétable.
• Une technique statistique dont le but est de représenter les relations
qui lient les variables à travers des valeurs prises par les individus.
• Permet de résumer l’ensemble des variables en un petit nombre de
Analyse de donnée

variables synthétiques appelées facteurs.

22
2021-2022

Traitement des données


par Dr. Hasna CHAIBI

Signifie Les variables sont traitées


Traitement univarié
une par une

Rechercher l’interaction
Traitement bivarié Signifie entre 2 variables
Analyse de donnée

Rechercher la liaison
simultanée entre plus de
Traitement multivarié Signifie
deux variables et fournir une
information synthétisée
23
2021-2022

Analyse en Composantes Principales (ACP)


par Dr. Hasna CHAIBI

• ACP s’intéresse à des tableaux de données rectangulaires avec des individus en


lignes et des variables quantitatives en colonnes
Variables quantitatives

✓ 9 individus (lignes) Maths Histoire Philos. Arabe Franc physiq


✓ 6 variables (colonnes)
Elève1 18 4 17.5 … … …
Elève2 17 7 16.5 … … …
Elève3 16 8 15.75 … … …
Elève4 14 10 14 … … …
Analyse de donnée

Elève5 13 12 13.5 … … …
Elève6 10 14 11.25 … … …

Individus Elève7 8 16 8.75 … … …


Elève8 6 17 5.75 … … …
24
Elève9 3 18 3.25 … … …
2021-2022
Analyse en Composantes Principales (ACP)

Matrice de données, notations


par Dr. Hasna CHAIBI

• L’ACP traite des tableaux rectangulaires (matrice) donnant les valeurs d’un ensemble de variables
quantitatives( au nombre de p) relevés sur un ensemble d’individus (au nombre de n)
p Variables quantitatives
X : le tableau (la matrice ) individu- variables
quantitatives
n : le nombre d’individus
p : le nombre des variables
i : L’indice désignant les individus
j : L’indice désignant les variables
Analyse de donnée

𝟏
𝑋ത𝑗 : la moyenne de la jème variable (𝑋ത𝑗 = 𝒏 σ𝒏𝒊=𝟏 𝒙𝒊𝒋 )
𝟏
𝑽 𝑿𝒋 : la variance de la jème variable (𝑽 𝑿𝒋 = 𝒏 σ𝒏𝒊=𝟏(𝒙𝒊𝒋 − 𝑋ത𝑗 )𝟐 )

𝝈(𝑿𝒋 ) : l’écart-type de la jème variable ( 𝝈 𝑿𝒋 = 𝑽 𝑿𝒋 )


n Individus
25
2021-2022
Analyse en Composantes Principales (ACP)

Variables
par Dr. Hasna CHAIBI

• Variable: élément qui peut prendre différentes valeurs


Analyse de donnée

26
2021-2022
Analyse en Composantes Principales (ACP)

Variables
par Dr. Hasna CHAIBI

• Variable Qualitative: variable dont • Variable Quantitative: variable dont


les modalités sont des mots. les modalités sont des nombres, des
valeurs.
✓Qualitative nominale dont les
modalités ne peuvent pas être ✓Variables quantitatives discrètes dont
les valeurs sont des nombres précis
ordonnées selon leur sens, exp ( isolés ( nombre d’années de scolarité
célibataire, conjoint, divorcé, marié, complétées 12, 13, 14, 16 ..)
veuf), groupe sanguin(O, O+, A, AB …)
✓Variables quantitatives continues les
Analyse de donnée

✓Qualitative ordinales dont les modalités sont des nombres issus


modalités s’ordonnent selon leur sens d’un intervalle de nombres réels( 4
exp( très satisfait, satisfait, insatisfait, semaines, 10 mois, 2 ans, 14 ans et
très insatisfait) demi…)
27
2021-2022
Analyse en Composantes Principales (ACP)

Espace des individus (Notion de ressemblance )


par Dr. Hasna CHAIBI

• ACP permet de représenter les individus en fonction de leurs


« proximités » en explorant les liaisons entre variables et les
ressemblances entre individus.

Résultat 1:
➢Visualisation des individus (Notion de distance entre individus)
✓Quels sont ceux qui se ressemblent?
Analyse de donnée

✓Quels sont ceux qui sont dissemblance?

On mesure la ressemblance entre deux individus par la distance euclidienne


28
2021-2022
Analyse en Composantes Principales (ACP)

Espace des individus (Notion de ressemblance )


par Dr. Hasna CHAIBI

• Distance au carré entre individus i et j:

𝒑
𝟐 𝟐
𝒅 𝒌, 𝒎 = ෍(𝒙𝒌𝒋 − 𝒙𝒎𝒋 )
𝒋=𝟏
Analyse de donnée

Etude des individus ↔ Etude de la forme du nuage N

29
2021-2022
Analyse en Composantes Principales (ACP)

Espace des variable


par Dr. Hasna CHAIBI

• Résultat 2:

➢Visualisation des variables (en fonction de leurs corrélation)

✓Quelles sont celles qui sont associées?


✓Quelles sont celles qui ne le sont pas?
✓Quelles sont celles qui vont dans le même sens?
Analyse de donnée

✓Quelles sont celles qui s’opposent?


• On mesure la ressemblance ou bien la liaison entre deux variables par le coefficient de corrélation

30
2021-2022
Analyse en Composantes Principales (ACP)

Espace des variable (Notion de liaison)


par Dr. Hasna CHAIBI

• Si 𝑥𝑗 représente une variable j


• 𝑥𝑖 représentera la valeur de cette variable prise par le 𝑖 è𝑚𝑒 individu

1 𝑛
➢Moyenne: ത
𝑋𝑗 = σ𝑖=1 𝑥𝑖𝑗
𝑛

1 𝑛
➢Variance: 𝑉(𝑋𝑗 ) = σ𝑖=1(𝑥𝑖𝑗 ത 2
− 𝑋)
𝑛
Analyse de donnée

➢Ecart-Type: σ(𝑋𝑗 ) = 𝑉(𝑋𝑗 )

31
2021-2022
Analyse en Composantes Principales (ACP)

Espace des variable ( Notion de la liaison)


par Dr. Hasna CHAIBI

1 𝑛
• Covariance: 𝜎𝑥,𝑦 = σ (𝑥 − 𝑥)(
ҧ 𝑦𝑖 − 𝑦)

𝑛 𝑖=1 𝑖

𝜎𝑥,𝑦
Analyse de donnée

• Coefficient de Corrélation: 𝑟 𝑥, 𝑦 = − 1 ≤ 𝑟 𝑥, 𝑦 ≤ 1
𝜎𝑥 𝜎𝑦

32
2021-2022
Analyse en Composantes Principales (ACP)

Espace des variable ( Notion de la liaison)


par Dr. Hasna CHAIBI

Coefficient de Corrélation
Analyse de donnée

33
rx,y
2021-2022
Analyse en Composantes Principales (ACP)

Centrage – Réduction de données


par Dr. Hasna CHAIBI

• Pour étudier la forme du nuage, deux prétraitements sont possible:


centrage et réduction de données

• Centrer les données: translater le nuage ce qui ne modifie pas la


forme du nuage
𝑌𝑖𝑘 = 𝑋𝑖𝑘 − 𝑋ത𝑘 𝒀𝒊𝒌 sont les données
centrées
Analyse de donnée

• Réduire les données:


𝑋𝑖𝑘 − 𝑋ത𝑘 𝒁𝒊𝒌 sont les données
𝑍𝑖𝑘 = centrées-réduit
𝜎𝑘
34
2021-2022
Analyse en Composantes Principales (ACP)

Centrage – Réduction de données


par Dr. Hasna CHAIBI

La matrice des données centrées - Réduites


Analyse de donnée

35
2021-2022
Analyse en Composantes Principales (ACP)

Exemple de centrage de données


par Dr. Hasna CHAIBI

Calculer le centre de gravité: 𝐺 = (𝑋ത1 , 𝑋ത2 )

Nous calculerons la
Et la moyenne des
moyenne des données
données (notes) pour
(notes) pour la variable
la variable 2 (Histoire)
1 (Maths)
Maths Histoire

Elève1 18 4
Elève2 17 7
Analyse de donnée

Elève3 16 8
Elève4 14 10
Elève5 13 12
Elève6 10 14
36
2021-2022
Analyse en Composantes Principales (ACP)

Exemple de centrage de données


par Dr. Hasna CHAIBI

Nous allons maintenant déplacer les données de sorte que le centre soit au-dessus de l'origine dans le graphique

Avec les valeurs moyennes, nous


pouvons calculer le centre des Ce point est toujours
données (centre de gravité) le plus élevé
Le centre de gravité de
données centrées est G(0,0)
Et ce point est toujours
le point le plus à droite
Analyse de donnée

Note: le déplacement des données ne change pas la façon dont les


points de données sont positionnés les uns par rapport aux autres 37
2021-2022
Analyse en Composantes Principales (ACP)

Exemple de centrage de données


par Dr. Hasna CHAIBI
Analyse de donnée

38
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI

• L’ACP vise à fournir une image simplifiée de nuage de point qui soit la plus fidèle
possible – trouver le sous-espace qui résume au mieux les données.
• Une image est bonne si on visualise bien la diversité, la variabilité dans les
données
• Une image est bonne s’elle ne déforme pas trop les distance entre individus
Analyse de donnée

Comment quantifier la qualité d’une image ?


A l’aide de la notion de dispersion ou variabilité appelée Inertie.
𝐈𝐧𝐞𝐫𝐭𝐢𝐞 ≡ 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒈é𝒏é𝒓𝒂𝒍𝒊𝒔é𝒆 à 𝒑𝒍𝒖𝒔𝒊𝒆𝒖𝒓𝒔 𝒅𝒊𝒎𝒆𝒏𝒔𝒊𝒐𝒏
39
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI

• Prenons une ligne aléatoire qui


passe par l’origine
• Pour quantifier l'adéquation de
cette ligne aux données , ACP
projette les données sur la ligne
• Puis mesure les distances et essaye
de trouver:

➢ La ligne qui maximise la


distance entre les points
Analyse de donnée

projetés et l'origine (centre de


gravité)

40
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI

• Maintenant on cherche le meilleur plan qui permet de


visualiser au mieux le nuage de points ce plan contient les
meilleurs axes (axes principaux) ou ( composantes
principales)
• On commence par trouver le 1er axe principal
• Le premier axe (ou première composante principale) sera
tel que la variance des individus (sur cet axe) soit
maximale.
➢ Cet axe explique donc une certaine proportion de la
variance totale des individus → l’inertie
Analyse de donnée

• Après nous faisons tourner la ligne, nous projetons les


points sur la ligne et nous calculons l’inertie.
• Nous répétons jusqu'à ce que nous finissions avec la ligne
avec la plus grande inertie.

41
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI

• Pour une première proposition de la ligne, ACP


projette les point sur cette ligne et mesure les
distances entre ces points et l’origine
• Soit d1 est la distance entre le premier point et
l’origine.
• d2 est la distance entre le deuxième point et
l’origine.
• Etc …..
Analyse de donnée

(𝒅𝟐𝟏 +𝒅𝟐𝟐 +𝒅𝟐𝟑 +𝒅𝟐𝟒 + 𝒅𝟐𝟓 + 𝒅𝟐𝟔 ) 𝟏 𝒏


Inertie= = σ𝒊=𝟏 𝒅𝟐 (𝑰𝒊 , 𝑮) 42
𝟔 𝒏
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI

• La dispersion du nuage de points est mesurée par son inertie par rapport
au centre de gravité
• L’inertie I est égale à la somme des variances des variables étudiées
𝑝 𝒏
1
𝐼= ෍ 𝜎𝑖2 = ෍ 𝒅𝟐 (𝑰𝒊 , 𝑮)
𝑛
𝑖=1 𝒊=𝟏
➢Remarque:
Analyse de donnée

Dans le cas où les variables sont centrées réduites, la variance de chaque


variable veut 1
L’ inertie totale est alors égale à p (nombre de variables)
43
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI

• Après la 1ère composante principale, on en


recherche une 2ème qui doit avoir les
propriétés suivantes:

➢Avoir une corrélation nulle avec la


première.
➢Avoir, à son tour, la plus grande
variance.
Analyse de donnée

• Le processus se répète jusqu’à obtenir les p


composantes (où p représente le nombre de
variables initiales)
44
2021-2022
Analyse en Composantes Principales (ACP)

Ajustement du nuage des individus


par Dr. Hasna CHAIBI

1ère Composante principale 83% 2ème Composante principale 17%


Analyse de donnée

45
2021-2022
Analyse en Composantes Principales (ACP)

Comment définir les nouveaux axes


par Dr. Hasna CHAIBI
Analyse de donnée

46
2021-2022

Tableau de données

Si les données sont hétérogènes


Matrice de corrélation ( ∑ )
par Dr. Hasna CHAIBI

Ou
Matrice de variance-covariance (Ω ) Si les données sont homogènes

Extraire les facteurs et déterminer


Diagonalisation
leur nombre
Analyse de donnée

Matrice diagonale des valeurs Matrice des vecteurs


propres propres Les vecteurs
propres sont
les facteurs
Histogramme de valeurs Les composantes
propres principales
47
2021-2022
Analyse en Composantes Principales (ACP)
Choix de la matrice de variance covariance Ω ou de corrélation ∑ ?
par Dr. Hasna CHAIBI

➢Si les variables sont hétérogènes (exemple: prix et poids) alors on


doit choisir la matrice de corrélation notée ∑

➢Si les données sont homogènes (exemple: les notes (comparable) )


alors on choisit la matrice de variance covariance notée Ω
Analyse de donnée

48
2021-2022
Analyse en Composantes Principales (ACP)
par Dr. Hasna CHAIBI

• On compte faire l’analyse en composantes principales (ACP ) de la matrice X composée


de 6 individus { I1,I2, I3, I4, I5, I6 } et 3 variables {X1, X2, X3}

• A partir de la matrice X
1. Calculer le centre de gravité de X noté Gx.
2 0 1
2. Déduire la matrice Y la matrice des données centrées 1 0 1
0 0 1
3. Calculer le centre de gravité de Y, noté Gy. 𝑋=
2 1 0
4. Calculer la matrice variance covariance Ω de X 1 1 0
0 1 0
Analyse de donnée

5. Calculer l’inertie totale I


6. Calculer Z la matrice des données centrées réduites.
7. Calculer la matrice de corrélation ∑

49
2021-2022
Analyse en Composantes Principales (ACP)

Centre de gravité
par Dr. Hasna CHAIBI

• Calculer le centre de gravité de X noté Gx 2 0 1


1 0 1
• 𝐺𝑥 (𝑋ത1 , 𝑋ത2 , 𝑋ത3 ) avec 𝑋=
0 0 1
2 1 0
1 1 0
1 6 2+1+2+1 0 1 0

• 𝑋1 = σ𝑖=1 𝑥𝑖1 = =1
6 6

1 6 1+1+1 1

• 𝑋2 = σ𝑖=1 𝑥𝑖2 = =
Analyse de donnée

6 6 2
1 1
1 6 1+1+1 1
Donc 𝐺𝑥 (𝑋ത1 , 𝑋ത2 , 𝑋ത3 ) = (1, , )
2 2

• 𝑋3 = σ𝑖=1 𝑥𝑖3 = =
6 6 2
50
2021-2022
Analyse en Composantes Principales (ACP)

Déduire la matrice Y la matrice des données centrées


par Dr. Hasna CHAIBI

1 1
ഥ ത ത
• 𝒀𝒊𝒋 = 𝒙𝒊𝒋 − 𝑿𝒋 on a : 𝑋1 = 1 , 𝑋2 = ത
et 𝑋3 =
2 2
Analyse de donnée

51
2021-2022
Analyse en Composantes Principales (ACP)

Calculer le centre de gravité de Y, noté Gy.


par Dr. Hasna CHAIBI

• 𝐺𝑌 (𝑌ത1 , 𝑌ത2 , 𝑌ത3 )

6
1 1 2+0−2+2−2

𝑌1 = ෍ 𝑦𝑖1 = ∗ =0
6 2 6
𝑖=1

6
1 1 −1 − 1 − 1 + 1 + 1 + 1
𝑌ത2 =
Analyse de donnée

෍ 𝑦𝑖2 = ∗ =0
6 2 6
𝑖=1
𝑑𝑜𝑛𝑐 𝐺𝑌 (𝑌ത1 , 𝑌2 , 𝑌ത3 ) = (0,0,0)
6
1 1+1+1−1−1−1
𝑌ത3 = ෍ 𝑦𝑖3 = =0
6 6
𝑖=1 52
2021-2022
Analyse en Composantes Principales (ACP)

Calculer la matrice de variance covariance Ω de X


par Dr. Hasna CHAIBI

1 𝑡
• Ω= 𝑌 𝑌
𝑛
8
• 𝑉 𝑋1 = 12 ,
3 1
• 𝑉 𝑋2 = 12 = 4 ,
1
• 𝑉 𝑋3 = 4
Analyse de donnée

8
• 𝜎 𝑋1 = ,
12
16 0 0 8 0 0
1 2 • 𝜎 𝑋2 =
1
= 2,
1
Ω= 0 6 −6 = 0 3 −3 Donc 4
24 24
0 −6 6 0 −3 3 • 𝜎 𝑋3 =
8
12 53
2021-2022
Analyse en Composantes Principales (ACP)

Calculer l’inertie totale I (Méthode 1)


par Dr. Hasna CHAIBI

1 𝒏 1 𝑛
•𝐼= σ𝒊=𝟏 𝒅𝟐 (𝑰𝒊 , 𝑮𝒀 ) = σ𝑖=1 𝐼𝑖 2
𝑛 𝑛
Analyse de donnée

54
2021-2022
Analyse en Composantes Principales (ACP)

Calculer l’inertie totale I (Méthode 2)


par Dr. Hasna CHAIBI

16 0 0 8 0 0
𝐼 = 𝑇𝑟𝑎𝑐𝑒(Ω)= Ω11 + Ω22 + Ω33 Ω=
1
24
0 6 −6 =
1
12
0 3 −3
0 −6 6 0 −3 3
Analyse de donnée

55
2021-2022
Analyse en Composantes Principales (ACP)

Calculer Z la matrice des données centrées réduites.


par Dr. Hasna CHAIBI

𝑋𝑖𝑘 −𝑋ത 𝑘 𝑌𝑖𝑗


• 𝑍𝑖𝑘 = =
𝜎𝑘 𝜎𝑘

On a:
Analyse de donnée

8 8
• 𝑉 𝑋1 = 12 • 𝜎 𝑋1 = = 0.816
12
3 1
• 𝑉 𝑋2 = 12 =4, 1 1
1
• 𝜎 𝑋2 = = 2 = 0.5
4
• 𝑉 𝑋3 = 4
1
• 𝜎 𝑋3 = =0.5
4 56
Analyse en Composantes Principales (ACP)
2021-2022

Calculer la matrice de corrélation ∑


par Dr. Hasna CHAIBI

𝟏 𝒕
• On a : ∑ = 𝒁𝒁
𝒏
Analyse de donnée

57
2021-2022

Examinez la matrice des corrélations entre les variables. Et tirez des conclusions
concernant leurs corrélations.
par Dr. Hasna CHAIBI
Analyse de donnée

58
2021-2022
Analyse en Composantes Principales (ACP)

Démarche Mathématiques
par Dr. Hasna CHAIBI

❑Choix entre ACP Normée et ACP Non Normée

• On distingue deux type d’ACP :


➢ l’ACP non normée (sur matrice des variance covariances) qui analyse Y
➢ l’ACP normée (sur matrice des corrélations) qui analyse Z
• Matrice de variance covariance entre les variables (si les données homogènes):

1
Ω = 𝑌𝑡 𝑌 Y est la matrice des données centrées
Analyse de donnée

• Matrice de corrélation entre les variables (si les données hétérogènes):

1 𝑡 Z est la matrice des données centrées-


∑= 𝑍 𝑍 réduites 59
𝑛
2021-2022
Analyse en Composantes Principales (ACP)

Démarche Mathématiques
par Dr. Hasna CHAIBI

Choix entre une ACP normée et ACP non normée


Degré d’homogénéité Forme quadratique Inertie Totale
𝒎𝒂𝒙(𝝈(𝑿𝒋 )) d’inertie
𝑺= 𝒎𝒊𝒏(𝝈 𝑿𝒋 )

ACP normée S> 5 → données On utilise la matrice de I=Trace(∑) =p (nombre des


hétérogènes corrélation noté ∑ comme variables)
forme quadratique d’inertie
Analyse de donnée

ACP non normée S< 5 → données homogènes On utilise la matrice de I=Trace(Ω)= somme des
variance covariance noté Ω variances
comme forme quadratique
d’inertie

60

Vous aimerez peut-être aussi