Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
(ACP)
Elle consiste à visualiser des données (nuage de points. L'A.C.P., elle est aussi
connue sous le nom de "transformée de Karhunen-Loève" ou de "transformée de
Hotelling".
Son but est de déterminer les deux axes qui expliquent le mieux la dispersion
des points dans un nuage de points et de décrire graphiquement un tableau de
données d'individus avec leurs variables quantitatives de grande taille :
individus/variables
1/14
Considérons pour l'exemple une étude d'un botaniste qui a mesuré les dimensions
de 15 fleurs d'iris. Les trois variables (P=3) mesurées sont : x1 (longueur du
sépale), x2 (largeur du sépale) et x3 (longueur du pétale). Les données sont les
suivantes :
Fleur n°
1 5.1 3.5 1.4
2 4.9 3.0 1.4
3 4.7 3.2 1.3
4 4.6 3.1 1.5
5 5.0 3.6 1.4
6 7.0 3.2 4.7
7 6.4 3.2 4.5
8 6.9 3.1 4.9
9 5.5 2.3 4.0
10 6.5 2.8 4.6
11 6.3 3.3 6.0
12 5.8 2.7 5.1
13 7.1 3.0 5.9
14 6.3 2.9 5.6
15 6.5 3.0 5.8
Un tel tableau de données est une matricée réelle à n lignes (les individus) et à p
colonnes (les variables) :
2/14
Afin de simplifier la présentation, nous considérons que chaque individu, comme
chaque variable, a la même importance, le même poids. Nous ne considérerons
aussi, que le cas de la distance euclidienne.
Soit donc G le centre de gravité du nuage de point, Comme nous considérons ici
chaque variable, comme chaque individu, ayant le même poids, G a alors pour
coordonnées :
1
Avec 𝑥̅.𝑗 = ∑𝑛𝑗=1 𝑥𝑖𝑗
𝑛
3/14
Matrice centrée
4/14
2. Données centrées réduites : Pour donner une importance identique à
chaque variable afin que le type d'unités des mesures n'influence pas
l'analyse, nous travaillerons avec les données centrées réduites.
5/14
3. Matrice des données centrées normées :
Avec
Ce qui donne :
6/14
Représentation graphique
L'information intéressante pour les individus est la distance entre les points. En
effet plus cette distance sera grande entre deux individus et plus les deux individus
seront différents et mieux on pourra les caractériser. Mais il faut d'abord choisir
une distance. Nous prendrons la distance euclidienne :
7/14
4. Plan factoriel : Avant de déterminer le plan factoriel, nous allons
maintenant chercher à détecter les liens possibles entre les variables.
et
Les matrices des covariances et de corrélations (toutes deux étant pour rappel
des matrices carrées et symétriques) avec j=1…..p, j ’=1…..p
8/14
Ce qui donne pour notre exemple la matrice carrée suivante :
Exemple :
7 −2 1
Diagonalisons la matrice 𝑹 suivante : 𝑹 = (−2 10 −2)
1 −2 7
7− 𝜆 −2 −2
L’équation caractéristique est :| −2 10 − 𝜆 −2 | = 𝜆3 − 24𝜆2 − 180𝜆 −
−1 −2 7−𝜆
432 = 0
7 −6 2 1 𝑥1 1 2 1 𝑥1
( −2 10 − 6 −2 ) ( 𝑥2 ) = (−2 4 −2 𝑥2)
) (
−1 −2 7 − 6 𝑥3 −1 −2 1 𝑥3
9/14
Et en multipliant par -1 on aura :
−1 −2 −1 𝑥1
(2 −4 2 ) (𝑥2)
−1 2 −1 𝑥3
x1 − 2x2 + x3 = 0
Comme vecteurs propres, nous choisirons deux vecteurs orthogonaux (i.e. leur
produit scalaire est nul).
Par exemple :
1 1
𝑉1 = ( 0 ) 𝑒𝑡 𝑉2 = (1)
−1 1
En effet,
⃗⃗⃗⃗⃗
𝑉1 . ⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗ ‖ . ‖𝑉2
𝑉2 = ‖𝑉1 ⃗⃗⃗⃗⃗ ‖ . 𝐶𝑂𝑆(𝛼)
⃗⃗⃗⃗⃗ . 𝑉2
𝑉1 ⃗⃗⃗⃗⃗ = 𝑥1. 𝑥2 + 𝑦1. 𝑦2 + 𝑧1. 𝑧2 = 1.1 + 0.1 + (−1). 1 = 0
⃗⃗⃗⃗⃗ ‖ = √12 + 02 + −12 = √ 2
𝑛𝑜𝑟𝑚𝑒 𝑑𝑒 ‖𝑉1 ⃗⃗⃗⃗⃗ ‖ = √12 + 12 + 12 = √ 3
𝑛𝑜𝑟𝑚𝑒 𝑑𝑒 ‖𝑉2
⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗
𝑉1 .𝑉2 0
𝐶𝑂𝑆(𝛼) = ‖⃗⃗⃗⃗⃗
= =0
𝑉1 ‖ .‖⃗⃗⃗⃗⃗𝑉2 ‖ √2.√3
𝐶𝑂𝑆(𝛼) = = 0 → 𝛼 = 90°
1
𝑉3 = (−2) 𝑒𝑡 𝑙𝑎 𝑛𝑜𝑟𝑚𝑒 𝑑𝑒 𝑉3 = √12 + −22 + 12 = √ 6
1
10/14
L’inertie expliquée
L’inertie cumulée
On calcul des vecteurs propres associés aux valeurs propres Vi, i=1,…., p ; Ce
sont les axes factoriels.
Plan factoriel est la représentation graphique des individus dans le nouvel espace
de représentation, c’est le produit de la matrice centrée réduite par le vecteur
propre trié dans l’ordre décroissant.
11/14
Pour les 15 individus les coordonnées sur les axes principaux sont :
12/14
Dans l’exemple proposé nous remarquons que ce sont ces deux colonnes (I et
II) qui représentent mieux les données. Le plan factoriel est donc constitué par les
deux axes représentant les deux plus grandes valeurs propres (inerties). L’axe
avec la plus grande inertie (valeur propre) est la première composante principale.
La deuxième composante principale est l’axe avec la deuxième plus grande valeur
propre et elle est perpendiculaire à la première.
5. Coefficients de corrélation
Les coefficients de corrélation linéaire sont calculés entre les anciens variables
et les nouveaux variables (facteurs). Ils peuvent être calculées par :
13/14
Interprétation
Si un point est très proche du bord du cercle, cela signifie qu’il est bien
représenté par le plan factoriel et l’individu est bien corrélé avec les deux facteurs
constituant ce plan. Les points situés près du centre sont donc généralement mal
représentés par le plan factoriel ; leur interprétation ne peut donc pas être effectuée
avec confiance. Les points proches d'un des axes, et assez loin de l'origine sont
bien corrélés avec cet axe et sont les points explicatifs pour cet axe. Si deux points
sont proches l'un de l'autre, il est probable que les réponses des individus qu'ils
représentent soient très similaires.
14/14