Vous êtes sur la page 1sur 13
Chapitre 3 . L’analyse en composantes principales 3.1 Introduction Meth: 0 i Mathoue factorielle, ou de type R (en anglais), a pour but de rédure le nombre de variables eo eee ei @’information possible. C’est-a-dire en gardant le maximum de variabilité Prati n a proj Pratiquement cela revient a projeter les données pour les individus sur un espace de dimension plc cue nme la variabilité totale des nouvelles variables. On impose que l’espace sur Jequel on projéte soit orthogonal (pour ne pas avoir une vision déformée des données). 3.2 Etape 1: Changement de repére Soit -I la matrice des données. Pour plus de visibilté, on considére Ia matrice des données centrées 1 — A. La i*™ vecteur ligne (A — A)? représente les données de toutes les variables pour le i*™* individu. Pour simp! (a-A)?. « Représentation graphique du i On peut représenter 7 par un point de R”. Alors, peut repr par un pi — chacun des axes de R” représente une des p variables, T sont les données des p variables pour #*"* individu fer les notations, on écrit 2” it individu — les coordonnées de x + Nouveau repere Solent ry,_.. stip p veeteurs de R®, unitaires et deux & deux orthogonaux. On considére , vp Fespectivement. Alors les » droitess passant par Vorigine, ces droites définissent un nouveau repére. Chacun des axes représente unc nouvelle va- riables, qui est combinaison linéaire des anciennes variables. Changement de repére pour le i®** individu On soubaite exprimer les données du i*™ individu dans ce nouveau repére, Autrement dit, on cherehe A déterminer les nouvelles coordonnées dui" individu, Pour j = Is. Ps la ao donnée sur axe 0, est la coordonnée de la projection orthogonale de = sur Ia droite passant par Porigine et de vecteur directeur v,, Elle est donnée par (voir le chapitre 1) : de vecteurs directeurs v1, (2,04) = a7 ry 39 "ANALYSE EN COMPO: a CHAPITRE 3. LANA. SANTES Pavey, i é ne individu dans ce no} ‘Ainsi les eoordonnées des données du # individu dans ce nouveau reptte son jans le vecteur ligne = i, 1 1, Tay... yD Up riges d (4-A)rQ al (« les colonnes sont los vecteurs v1... Cette ‘p x p)s dont 5 vecteurs colonnes sont unitaires et deux a deux ‘oft (2 est la matrice de taille ( re ses maitrice est orthonormale, c'est ortliogonaux. « Changement de repere pour tous les individus - Sn seuhaite faire ceci pour les données de tous les individus (4 = ANT, (AW ANE. Les coordonnées dans le nouveau repére sont répertoriées dans la matrice : B=(A-A)Q En effet, a i ligne de B est (A— A) Q, qui représente les coordonnées dans le nouveau repére des données du i** individu. 3.3 Etape 2 : Choix du nouveau repére aya tel que la quantité d’ information expli- Le but est de trouver un nouveau repére vy ar. soit maximale, pus celle expliquée par vz etc...On peut ainsi se limiter & ne garder in de réaliser ce programme, il faut d’abord choisir une mesure puis déterminer le repére qui optimise ces quée pi que les 2 ow 3 premiers axes. Afi de la quantité d’information expliquée par un axe, critéres. 3.3.1. Mesure de la quantité @information jéme variable représente la dispersion des La variance dess données centrées (A — A)gy de las \de, plus les données de cette variable données autour de leur moyenne. Plus la variance est gran sont dispersées, et plus la quantité d'information apportée est importante La quantité d’information contenue dans les données (A — A) est donc des variances des don- dee de toutes les variables, c'est-A-dire Ia varinbilité totale des données (A — A), définie précédement miC(A - A)) = BC(A))- (A — A) = C(A) (les matrices de covariances soient ilité totale des données B, qui sont la projection des mattice orthonormale Q. Soit C(B) la La derniére égalité vient du fait que C égales). Etudions maintenant la va données C(A — A)) dans le nouveau repére défini par la matrice de covariance correspondante, alors : Propriété 3.3.1 J, C(B) = AC(A)Q lit totale des données B est la méme gue celle des données (A - A). 2. La variabi Démonstration. 41 ce) = 1ig_, (3) = “(B-By(B_ By 1 Ps = 3B (car B est la mattice nulle) 1 5. = 3(4- Aaya - AQ = F@UA- AA AaQ = Q7O(A)Q 2. Ainsi, la variabilité totale des nouvelles données B est THC(B)) = THQTO(A)Q) = THQ™QO(A)), _(propriéte de la trace) = TH(C(A)) car Q"Q = Id, étant donné que la matrice @ est orthonormale. 3.3.2. Choix du nouveaur repére Etant donne que la variabilité totale des données projetées dans le nouveau repére est la méme que celle des données d'origine (A — A), on souhaite déterminer Q de sorte que la part de la variabilité totale expliquée par les donnée By) de la nouvelle variable v; soit maximale, puis celle expliquée par les données Bia) de la nouvelle variable 1, etc.. Autrement dit, on souhaite résoudre le probléme d’optimisation suivan *Trouver une matrice orthonormale Q telle que o?(Bq)) soit maximale, puis 0? (By); ete...” Avant d’énoncer le théoréme donnant la matrice @ optimale, nous avons besoin de nouvelles notions d'algere linéaire, * Théoréme spectral pour les matrices symétriques Soit A une matrice de taille (p x p). Un vecteur x de R? s’appelle un vecteur propre de la matrice A, s'il existe un nombre A tel que : Ar = Ax Le nombre A s*appelle la valeur propre associée au vecteur propre x. Une matrice carrée A = (a) est dite symétrique si et seulement si ai; = a5, pour tout wd Théoréme 3.3.1 Si A est une matrice symétrique de taille (p x p), alors il existe une base orthonormale de R? formée de vecteur propres de A. De plus, chacune des valeurs propres associée est réelle. Auirement dit, il existe une matrice orthonormale Q telle que Q™AQ=D avec D est la matrice diagonale formée des valeurs propres de A 2 CHAPITRE 3. L'ANALYSE EN COMPOSANTES Pract Théorsme fondamentale de PACP . | gar Ui A) la matrice des données centrées, e! Soi (A) la matrice de covariance associ¢e (qui est symétrique par définition). On note Ay > Az > --- > Ap les valeurs, propres de Ia matrice C(A). Soit @ la matrice orthonormale correspondant a la matrice Pi). donnée par le Théoréme(3.3.1), telle que Ie premier vecteur corresponde a la plus grande valeur propres, etc... Alors, le théoréme fondamentale de l’ACP est : seujreme 3.3.2 La matrice orthonormale qui résout Te probleme d optimisation est la maurice Q décrite ci-dessus, De plus, on a 1. (Bg) = A 2, Cov( By. Buy) = 0. quand # 5, 3. 0%(Bo) 2 0%(Bey) 2-2 0B») Les colonnes t+... de la matrice Q décrivent les nouvelles variables, appelées les SEINE ROASTS C(B) = QTO(A)Q (@aprés la propriété(3.3.1)) M0 0 _ [0% Be - 0 0... 0 Ay Ainsi. 0°%( By) = (C(B))s3 = (Q7C(A)Q)s, = As Cov( Buy, Buy) = (CIB = (Q7CAD:s ceci demontre les deux premiéres assertions du théoréme. Le troisiéme point découle du fait que l'on a ordonné les valeurs propres en ordre décroissant. Le dernier point non-trivial a vérifier est optimalité Crest-i-dire que pour toute autre matrice orthonormale choisie, la variance des données de la premiére variable serait plus petite que As, etc. Méme si ce n'est pas tres difficile, nous choisissons de ne pas traiter a cette partie ici. 3.4 Conséquences de l’ACP Voici deus conséquences importantes du résultats que nous avons établi dans dans Ia section précédente. * Restriction du nombre de variables Le but de PACP est de restreindre le nombre de variables. Nous avons déterminé ci-dessus des nouvelles variables v),..., Ys les composantes principales, qui sont optimales. La part dela variabilitérotale expliquée par les données By... Bay des k premiéres nou- velles variables (J: m deux entriers naturels ef solent Z une matrice de taille (nx in), V = ZZ7 et R = 427Z deux matrices qui généralisent le cas traité, précédemment. On désigne par \,(V/) les valeurs propres de V et par A(R) les valeurs propres de R. “Alors on « les propriérés suivantes : ta) n= DAB) (by A(h) = ACR) pour tour Si S10 a 3.6. EXEMPLE D*APPLICATION 51 f {) La matrice V admet (n ~ p) valeurs propres mules. eimai bestalicil eee ae pee propres de \" connaissam ceux de R Et donc, qu en définiive, les caracéristiques de T permetiont de calculer celles de V et réciproquement.

Vous aimerez peut-être aussi