Vous êtes sur la page 1sur 216
Avant-propos Destiné aussi bien a des praticiens qu’a des étudiants de deuxiéme ou de troisiéme cycle en Economie, en Gestion ou en Sciences, ou & des éléves des grandes écoles commerciales ou scientifiques, cet ouvrage expose d’abord les méthodes classiques d’analyse de données (Analyse en composantes principales, Analyse factorielle des correspondances,...), puis présente des méthodes récentes de description de panels de données. L'objet de toutes ces techniques est la description d’ ensembles de données de taille importante et la description des relations entre plusieurs ensembles de données. Lrexposé débute (chapitre 1) par un rapide panorama des outils “classiques” de la statistique descriptive : variance, corrélation, Khi-Deux...; la premiére méthode d’analyse de données exposée dans cet ouvrage est l’analyse en composantes principales (chapitre 2), qui s‘applique & un tableau de données croisant individus et variables. tes relations entre plusieurs ensembles de données font 1/objet des chapitres suivants: l’analyse canonique décrit les relations entre deux ensembles de données quelconques (chapitre 3) tandis que l’analyse des correspondances et 1’analyse des correspondances multiples (chapitre 4) s‘utilisent lorsque les variables sont qualitatives. L’analyse discriminante (chapitre 5) décrit les relations entre une variable qualitative et un ensemble de variables quantitatives. Le dernier chapitre présente deux techniques de description de panels de données, c'est a dire d’ensembles d’individus mesurés pour les mémes variables a des instants différents; jusqu’alors, ce type de techniques, fort utiles a l’heure o¥ les entreprises et les administrations disposent de grands ensembles de données évolutives, ne figuraient que dans des ouvrages ou des articles destinés a un public de spécialistes. Le but de cet ouvrage est de donner a un vaste public les moyens dfutiliser les techniques présentées; aussi, le recours aux développements mathématiques ou statistiques est ici volontairement limité (le niveau requis d’algébre linéaire est celui du premier cycle de sciences économiques; une annexe rappelle les principales notions d’algébre linéaire utilisées). Les techniques présentées sont illustrées par des exemples d’application détaillés, qui devraient permettre de comprendre 1’intérét -mais aussi les limites- des techniques exposées. Je tiens a remercier tout particuliérement F. MARQUE (Université de Metz), L. SPANG (Université de METZ) et J.C. TURLOT (Université de Pau) gui ont bien voulu relire le manuscrit et me faire profiter de leurs conseils ; ils n’ont, bien entendu, aucune part dans les erreurs et insuffisances qui subsistent. Ce livre est dédié a Dominique, mon épouse et 4 nos deux filles Marion et Lucie. CHAPITRE 1: MESURES DE LA LIAISON ENTRE UNE VARIABLE ET UN ENSEMBLE DE VARIABLES Les méthodes d’analyse de données et d’analyse de panels de données prolongent et complétent les méthodes “classiques” de statistique descriptive. ‘Aussi, l'objet de ce premier chapitre est de rappeler un certain nombre de définitions et de concepts de statistique descriptive, de montrer qu'une premiére description des données peut étre obtenue grace A des traitements élémentaires, enfin de proposer un rapide panorama des indicateurs calculés en statistique descriptive, en particulier de ceux qui permettent de mesurer la liaison entre une variable et un ensemble de variables. 1.1 Les différents types de variables Une variable statistique décrit une caractéristique pour les différents individus pour lesquels elle est définie. Lrensemble de ces individus constitue une population: cette population peut étre, par exemple, l’ensemble des francais, les branches de 1’industrie allemande, ou encore les différentes régions de 1’Europe. On distingue deux types de variables (appelées aussi caractéres): les variables quantitatives et les variables qualitatives. Comme leurs noms 1’indiguent, les variables quantitatives décrivent des quantités -le poids d’un individu, le montant de son patrimoine, le volume du réservoir de son automobile- tandis que les variables qualitatives décrivent des qualités -la couleur des yeux, le dipléme possédé ou encore la catégorie socioprofessionnelle. Les variables quantitatives (appelées aussi variables numériques) peuvent étre discrétes elles prennent un nombre fini de valeurs ou continues -elles peuvent prendre toutes les valeurs intermédiaires. Ainsi, si le nombre d’enfants d’une famille ou le nombre de fonctionnaires d’un ministére sont des variables discrétes, le poids ou la taille sont des variables continues. 1.2 Description d’une variable quantitative Une variable quantitative est donc décrite par les valeurs qu'elle prend pour les n individus pour laquelle elle est définie. Ainsi la variable "taille", pour une population “de ne=4 individus, est décrite par le tableau suivant: CHAPITRE 1: MESURES DE LA LIAISON ENTRE UNE VARIABLE ET UN ENSEMBLE DE VARIABLES Les méthodes d’analyse de données et d’analyse de pane's de données prolongent et complétent les méthodes “classiques” de statistique descriptive. ‘Russi, l'objet de ce premier chapitre est de rappeler un certain nombre de définitions et de concepts de statistique descriptive, de aomtrer qu’une premiére description des données peut Stre obtenue Grace a des traitements élémentaires, enfin de propose! un rapide panorama des indicateurs calculés en statistique descriptive, en particulier de ceux qui permettent de mesurer la liaison entre ‘une variable et un ensemble de variables. 1.1 Les différents types de variables une variable statistique décrit une caractéristique pour les gifférents individus pour lesquels elle est définie. Lensenble de ces individus constitue une population: cette population peut étre, par exemple, l'ensemble des francais, les branches de 1’ industrie allemande, ou encore les différentes régions de 1" Europe. on distingue deux types de variables (appelées aussi catactéres) : jes daviables, quantitatives et les variables qualitatives. | Come leurs noms 1’indiquent, les variables quantitatives décrivent des quantités -le poids d’un individu, le montant de s0) patrimoine, le Quenme du reservoir de son automobile- tandis que les variables qualitatives décrivent des qualités -la couleur des yeux, le dipléme possédé ou encore la catégorie socioprofessionnelle, Les variables quantitatives (appelées aussi variables numériques) peuvent étre discrétes -elles prennent un nombre fini de valeurs- ou BSntinues elles peuvent prendre toutes les valeurs intermédiaires. Sinsi, si le nombre d’enfants d’une famille ov le nombre de fonctionnaires dun ministére sont des variables discrétes, le poids ou la taille sont des variables continues. 1.2 Description d’une variable quantitative une variable quantitative est donc décrite par les valeurs gufelle prend pour les n individus pour laquelle elle est définie. Mnei la variable "taille", pour une population “de n=4 individus, est décrite par le tableau suivant: Individu - 1 2 _ 3 4 Taille 1.70 1.70 1.80 Plus généralement, considérant une variable x, on note x; la valeur prise par 1’individu i pour i=1,...,n. Pour synthétiser l'information donnée par cette variable quantitative, les deux indicateurs les plus fréquemment calculés sont: - la moyenne de la variable, notée x : la moyenne est un indicateur de tendance centrale, reflétant l’ordre de grandeur de la variable toa - la variance de la variable, notée Var(x): Var(x)= - E (xj-x)? n isl la variance est un indicateur de dispersion, reflétant 1/ importance des fluctuations des valeurs de la série (les x;) autour de leur valeur moyenne. Souvent, plutét que de calculer Var(x), on préfére calculer 1'écart-type de la variable x, noté o,. 6, est la racine carrée positive de Var(x), ou encore: Var(x)= (oy) *. Dans notre exemple, 1a taille moyenne est égale a 1,7125 et la variance vaut 0,0029. Les propriétés essentielles de la moyenne et de la variance sont les suivantes: axth quels que soient a et b réels: axtb a*Var (x) Var (axtb, ces propriétés se déduisent immédiatement des définitions de la moyenne et de la variance. Notons aussi que par définition, une variable est centrée si sa moyenne est nulle et réduite si sa variance est égale a 1. A partir d'une variable x, il est facile de construire une variable centrée réduite: 2 = est une variable centrée réduite Preuve: et: 1 1 (x - x)? var (x) 1.3 Description dune variable qualitative 1.3.1 Le tableau disjonctif complet Comme une variable quantitative, une variable qualitative est décrite par les valeurs prises par les n individus pour lesquels elle est définie. Considérons ici la variable “couleur des yeux" et 6 individus. Individu 1 2 4 5 o Couleur des Bleu Vert | l Vet [Bleu | Blew yeux — La variable "couleur des yeux" comporte donc 3 modalités: bleu, vert et marron. Pour chaque modalité, on peut calculer sa fréquence absolue F, c’est 4 dire le nombre d’individus qui possédent cette modalité: F(bleu)=3 F(vert)=2 F(marron On appelle fréquence relative (notée Fr), le rapport de la fréquence absolue au nombre total d’ individus: Fr (bleu) =3/6 Fr(vert)=2/6 Fr(marron)=1/6 La présentation d’une variable qualitative sous sa forme disjonctive compléte est celle qui se préte le mieux a des calculs statistiques. La forme disjonctive compléte est obtenue en définissant une variable indicatrice pour chacune des modalités; par exemple, si M est la variable indicatrice de la modalité "marron", pour 1’ individu si l’individu i a les yeux marrons sinon On obtient donc, pour la variable "couleur des yeux" le tableau disjonctif complet X suivant, la ligne i correspondant a 1’ individu ts 100) 010 001 010 100 100, Les 3 colonnes de X sont constituées respectivement par les indicatrices des modalités “bleu”, “vert” et “marron”. 1.3.2 Les propriétés du tableau disjonctif complet La somme des colonnes d’un tableau disjonctif complet X est égale| lau_vecteur u, de dimension n, dont tous les éléments sont égaux a 1. Preuve: Chaque individu posséde une modalité et une seule, ce qui signifie que sur une ligne donnée ne figurent que des "0", a exception d’un élément unique valant "1". Pour une ligne donnée, la somme des éléments vaut donc 1 ; si on considére les n lignes, on obtient le résultat annoncé. ¢ x’ est une matrice diagonale dont les éléments sont les| fréquences absolues des modalités. Preuve: Lrélément situé A 1’intersection de la ligne q et de la colonne r de X’X est obtenu en effectuant le produit de la ligne q de x’ (c'est a dire de la colonne q de X) par la colonne r de X. Si r est différent de q, ce produit est nul, puisqu’il est une somme d’éléments nuls, un individu ne pouvant simultanément prendre les modalités q et rs par conséquent, les éléments de X’X ne figurant pas sur la diagonale sont nuls. L'élément diagonal d’ordre r est obtenu en faisant le produit de la ligne r de Xx’ par la colonne r de X; ce produit est la somme des carrés des éléments de la colonne r et cette somme comporte autant de "1" que la modalité r comporte d’individus, les autres termes étant nuls, et est donc égale 4 la fréquence absolue de la modalité r. En reprenant l’exemple de la variable “couleur des yeux”, on obtient: 3.0 0 X'X=|]0 2 0 00 1 1.3.3 Le codage d’une variable qualitative Quantifier ou coder une variable qualitative, c'est associer a chacune de ses modalités un nombre réel et ainsi transformer la variable qualitative en une variable quantitative. Ainsi, si pour la variable "couleur des yeux" du paragraphe 1.3.1, on code a, 1a couleur “bleu”, ay la couleur "vert" et a3 la couleur “marron”, on obtient la variable quantitative suivante définie pour les 6 individus: a] [100 zx} }o10 as} joo1} |* = az| = |o10 az] = X Jaz a} {100} 1 *, a. 100 Liensemble des codifications possibles est obtenu en faisant varier a1, ap et a7 et don Lrensemble des codifications possibles pour les individus est] ltensemble des combinaisons linéaires des colonnes du tableau ldisjonctif complet X. 1.4 Relation entre deux variables quantitatives: la régression simple 1 1 Le probleme Le poids et la taille sont deux variables qui varient généralement ensemble et dans le méme sens: les individus les plus lourds sont souvent les plus grands, et les plus petits les plus légers. Le lien entre les deux variables n’est cependant pas un lien absolu: certains individus petits sont plus lourds que d'autres plus grands. Comment mesurer l’intensité de la relation entre deux variables ? On note x et y les deux variables; soit x; (resp. y;) la valeur prise par l’individu i pour la variable x (resp. y). Tl s‘agit de déterminer s’il existe une relation linéaire vérifiée méme approximativement par les 2 variables, c/est a dire s’il existe deux réels a et b tels que: Yu = axy +b + ey pour i-1,...,n od ej est un terme résiduel, La relation entre y et x sera d’autant plus proche d’une relation linéaire exacte que les valeurs de la série e, c’est a dire les valeurs des ej, seront petites. Algébriquement, on détermine a et b selon le critére des moindres carrés, c’est 4 dire de telle maniére que ait une valeur minimale. Graphiquement, chaque individu est représenté par un point de coordonnées x; et y; dans un repére d’axes x et y et on recherche la droite qui passe “au plus prés” du nuage de points. ys x Droite de régression axtb xi Figure la: La droite de régression L'écart y, soit yy. est l’écart entre la droite et la valeur observée de 1.4.2, Résolution algébrique [fa droite de régression des moindres carrés y=axtbte est telle que: n E (x4-X) (yy-y) i=l * n Var(x) Preuve: Soient a et b vérifiant: yj = axj + bt e; tels que la somme des carrés des résidus est minimale. a Montrons d’abord que: & e. Par l'absurde, supposons: —- Zoey c avec c différent de 0 nisl et écrivons le modéle de régression de la fagon suivante: yy = a x, + (btc) + (ey-c) 7 le terme constant est donc (btc) et le résidu (€; -c). Pour ce modéle, la somme des carrés des résidus est: n n 9 re)? = E ( ej -2cey +07 ) i . Cette somme des par hypothése, la somme des carrés des résidus est minimale lorsque la constante est b et le résidu e;. et par conséquent e = 0 . : Y =axtb et donc b=y-ax -b = yy-axy-(y-ax) , finalement il s’agit de n minimiser: Ee; = E((yy-y)- a(xj-x))? =1 Cette expression dépend d’un seul paramétre, le paramétre a, et les 2 conditions suivantes doivent étre remplies: n 2 - la dérivée premiére de E ej par rapport a a doit étre nulle, isl x)?)=0 , ce qui établit le résultat annoncé. ae) - la dérivée seconde de Ee; par rapport a a doit étre strictement isl n positive: cette dérivée est égale a 2 E (x,-x)? et est done i=l bien strictement positive. ¢ Notons enfin que: Par définition, la covariance entre 2 variables x et y est: Cov (x,y) cov(x,y) = - x) (ygry) et donc a Var (x) 1.4.3 L’équation d’ analyse de la variance Le modéle: y; = a x; + b + e; permet de comprendre pourquoi la variable y; prend des valeurs différentes d’un individu a l’autre: la valeur prise pour la variable y par l’individu i dépend de la valeur que cet individu prend pour la variable x. Les différents individus prennent des valeurs différentes pour cette variable x, et donc des valeurs différentes pour y. Reprenant 1’exemple du paragraphe 1.4.1, il y a des individus lourds et des individus plus légers parce que le poids est lié a la taille et que certains individus ont une grande taille et d'autres une taille moins importante. L’ importance des fluctuations de la variable y est mesurée par var(y). Les fluctuations de y occasionnées par la variable x sont mesurées par Var(axtb), les fluctuations de y ne dépendant pas de x sont mesurées par Var(e) et: 10 var(y) = Var(ax+b) + Var(e) Jou: var(y) est la variance totale de y Var(axtb) est la variance expliquée par les variations de x Var(e) est la variance des résidus Cette équation est appelée "é€quation d’analyse de la variance" Preuve: yury = a(xy-X) + e; (paragraphe 1.4.2) 1m - 18 = n2 a = dfou: var(y)= = E (yyry)? = ~( Ea? (xg-x)? + Bey + 2a Elxq-x)eq) n isl i=l or: Var(ax) = Var(axtb) 2 Var(e) a lon - = = Cov(x,e) = Cov (x,y-ax-b) = Cov(x,y)-a Var(x)=0 ¢ nisl On mesure alors 1’intensité du lien linéaire entre x et y par le rapport de la variance expliquée a la variance totale; ce rapport, appelé coefficient de détermination, est noté R#(x,y). La racine carrée de R@(x,y) , affectée par convention du signe de a, donc du signe de Cov(x,y), est le coefficient de corrélation linéaire entre x et y- a var (ax+b) a? var(x) Zixyy) = aot: var(y) var (y) Cov (x,y) Cov(x,y) R2 (x,y) = et R= var(x) Var(y) Ox oy De l’équation d’analyse de la variance, il découle directement que le coefficient de détermination est compris entre 0 et 1, et donc que le coefficient de corrélation prend des valeurs comprises entre -let +1. Notons aussi que ces coefficients sont symétriques par rapport 4 x et y: R(x,y)=R(y,X)- 1.4.4.Une interprétation géométrique du coefficient de corrélation Une variable x prenant n valeurs peut @tre représentée par un vecteur dans R" ; ®" est appelé espace des variables. Dans ®" , le produit scalaire usuel entre deux vecteurs x et y de coordonnées respectives (xj, ++++ %p) et (Yq, +++ Yn) esti a = E xivy isl En statistique, le produit scalaire utilisé dans l’espace des variables R" est le produit scalaire suivant: lon Boxy vy n i=l En effet, ce produit scalaire particulier permet de donner du coefficient de corrélation une interprétation géométrique simple: Dans l’espace ®" , le cosinus de l’angle entre 2 variables| icentrées est égal au coefficient de corrélation entre ces variables. Preuve: 12 La norme d’un vecteur x est par définition: II] = VS ¥r® > et le cosinus de l’angle formé par les 2 vecteurs x et y : Cos(x,y) = Ibe Hy I Considérons deux variables X et Y centrées, c’est a dire telles que: = xj-K et ¥; = y;-y et calculons le cosinus de 1’angle entre X et Y: Cos(X,¥) = VI Tell lon 1 Or: = = EX, YG n i=l n i=l 1 ikl = ¥ExXxX> = 5 (x = Oo De méme: ikell = 9 a (2 (x4-x) (yy-y) ) = Cov(x,y) Par conséquent: Cos(X,Y) = R(X,¥) @ 13 Figure lb: Le coefficient de corrélation dans R® En particulier, si le coefficient de corrélation est égal a 1, les 2 vecteurs sont colinéaires, c’est 4 dire que les valeurs prises par X; et Yj; sont proportionnelles, donc qu’il existe une relation linéaire exacte entre les 2 variables. L’absence de corrélation se traduit par une valeur nulle pour R, et donc un angle droit entre X et Y. Notons aussi qu Dans l’espace ®® , la norme d’une variable centrée est égale 4 lson_écart-type. Dans R® donc, une variable centrée est normée si son écart-type (et, par conséquent, sa variance) est égal a 1. De la méme maniére, on montre sans difficultés que: . Dans l’espace ®", la norme d’une modalité d’une variable| qualitative est égale a la racine carrée de la fréquence relative de| cette modalité. 1.5. Relation entre une variable quantitative expliquée et un ensemble de variables quantitatives explicatives: la régression multiple 1.5.1 Le probléme Il s'agit d’expliquer les variations d’une variable quantitative y, observée sur n individus. Pour chacune de ces n observations, on dispose des valeurs de m variables quantitatives linéairement indépendantes xj, j=1,...m. On généralise ainsi a plusieurs variables explicatives le modéle de régression simple: la relation linéaire entre y et les variables explicatives x, est vérifiée a un terme résiduel prés, et pour individu i, on peut écrire: 14 Yi = 80 4 8, Kay tH ceeeee + ay May t eeeee ot Om Kim + ey ou : yy est l’observation i de la variable y jj est observation i de la variable x, Les coefficients aj; (pour i=1,...,m) sont déterminés selon le critére des moindres carrés, c'est a dire de telle maniére que n2 Ze; ait une valeur minimale. isl Comme dans le cas de la régression simple, on montre facile- n ment que Ze; = 0 (paragraphe 1.4.2) et que par conséquent, si x4 désigne la valeur moyenne de la variable x; et ¥y la valeur moyenne dé la variable y: + ashy t cress e+ anim ag + aye + A partir des 2 derniéres équations, on obtient: (yar ¥ Y= ay my, RQ) + oe. ag (egg, Vt ee + Om (Ram “Kt ©. Considérons alors les variables centrées Y et Xj Yoav ¥ Xij = %ij-%j Pour i-l,...,n 7 pour j Pour chaque observation i, i = 1,...,n , on écrit: ee et Agim + 4 = ayXip tee + aXyy t+ - soit matriciellement ¥ = Xa +e, avec: Xan Ys X= [Xa Xin. Xin y= ly Mon...» Xm Xam Yo 15 Y est le vecteur-colonne des observations de la variable a expliquer. X est la matrice de dimensions n (nombre de lignes) et m (nombre de colonnes) des n observations de chacune des variables x3, j= sm. Xj désigne la colonne n°j de la matrice X et: @ : a e=fe a=las : an. ee. Comme pour la régression simple, on peut donner du probleme de la régression multiple deux interprétations géométriques, l'une dans l’espace des individus, l'autre dans l’espace des variables. 1.5.2 Interprétation dans 1’espace des individus L'espace des individus est l’espace dont les points sont des individus, c’est a dire des observations. Les coordonnées d’un point dans cet espace sont données par une ligne du tableau X et par la valeur de Y correspondante: on dispose par conséquent de n points dans un espace de dimension (m+1). Minimiser la somme des carrés des résidus revient donc a chercher un hyperplan d’équation Y= a]X, + ... + ajX; + ...+ agXm de telle maniére que cet hyperplan passe "au plus prés" du nuage constitué par les n points. 1.5.3 L’interprétation dans 1’ espace des variables Dans l’espace des variables ®", on peut donner une autre interprétation géométrique du probléme de la régression. L’espace des variables est un espace de dimension n : on représente dans cet. espace la variable ¥ et chacune des variables Xj, j = 1,..,m. Les coordonnées de la variable a expliquer sont données par le vecteur Y, et les coordonnées des variables explicatives xX, sont données par les m colonnes de la matrice X. e est aussi un vecteur de R" et on montre que: 16 Déterminer les paramétres aj, ..., a, de telle maniére que: n2 Ze; soit minimal revient A projeter orthogonalement ¥ i=l lsur_l’espace engendré par les vecteurs X. 4 Preuve: On suppose, pour simplifier les notations, que les colonnes de X (clest-a-dire, en fait, les variables Xj, j=l, ... ,m) sont linéairement indépendantes. Géométriquement, Xa, lorsque a varie, décrit l'ensemble des combinaisons linéaires obtenues & partir des m vecteurs X; et engendre donc un espace de dimension m. lon 9 - Ze; est le carré de la norme dee, c’est a dire le carré nisl de la distance entre Y et Xa (car e=Y-Xa), donc de la distance entre Y et un élément de l’espace engendré par les colonnes de X. Cette distance est minimale lorsque Xa est la projection orthogonale de Y sur l’espace engendré par les colonnes de X. Le vecteur des résidus est alors orthogonal 4 l’espace engendré par les variables Xj, j +++ ;M, Clest & dire orthogonal A chacune de ces variables. ¢ Hyperplan engendré par les colonnes de X Figure le: La régression multiple dans #” 1.5.4 La solution L’interprétation géométrique dans l’espace des variables permet de calculer le vecteur-colonne des paramétres a. 17 Xa est la projection orthogonale de Y sur l’espace engendré par les vecteurs Xye j=1, ... ,m, clest 4 dire que Xa = PY , P étant le projecteur orthogonal sur 1’espace engendré par les colonnes de X, crest dire 1’application qui A un vecteur de l’espace des variables fait correspondre sa projection orthogonale sur cet espace. Par conséquent: Xa = X(x'X)"! x'Y (annexe A6) Soit finalement, comme les colonnes de X sont linéairement indépendantes: Le vecteur a minimisant la somme des carrés des résidus est a= (x'x)7t xry 1.5.5 L’équation d’analyse de la variance Le but de la régression est d’expliquer pourquoi la valeur de la variable A expliquer fluctue. L’élément explicatif de ces fluctuations est constitué par les variations de: Xa = aqXy + es... + agXy + vee. et any lorsque X) p++.) Xj r++++ Xm Varient. Notons Yj, la valeur de la variable a expliquer pour 1’ individu i calculée par {’équation de régression: Yio = Akg t ceeeee + agKag teres ot anim cfest a dire : Yig = Yj -e Si Y, désigne la série des Yj, : ¥, = ¥ D’aprés le théoréme de Pythagore, puisque Xa est orthogonal a e (cf figure 1c): lil” =tkalP+ Hell” ce qui s’écrit aussi, en utilisant les séries non centrées, selon des notations évidentes: 18 lon += E (yjoryy)? n i=l Variance = Variance + Variance totale expliquée résiduelle Cette équation porte le nom d’“équation d’analyse de la variance"; elle généralise 1/équation d’analyse de la variance de la régression simple. Et, comme pour la régression simple, on calcule un coefficient de détermination R*, rapport de la variance expliquée a la variance totale, pour mesurer la qualité de 1’ajustement obtenu. 2 Variance expliguée Ika Il 2 Variance totale Ie La racine carrée positive du coefficient de détermination, R, est le coefficient de corrélation multiple. 1.5.6 La matrice de variances-covariances La matrice A inverser pour calculer le projecteur P est la matrice X'X. L’élément situé a l’intersection de la ligne k et de la colonne j de X’K est égal A n Cov(X;sX5) En effet, la ligne k de xX’ est’ la colonne k de X, donc la variable X, , et (X,)'X; est donc égal a n Cov(X,,X;). Sur la diagonale, & est égal A j,/et Cov(x,,X;) est égal a Varixj]. i - X'X la matrice de variances-covariances entre les variables; a ises éléments diagonaux sont les variances des variables et 1/élément| Isitué a l’intersection de la ligne k et de la colonne j est égal 4| Cow (XyrX4) + Si les variables de départ sont non seulement centrées, 1 mais de plus réduites, alors les éléments de - X’X sont les n coefficients de corrélation entre les variables et la diagonale 19 1 de - X'X est constituée de 1. n 1.6. Relation entre une variable quantitative et un ensemble de variables quelconques Le modéle de régression multiple peut étre étendu aux cas oi l'ensemble des variables explicatives est constitué par des variables quantitatives et/ou des variables qualitatives. 1.6.1 Le rapport de corrélation On dispose d’une variable Y quantitative centrée "a expliguer" et d'une seule variable qualitative explicative dont les q modalités sont décrites par le tableau disjonctif complet x. Comme dans le cas de la régression multiple, Y s’écrit comme une combinaison linéaire des colonnes de X (c'est A dire comme un codage ou une quantification de la variable qualitative, comme indiqué au paragraphe 1.3.3), vérifiée approximativement: Y= Xate . Reprenant le méme raisonnement qu’en régression multiple, Xa est alors la projection orthogonale de Y sur l’espace engendré par les colonnes de X. Le vecteur u, dont toutes les composantes sont égales a 1 appartient a cet espace (paragraphe 1.3.2), et donc (paragraphe 1.5.3), puisque le vecteur e est orthogonal a tout vecteur de 1 = (up)’e = 0 n Par hypothése, Y est centrée et par conséquent comme Xa=Y-e , Xa est une variable centrée. lrespace engendré par les colonnes de Xa, © Par analogie avec le coefficient de détermination, le rapport de corrélation n* est défini comme le rapport de la variance expliquée a la variance totale et mesure la qualité de 1’ajustement obtenu; ce rapport mesure l’intensité de la liaison entre la variable quantitative Y et la variable qualitative x. Ika lP Le rapport de corrélation n? est égal a : Ube 12 20 or: loa 2 lwI2 est 1a variance dey: IWIRF =- = yy n i=l 1 1 Ikkall2 = Ilpyl? = - yrprpy= - yexcxrxytxry n n X est le tableau disjonctif complet; par conséquent, X’X est la matrice diagonale dont 1’élément d’ordre j est l’effectif de la modalité j, soit nj (paragraphe 1.3.2). X5 est la colonne numéro j de X, c’est a dire l’indicatrice de la modalité j. X; ne prend des valeurs non nulles que pour les individus appartenant 4 cette modalité j, et par conséquent (Xj)’Y est la somme, pour les individus possédant la modalité j, des valeurs prises pour ¥, ce que 1’on note: nj et ¥, désignant respectivement l’effectif de la classe j et la valeur moyenne pour la variable Y des individus de la classe j. (x'x)7l xry est donc le vecteur dont les q composantes sont les q valeurs moyennes a l’intérieur des classes et [kal mesure la variance intra-classes; cette variance est calculée a partir des n individus, en donnant comme valeur a chaque individu la valeur moyenne de la classe 4 laquelle il appartient: a n. Wal? = 2 -(¥5)? j=ln Les deux cas extrémes pouvant se produire sont: - la variable qualitative détermine entiérement 1a variable quantitative: les valeurs de la variable quantitative sont identiques & l’intérieur de chaque classe et différentes d’une classe a 1’ autre. Dans ce cas, le rapport de corrélation est maximal et égal a 1 car Ikal? = Ill? - la variable qualitative n’a aucun pouvoir explicatif, les valeurs moyennes sont égales d’une classe a l'autre (et donc nulles): le rapport de corrélation est nul. 1.6.2 Les modéles d’analyse de la variance et de la covariance La variable a expliquer étant quantitative, lorsque le tableau X est constitué par les modalités d’une ou de plusieurs variables qualitatives, le modéle est un modéle d’analyse de la variance; 21 ainsi, le salaire (variable quantitative) peut @tre expliqué par le dipléme possédé (variable qualitative), le sexe (variable qualitative) ou le secteur de l’entreprise qui embauche (variable qualitative)... Si X est constitué d’un mélange de variables quantitatives et de modalités de variables qualitatives, il s’agit d’un modéle d’analyse de la covariance: par exemple, le prix d’un appartement peut étre défini a partir de variables quantitatives (le nombre de m? de l’appartement, sa distance du centre-ville,...) ou qualitatives (présence ou non d’un ascenseur, d’un concierge, type de quartier...). Dans les deux cas, les calculs sont identiques aux calculs effectués dans le cadre de la régression multiple. 1.7 Relation entre deux variables qualitatives 1.7.1 Construction d’un tableau de contingence Considérons maintenant deux variables qualitatives X la couleur des yeux- qui posséde 3 modalités - vert, bleu et marron- et Y, la couleur des cheveux, qui posséde 2 modalités : chatain, auburn. Chacune des 2 variables qualitatives est observée pour 10 individus et on obtient les tableaux disjonctifs complets suivants: 100 or 001 o1 100 o1 001 10 100 10 x o10 Y= ton 010 10 001 10 010 10 100 01 On construit le tableau croisant les deux variables; ce tableau indique le nombre d’individus possédant a la fois une certaine modalité de la premiére variable qualitative et une certaine modalité de la seconde variable qualitative. _ — (Chatain _ Auburn Vert 1 1 3 Bleu 2 1 Maa 2 | i Matriciellement, on peut obtenir ce tableau C selon la formule: 22 c= X'Y , ce que l’on vérifie ici: or 01 01 10 10 o1 10 10 10 01 3 1010100001 0000011010 1 0101000100, En effet, les tableaux X et Y ne comportant que des 0 et des 1, le produit d’une ligne de X avec une colonne de Y est une somme de termes gui sont tous nuls, sauf pour les individus qui prennent la valeur 1 A la fois pour la modalité décrite par la ligne de X et la modalité décrite par la colonne de Y. Le tableau C s’appelle tableau de contingence; bien entendu, C’ , qui donne les mémes informations, mais en permutant les lignes et les colonnes, est aussi un tableau de contingence. 1.7.2 Les profils des lignes et les profils des colonnes Considérons maintenant une population de 90 individus triée selon 2 critéres: - 1’Age qui comporte 3 modalités: moins de 30 ans entre 30 et 50 ans plus de 50 ans = le dipléme le plus élevé détenu qui comporte aussi 3 modalités: BEPC Baccalauréat Licence ou plus Le tableau de contingence croisant les 2 variables est le suivant: Tableau de contingence (ou des effectifs observés) 23 ___ BEPC Licence Total Plus de 50 ans 15 3 T 30 Entre 30 et 50 ans 10 4 32 ‘Moins de 30 ans 15 8 28 Total i 40, 35 1s 90, "Total" désigne les marges du tableau: il y a ainsi 30 individus de plus de 50 ans dans la population et 15 individus titulaires d’une licence ou plus. A partir du tableau des effectifs observés, on peut calculer le tableau des fréquences relatives observées, en divisant chaque terme par n, l’effectif total, soit 90. Tableau des fréquences observées Fréquence relative de _ BEPC BAC ___Licence a ligne Plus de 50 ans | 15/90 ] 12190 03/90 | 30/90 Entre 30 et $0 am 10/90 1890 04/90 | 3290 Moins de 30 ans 15/90 05190 08/90 28190 fréquence relative de 40/90 35/90 | 90190 la colonne On note £;; la fréquence relative des individus possédant a4 la fois la modalité d’ordre i de la premiére variable qualitative et la modalité d’ordre j de la seconde variable qualitative. Par exemple, £13 est égal a 3/90. £4, est la fréquence relative de la modalité i de la premiére variable qualitative et f,; est la fréquence relative de la modalité j de la seconde variable “qualitative. Par exemple, f;, est égal a 30/90 alors que f, est égal a 35/90. Le tableau des profils des lignes indique pour une modalité i donnée de la premiére variable qualitative la proportion d’individus possédant une modalité j donnée de la seconde variable qualitative. Tableau des profils des lignes Tréquence relative de BEPC __ BAC _ Licence laligne Plus de 50 ans | 15/30 1230 03/30 30/90 Entre 30 et 50 ans 10732 1832 04732 32/90 Moins de 30 ans | 15728 05/28 08/28 | 28/90 fréquence riatve de| 40190 35/90 | 15/90 | 90/90 la colonne —___ Ainsi, 10 % des plus de 50 ans sont titulaires d’une licence. 24 De fagon symétrique, le tableau des profils des colonnes indique pour une modalité j donnée de la seconde variable qualitative la proportion d’individus possédant une modalité i donnée de la premiére variable qualitative. Tableau des profils des colonnes: ‘fréquence relative de __ BEPC. BAC_ Licence lati Plus de 30 ans 15/40 12/35, ] 3/15 30/90 Entre 30 et 50 ans 10/40 1835 oans 32/90 Moins de 30 ans | 15/40 | oss Osis 28/90 fréquence relative de | 40/90 | 35/90 15/90 | ‘90/90 Incolonne | _ - Ainsi, 20 % des titulaires d’une licence ont plus de 50 ans. 1.7.3 Le KHI-DEUX Supposons que les deux variables qualitatives "dipléme" et "age" soient indépendantes, c’est & dire que la connaissance de la modalité prise par un individu pour une variable -1’age de 1’individu, par exemple- n’apporte aucune information concernant l'autre variable (ce qui interdit des affirmations telles que: il est agé, donc il est peu probable qu’il posséde un dipléme élevé...). Sous cette hypothése d’indépendance, la fréquence théorique des individus possédant 4 la fois la modalité i de la premiére variable et la modalité j de la seconde variable est égale a fj f,; et on peut construire le tableau des fréquences théoriques suivant? Tableau des fréquences théoriques fréquence relative de _ - BEPC BAC ___ Licence ___laligne Plus deS0ans | 1200/8100 | ‘10s0/8100— -450/8100 30/90 Entre 30 et §0 ans 2g0'8100 | 1120/8100 480/8100 3290 Moins de30.ns | 11208100 80/8100 | saosin | 28990 fréquence relative de 40/90 35/90 15/90 90/90 _—lacolonne_ > - Le tableau des effectifs théoriques est alors obtenu en multipliant les fréquences théoriques par l’effectif total, soit 90: 25 Tableau des effectifs théoriques BEPC BAC Licence Plus de 50 ans 1333, 11.66 ] 5.00 30 Entre 30 et 50 ans 1422 1244 533 32 Moins de 30 ans 1244 10.88 465 28 Tot 40 3s 1s | 90 Lrécart entre le tableau des effectifs théoriques et le tableau des effectifs observés permet de détecter les écarts a 1’hypothése d’indépendance: ici, on met en évidence, par exemple, la sur-représentation des licenciés chez les moins de 30 ans (il y en a 8 dans la réalité, pour un effectif théorique de 4.66). Pour mesurer l’écart A 1’indépendance, une distance entre le tableau des effectifs observés et le tableau des effectifs théoriques est définie. Cette distance est notée x2 (KHI-DEUX). Si on désigne par O34 (resp. Tj4) 1’élément situé a l’intersection de la ligne i et de la Colonne j du tableau des effectifs observés (resp. théoriques), alors: 735)? T. ij m, et mg étant respectivement le nombre de lignes et de colonnes des tableaux. Ici, le x2 est égal a 11.18. Dans le calcul du x? , le carré de l’écart entre l’effectif observé et l’effectif théorique est pondéré par l’inverse de l'effectif théorique, ce qui permet de ne pas donner un poids trop important aux classes d’effectif théorique important. Le 42 peut aussi étre calculé en comparant le tableau des fréquences observées au tableau des fréquences théoriques. En effet, si on remplace 0;5 par sa valeur nfj; et Tj; par sa valeur nfj fj, on obtient: mm (£45-£3.£,5)? nz f isl j=1 26 Notons enfin que l’approche descriptive utilisée ici pour présenter les coefficients de mesure entre plusieurs ensembles de variables (coefficient de corrélation et Khi-Deux) peut étre complétée par une approche utilisant les outils de 1’ inférence statistique (ces questions sont traitées notamment dans l’ouvrage de P. DAGNELIE (98)). 1.8 Le tableau de BURT Considérons maintenant 3 variables qualitatives, les 2 variables précédentes X et Y, et une troisiéme variable, Z, décrite elle aussi par un tableau disjonctif complet: 100 or 010 002 o1 100 100 o1 100 001 10 010 100 10 100 * = Jo1o x o1 2 = toon 010 10 001 001 10 010 010 10 100 100 o1 100 Le tableau de BURT B est le tableau croisant les modalités des 3 variables qualitatives: B =(X,Y,Z)' (X/¥,Z) Numériquement, ici: 4 13 0 21 1 0 21 122 50 21 Bos |3.2 5 1 311 23 500 1 21 0 020 11 002 27 Plus généralement, un tableau de BURT est un tableau croisant les modalités de plusieurs variables qualitatives. La diagonale principale du tableau de BURT est constituée par les effectifs des modalités, et on retrouve dans le tableau de BURT tous les tableaux de contingence croisant les variables qualitatives deux a deux. Par construction, ce tableau est symétrique; la somme des éléments d’une ligne (et, par symétrie, la somme des éléments d'une colonne) est égale a la fréquence de la modalité correspondante multipliée par le nombre de variables qualitatives (ici 3), puisque la modalité est décrite autant de fois qu’il y a de variables qualitatives. Ainsi, le tableau de BURT décrit toutes les relations entre les variables qualitatives prises deux a deux. 1.9 Transformation d’une variable quantitative en une variable qualitative par découpage en classes Une variable quantitative peut étre transformée en une variable qualitative; il suffit de créer des classes de telle maniére que chaque individu appartienne a une classe et une seule. Ainsi, si on considére la variable "revenu annue: on peut définir des classes ou des tranches de la maniére suivante: - classe 1: revenu annuel inférieur 4 10000 francs - classe 2: revenu annuel compris entre 10000 et 50000 francs - classe p: revenu annuel supérieur a 10 000 000 francs Chaque individu appartient A une tranche de revenu et une seule et on a donc créé une variable qualitative. A priori, cette transformation semble peu intéressante puisqu’elle occasionne une perte d’information: le revenu d’un individu donné est connu avec moins de précision puisqu’on ne connait plus son montant exact, mais seulement la classe laquelle appartient ce revenu. Mais, A partir de deux variables quantitatives découpées en tranches peut étre déterminé le tableau de contingence croisant les classes des deux variables qualitatives ainsi constituées. Et ce tableau fournit des informations plus intéressantes sur la liaison entre les variables que le simple calcul du coefficient de corrélation entre les variables quantitatives d'origine. Et ce d’autant plus que ces informations pourront étre traitées notamment par une technique d’analyse de tableaux de contingence, l’Analyse Factorielle des Correspondances, étudiée au chapitre 4. 1.10 Les distances dans l/espace des individus 28 Considérons le tableau X suivant, 4 n lignes (individus) et m colonnes (variables): Xin Xone. Kage» Kaw Un individu décrit par une ligne du tableau x prend m valeurs, une pour chaque variable, et peut donc étre représenté par un point dans ®™, l’espace des individus. Lorsque ®™ est muni du produit scalaire usuel, si on considére 2 individus i et i’ dont les coordonnées sont données respectivement par les 2 vecteurs: (Xjqre-erXijeeeeeXjm) Ob (Xyrqeee oe Xar gees itm) alors la distance entre i et i’, notée d(i,i’} est dornée par la racine carrée positive de: (4 (%55-%4r 4)? Mais ®™ peut aussi @tre muni d’un autre produit scalaire, c'est A dire qu'il est possible de définir d’autres fagons de calculer la distance entre 2 points. En particulier, il est possible d’associer A chaque variable Xj; un nombre positif vj et la distance d(i,i’) est alors la racine cdrrée positive de: m 24 ,47)= = d2(i,7)= ete (%34-%iry) 2 Ainsi, les variables associées A des coefficients vj ont-elles une importance plus élevée dans la définition de la distance que celles qui ont un poids faible. Le choix d’un systéme de coefficients nfest pas neutre: la distance entre 2 points étant la mesure de la “ressemblance” entre les individus correspondants (2 individus “ressemblants” ayant une faible distance entre eux), cette distance doit @tre définie en fonction de l’idée que l’on se fait de cette “ressemblance” entre 2 points. Contrairement a l’espace des variables ot un produit scalaire particulier s’impose (paragraphe 1.4.4) car il permet des interprétations géométriques simples des concepts statistiques, dans l’espace des individus le choix d’un produit scalaire (donc d'une distance) est toujours arbitraire. 29 1.11 Les méthodes et les logiciels d’ analyse de données 1.11.1 Les logiciels existant Les techniques exposées dans ce premier chapitre permettent de mesurer l’intensité de la relation entre deux ensembles contenant chacun un certain nombre de variables. Les méthodes d’analyse de données prolongent ces techniques de statistique descriptive. La mise en uvre de ces méthodes nécessite des calculs importants, qu/il n’est pas possible d’effectuer sans avoir recours a4 des logiciels de Statistique. Parmi les nombreux logiciels existant, les plus utilisés sont: SPAD: CISIA, 1 avenue Herbillon, 94160 Saint-Mandé SAS: SAS Institute, Domaine de Gréay, BP 5, 77166 Evry Grégy-sur-Yerres SPSS: Conceptel, 16 rue d’Ouessant, 75015 Paris STATITCF: ITCF, Boigneville, 91720 Maisse LE SPHINX: Le Sphinx, 7, rue Blaise Pascal, 74600 Seynod ADDAD: LADDAD, 22 rue Charcot, 75013 Paris BMDP: Statistical Software Ldt,Cork Technology Park, Model Farm Road, Cork, Ireland Il est & noter que quelques différences (concernant notamment les calculs effectués et les sorties graphiques) existent entre les logiciels anglo-saxons et les logiciels frangais, différences qui correspondent a des différences de conception des méthodes d’ analyse de données. Le logiciel le plus proche de l’esprit de ce livre est le logiciel SPAD. 1.11.2 La mise en wuvre des logiciels Les différents logiciels permettent sans difficultés de saisir des données ou de traiter des données stockées sous des formes diverses (ASCII, EXCEL, DBASH,...). De fait, la principale difficulté rencontrée lors de l’utilisation d'un logiciel est le choix de la procédure appropriée pour traiter les données dont on dispose, c’est & dire le choix de la méthode statistique 4 retenir. Les techniques décrites dans cet ouvrage sont les suivantes: - l’analyse en composantes principales a pour objet la description de grands ensembles de variables quantitatives observées pour les mémes individus, c’est A dire synthétise l'information contenue dans un tableau dont le nombre d’observations et/ou le nombre de variables est élevé; cette technique est décrite au chapitre 2. 30 - lfanalyse canonique permet de saisir l’essentiel des relations linéaires existant entre deux ensembles de variables décrites pour les mémes individus. Le chapitre 3, gui peut étre lu indépendamment des autres chapitres, décrit cette méthode. - lfanalyse des correspondances décrit les relations linéaires existant entre deux variables qualitatives, c’est 4 dire, en d’autres termes, met en évidence les éléments essentiels d’un tableau de contingence. La compréhension de cette technique, décrite au chapitre 4, nécessite une lecture préalable de la partie du chapitre 3 relative A l’analyse canonique. L’extension de ‘analyse des correspondances a plus de deux ensembles de variables qualitatives (analyse des correspondances multiples qui s‘applique a des tableaux de BURT) nécessite, de plus, la lecture de la partie du chapitre 3 relative a l’analyse canonique généralisée. - lfanalyse factorielle discriminante examine les liens existant entre un ensemble de variables quantitatives et une variable qualitative, c'est A dire relie l’appartenance d’un individu a une classe donnée aux valeurs qu’il prend pour les variables gquantitatives; cette technique est exposée au chapitre 5 (ce chapitre peut étre lu indépendamment des autres chapitres; seuis les paragraphes 5.2.5 4 5.2.7 et 5.5, peu utiles dans une premiére approche, nécessitent la lecture préalable du chapitre 2 et de la partie du chapitre 3 relative a l’analyse canonique) . - LONGI et 1’Analyse en Composantes Principales Généralisée, qui sont exposées au chapitre 6, décrivent des panels de données, c’est a dire des données portant sur les mémes individus observés sur les mémes variables a des instants différents; l’utilisation de ces techniques suppose une bonne compréhension des techniques exposées dans les cing premiers chapitres. Progressivement, les logiciels de Statistique sur PC qui s'étaient développés dans l'environnement DOS proposent de nouvelles versions fonctionnant avec l’environnement WINDOWS, gagnant ainsi en convivialité. Sous DOS, la mise en @uvre d’une analyse de données nécessite la constitution d’un fichier d’instructions précisant la procédure choisie et décrivant les options retenues. Dans un environnement “WINDOWS, il nest plus nécessaire d'apprendre un langage spécifigue au logiciel utilisé. Ainsi dans SPAD, il suffit de cliquer sur l’icone correspondant & la procédure utilisée, le choix des options possibles se faisant A partir de menus déroulants. De la méme fagon, les sorties graphiques bénéficient d'une large gamme d’options (insertion d’un titre, choix des couleurs, zoom sur un ensemble de points...) qui peuvent étre activées a l’aide de menus déroulants. 31 CHAPITRE 2. L’ ANALYSE EN COMPOSANTES PRINCIPALES L'analyse en composantes principales (ACP) est sans doute la méthode d’analyse de données la plus connue et la plus utilisée. Proposée dés les années 30 par HOTELLING (1933), mais nécessitant d/importants calculs numériques, 1/ACP n’est devenue une technique opérationnelle qu’a partir des années 60, avec le développement des moyens de calcul informatique. L'ACP a pour objet de résumer de grands ensembles de données quantitatives. Ces données sont rangées dans un tableau comportant un grand nombre d’individus et/ou un grand nombre de variables et la simple lecture de ce tableau ne permet pas de saisir l’essentiel des informations qu’il contient. Aussi, 1’ACP synthétise-t-elle les données en construisant un petit nombre de variables nouvelles, les composantes principales. Lressentiel du tableau de données peut alors étre saisi rapidement, a l'aide de représentations graphiques établies & partir de ces composantes principales. Les applications de 1/ACP sont trés nombreuses; ainsi: - si l’on dispose pour chacune des agences d’un réseau bancaire du chiffre ‘affaires réalisé pour différents produits (livrets d’épargne, préts accordés A court, a moyen ou a long terme, produits boursiers,...}, ou encore d'autres variables comme l’avoir moyen par livret ou le nombre de clients de l’agence, 1/ACP xrépond aux questions suivantes: - Existe-t-il des agences ou des groupes d’agences ayant des comportements “atypiques” (quelles sont ces agences ? Pour quel type de produit sont-elles “atypiques” ? peut-on classer les agences en groupes dans lesquels les comportements sont homogénes ?..) = quelles relations existe-t-il entre les différentes variables (par exemple: les agences pour lesquelles les avoirs moyens par livret sont élevés sont-elles aussi celles qui drainent une épargne boursiére importante ? Cette relation entre avoirs moyens et épargne est-elle vérifiée pour l'ensemble du réseau ?...) - en sciences expérimentales, on dispose souvent d’un ensemble de mesures pour une population donnée. La encore, 1’ACP décrit de fagon synthétique les individus (s’agit-il d’une population homogéne ? peut-on distinguer des sous-groupes ? existe-t-il des individus au comportement original ?) et décrit de facon synthétique les relations entre les variables (varient-elles de facgon concomitante ? certaines variables sont-elles sans lien avec les autres variables ?...). - dans l’exemple développé dans ce chapitre, 1’évolution de 8 caractéristiques de l'économie francaise de 1971 A 1994 est synthétisée par 3 composantes principales; les proximités entre les années et les corrélations entre les variables sont alors décrites par des graphiques basés sur ces 3 composantes principales. Il s’agit 32 donc, 4 partir de 3 axes, de résumer 1/évolution de la conjoncture économique frangaise de 1971 a 1994, en mettant en évidence les relations entre les variables (quelle relation entre inflation et chémage, entre taux d’intérét et investissement ?), et en décrivant le cheminement temporel de cette conjoncture (existe-t-il des années de rupture ? pour quelles variables existe-t-il une rupture ces années-14 ? aprés cette rupture, 1’économie revient-elle a 1/état précédent ?...). 2.1 Les données Soit X un tableau an lignes et m colonnes. La ligne i décrit la valeur prise par l’individu i pour m variables quantitatives. Les données sont centrées et réduites, c’est a dire que chaque variable a une moyenne nulle et une variance égale a 1. Mane Xie. es Kam on note Xj le vecteur-colonne constitué par les éléments de la colonne j de %. X44 désigne 1’élément de X situé A 1’intersection de la ligne i et de 1# colonne j, c'est a dire la valeur de 1’ individu i pour la variable x5. 2.2 Le probleme Il s’agit de synthétiser les données contenues dans le tableau X; pour cela, on construit un petit nombre de variables nouvelles - cl , C* ,...- appelées composantes principales, permettant de saisir l’essentiel du tableau X. Ainsi, a 1’étape 1, on détermine une variable synthétique C1, la premiére composante principale, combinaison linéaire des variables Xx. aid ce qui signifie que la valeur de C! pour 1’individu i est donnée par: 33 1 1 1 1 Ch = ay Xyy t+ ceeeee + 85 Rag teers + On Kim Cette premiére composante principale ne suffit généralement pas a résumer de fagon satisfaisante les données du tableau X. Aussi, on construit une deuxiéme composante principale, puis une troisiéme De facon générale, & 1’étape k, on construit la composante ordre k: kok k k Co = ay Xp t eeeeee tag Ky t eres + Om Xn Matriciellement, CX=xa* on a” est un vecteur-colonne a m éléments, 1’6lément d’ordre j étant égal 4 ay } ce vecteur a®est appelé facteur d’ordre k (ou k-iéme facteur). Les facteurs fournissent un systéme de "poids" pour les variables: certains "poids" aj sont négatifs, d/autres positifs; en fait, ce qui importe n'est pas la valeur de chacun de ces poids, mais le rapport de ces "poids" les uns par rapport aux autres. Si on multiplie un facteur par une constante non nulle, ces rapports sont inchangés. Les facteurs sont donc définis a une constante multiplicative prés; aussi, on impose une contrainte de normalisation pour chacun des facteurs: Les composantes principales sont des variables de moyenne nulle, puisque les variables d’origine sont centrées; la valeur pour l/ individu i de la composante principale k est: k st an Xim 2.3 La détermination des facteurs et des composantes principales Comme la régression, 1’analyse en composantes principales (ACP) peut étre présentée dans deux espaces: celui des individus et celui des variables. 34 2.3.1 Dans l’espace des individus Dans cet espace, les n individus forment un nuage de points; les variables étant centrées, l’origine 0 du repére est le centre du nuage. La distance utilisée ici est la distance usuelle dans R™ . Liobjet de 1/ACP est de décrire de fagon synthétique la dispersion du nuage de points. A l’étape 1, 1/ACP détermine l’axe D, passant par l’origine selon| llequel la dispersion du nuage de points est maximale; cet axe Dj| passe au “plus prés” du nuage de points, c'est a dire est tel que 13] Imoyenne des carrés des distances entre les n points et l’axe Dj, est| jminimale. Soit al le vecteur directeur normé de Dj; al est alors le vecteur| lpropre normé associé a la valeur propre la plus élevée de la matrice 1 Ide corrélations entre les variables - X’X . a Preuve: Les coordonnées de 1’ individu i sont données par le vecteur (Xjq) seer Xjjeeres Xam) et par conséquent la coordonnée de la projection de ‘T’'individu"i sur 1’axe Dy est (annexe A6): » 1 1 1 Ce = ay Xyy t ceeeee ay May t cere ot Om Xam 1 qui est le produit scalaire de (Xj, - eevee Kim) et de a Individu i x x Distance de Pinch Distance de aladole 4.01) aye Dy Pini a Individu 35 Figure 2a: Projection d’un individu sur Dy d(i,0) désigne la distance entre le point i et l’origine tandis que d(i,D,) est la distance entre le point i et l’axe Dy; notons que, contrairement 4 la régression linéaire, cette distance est calculée ici perpendiculairement & l’axe Dj, aucune direction de 1’espace n’étant privilégiée. D'aprés le théoréme de Pythagore: a2(i,0) = (ch)? + d2(4,D,) et par conséquent: lon lon y lon = Ed2(i,0) =- E (cy)? +- E a2(i,Dy) n i= n i=l n i=l La dispersion du nuage expliquée par l’axe 1 est la variance des 1 C} ; les composantes principales étant centrées, cette variance est loa 1 égale a - E (C;)2. D’aprés 1’ équation ci-dessus, maximiser lon ni lon - & (Cy)? est équivalent A minimiser - £ d?(i,D,) car la valeur n n i= lon de - E d?(i,0) est indépendante de 1’axe D, retenu. n i=l Se a 1 Or: - £ (Cy ) - (cfc - (a )'X'Xa nisl n n lou 1 1a et le maximum de - (a )‘X’Xa sous la contrainte (a )'a n 1 1 est atteint lorsque a est le vecteur propre normé de - X’X associé n a sa plus grande valeur propre (cf. annexe, paragraphe A5) ¢ 36 Ainsi, A l’étape 1, 1/ACP fournit la meilleure représentation unidimensionnelle possible du nuage de point; mais l’étape 1 ne suffit pas A décrire complétement le nuage des n points: la dispersion du nuage dans les directions de l’espace orthogonales a Dy nest pas décrite par 1’étape 1. Aussi, A 1’étape 2, 1'ACP détermine un axe Dz,, de vecteur directeur normé a2, orthogonal a at, passant “au plus prés” du nuage de points. En procédant comme a 1’étape 1, le probléme s/écrit alors: ee 2 max - (2 )'X'Xa n 2 1 sous la contrainte d’orthogonalisation: (a )’a 0 2,2 et sous la contrainte de normalisation: (a )’a=1 2 1 » est le vecteur propre normé de ~ xX'X a La solution, le vecteur a’ associé a sa deuxiéme valeur propre. On continue ainsi de suite, afin de compléter la description du nuage de points donnée par les deux premiéres étapes. A l’étape k, 1’ACP détermine 1’axe Dy, passant par 1’ origine, lde vecteur directeur normé a* orthogonal aux axes a™ (r < k) des| letapes précédentes, selon lequel la dispersion du nuage de points est| Inaximale; cet axe D, passe au “plus prés” du nuage de points, c’est 4| dire est tel que la moyenne des carrés des distances entre les | points et 1’axe Dy est minimale. 1 k. k ILe probléme s’écrit : max - (a )’X’Xa a sous les contraintes: (ak)'at = 0 pour r=1,...,k-1 Jet: (akyrak = 1 k lue maximum est atteint lorsque a est le vecteur propre normé de a I- x’X, associé & sa k-iéme valeur propre. In preuve: La détermination du critére a maximiser se fait en effectuant le méme raisonnement qu’a 1’étape 1; il suffit alors d’utiliser les résultats de l’annexe, paragraphe AS. 37 2.3.2 Dans l’espace des variables La présentation alternative de 1/ACP dans l’espace des variables est la suivante: disposant d’un ensemble de m variables, 1'ACP construit une variable synthétique résumant le mieux possible ces m variables, c'est A dire une variable synthétique la mieux liée linéairement possible aux m variables. 1 A l’étape 1, 1’ACP détermine C tel que: us 1 ER? (C ,X;) ait une valeur maximale. gj=1 1 1 lc est par conséquent le vecteur propres de - XX’ associé a sa n [valeur propre la plus élevée. Preuve: 1 1 aio Cov(C’, 5) = = (X4)'C= = (C)’K; et donc: a n 1 loa 1 2 ae 1X4 Ra)" Cov? (Coy Hy) = = (CY Hy KG)'C dol Comme Var (C) = = (C)’C et Var(x;) = 1 n (chy xy 0x5) a ; R2 (0, X5) = ; t,t n (eye et par conséquent: 1 : 1 (CTC E XS (KSINIC n : er ER? (C ,X5) = ab 1,1 n (c )'c m or: EX4(Xj)/= XX" et done: jet 1 1 m 1 (Co) xX C ER? (cx) = jel ay n (c )tc 38 1 1 Par conséquent, C est le premier vecteur propre de - xx’ (cf. a annexe, paragraphe AS). 2 z ; C'est donc le meilleur résumé possible de 1’ ensemble des 1 variables de départ; mais C ne décrit pas totalement ces variables et il nécessaire de calculer d’autres composantes principales. 2 Aussi, a 1/étape 2, 1/ACP détermine C qui doit étre aussi le meilleur résumé possible des variables Xj, mais en complétant les 1 2 informations fournies par C : ceci signifie que C doit étre non 1 corrélé aC . Le probléme est donc a 1’étape 2 de déterminer 2 m 2 c tel que ER? (C, Xj) ait une valeur maximale. = 1 2 sous la contrainte: R(C, C) . On continue ainsi de suite et: k A l’étape k, 1/ACP détermine une variable synthétique C , résumant le mieux possible les variables de départ, et non corrélée| laux (k-1) premiéres composantes principales, c’est a k m k ldire détermine C tel que = R* (C ,X;) ait une valeur j=1 kor lnaximale sous les k-1 contraintes: R(C,C) =0 pour r EX) j= Cette qualité de représentation est égale au carré du cosinus de r l’angle entre le vecteur représentatif du point i et le vecteur a. Pour un individu donné, la somme de ses qualités de représentation pour les m axes est égale A 100 % ; un individu est "bien" expliqué par un axe pour lequel sa qualité de représentation est élevée. 45 Il est A noter que souvent, pour un axe r donné, la qualité de représentation d’un point est faible lorsque la projection de ce r point est proche de l’origine (Cj a alors une valeur faible); cette qualité de représentation est souvent forte lorsque la projection est r éloignée de l’origine (Cj a alors une valeur forte). 2.4.3. Les contributions des individus a la variance La variance expliquée a 1/étape r, est égale a lon or 9 = (cy) By ¢ la part de cette variance due 4 1’ indi- a tor 2 vidu i est - (Cj). n [la contribution de l’individu i a la variance de l’axe r est ri2 (ch) donc mesurée par + By Pour un axe donné, la somme des contributions de tous les individus est égale 4 100 8 ; si la contribution d’un individu a un axe donné est importante, ceci signifie que cet individu joue un réle important dans la construction de cet axe, réle qu’il convient d’analyser lors de l’interprétation des résultats. 2.4.4. La représentation des variables Lorsqu’on s’intéresse aux résultats fournis par les étapes r et 8, on représente chaque variable par sa projection sur le plan défini par les composantes principales d’ordre r et s normées a 1. La projection de X, sur l’axe engendré par 1a composante principale d’ordre r normée A 1 est donnée par (Annexe A6): 1 r r = (%)1C Cov(xs, ©) : n = ROK .C") x r o(Cc ) o(C ) QL x a(C ) désignant 1’écart-type de C . 46 La coordonnée de la variable X; pour l’axe r est donc R(X,,CT), le coefficient de corrélation entre cette variable j et la composante principale r. Ainsi, les coordonnées de Xj dans la base des composantes + R (X,C™)). Il stensuit, principales normées sont :(R (X;,Cl), puisque Xj est une variable normée que: k R2 (X5,C Jad 1 iva k; r s Si on ne considére que 2 composantes principales C et C r s R2 (X5,C ) +R? (Xy,C) $1 La somme des carrés des coordonnées de la variable Xj; est inférieure ou égale 4 1, c'est a dire que le point représentatif de est situé a l’intérieur d'un cercle de rayon 1 et de centre Pl lorigine. reé x) fe RE XD Figure 2d: Cercle des corrélations Si le point Xj est proche du bord du cercle, ceci signifie que la variable X, est trés proche du plan défini par les composantes principales r et s, puisque les coefficients de corrélations avec les autres composantes principales sont alors trés faibles. Et donc: a7 Si deux variables X; et X. sont proches du bord du cercle, alors| lvangle au centre G entre ces deux variables est proche de 1’angle| que font ces variables entre elles dans l’espace des variables, et le| lcosinus de cet angle G est approximativement égal A leur coefficient lde corrélation. Figure 2e: Angle entre deux variables dans le cercle des corrélations Ainsi, soient deux variables proches du bord du cercle; si elles sont proches l'une de lfautre, alors elles sont trés fortement corrélées; au contraire, si 1’angle au centre est un angle droit, ces variables ont une corrélation nulle. Enfin, si ces deux variables sont opposées par rapport A l’origine, elles ont une corrélation proche de -1. La représentation des variables permet ainsi de saisir les relations linéaires existant entre ces variables. En d'autres termes, les cercles de corrélations des axes principaux décrivent 1’essentiel de la matrice des corrélations entre les variables. 2.4.5 Le calcul des coefficients de corrélation Les coefficients de corrélation entre les variables de départ et les composantes principales sont calculés facilement: Le vecteur constitué par les corrélations des m variables xj avec] lla composante principale r est égale au facteur d’ordre r multiplié ar By. 48 Preuve: Le vecteur constitué par les corrélations des m variables 1 r r Xj avec C'est x’C" (car la variance de C'est égale a nie 8, et les variables Xj sont normées A 1). 1 a rims Jo: or: x'C = x'Xa Bya = VB, a . n VB, n VB, ‘er 2.5 Deux applications de 1/ACP ) Deux applications de 1/ACP sont proposées dans ce paragraphe; la premiére application a pour but d’illustrer les calculs effectués par ACP a l'aide d’un exemple numérique simple, afin de permettre une meilleure compréhension de la fagon dont les résultats sont obtenus, et donc une meilleure compréhension des régles d’interprétation de ces résultats. La seconde application décrit 1’évolution de l'économie frangaise de 1971 a 1994. 2.5.1 Un exemple élémentaire Considérons deux variables x, et x mesurées pour cing individus: ——lndividy —3___4_____S8___ xt 1,00 2.00 3.00 4.00 9.00 2 | _s.00 10.00 8.00 8.00 12.00 Les variables x, et xj formant un plan dans l’espace des individus, 1’ACP comporte 2 étapes seulement. La premiére étape consiste A calculer les moyennes et les écart-types de chacune des deux variables; ici: x, = 3.8 Xq = 8.6 Oy, = 2.79 Gx2 = 2.33 Les variables centrées réduites X, et Xj sont alors obtenues & partir des variables x, et x9: 1 2 3 4 3 XI ] 1005 | =.0646 ~@A8T 0.072 1.867 x2 i 1543 | 0.600 0.257 0.257 1.458 La matrice de corrélations entre les variables s’écrit: 49 ce qui permet de tracer la représentation des individus (par exemple l'individu 3 a pour abscisse -0.385 et pour ordonnée -0.021). Pe) a" 26 Axe | horizontal - axe 2 vertical Figure 2g: Représentation des individus, axes 1 et 2, exemple numérique Pour faciliter l’interprétation des résultats, calculons maintenant la qualité de représentation de chaque individu pour chacun des 2 axes, a partir des coordonnées de 1’individu sur ces 2 axes; pour l'individu 4 par exemple, la qualité de représentation est (paragraphe 2.4.2): (-0.131)2 (0.233)? - axel: = 0.24 axe 2: = 0.76 (0.072)? + (-0.257)? (0.072)? + (-0.257)2 Pour ce méme individu 4, la contribution a la variance est (paragraphe 2.4.3): -0.131)2 (0.233)2 - axe li: = 0.002 axe 2: = 0.051 5(1.788) 5(0.212) et on obtient pour l'ensemble des individus le tableau suivant: 52 woo 1 (0.788 ty'x = n 0.788 1 Les facteurs sont les vecteurs propres normés de cette matrice de corrélations (paragraphe 2.3.1). Le premier facteur, associé a la valeur propre 1.788, est égal a .707 eal tandis que le second facteur, associé 4 la valeur propre 0.212 +707 est égal a 707 Par conséquent, les composantes principales s’écrivent: RB 4 0.707 Xy + 0.707 Xp 2 0.707 X1 - 0.707 Xp Et les pourcentages de variance expliquée (paragraphe 2.3.6) sont 1.788 divisé par 2, soit 89.4 8, pour le premier axe, et 0.212 divisé par 2, soit 10.6 % pour le second axe. Pour tracer les cercles de corrélations, il est nécessaire de calculer les corrélations entre les composantes principales et les variables d'origine; ces corrélations se calculent A partir des facteurs et des valeurs propres (paragraphe 2.4.5): RIC, X1y ieee [Pes i. 788 = RIC, X2) 0.707 0.946 et: RIC, X1y 707 ~324 0.212 = RIC, Xo) -.707 -.324 Les coordonnées de x; sont donc 0.946 et 0.324, tandis que celles de Xp sont 0.946 et -0.324. 50 AXE figure 2f: Cercle des corrélations, axes 1 et 2, exemple numérique Dans cet exemple, X, et Xj sont parfaitement représentées sur le cercle des corrélations, car ce cercle est situé dans le plan des 2 variablgs x; et Xp, (ce qui algébriquement se traduit par le fait que (0.946)? + (0.324)2 = 1); l’angle au centre entre x; et Xp est égal a 38 degrés, et on retrouve la valeur du coefficient de corrélation entre X, et Xj & partir du graphique: R(X1,X2)=cos (38°) =0.79 . X, et Xj sont positivement et fortement corrélées avec la premiére composante principale? au contraire, ces 2 variables sont assez faiblement corrélées avec la seconde composante principale et s’opposent sur ce second axe. Notons que : R? (cl , x) + R? (ch, Xp) = 1.788 R2 (c2 , X,) + R® (C2 , Xp) = 0.212 car la valeur propre obtenue 4 une étape donnée est égale a la somme des carrés des coefficients de corrélation entre la composante principale correspondante et les variables d’origine (paragraphe 2.3.2). Comme : cl = 0.707 X, + 0.707 Xp 0.707 X, - 0.707 Xp on obtient les coordonnées des individus: Tadivide i a} 3 a = ne i 2351 a 0381 0.881 0021 0233 0389 51 96 ] or | a 24 8 o | 99 o 16 02 36 | 0 a | 00 a “u | wm | 0s 08 | i | Les individus 1 et 5 sont ceux qui contribuent le plus fortement a la variance sur le premier axe; sur cet axe, ils s’opposent, puisque l’individu 1 est a la gauche de l’axe et l’individu 5 A la droite de l’axe. L’interprétation est simple: le premier axe est 1ié fortement aux variables x; et x9 (cf. cercle des corrélations) et représente la “taille” des individus: les individus 1 et 5 sont ceux gui connaissent des valeurs extrémes a la fois pour x, et xp, petites pour 1’ individu 1, grandes pour 1’ individu 5. Notons que 1’individu 3 est presque parfaitement représenté sur Laxe 1: sa position correspond aux valeurs qu’il prend pour x, et x2, Clest a dire légérement en dessous de la moyenne pour chacune des 2° variables. Crest surtout 1’individu 2 qui contribue @ la variance de 1’axe 2; en fait, cet axe est 1ié positivement A x, et négativement a x» (cf. cercle des corrélations), et la position de l’individu 2 est dué & la faible valeur qu’il prend pour x, par rapport a la forte valeur prise par xj. A l’opposé, 1’individu 4, bien représenté sur le second axe, doit Sa position a une valeur de x, relativement forte par rapport a la valeur prise par x9. 2.5.2 L’ économie francaise de 1971 a 1994 2.5.2.1 Le tableau de données Le tableau de données (Economie européenne, (1994) )décrit 1'évolution de 1’économie frangaise de 1971 a 1994 pour les & variables suivantes: TLT: taux d’intérét nominal a long terme TCT: taux d’intérét nominal a court terme M3 : taux de croissance de la masse monétaire au sens de M3 CRO: taux de croissance du PIB INF: taux d’ inflation INV: rapport de 1’ investissement au PIB CHO: taux de chémage CAF: capacité (+) ou besoin de financement (-) des administrations publiques, exprimé en pourcentage du PIB 53 ‘TLT TCT. M3 ‘CRO _INF INV CHO. 7i 34 60 180 48 63 73] 27 n 80 53 ws | 44 | 70 60 28 B 9.0 93 147 54 | 85 BS 27 1“ 10 30 | 156 31 ng 13 28 5 103 76 | Bh 03 Bo 64 40 % ws | 87 | 123 42 a 33 44 n No} 9a 142 32 93 | 4s | 49 8 10.6 78 124 | 33 10.1 2a Sa ~ 109 97 uo | 32 101 31 58 13.1 12.0 96 | 16 _ ua 2.6 62 1589 153 m1 12 4 -19 73 | 157 146 6 25 na “4 80 3 B6 125 7 07 97 “36 82 125 Wa | 99 13 1s | 26 98 85 109 | 100 72 19 58 | 32 102 36 sa | o77 65 25 52 45 | 103 87, 94 83 nz) 23 3.0 48 | 104 88 90 79 82 450 a8 96 99 89 8s 94 93 | 43 3.0 19 94 30 99 103 94 25 31 28 | 90 oO 90 96 22 08 | 33 0.0 95 92 86 wa | 49 13 2a a 104 93 86 330 “18 25 | 58 18. of so | 24 27 i | ou 126 sourc: : Economie européenne, n°60, 1995. 2.5.2.2 Les résultats numériques L'ACP s‘applique 4 des données centrées réduites; la premiére opération va donc consister A calculer les moyennes et les écart-types des variables. Les premiers résultats donnés par un logiciel d’ACP sont les statistiques élémentaires : Statistiques élémentaires Variable ‘Moyenne ‘Eearttype 10362 2.3290 9.612 25140 10.241 5.1949 2.496 1.6484 7.133 3.7011 1.729 43447 7425 3.0770 -1.900 | a 54 A partir de ces moyennes et écart-types sont déterminées les variables centrées réduites qui constituent les colonnes du tableau a 1 Le logiciel d’ACP calcule ensuite la matrice - X’K , cfest a n dire la matrice des corrélations entre les variables. Remarquons que, puisque cette matrice est symétrique, seule sa partie inférieure est donnée. Ainsi, le coefficient de corrélation entre INF et INV étant égal au coefficient de corrélation entre INV et INF, est lu a l’intersection de la ligne INV et de la colonne INF et vaut -.25 __TLT TCT M3, INF INV : ‘CHO ‘CAF | [= | | | | an eon | | oae | fon | 10 | | cts =32 50 1.00 | 70 44 66 Oo 1.00 | 3S | | os | as | te | el | ols) (a6 ee La 00 73 | 67 44 [ca 1.00 Puis la matrice de corrélations est diagonalisée; de dimension 14 x 14, cette matrice de corrélations admet 14 valeurs propres positives ou nulles. Cependant, seules les premiéres valeurs propres ont un intérét, les autres correspondant A des étapes n’ayant qu’un faible pouvoir descriptif. Ici, les 5 premiéres valeurs propres sont données par le tableau suivant: Waleurs propres et pourcentage de variance expliquée par 1’ axe Etape 4 Etape 5 0253 [ O.t6a 32% 21% A partir de ce dernier tableau, il faut déterminer le nombre a’ étapes a retenir. Mais il n’existe pas de régle générale concernant ce nombre d’étapes a4 retenir; remarquons ici que la variance expliquée par l’axe 4 est faible, 3,2 %, et remarquons aussi que 55 l’essentiel de 1’information est fourni par les 3 premiéres étapes, puisque la variance expliquée cumulée par ces 3 étapes est de 46.2 % + 34.9% 411.4%, soit 92.5 %. 3 axes sont donc retenus ici. De fagon plus générale, pour décider s’il y a lieu de retenir ou non un axe, il sera tenu compte a la fois du pourcentage de variance expliquée par l’axe, et du pourcentage cumulé de variance expliquée par cet axe et les précédents. Ces pourcentages peuvent étre trés différents d’une analyse a l’autre: si les variables sont trés corrélées entre elles, les premiéres valeurs propres sont importantes alors que si le lien linéaire entre les variables d’origine est faible, les pourcentages de variance expliquée par les axes seront faibles eux aussi. Au dela des considérations sur les pourcentages, en pratique, avec un peu d’expérience, on décéle rapidement les axes qu’il faut retenir, qui sont ceux qui apportent des informations intéressantes pour le phénoméne étudié. La diagonalisation de la matrice des corrélations détermine aussi les vecteurs propres normés, c’est a dire les facteurs: Vecteurs propres Etape 1 Etape 2 Etape 3 Etape 4 Etape 5 ToT =130 321 037 ~362 “77 Tcr 01 497 sa | 30 040 M3 +474 066 +231 | =.292 684 cRO +362 +336 342 ~399 302 INF 330 aus 207 “3s sis INV “250 -430 483 “028 058 cHo n 361 264 316 CAF 483 061 7 | ot 198 De ces facteurs, on déduit le tableau suivant: Corrélation entre les variables et les axes Etape 1 Etape 2 Etape 3 Etape 4 Etape 5 ToT ~249 869 =I82 ~072 cr os $30 186 016 MB “912 mn cua7 an cro 696 +562 2201 13 INF “644 1 “us 209 nv 480 279 “ous 23 cuo 907 209s | 213 -18 CAF 8 an | 50s | ono. A partir de ce dernier tableau, on peut tracer les cercles de corrélations. Ici, puisgu’on s‘intéresse aux résultats des 3 56 premiéres étapes, on trace les cercles d’axes 1 et 2, puis d’axes 1 et 3 (on aurait pu aussi bien tracer le cercle d’axes 2 et 3). AXE 2 AXE 1 Figure 2h: Cercle des corrélations: axes 1 et 2 AXES. xCROXTLT CHO car Figure 2i: Cercle des corrélations: axes 1 et 3 Les facteurs permettent aussi de calculer les coordonnées des individu: 57 __ Etape2__———sBtape3—Etaped Etape 5 7 nt a 5 72 | -2.109 | “1144 026 ~407 4 1,322, | -.007 812 308 fe | ins a ca ea 7 | 543 =764 -.082 -.036 4 co Ea cal S 4 et ia a at 80 1,598 621 663 292 85 -031 683 | 203 059 = | Br eo |e 87 124s 417 | 059 | 939 88 | 2.398 1.363 | -322 -.038 89 | -.082 | -1,910 1.326 127 =.180 90 603 | ~583 | 678 461 522, 92 (2.592 | ~129° 157 406 193 83 4.961 | ~.047, 135, 670 563 A ml eae ca He et Ce tableau donne les valeurs des projections des n individus sur les axes factoriels, c’est a dire les composantes principales; il permet de tracer les graphiques représentant les individus. 58 8 ow oes ow | no et om on on mR ee — 088 on | ow os on 086 im ot HR 88 Axe_1 horizontal-axe 2 vertical Pigure 2j: Représentation des individus: axes 1 et 2 59 = i ceo ao 85, on ar he a ad oe Tas ' = oe oa on 1 on oe os Axe 1 horizontal-axe 3 vertical Figure 2k: Représentation des individus: axes 1 et 3 60 Enfin, le logiciel ‘ACP calcule les deux aides 1 interprétation: Qualité de représentation: Etape 1 Etape 2 Etape 3 ~_Btape 5 7 38 368 032 ‘008 n say | 339 o10 013 B ms | 185 016 028 4 650 | 208 000 on 15 on | 249 698 o14 16 m2 | 008 012 155 n 09 102 202 000 B A29 | 004 210 126 ” 930 | 024 01 005 80 195 | 484 ons 016 81 06 | 899 091 01 82 008 | 797 132 002 83 060 | 901 000 017 84 264 | 642 o18 048 85 | 000 237 002 86 358 | 528 008 on 87 139 489 055 219 88 01 739 239 000 89 01 659 318 006 90 212 198 268 138 91 741 022 000 | 003 2 882 002 003 | 005 B 903 (000 067 | 016 | oz 4 oi | ast | | 61 Btape 1 Etape2_ — Etape 3 Etaped tape S 7 085 on 018 (000 026 n | 81 066 060 .000 042 B i} 093 030 008 019 078 4 | 062 026 000 108 024 5 | 003 os 44 009 048 16 036 000 002 012 158 n 016 004 026 001 000 78 010 000 020 07 068 ~ 022 000 000 003 002 at 01 180 056 000 002 22 01 3. om | 402 006 3 00s 095 000 | 020 030 co 012, 038 003 | 007 005, 85 o14 000 | 02 007 000 86 o14 oe oo 1005 001 87 005 o3 | 008 .000 223 88 000 086 | 085, o17 | 000 89 000 054 080 003 008 90 004 005 020 035 069 91 047 002 .000 184 005 2 076 000 001 027 009 93 278 000 082 74 080 oa 23 | 003 220 039 2.5.2.3 L’interprétation des résultats L'interprétation des résultats se fait séquentiellement, axe aprés axe, ou plan aprés plan. 2.5.2.3.1 Le plan des deux premiers axes L'interprétation des résultats débute par 1’examen du cercle des corrélations (figure 2h); on remarque que CHO est trés fortement 1ié positivement au premier axe, tandis que M3 et CAF sont trés fortement liés a cet axe, mais négativement. En termes de corrélation entre les variables, ceci signifie que le coefficient de corrélation entre M3 et CAF est proche de 1, et que le coefficient entre CAF et CHO, et entre M3 et CAF est proche de -1; l’examen de la matrice de corrélation permet de confirmer et préciser ces résultats. Ainsi, le premier axe oppose le chémage (a droite de l’axe) au taux de croissance de M3 et au solde budgétaire des administrations publiques (a gauche de 1’axe). CRO, INV et INF sont également liés négativement au premier axe. 62 Cette opposition se retrouve lorsqu’on considére la configuration des individus (figure 2j): les années de début de période se trouvent a la gauche de l’axe -et effectivement , ce sont les années ob le chémage est le moins élevé, la croissance de la masse monétaire et la capacité de financement public étant élevées- et les années de fin de période se trouvent a droite de l’axe -ce qui correspond, effectivement, & une faible création monétaire, A une faible capacité de financement public et a un fort chémage. Remarquons les fortes contributions relatives des points 94, et surtout 93, qui occupent une position extréme sur l’axe 1: 93 est une année de trés fort chémage et de trés fort déficit public, avec une décroissance de M3, des taux de croissance et d’investissement fortement négatifs et une inflation faible. Le deuxiéme axe est 1lié positivement (figure 2h) a TLT et TCT, les deux taux d’intérét -a court et a long terme-, et dans une moindre mesure 4 INF, le taux d’inflation; il est 1ié négativement au taux d’investissement, INV, et au taux de croissance CRO: on en déduit que la croissance et l'investissement sont liés négativement aux taux d’intérét. Du point de vue des années (figure 2j), ce deuxiéme axe oppose la période 81-83, ot les taux d’intérét sont trés élevés, ot 1inflation est forte et ot la croissance et l'investissement ont des taux faibles, aux années 71 a 73 et 86 A 89 -faibles taux d’intérét et fort taux d’investissement, croissance soutenue- , et a 94. 94 se distingue de 93 dans le plan 1-2 du fait d’une croissance et d‘un investissement plus forts. Enfin , l’examen du cercle des corrélations (figure 2h) indique un trés fort lien linéaire entre CRO et INV d’une part et entre les deux taux d’intérét TLT et TCT, d’autre part. 2.5.2.3.2 L'axe 3 L'intérét du troisiéme axe est plus marginal puisque la variance expliquée par cet axe est assez faible. Cet axe oppose (figure 2k) l’année 75 qui est trés bien représentée (le cosinus carré vaut 0.698) et contribue fortement a la variance de l’axe, aux années 81-82 et 88-89. L'examen du cercle des corrélations (figure 2i) indique une corrélation de l’ordre de 0.5 entre 1’axe 3 et les variables TCT et INV ; en 75 le taux d’investissement est trés fortement négatif et le taux d’intérét a court terme assez faible; ceci expligue la position extréme de 75 sur l’axe 3. La qualité de représentation des années 81-82 et 88-89 est faible, ce qui rend 1’interprétation assez délicate: notons cependant les trés fortes valeurs de TCT en 81-82, et les trés forts taux d’ investissement en 88-89. 63 A lfissue de ces 3 étapes, l’essentiel des phénoménes marquants de la période 70-94 a été décrit; les individus sont tous bien représentés dans le sous-espace engendré par les 3 premiers axes factoriels (pour s’en convaincre, il suffit de faire la somme, pour chaque individu, de ses qualités de représentation sur les 3 premiers axes), et dans l’espace des variables les corrélations avec des composantes principales d’ordre supérieur A 3 sont trés faibles. Ainsi, 3 étapes ont suffit a décrire l’essentiel du tableau de départ. 2.6 Les formules de reconstitution 2.6.1 La reconstitution du tableau de données Soit C la matrice n x m dont les m colonnes sont les 1 m m composantes principales C, ....,C et soit A la matrice m xm 1 m dont les m colonnes sont les facteurs a, ...,a. kook Comme C'= Xa" pour k=1,..., m , alors: C = XA Puisque les m facteurs sont normés et deux A deux orthogonaux, A est une matrice orthogonale et donc A! = a’. Par conséquent: X = CA7! = ca’ soit: mok k K=E Cla)! kel k ce qui s’écrit aussi, o(C ) désignant 1’écart-type de C : moc k X= 5 VB, (ay =1 k oc ) Cette derniére formule montre comment X peut étre reconstitué a partir d’éléments dont les normes sont les mémes d’une étape a lfautre (a 1’étape k, la composante principale normée d’ordre k et le facteur normé d’ordre k), en pondérant ces éléments par les racines des valeurs propres. 64 En effectuant une ACP, on n’utilise que les résultat des r premiéres étapes, ce qui revient a considérer que les r premiéres étapes apportent une information suffisante pour 1’analyse du tableau x. Et effectivement, les derniéres valeurs propres étant petites, k moc l'information résiduelle E Vb, (a )' est négligeable et donc kertl 5 a(c ) k ro c k EB, (a )’ est trés peu différent de xX. k=l K o(C ) 2.6.2 La reconstitution de la matrice de corrélations De la méme maniére, on peut reconstituer la matrice de corrélations X’X a partir des m facteurs: 1 1 X=CA’ dou X’= AC’ et donc X’X = ACCA’, dfob: - X'X = Al -C’C JA n n 1 - cfc est la matrice de variances-covariances entre les a composantes principales. Comme celles-ci sont 2 4 2 non corrélées, k 1 et que la variance de C est égale a 8, , - C’C est une matrice a diagonale dont le k-iéme élément est égal a By et : 1 ™ kk - X= EB, a (a)! n ket La connaissance des premiers facteurs permet une bonne reconstitution de la matrice des corrélations si les valeurs propres suivantes ont de faibles valeurs; graphiquement, ceci signifie que les cercles de corrélations obtenus a partir des premiéres composantes principales décrivent l’essentiel des corrélations entre les variables. 65 2.7 Les variables et les individus supplémentaires Dans certains cas, il peut étre intéressant de faire figurer sur les graphigues un ou plusieurs individus, ou une ou plusieurs variables qui ne figurent pas dans le tableau de départ. Ainsi, dans l’exemple traité dans le paragraphe 2.5.2, on peut souhaiter connaitre la position de l'année 67 par rapport aux années de la période 1971-1994 ou la position du taux de croissance du PIB allemand par rapport aux variables qui ont fait l’objet de l’analyse. Les coordonnées de cet individu supplémentaire ou de cette variable supplémentaire se calculent de la méme maniére que pour les individus ou variables d'origine, par leurs produits scalaires avec les facteurs dans le cas des individus ou par leurs coefficients de corrélation avec les composantes principales, dans le cas des variables. Reprenons 1’exemple numérique traité dans le paragraphe 2.5.1 et considérons 1individu supplémentaire qui prend la valeur 5 pour x; et la valeur 3 pour x2 ; autrement dit, les valeurs prises pour les variables centrées et Téduites X, et X> valent respectivement 0.43 et =2.40; les coordonnées de cet individu’sont alors: pour Ch : (0.707) (0.43)+(0.707) (-2.40) = -1.39 pour C2 : (0.707) (0.43)+(-0.707) (-2.40) = 2.00 La qualité de représentation de cet individu vaut: (-1.39)2 pour cl : = 0.33 (0.43)2 + (-2.40)2 (2.00)? pour C? : = 0.67 (0.43)2 + (-2.40)2 La contribution d’un individu supplémentaire 4 la variance des axes est évidemment nulle. 66 =suP \ a 4 6 Axe 1 horizontal-axe 2 vertical Figure 21: représentation d’un individu supplémentaire La position de 1’ individu supplémentaire (noté “SUP”) est due aux valeurs faibles qu’il prend pour les deux variables d’origine, et particuliérement pour x3. Considérons maintenant la variable supplémentaire x3 Individu 1 2 3 4 5 3 I 400 | 2.00 I 5.00 4.00 I 7.00 La moyenne de cette variable est égale A 4.4 et son écart-type a 1.62; la variable centrée-réduite correspondante X3 prend alors les valeurs suivantes: Individu 1 2 [as dd [L228 | 6 et la corrélation de x3 avec la premiére composante principale est égale a 0.62, tandis que la corrélation de x3 avec la seconde composante principale est égale A 0.70. 67 AXE Figure 2m: représentation d’une variable supplémentaire La variable x3 (dont 1’emplacement est représenté par un ‘o”) est située a l’intérieur du cercle des corrélations (elle n’est pas une combinaison linéaire de x, et x2, sinon elle serait sur le bord de ce cercle); la position de x3 montre que cette variable n’est pas trés corrélée avec xj, mais qu’elle posséde une corrélation assez élevée avec x). 2.8 L'ACP de variables non réduites Une des hypothéses formulées au début de ce chapitre est que les variables de départ -les colonnes du tableau X- sont réduites, de sorte que 1'ACP présentée tout au long du chapitre est 1’ACP normée, ou encore ACP sur matrice de corrélations. Il est aussi possible d’effectuer une ACP sur des variables dont les variances ne sont pas égales 4 1: il s’agit alors d’une ACP non normée ou ACP sur matrice de variances-covariances. 2.8.1 Le principe de 1’ACP non normée Dans l’espace des individus, le critére est le méme en ACP non normée qu’en ACP normée, mais il s’applique & un nuage de points différent, puisgue les colonnes de X sont alors non normées. Dans l’espace des variables, le critére de 1’étape k, c’est a ™ k dire la maximisation de E R? (C ,X;) est alors remplacé par la maxi- n ‘ misation de = Cov?(c ,Xj) + le facteur correspondant est le a2 1 k-iéme vecteur propre de - X’X , qui est alors la matrice de a variances-covariances entre les m variables. 68 Les graphiques sont du méme type et suivent les mémes régles d’interprétation pour les deux types d’ACP. 2.8.2 Le changement d’échelle des variables Contrairement A 1/ACP normée, 1’ACP non normée est sensible aux changements ‘échelle des variables: les premiéres composantes principales sont fortement influencées par les variables a variance élevée, comme le montre 1’exemple suivant. Considérons 2 variables X, et Xz, de méme variance égale a 1, et telle que cov(x,, Xz) = 0.5. X, s’exprime en milliers de francs et Xp en tonnes. Par conséquent, la matrice a diagonaliser est 1 0.5 é 0.707 0.5 1] ot le premier facteur est :|)'5 5, et donc : C= 0.707 X, + 0.707 Xp La valeur propre correspondante est égale a 1.5 Exprimons maintenant la variable X, en centaines de francs: on obtient une variable Xjy= 10X, , la matrice de variances-covariances 100 aoc 5 et le premier facteur est 7 L 0.0509 devient 5 Par conséquent: C = 0.9987 Xj + 0.0509 Xo 1 soit: C= 9.9987 X; + 0.0509 x5 Cette nouvelle composante est presque entiérement déterminée par X1 et dépend trés peu de X>. Ainsi, la détermination des composantes principales d’une ACP sur matrice de variances-covariances dépend a la fois des normes des variables et des corrélations entre ces variables. La premiére valeur propre de cette seconde ACP est égale a 101.25, donc trés différente de la valeur propre correspondante de la premiére ACP; pour la premiére ACP, le pourcentage de variance expliquée par le premier axe est de 75 % alors que ce pourcentage est de 99,25 % pour la seconde ACP: la premiére composante de la seconde ACP est fortement “attirée” par la variable Xjy qui a une trés forte variance. En présence de variables hétérogénes (c/est a dire de variables dont les échelles de mesure ne sont pas comparables, par exemple des 69 francs ou des litres et des kilos), la seule ACP praticable est 1’ACP sur variables normées; lorsque les variables sont mesurées sur la méme échelle, 1/ACP sur matrice de variances-covariances peut étre utilisée si on veut donner comme poids a chacune de ces variables sa variance. Notons alors qu’en jouant sur la variance d’une variable déterminée, il est possible de donner A cette variable un poids plus ou moins important dans 1’analyse. 2.8.3 L’ACP dans une métrique euclidienne quelconque L'ACP peut se généraliser au cas ot les distances entre les individus sont calculées grace a une métrique euclidienne quelconque. Cette ACP dans une métrique euclidienne M se raméne 4 une ACP non normée moyennant une transformation des données de départ, comme cela sera montré dans le cas de l’analyse factorielle des correspondances (chapitre 4, paragraphe 4.3) et dans le cas de l’analyse factorielle discriminante (chapitre 5, paragraphe 5.2.7). 2.9 La pondération des individus Une hypothése implicite de ce chapitre est que tous les individus ont le méme poids; mais il est possible d’effectuer une ACP en associant A chaque individu un poids. Soit py le poids associé & 1’ individu i : 0 < py <1 et n E py = 1. Soit P la matrice diagonale des poids: Reprenant la démarche du paragraphe 2.2.1, le probléme de 1’ACP s'écrit alors 4 1’étape k, dans l’espace des individus: n k2 Maximiser Epy(Cy) - 70 Le critére est inchangé dans l’espace des variables, mais la corrélation entre deux variables est alors calculée en prenant en compte le poids des individus: la covariance entre deux variables n centrées XK et Y s’écrit — Cov(X,¥)= Z pyXj;¥; , et donc la variance n 2 i de X est Var(X)= E pjXi - i=l Les calculs de 1’ACP sont peu changés; les facteurs sont les vecteurs propres successifs de X’PX et les composantes principales les vecteurs propres successifs de XX’P. Notons que l’on retrouve 1 pour tout individu, py= - . n les résultats usuels s 2.10.Un exemple de classification hiérarchique: le critére de WARD La représentation des individus de 1'ACP permet de décrire les proximités entre les individus; d’autres techniques ont aussi pour objet la description de ces proximités. Ainsi, les méthodes de partitionnement se proposent de déterminer la meilleure partition possible des individus en un nombre fixé de classes: reprenant 1’exemple du paragraphe 2.5.2, on peut rechercher la meilleure partition possible des années 71-94 en 4 classes, afin de dégager 4 ensembles d’années tels qu’a l’intérieur de chacun de ces ensembles les comportements soient le plus homogénes possible. Les techniques de classification ascendante hiérarchique (CAH) décrivent aussi les proximités entre les individus, mais selon un principe différent: partant des n individus, une partition en n-1 classes est obtenue 4 la premiére étape en regroupant 2 individus, a la deuxiéme étape une partition en n-2 classes est construite en regroupant 2 des n-1 classes, et par itérations successives, on regroupe ainsi les individus jusqu’a la derniére étape, oi il n’y a plus qu’une classe. La classification est hiérarchique car les classes sont emboitées: chaque classe nouvelle est obtenue en regroupant 2 classes de l’étape précédente. Si on utilise une technique de partitionnement ou une technique de CAH, comme en ACP, le choix d'une distance entre les individus est primordial. Mais en plus, il faut définir un critére mesurant la qualité des regroupements entre les classes afin de sélectionner les meilleurs regroupements possible. Il existe de nombreuses techniques de partitionnement ou de CAH. Lrobjet des paragraphes suivants est de décrire une technique de CAH particuliére, due a WARD. 2.10.1. La décomposition de 1’ inertie totale 1 La distance retenue est la distance usuelle. Considérons une partition des n individus en K classes, chacune de ces classes comportant ny individus. Comme en ACP, 0 désigne le centre du nuage des n points dans ®™; on note O, le centre du groupe k. Soit: lon - Ip =- 2 d2(i,0) 1a moyenne des carrés des distances des n =") individus au centre du nuage, appelé aussi inertie totale et notée Ip. 1K - Ip = - ny d?(0,,0) 1a moyenne pondérée des carrés des distances n k=l des centres de chacun des groupes au centre du nuage, appelée inertie inter-classes, et notée Ip. 1k -I;=- EZ £d?(i,O,) la moyenne, pour l’ensemble des individus, n k=1 iek des carrés des distances des individus au centre de leur groupe, appelée inertie intra-classes et notée I; ( la notation E signifie liek la somme pour tous les individus i du groupe k). Montrons que: lon 1k 1k - Ed2(i,o) =- E ny d2(0y%,0) +- EZ E d2(i,0,) n i=l n k=1 n k=1 iek Inertie Inertie Inertie totale inter-classes intra-classes preuve: En notant X,j la j-éme coordonnée du centre du groupe k: 1K milk _ Tp=- EZ Lari) = E - EE (Ky5- Xu)? n k=l iek j=1 n k=1 iek 72 milk _ _ = EB ~ EE (%y5 12 20% G5 Hyg) + Xpy)? d j=l n k=1 iek dfautre part: nik E- FL (Xj)? = Ig n k=l iek 3 ce qui prouve le résultat annoncé. # L’inertie totale est constante, donc indépendante de la partition retenue; par contre, ’inertie intra-classes et 1" inertie inter-classes dépendent du type de partitionnement des individus. Cette partition sera d’autant meilleure que les groupes seront plus homogénes, c’est a dire que l’inertie intra-classes sera petite et donc que l’inertie inter-classes sera grande (puisque la somme de ces deux inerties est constante). Lorsque chacun des n individus constitue une classe, 1’inertie intra-classes est nulle et l’inertie inter-classes est donc maximale; sion procéde a l’agrégation de 2 classes, 1’inertie intra-classes augmente (les classes tant moins homogénes) et 1’inertie inter-classes diminue. Enfin, si tous les individus font partie d’un seul groupe, l’inertie intra-classes est maximale et 1’ inertie inter-classes nulle. 2.10.2 L’agrégation de 2 classes Supposons que 1’on agrége les 2 classes r et s; la nouvelle classe ainsi formée contient n, + ng individus et son centre est le point Oy. 73 La variation de l’inertie inter-classes Ay, obtenue en agrégeant| les classes r et s est négative et égale a: Preuve: 1 2 2 - 2 Ars - (ny d2(Op,0) + ng d2(05,0) ~ (np + ng ) d?(Op5,0)) a Comme les coordonnées de O,, sont, pour la variable j: nyXpj + ng Xpy , on obtient, aprés calcul, le résultat annoncé.¢ La variation de l’inertie inter-classes étant égale a Ars , l’augmentation de l’inertie intra-classes est donc égale a ~Aps lorsqu’on agrége les classes r et s. Aussi, A une étape donnée, selon le critére de Ward, on agrége les 2 groupes r et s pour lesquels -A,, a la plus petite valeur. 2.10.3 Un exemple d’ application La méthode de WARD est appliquée dans ce paragraphe aux 24 années 71-94, chaque année étant repérée par les valeurs qu’elle prend pour 8 variables normées (paragraphe 2.5.2). L'inertie totale est donc égale a 8; les regroupements successifs sont décrits dans le tableau suivant, un nouveau groupe étant créé a partir de deux anciens groupes: a, n n | a | IL a ee = ' a1. 2. 4. | 3, Figure 2j: Dendogramme On retrouve les proximités mises en évidence par la représentation des individus de 1'ACP; supposons que l’on veuille obtenir une partition de l’ensemble des années en 4 classes, on coupe alors l'arbre hiérarchique de maniére A obtenir 4 classes et le résultat est le suivant: classe 1: 71 72 73 74 75 76 77 78 79 80 classe 2: 81 82 83 84 76 ‘Numéro de "ancien groupe Numéro de 'ancien groupe Numéro du nouveau groupe Effectif du nouveau groupe n 88 6 81 83 87 1 27 85 28 32 3 14 36 28 37 31 al 40 34 38 44 46 R 89 9 82 84 90 92 B 86 B n 40 80 26 29 35 4 93 15 4B a 39 45 28 26 27 28 29 30 31 32 33 34 35 36 37 38 39. 40 4a 2 a 2 10 4 24 Ces résultats sont synthétisés par le dendogramme suivant: 75 classe 3: 85 86 87 88 89 90 classe 4: 91 92 93 94 Si on avait voulu obtenir une partition des individus ‘a main levée” a partir de la représentation des axes 1 et 2 de 1'ACP, le résultat obtenu aurait sans doute été trés proche de celui-ci. Une classification hiérarchique est souvent menée en complément a une ACP. En particulier, si les individus de départ sont trop nombreux pour figurer sur les graphiques, les centres de gravité des classes sont alors représentés sur ces graphiques. On notera enfin qu’il existe des aides a l’interprétation des caractéristiques des classes. 7 CHAPITRE 3. L’ ANALYSE CANONIQUE Proposée par Hotelling en 1936, l’analyse canonique (AC) décrit les relations linéaires entre deux ensembles de variables mesurées pour les mémes individus; elle généralise la régression multiple abordée au chapitre 1. Mais contrairement a la régression o¥ l’on distingue entre variable "expliquée" et ensemble de variables "explicatives", le réle joué par les deux ensembles de données est le méme. Ainsi: - si chacun des deux tableaux est constitué par les résultats d’une méme population a une série de tests psychologiques , 1/AC répond aux questions suivantes : qu’y a til de commun entre ces deux batteries de tests? Autrement dit, ces tests mesurent-ils la méme réalité et donc peut-on retrouver les résultats des individus a une des séries de tests en connaissant ses réponses a l'autre série? Existe-t-il des individus “imprévisibles”, c'est A dire pour lesquels les deux batteries de tests donnent des résultats contradictoires ? Cet exemple d’application de 1’AC est illustré dans ce chapitre par un jeu de données trés simple. - Si un tableau décrit les différents produits vendus par chacune des agences d’un réseau bancaire et l’autre tableau décrit la zone de chalandise de ces mémes agences (en indiquant par exemple pour chaque agence, le nombre d’entreprises, le revenu moyen des ménages ou encore le nombre total d’habitants dans cette zone de chalandise), 1’AC détecte les relations existant entre les caractéristiques des deux ensembles de données (quels produits pour quelle clientéle ? Quel volume des ventes en fonction des particularités de la zone de chalandise ? Quelle caractéristique des agences, ou, 4 1’inverse, quelle caractéristique des zones de chalandise est-elle sans relation avec les variables de l'autre ensemble de données ? ) - dans un exemple traité dans ce chapitre, 1'AC décrit les relations existant entre le taux d’équipement pour différents ustensiles ménagers dans les régions frangaises et les structures socioprofessionnelles de ces régions. Il s’agit de déterminer si la structure socioprofessionnelle influe sur L’achat de micro-ordinateurs ou de lave-vaisselles, de dégager des régles générales de comportement d’achat, de mettre en évidence les exceptions éventuelles & ces régles (par exemple, une région au comportement singulier). Outre la régression, 1’AC admet comme cas particuliers 1’ analyse factorielle des correspondances et 1’analyse discriminante qui feront lfobjet des deux prochains chapitres. L’AC fait l’objet elle-méme de généralisations: on ne considére alors plus deux, mais p (p > 2) 78 tableaux. La plus connue de ces généralisations, celle de CARROLL, est exposée dans la derniére section de ce chapitre. 3.1 Les données On dispose de deux tableaux de données, le tableau X, a n lignes et m, colonnes et le tableau X27 a n lignes et my colonnes; pour chacun des deux tableaux, la ligne i décrit les valeurs prises par l’individu i. Les colonnes de X, et de Xj sont constituées par des variables quantitatives centrées ou par les modalités de variables qualitatives. On suppose que pour chacun des deux tableaux, les colonnes sont linéairement indépendantes. Maan... 2. Xty... Xaam Keun... Kany... Keim Ke = | Moun... Kees... Kegme Xini..... Xinj » Xanm_ Xeni... .. X2nj.- X2nm Le premier indice est relatif au tableau (1 ou 2), le deuxiéme a l‘individu (de 1 an), le troisiéme 4 la variable (de 1 4 m, pour le tableau X,, de 1 a my pour le tableau Xp). 3.2 Le probleme L’objet de 1/AC est la description des proximités entre les deux ensembles de variables; il s’agit dans une premiére étape de déterminer un couple de composantes canoniques les plus corrélées possible, c’est a dire de définir une combinaison linéaire des variables de chaque tableau la plus corrélée possible avec une combinaison linéaire des variables de l'autre tableau. Ceci signifie que 1/AC détermine dans une premiére étape la combinaison linéaire de variables d’un des deux ensembles de données qui est la mieux reconstituée (au sens d’une régression multiple) a partir des données de l’autre ensemble. Les étapes suivantes ont le méme objet, c'est a dire la recherche et la description des proximités entre des couples de variables canoniques. A l’étape 1, 1’AC détermine un couple de variables canoniques, 1 cfest a dire une variable z; , combinaison linéaire des variables 1 du tableau Xj, et une variable z2 , combinaison linéaire des variables du tableau X). 79 1 21 est donc la premiére composante canonique du tableau 1 X1 et 23 la premiére composante canonique du tableau X>. 1 2 2 1 21 est une combinaison linéaire des variables du tableau xX, et 1 1 1 s'écrit : 2] = X,a; ,ol a] est un vecteur-colonne de dimension 1 m, . 2] est par conséquent un vecteur colonne a n lignes. 1 1 1 1 De la méme maniére, 2) s’écrit: 2 = Xjaj , ot ap est un vecteur-colonne de dimension m. 1 1 , 2,1 1 21 et z> sont déterminés de telle maniére que R?(z} , 23 ) ait une valeur maximale. Le coefficient de détermination ne dépend pas de la variance ld oo4 des variables: si on obtient un couple de solutions [2] , 23) , 1 1 alors en multipliant 2; par une constante non nulle et 25 par une autre constante non nulle, la valeur du coefficient de détérmination est inchangée et on obtient un autre couple de solutions. 1 1 Aussi, pour assurer l’unicité de zy et de zy (au signe prés), on 1 1 impose de surcroit: Var(z]) = Var(z3) = 1 Notons W, l’espace de dimension m, engendré par les colonnes de X1 et Wy l’espace de dimension my engendré par les colonnes de X» . 1 1 2] et zj sont les variables normées de W, et W formant un angle minimal entre elles. Lat fas wi Figure 3a: Le premier couple de variables canoniques 80 La premiére étape n’épuise pas la description des relations entre les 2 ensembles de variables et cette description est complétée par les étapes suivantes. 2 A 1’étape 2, 1’AC détermine une variable normée 2; de Wy 2 2.2 et une variable normée 23 de Wp de telle maniére que R?(2],z9) soit maximal. Pour que ce deuxiéme couple de variables canoniques compléte la description fournie par le premier couple de variables canoniques, il est nécessaire que, pour chaque tableau, la variable canonique de la deuxiéme étape soit non corrélée avec la variable canonique de la premiére étape: 12 12 R(zq,24)=0 et Rl29,23)=0 D'un point de vue géométrique, il s’agit dans cette deuxiéme 2 1 étape de déterminer la variable normée z; de W, , orthogonale 4 2] , 2 1 et la variable z> de W 9, orthogonale 4 23 , de telle maniére que 2 2 Lfangle entre 2] et zp soit minimal. Et ainsi, par itérations successives, a 1’étape k, 1/AC k 1 kL détermine la variable normée zj de W, orthogonale A zj ,.--, 21 k - et la variable normée z3 de W, orthogonale a 22 ,..-, 22 de k k telle maniére que l’angle entre 2, et zz soit minimal. 81 3.2.1 Les composantes canoniques 1 1 1 1 LAC détermine 2] et zp de telle maniére que R@(z] , 22 ) Jait une valeur maximale sous les contraintes: 1 1 var(z]) = Var(z3) = 1 1 1 z, est alors le premier vecteur propre de P,P tandis que zp est le premier vecteur propre de PP,, P, et Py désignant respectivement| les projecteurs orthogonaux ‘sur les espaces engendrés par les lcolonnes de X, et par les colonnes de X2 . Ces deux vecteurs propres sont associés 4 la méme valeur propre . 2, jt lqui_est égale a R@(z)_, 27) - Preuve: ob ae ot 2,2 22 Soit 2] et soit 22 tels que R*(z] , 22 ) soit maximal. Diaprés le résultat établi lors de la présentation de la régression dans 1’espace des variables: 1 1 1 1 pour zj donné, R*(zy , 22 ) est maximal si zz est colinéaire a la 1 projection orthogonale de 2] sur Wz - 1 1 La projection de 2] sur l’axe engendré par z2 est égale a laa 1 1 R(z},23)29 car les variables 2; et 22 sont normées, et donc: 1 1 44 Pp 27 = R(zq + 22 N22 1 1 1 De la méme maniére, pour zp donné, R2(zj , zp ) est maximal 1 1 si z] est colinéaire a la projection de zz sur Wy, et donc: 1 a Py 22 = R(2y» 22) 2] De ces deux derniéres égalités, on déduil 1 1 1 1 1 1 1 PyPo zy = Py( R(zy y 29) 22) = R(zq + 22) Pyzg 1_ 42,2 42, 02 soit: PyPy 2] = R@(zy , 23) 2) 82 1 et done z} est le vecteur propre de P,P, associé a sa plus grande valeur propre. De facon symétrique, on établit que: 1 2,1 91, 1 PoP, 22 = R2(z1 4 22) 22 1 et done zj est le vecteur propre de PP, associé a sa plus grande valeur propre. Cette plus grande valeur propre est égale 4 la plus 1 1 grande valeur propre de P1P2 et est égale a R? (z; , 29). ¢ 1 1 Une fois déterminés z} et 23, 1"AC détermine un deuxieme 2 2 couple de variables canoniques z; et 27 de telle maniére 2 2 que R2(z} , 25) soit maximal sous les contraintes: 11 22 1 2 1 2 R(z] , 24) =O et (zp, 25) = 0 . Plus généralement: RB l’étape k, 1/AC détermine un k-iéme couple de variables " k k 2,,* k canoniques 2; et z9 de telle maniére que R*(2] , 22 ) soit lnaximal sous les contraintes: k, k var(z]) = Var(z2) = 1 jet r k cr k R(zz_, 21) =0 et Rizp, zp) =0 pourr

Vous aimerez peut-être aussi