Vous êtes sur la page 1sur 2

Donn ees manquantes en ACM : lalgorithme NIPALS

Marie Chavent1,2 , Vanessa Kuentz1,2 , Benoit Liquet3


Universit e de Bordeaux, IMB, 351 cours de la Lib eration 33405 Talence Cedex {chavent,kuentz}@math.u-bordeaux1.fr 2 INRIA Bordeaux Sud-Ouest, Equipe CQFD 3 Universit e Victor Segalen Bordeaux 2, ISPED, E0338, 146 Rue L eo Saignat, 33076 Bordeaux Cedex benoit.liquet@isped.u-bordeaux2.fr
Le traitement des donn ees manquantes est une question fondamentale en analyse des donn ees. En Analyse en Composantes Principales (ACP), les donn ees manquantes peuvent e er ees a ees tre g ` laide de lalgorithme NIPALS. Lorsque les donn sont qualitatives, limputation de nouvelles valeurs est d elicate. Dans cet article, nous proposons dadapter lalgorithme NIPALS pour le traitement de valeurs manquantes qualitatives en Analyse des Correspondances Multiples (ACM). Nous pr esentons lACM comme une ACP appliqu ee aux lignes de la matrice des prols lignes ou encore aux colonnes de la matrice des prols colonnes de la matrice de fr equences. Puis nous pr esentons lalgorithme it eratif pour le calcul de la D ecomposition en Valeurs Singuli` eres dune matrice r eelle permettant de g erer les donn ees manquantes. Enn cette approche est appliqu ee sur des exemples et compar ee a ees manquantes. ` dautres approches de gestion de donn
: MOTS-CLES RESUM E. 1

Analyse des Correspondances Multiples, donn ees manquantes, algorithme NIPALS, D ecomposition en Valeurs

Singuli` eres.

1. Introduction Lapparition de donn ees manquantes est fr equente dans un tableau de donn ees (appareil de mesure d efectueux, ` la question, etc.) De nombreux auteurs ont e tudi individus nayant pas r epondu a e le probl` eme dimputation des valeurs manquantes. Par exemple, [WAS] propose une approche de plus proches voisins pour une imputation bas ee sur les moindres carr es. Le cas de tables de contingence incompl` etes en Analyse des Correspondances est tudi e e dans [DELEE]. Dans [SAP], lACM est pr esent ee dans un cadre danalyse dhomog en eit e et une m ethode destimation des valeurs manquantes est propos ee. Soit X une matrice de donn ees qualitatives de dimension (n, p) o` u n objets sont d ecrits sur p variables qualitatives. On se place dans le cas o` u certaines entr ees xij sont manquantes. Lid ee pour traiter ces donn ees manquantes en Analyse des Correspondances Multiples (ACM) est dutiliser lalgorithme NIPALS pr esent e dans [TEN] pour la gestion des donn ees manquantes en Analyse en Composantes Principales (ACP). Pour cela, on d enit lACM comme une ACP appliqu ee aux lignes de la matrice des prols lignes ou encore aux colonnes de la matrice des ` partir du tableau disjonctif complet K associ ` X. On prols colonnes de la matrice de fr equences F construite a ea notera r = (f1. , ..., fi. , ..., fn. )t , c = (f.1 , ..., f.s , ..., f.q )t , Dn = diag(r) et Dq = diag(c) avec q le nombre total de modalit es.

2. ACM et D ecomposition en Valeurs Singuli` eres tre vue comme une ACP appliqu LACM peut e ee aux lignes de la matrice des prols lignes centr es L = 1 1 q D etriques Dn sur Rn et D eres composantes principales n (F rc) avec les m q sur R . La matrice des r premi` Y de dimension (n, r) s ecrit, gr ace aux formules de passage, Y = Dn
1/2

U o` u U et sont donn ees par la

d ecomposition DVS de la matrice r eelle F = Dn (F rc)Dq . La DVS de F de rang r s ecrit F = UVt o` u est la matrice diagonale des valeurs singuli` eres, U est la matrice des r vecteurs propres norm es de FFt et V est la matrice des r vecteurs propres norm es de Ft F. On en d eduit la formule de reconstruction suivante :
1/2 1 1/2 = D U V t D n n (F rc)Dq Z Y

1/2

1/2

On a donc : Z=

r t yh vh h=1 Zh

Cette formule de reconstruction de Z nous permet de calculer de mani` ere it erative des composantes principales yh en tenant compte des donn ees manquantes.

3. Algorithme it eratif pour le calcul de la DVS dune matrice r eelle


t Pour le calcul de la premi` ere composante on utilise : Z = y1 v1 + E. Pour trouver y1 et v1 qui minimisent la tapes suivantes : norme de Froebonius de la matrice derreurs E, on it` ere les deux e - Chaque colonne zj de Z s ecrit zj = v1j y1 + ej . Si on conna t y1 , le coefcient v1j qui minimise ej 2 est t t ` q . On normalise ensuite v1 a ` 1. v1j = (zj y1 )/(y1 y1 ). On calcule donc v1j pour j = 1 a t - Chaque ligne zi de Z s ecrit zt = y v + e . Si on conna t v , le coefcient y ei 2 est i 1 1 1 i1 qui minimise i i t ` n. yi1 = (zi v1 )/(v1 v1 ). On calcule donc yi1 pour i = 1 a t tapes pr Pour le calcul de la seconde composante on utilise : Z Z1 = y2 v2 + E2 et on it` ere les deux e ec edentes sur Z Z1 jusqu` a convergence. Etc... tant bas Les calculs it eratif des composantes e es sur des sommes, les donn ees manquantes ne sont pas utilis ees dans ces sommes.

4. Conclusion ` dautres Cette adaptation de lalgorithme NIPALS au cas de lACM est appliqu e sur des exemples et compar ee a approches de gestion de donn ees manquantes.

5. Bibliographie
[DELEE] De Leeuw, J., Van Der Heijden., (1988), Correspondence Analysis of incomplete contingency tables, Psychometrika, 53(2), 223-233. [SAP] Saporta, G., (2002), Data fusion and data grafting, Computational Satistics and Data Analysis, 38, 465-473. [TEN] Tenenhaus, M., (1998), La regression PLS, Editions TECHNIP. [WAS] Wasito, I., Mirkin, B., (2006), Nearest neighbours in least-squares data imputation algorithms with different missing patterns, Computational Satistics and Data Analysis, 50, 926-949.