Vous êtes sur la page 1sur 17

Module 106

Analyse et fouille de donnes

Tableaux multidimensionnels

1 - Tableaux individus x variables 2 - Tableaux de contingence 3 - Covariance et corrlation 4 - Proprits des matrices de covariance et de corrlation

Exercices Outils

Grard-Michel Cochard cochard@u-picardie.fr

Ch1 - Tableaux de donnes multidimensionnelles

1 - Tableaux individus x variables


L'tude d'une population compose d'"individus" s'effectue par rapport un certain nombre de critres appels "variables" . Ces rsultats statistiques s'expriment usuellement par un tableau de nombres deux dimensions :

o Rij indique la valeur de la variable Rj pour l'individu i. Il y a n individus et p variables. Un tel tableau peut donc tre reprsent par une matrice n lignes et p colonnes :

On peut aussi donner une reprsentation gomtrique de la population tudie dans 2 espaces complmentaires :
q

espace Rp ou espace des individus : un individu i est reprsent par un point p coordonnes (Ri1, Ri2, ...., Rij, ..., Rip)

espace Rn ou espace des variables : une variable Rj est reprsente par un point n coordonnes (R1j, R2j, ...., Rij, ..., Rnj)

exemple : rpartition de 20 lves d'une classe suivant leurs notes (sur 20) dans trois matires : Maths (R1), Physique (R2), Gographie (R3) :

2 - Tableaux de contingence
Un tableau de contingence est un tableau de deux sries (mais on peut en envisager plus de deux) de caractres ou variables qualitatifs X et Y possdant des modalits Y1, Y2, ....., Yp et X1, X2, ....., Xn exhaustives et exclusives les unes des autres. On notera qu'ici les individus n'apparaissent pas explicitement.

o kij reprsente le nombre d'individus qui possdent la fois les modalits Xi et Yj. A noter que X1, X2, ....., Xn et Y1, Y2, ....., Yp reprsentent des "valeurs" (ou modalits) qualitatives des variables X et Y. exemple : tude d'une population de consommateurs achetant des produits quivalents A, B, C (X = A, B, C) et se rpartissant par catgorie socio-professionnelle (CS : cadres suprieurs, PI : professions intermdiaires, AC : artisans, commerants, AO : agriculteurs, ouvriers) (Y = CS, PI, AC, AO) :

Un tableau de contingence peut tre transform en un tableau de frquences. Il suffit de diviser chaque valeur par l'effectif total. On peut aussi considrer les frquences marginales dont les sommes verticalement et horizontalement sont bien sr gales 1. exemple : Reprenons l'exemple prcdent. L'effectif total est 300.

Un tableau de contingence ou de frquences peut tre considr comme un cas particulier d'un tableau individusxvariables. En effet, on peut considrer que les modalits de la premire variable reprsentent des individus et que les modalits de la seconde variable sont elles mmes des variables. Toutefois si cette assimilation est valable pour des calculs, elle n'est plus valable pour les interprtations qu'on en tirera.

3 - Covariance et corrlation
Reprenons le tableau individus x variables.

Tout d'abord, rappelons les relations suivantes concernant la moyenne (ou esprance mathmatique), la variance et l'cart-type :

pi reprsente le poids statistique de l'individu i. Dans la majorit des cas, on a simplement

Les quantits

reprsentent les valeurs de la variable centre Xj et les quantits

reprsentent les valeurs de

la variable centre et rduite xj. Intressons-nous maintenant aux relations qui peuvent exister entre les variables. On dfinit la corrlation cov(Rj, Rk) et la corrlation cor(Rj, Rk) entre deux variables Rj et Rk par :

Si les indices j et k sont gaux, on a cor(Rj, Rj) = Vj et cor(Rj, Rj) = 1. L'ensemble des valeurs cov(Rj, Rk) et cor(Rj, Rk) peut tre rang dans des matrices : la matrice des covariances et la matrice des corrlations. Par exemple pour trois variables R1, R2, R3, on aura pour matrice des covariances C et pour matrice des corrlations c :

Ces matrices sont symtriques car cov(Rj, Rk) = cov(Rk, Rj). La corrlation ou coefficient de corrlation cor(Rj, Rk) possde la proprit particulire d'tre compris entre -1 et +1. En effet, rappelons l'ingalit de Schwarz (vieux rsultat mathmatique) :

o Ai et Bi sont des nombres rels. Appliquons cette relation cjk = cor(Rj, Rk) :

ce qui montre que -1 cjk +1. exemple : Reprenons l'exemple des lves et de leurs notes, prsent en dbut de chapitre. Calculons les valeurs des variables centres, rduites ainsi que les matrices de covariance et de corrlation. Les calculs ont t faits avec un tableur (eleves.xls ). On supposera que tous les lves ont le mme poids statistique (1/20).

On dduit de ces tableaux :

On peut donner une interprtation gomtrique de la covariance et de la corrlation. Pour cela, on se place dans l'espace des variables dans lequel une variable est reprsente par un point avec n coordonnes ou de manire quivalente par un vecteur n composantes. Prenons, pour simplifier le cas o pi = 1/n (mais la dmonstration qui suit pourrait tre gnrale). En variables centres et rduites, nous avons obtenu la relation

Rappelons par ailleurs que le produit scalaire de deux vecteurs u et v s'crit

Appliquons ce rsultat aux vecteurs xj et xk reprsentant les variables Rj et Rk (aprs centrage et rduction) :

Ainsi, la corrlation peut s'exprimer comme un cosinus d'un angle (on retrouve au passage le fait que la corrlation est comprise entre 1 et +1).
q q

la corrlation sera forte si cos est voisin de -1 ou +1 la corrlation sera faible si cos est voisin de 0 (variables orthogonales)

exemple : Dans l'exemple des lves, la corrlation entre les diffrentes variables est peu leve. En particulier, la corrlation entre la variable R1 (Maths) et la variable R3 (Gographie) est trs faible : 0,007. Les variables R1 et R3 sont quasiment orthogonales.

4 - Proprits des matrices de covariance et corrlation


La matrice de covariance C possde des proprits importantes qui seront utilises par la suite, notamment :
q

C (matrice pxp) possde p valeurs propres positives ou nulles que l'on a coutume de numroter par ordre dcroissant : 1 2 ...... p Les vecteurs propres de C sont orthogonaux

Il en est de mme pour la matrice c des corrlations. exemple : Prenons la matrice des corrlations donne dans un exemple prcdent :

On peut calculer les valeurs propres avec Scilab :

Les valeurs propres sont 1 = 1,3285, 2 = 0,9957, 3 = 0,6757 et les vecteurs propres correspondants sont :

Les vecteurs propres de c sont orthonorms dans l'exemple prcdent : ils sont orthogonaux et de longueur unit. Ils vrifient donc les proprits

Ch1 - Exercices

Exercice 1
Un atelier de mcanique fabrique des couples boulons-crous dont les caractristiques sont
q q q q

R1 : diamtre du boulon en cm R2 : poids du boulon en kg R3 : diamtre de la perforation de l'crou en cm R4 : poids de l'crou en kg

Des mesures sur 10 pices prises au hasard fournissent les rsultats suivants:

1) Calculer les moyennes des variables

2) Remplacer le tableau prcdent par celui des variables centres et en dduire les carts types et la matrice des covariances 3) Remplacer le tableau prcdent par celui des variables centres et rduites et en dduire la matrice des corrlations.

Exercice 2
On tudie, dans une rgion donne, des mariages par rapport aux ges de l'pouse et de l'poux ce qui conduit au tableau de contingence suivant :

1) Remplacer ce tableau de contingence par un tableau de frquence. On indiquera les frquences marginales. 2) Remplacer le tableau de contingence par un tableau individus x variables. On sera conduit constituer 16 groupes d'individus et on codera par 1, 2, 3, 4 les modalits de R1 et R2. 3) Calculer la corrlation entre les variables R1 et R2

Solution de l'exercice 1
Calculs dtaills dans exo1.xls 1)

2) Calculs en variables centres

La matrice des covariances est :

Les rsultats ont t arrondis la 5me dcimale. 3) Calculs en variables centres et rduites

On aurait pu aussi obtenir les corrlations en divisant les variances et covariances par ij La matrice des corrlations est :

Solution de l'exercice 2
Calculs dtaills dans exo2.xls

1) On constate que la somme des mariages est de 100

Le tableau des frquences est donc :

2) On a 16 couples de valeurs (R1, R2), chacun avec un poids statistique pi = ni/100

3) D'aprs le tableau prcdent, la corrlation entre R1 et R2 est 0,7802. Il s'agit d'une corrlation moyenne : on ne peut pas en dduire formellement qu'il y a une corrlation linaire entre les deux variables.

Outils

L'analyse de donnes ncessite de nombreux calculs. Pour les effectuer confortablement, on utilisera des outils d'aide au calcul Pour les calculs simples, un tableur comme Excel ou son quivalent de Open Office est l'idal. Pour les calculs plus compliqus, notamment ceux de l'algbre linaire (calcul de valeurs propres et de vecteurs propres principalement), on utilisera un outil libre et gratuit (que l'on peut tlcharger) : Scilab (http://www.scilab.org/).

q q