Analyse de Données

Cours d‘Analyse de Données
But
⚫ Synthétiser, structurer l'information contenue dans des données

multidimensionnelles
(n individus, p variables).
Méthodes
⚫ Algèbre linéaire:
les données sont vues de manière abstraites comme un nuage
de points dans un espace vectoriel. On utilise
– Des matrices qui permettent de manipuler un ensemble de
variables comme un objet mathématique unique ;
– Des valeurs et vecteurs propres qui permettent de décrire la
structure d'une matrice.
– Des métriques : permettent de définir la distance entre deux points
de l'espace vectoriel ; on utilise aussi des produits scalaires.
⚫ Théorie des probabilités
nécessaire en statistique inferentielle (estimation, tests,
modélisation et prévision,...).
Individus et variables
⚫ Population
groupe ou ensemble d'individus que l'on analyse.
⚫ Recensement
étude de tous les individus d'une population donnée.
⚫ Sondage
étude d'une partie seulement d'une population appelée échantillon.
⚫ Variables
ensemble de caractéristiques d'une population.
– quantitatives: nombres sur lesquels les opérations usuelles (somme,
moyenne,...) ont un sens ; elles peuvent ^être discrètes (ex : nombre
d'éléments dans un ensemble) ou continues (ex: prix, taille) ;
– qualitatives: appartenance a une catégorie donnée ; elles peuvent être
nominales (ex : sexe, CSP) ou ordinales quand les catégories sont
ordonnées (ex : très résistant, assez résistant, peu résistant).
Description de données quantitatives
⚫ Définition
On appelle variable un vecteur x de taille n.
Chaque coordonnée xi correspond a un individu.
On s'intéresse ici a des valeurs numériques.
⚫ Poids
Chaque individu a éventuellement un poids pi, tel que p1+ + pn=1.
On a souvent p = 1 / n.
⚫ Représentation
histogramme en découpant les valeurs de la variable en classes.
⚫ Résumes
on dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des
données : effectif, moyenne, médiane, variance, écart type, minimum,
maximum, étendue, 1er quartile, 3eme quartile, ...
Ces indicateurs mesurent principalement la tendance centrale et la
dispersion. On utilisera principalement la moyenne, la variance et l'écart
type.
Moyenne arithmétique
⚫ Définition
On note 1 n
x =  xi
n i =1
ou pour des données pondérées
n
x =  pi xi
i =1
⚫ Propriétés
la moyenne arithmétique est une mesure de tendance centrale
qui dépend de toutes les observations et est sensible aux
valeurs extrêmes. Elle est très utilisée a cause de ses bonnes
propriétés mathématiques.
Exemple d’une moyenne
statistique
⚫ X: altitude de 10 avions en 1000 mètre

07,08,10,11,11,13;13,14,15,18
07+08+10+11+11+13+13+14+15+18
= = 12
10
Exemple d’une moyenne
statistique
⚫ Exemple ou la moyenne nous ne donne pas beaucoup d’information

sur la position des avions
07,08,10,11,11,13;13,14,15,18
12
03,04,04,07,07,17;19,19,20,20
12
11,11,12,12,12,12;12,12,13,13
12
⚫ La variance nous donne plus d’information sur la distribution des
avions par rapport a la moyenne d’altitude
Variance et ecart-type
⚫ Définition
la variance de x est définie par
n n
1
s x2 =  ( xi − x) 2 ou s x2 =  pi ( xi − x) 2
n i =1 i =1
L'écart type sx est la racine carrée de la variance.
⚫ Propriétés
La variance satisfait la formule suivante
1 n
s =  pi x i2 − ( x) 2
2
x
n i =1
La variance est « la moyenne des carres moins le carre de la
moyenne ». L'ecart-type, qui a la même unité que x, est une
mesure de dispersion.
Mesure de liaison entre deux variables
⚫ Définitions la covariance observée entre deux variables x et y est

n n
s xy =  pi ( xi − x)( yi − y ) =  pi xi yi − xy
i =1 i =1
et le cœfficient de r de Bravais-Pearson ou coefficient de

corrélation est donnée par
n
s xy  p ( x − x )( y
i i i − y)
rxy = = i =1
s xs y n 2 n
 pi ( xi − x)
i =1
 i i
p (
i =1
y − y ) 2
Propriétés du coefficient de corrélation
⚫ Borne
On a toujours (inégalité de Cauchy Schwarz)
− 1  rxy  1
⚫ Variables liées
rxy = 1  axi + byi ) = c 1  i  n

|rxy| = 1 si et seulement si x et y sont linéairement liées
En particulier, rxx = 1.
⚫ Variables décorrélées
si rxy = 0, on dit que les variables sont decorrelees.
Cela ne veut pas dire qu'elles sont indépendantes !
Corrélation et liaison significative
⚫ Problème
A partir de quelle valeur de rxy peut-on considérer que les variables x et y
sont liées?
⚫ Domaine d'application
on se place dans le cas ou le nombre d'individus est n > 30.
⚫ Méthode
si x et y sont deux variables gaussiennes indépendantes, alors on peut
montrer que
(n − 2)rxy2
1 − rxy2
suit une loi de Fischer-Snedecor F(1; n-2). Le résultat est valable dans le
cas non gaussien pour n > 30.
Le test
⚫ on se fixe un risque d'erreur (0,01 ou 0,05 en général) et on
calcule la probabilité
(n − 2)rxy2
P( F (1, n − 2)  ) =
1− r 2
xy
⚫ Si π < α on considère que l'événement est trop improbable et

que donc que l'hypothèse originale d'indépendance doit être
rejetée au seuil . On trouvera en général ces valeurs dans une
table pré-calculée de la loi F.
Interlude : notation matricielle
⚫ Matrice
tableau de données carre ou rectangulaire.
⚫ Vecteur
matrice a une seule colonne.
⚫ Cas particuliers
1 ... 0 1
I =      1 = 
0 ... 1 1
⚫ Transposition de matrice
échange des lignes et des colonnes d'une matrice ; on note M’ la
transposée de M.
Tableau de données
⚫ Pour n individus et p variables, on a le tableau
X est une matrice rectangulaire a n lignes et p colonnes
 x11 x12 x1p 

...
 1 
 x2 x22 
  
X = ( x ,..., x ) = 
1 p
j 
 xi 
  
 1 
 xn xn 
p
...
Vecteurs variable et individu
⚫ Variable
Une colonne du tableau
 x1j 
 j
 x2 
x =
j
 
 j
 xn 
⚫ Individu
Une ligne du tableau
ei ' = ( xi1 xi2 xip )

La matrice des poids
⚫ Pourquoi
utile quand les individus n'ont pas la même importance
⚫ Comment
on associe aux individus un poids pi tel que
p1 + p2 + ... + pn = 1
et on représente ces poids dans la matrice diagonale de taille n
 p1 ... 0
 p2 
D= 
  
 
0 ... pn 
⚫ Cas uniforme
tous les individus ont le même poids pi = 1 / n et D = I / n
Point moyen et tableau centré
⚫ Point moyen
c'est le vecteur g des moyennes arithmétiques de chaque variable :
1 p
g' = (x ... x )
n
x =  pi xij
j
ou
i =1
g = X ' D1
On peut aussi écrire
Tableau centré
il est obtenu en centrant
j
les variables autour de leur moyenne
yij = xij − x
ou, en notation matricielle,
Y = X − 1g ' = ( I − 11' D ) X
Matrice de variance covariance
⚫ Définition
c'est une matrice carrée de dimension p
 s11 s12 ... s1p 

 1 
 s2 s22 
V=
  
 1 
 s p ... s pp 
ou skl est la covariance des variables xk et xl et s2j est la
variance de la variable xj
⚫ Formule matricielle
V = X ' DX − gg ' = Y ' DY
Matrice de corrélation
⚫ Définition
Si l'on note 1 r12  r1p 
 1 
skl  r2 1 
rkl = R=
sk sl   
 1 
 s p  1 
1 
s 0
⚫ Formule matricielle  1 
 1
 
R = D 1 VD 1 D1 = s2 
s s s   
 
0 1
 s p 
L'analyse de composantes principales
⚫ Contexte
chaque individu est considéré comme un point d'un espace
vectoriel F de dimension p . L'ensemble des individus est un
nuage de points dans F et g est son centre de gravite.
⚫ Principe
on cherche a réduire le nombre p de variables tout en
préservant au maximum la structure du problème. Pour cela on
projette le nuage de points sur un sous-espace de dimension
inférieure
Exemple en dimension 2
⚫ On veut passer de 2 variables a 1 seule.
Exemple en dimension 2
⚫ On cherche la direction qui différencie le plus les points entre eux.

Distance entre individus
⚫ Motivation
afin de pouvoir considérer la structure du nuage des individus, il
faut définir une distance, qui induira une géométrie.
⚫ Distance euclidienne classique

la distance la plus simple entre deux points de Rp est définie par
p
d 2 (u, v) =  (u j − v j ) 2 = u − v
j =0
⚫ Généralisation simple
on multiplie la variable j par
aj
p
d 2 (u, v) =  a j (u j − v j ) 2
j =0
Métrique
⚫ Matrice définie positive

c'est une matrice symétrique telle que, pour tout u non nul, u’Mu > 0.
⚫ Définition
soit M = (mjk) définie positive de dimension p. On pose
p p
= u ' Mu =  m jk u j uk
2 2
u M
et d (u , v) = u − v
2
M M
j = 0 k =1
⚫ Espace métrique
il est défini par le produit scalaire
p p
u, v M
j = 0 k =1
On dit que u et v sont orthogonaux si u, v M

=0
Comparaison avec le cas usuel
⚫ Norme p
u = u ' u =  u 2j = u ' Iu
2
j =0
p p
2
u M
j = 0 k =1
⚫ Produit scalaire
p
u, v = u ' u =  u j vk = u ' Iu
j =0
p p
u, v M
j = 0 k =1
Inertie
⚫ Définition
l'inertie en un point a du nuage de points est
n n
I a =  pi ei − a = pi (ei − a )' M (ei − a )
2
M
i =1 i =1
⚫ Autres relations
l'inertie totale Ig est la moitie de la moyenne des carres des
distances entre les individus
n n
2 I g =  pi p j ei − e j
2
M
i =1 j =1
⚫ L'inertie totale est aussi donnée par la trace de la matrice MV

(la trace d'une matrice étant la somme de ses éléments
diagonaux).
I g = Tr ( MV )
Métriques particulières
⚫ Métrique usuelle
M = I correspond au produit scalaire usuel et
p
I g = Tr (V ) =  si2
j =1
⚫ Problèmes
– la distance entre individus dépend de l'unité de mesure.
– la distance privilégie les variables les plus dispersées.
⚫ Métrique réduite
c'est la plus courante ; 1 
on prend la matrice  s2 0
diagonale des inverses  1 
des variances M = D1 =   
s2
 1
0 s 2p 

I g = Tr ( D 1 V ) = Tr ( D 1 VD 1 ) = Tr ( R) = p
s2 s s
Métriques et tableaux transformes
⚫ Utiliser la métrique M = T’T sur le tableau X est équivalent a travailler avec

la métrique classique I sur le tableau transforme XT’.
⚫ Tableau transformé
Si on travaille sur le tableau transforme XT’ (changement de variables) au
lieu de X, alors les nouveaux individus seront de la forme Tei et
Tei1 , Tei2 = (Tei1 )' (Tei2 ) = ei1 ' T ' Tei2 = ei1 ' Mei2 = ei1 , ei2
M
⚫ Réciproque
pour toute matrice symétrique positive M, il existe une matrice T (racine
carrée de M) telle que
M = T 'T
et donc on peut ramener l'utilisation de la métrique a un changement de
variables.
Métriques et tableaux transformes (suite)
⚫ Utiliser une métrique est donc équivalent à tordre les données

pour les rendre comparables
⚫ Exemple utiliser la métrique réduite est équivalent a travailler

sur les données centrées réduites Z = YD1/s.

Analyse de Données

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse de Données

Transféré par

Droits d'auteur :

Formats disponibles

Cours d‘Analyse de Données

⚫ Synthétiser, structurer l'information contenue dans des données

⚫ X: altitude de 10 avions en 1000 mètre

⚫ Exemple ou la moyenne nous ne donne pas beaucoup d’information

⚫ Définitions la covariance observée entre deux variables x et y est

et le cœfficient de r de Bravais-Pearson ou coefficient de

rxy = 1  axi + byi ) = c 1  i  n

⚫ Si π < α on considère que l'événement est trop improbable et

 x11 x12 x1p 

ei ' = ( xi1 xi2 xip )

 s11 s12 ... s1p 

⚫ On cherche la direction qui différencie le plus les points entre eux.

⚫ Distance euclidienne classique

⚫ Matrice définie positive

On dit que u et v sont orthogonaux si u, v M

⚫ L'inertie totale est aussi donnée par la trace de la matrice MV

⚫ Utiliser la métrique M = T’T sur le tableau X est équivalent a travailler avec

⚫ Utiliser une métrique est donc équivalent à tordre les données

⚫ Exemple utiliser la métrique réduite est équivalent a travailler

Vous aimerez peut-être aussi