Vous êtes sur la page 1sur 7

CHAPITRE I : Introduction à l’Analyse des Données (AD)

PARTIE I : Généralités
1- Définition de l’AD
L’Analyse des Données (AD) est une famille de méthodes statistiques multidimensionnelles descriptives
généralement basées sur le calcul matriciel et la géométrie.
Contrairement aux méthodes de la statistique classique, les techniques d’AD ne sont pas liées à une
opinion à priori (pas de supposition préalable) sur les lois suivis par les phénomènes analysés.
L’AD aide à faire ressortir les « relations » cachées dans un grand volume de données, par l’estimation
des corrélations entre les variables étudiées via des outils statistiques comme les matrices des corrélations
et des variances-covariances, et ensuite « synthétiser » ou « regrouper » ces données de façon à faire
apparaître clairement ce qui les rend homogènes, pour mieux les connaître. Ainsi, l’objectif de l’AD est :
 Réduction des dimensions : la représentation synthétique de grands volumes de données
facilitera leur compréhension et aide à la prise des décisions. Cela passe par :
a. La recherche des ressemblances (proximités) entre les individus (lignes de la table)
b. La recherche des liaisons (corrélations) entre les variables (colonnes de la table)
Cette famille de méthodes cherche à représenter de grands ensembles de données par peu de variables
(généralement artificielles) qui synthétisent l’essentiel de ces données. Ces méthodes permettent de
représenter (graphiquement) le nuage de points à analyser dans le meilleur espace réduit possible sans
trop de perte d'information. Aussi, et puisqu’il est difficile de visualiser (et d’imaginer) des points dans
des espaces de dimensions supérieures à trois, généralement on vise à réduire les dimensions vers un plan
(2D) ou un espace en 3D (si on a un software de représentation graphique en 3D), cela en se basant sur le
calcul matriciel et l'analyse des vecteurs et valeurs propres.
Les principales méthodes de réduction des dimensions sont :
- L'Analyse en Composantes Principales ACP : adaptée aux variables quantitatives, continues, corrélées.
- L'Analyse Factorielle des Correspondances AFC : étude des tables de contingence à 2 variables
qualitatives
- L'analyse des correspondances multiples ACM : extension de l'AFC qui permet que le croisement
(étude de correspondance) de plusieurs variables qualitatives (utilisée pour analyser des sondages).
 Classification : cherchant à regrouper et classer les données de manière automatique, ces
méthodes permettent d’identifier des groupes homogènes au sein d’une population. On cite :
- L'analyse factorielle discriminante : regroupe les individus en classes et ensuite affecte de nouveaux
individus dans ces classes.
- Les k plus proches voisins : choisir la classe la plus proche (suivant certaine distance) ou on doit affecter
un nouvel individu parmi ses k plus proches individus voisins (individus de la base d’apprentissage).
- La méthode des centres mobiles : associer les individus à des centres initiaux de classes, puis à recalculer
ces centres jusqu'à obtenir une convergence (stabilité des centres des classes (ne changent plus)).

2- Principes de base l’AD


Poussée par « l’explosion du volume de données à manipuler » et « le développement de l'informatique et
des technologies stockage des données », les principes de l’AD sont :
o « Trop de données tue la données », le but principal de l’AD est la réduction des dimensions des
données à étudier (perdre quelques détails pour gagner la clarté)
o Coupler la puissance du « traitement automatique » de l’informatique et la « logique
mathématique » est indispensable pour bien analyser les données et interpréter les résultats lors de
l’étude des phénomènes compliqués.
o Comme on dit : « un graphe fait parler les données », les diverses représentations graphiques
aident à bien visualiser et comprendre les résultats des traitements.
o Aussi, « Le modèle doit suivre les données et non l'inverse ».
3- Les types de données à analyser
Une population (données étudiées) peut être décrite par deux types des données : Qualitatives &
Quantitatives. L’organisation des données sous forme d'un tableau permet une représentation simple de
toutes les données. Ainsi, on a en lignes les individus (nommés aussi observations ou unités statistiques),
chacun décrits par des variables ou caractéristiques (en colonne).
En analyse factorielle, on peut rencontrer plusieurs types de tables :
o En AF théorique (cas général) : étudier la tables des
données simple (ligne=individus, colonne=variable)
o En ACP : extraire de la table des données :
o Une table des données centrées-réduites
o Une matrice des covariances
o En AFC : on extrait de la table des données à analyser :
o Tables de contingence (de dépendances)
o Table des fréquences (de probabilités)
o Table des profils lignes/colonnes
o En ACM, on extrait de la table de données à analyser :
o Un tableau disjonctif complet ou table de Burt

4- Des données aux connaissances


Le schéma suivant caractérise les différents types « d’informations » et de « connaissances » en fonction
de leur complexité, de leur relation respective et de leur niveau de compréhension.

Classification des différents types d’information

Donnée : élément de base qui représente une information dans une BD, à savoir une mesure ou une
caractéristique
 Exemple 1 :100
 Exemple 2 : 4.5
Information : donnée complétée par une description qui indique le contexte : de quelle mesure s’agit-il ?
 Exemple 1 : l’eau bout à 100° Celsius
 Exemple 2 : la note de Amine à l’examen de physique est 4.5
Connaissance : c’est l’information interprétable et exploitable, ayant un sens (pourquoi cette mesure a été
prise ?)
 Exemple 1 : lorsque l’eau bout à 100°, les microbes seront éliminés
 Exemple 2 : puisque Amine a 4.5 en physique, c’est une note éliminatoire et il ne peut pas
compenser.
Compétence : c’est « la connaissance dans l’action » exploitable par les utilisateurs, donc acquérir une
capacité de résolution d’un problème.
 Pour notre exemple 1 : maîtriser les conditions d’ébullition de l’eau pour qu’il soit stérilisé.
PARTIE II : Calculs de base en AD : les vecteurs propres & valeurs propres
2.1- Introduction
 Problème : soit A=  4 1
. Calculer An avec 0 ≤ n ≤ 5 :
  2 1
 
A0=  1 0  A1=  4 1 2  14 5
A3=  46 19  A4=  146 65  A5=  454 211 
  2 1
A =
0 1   10  1   38  11   130  49    422  179 
           

An=   2 n 2 * 3 n  2 n  3n 
n n
Et pour An on aura : 
 2* 2  2*3 2 * 2 n  3n 

 Remarque : ce qui est compliqué dans le calcul des puissances d’une matrice, c’est que tous les
coefficients se dispersent au cours des multiplications :
M=  a b  M2=  a  bc ab2  db  M3=  a 3  2bca  bcd ba 2  bda  bd 2  b 2 c 
2

  
   d 3  2bcd  abc 
 ac  dc d  bc   ca  cda  bc  cd
2 2 2
c d

Il y a un cas ou c’est facile :

 1 0  0  n1 0  0 
   
 0 2  0 n  0 n 2  0 
Théorème A=   A = 
    
       
0 0  m   0  n m 
  0

Remarque : si i  0 pour tout i ; la formule vaut pour tout n∈ Z

 Théorème : soit P une matrice inversible. Si D1, D2,…, Dn sont des matrices quelconques et :
A1=PD1P-1 A2=PD2P-1 … An=PDnP-1
Alors : A1 A2 … An = P D1 D2 … Dn P-1
En particulier : A = PDP-1  An = PDnP-1 . .

Démonstration : A1 A2 A3 … An = (PD1 P-1) (PD2 P-1) (PD3 P-1)… (PDn P-1)


= PD1(P-1P)D2(P-1P)D3(P-1… P)Dn P-1
= PD1 I D2 I D3… Dn P-1
= PD1 D2 D3… Dn P-1
 Méthode pour calculer An connaissant une « matrice inversible » P et une « matrice diagonale » D
telles que A=PDP-1 : on calcul Dn puis An = PDnP-1 .
Exemple :

2.2- Calculer les valeurs propres et les vecteurs propres


1. Quand il existe P et D telles que A=PDP-1 ont dit que A est diagonalisable.
Une matrice A étant donnée, on cherche ce que pourrait être la matrice P si A était diagonalisable :
A = PDP-1  AP = PD

 Conclusion : Les colonnes de P doivent forcément vérifier une égalité du type : Ac = λc.
Avec λ un nombre et c une matrice colonne non nulle. Quand on a une telle égalité, on dit que :
λ est une valeur propre de A et que c est un vecteur propre pour la valeur propre λ .

2. Comment trouver des valeurs propres et des vecteurs propres ?


On suppose que A est une matrice carrée d’ordre p.
On note αi,j ses coefficients et Xi ceux de la colonne c.
L’égalité Ac =λc équivaut au système :

- Parce que les inconnues sont X1, X2, …, Xp et λ, ce n’est pas un système linéaire !
- Si les inconnues étaient seulement X1, X2, …, Xp , ce
serait un système linéaire dont on trouverait les
solutions par la méthode du pivot.
- C’est un « système linéaire homogène » dont on
cherche les « solutions non nulles ».
- Pour que ce système ait une solution non nulle, il
faut et il suffit que le déterminant de A-λI , sa matrice des coefficients, soit nul.

 Théorème : λ est une valeur propre de A si et seulement si det(A-λI)=0 .


3. Théorème :

est un polynôme ; on l’appelle le


« polynôme caractéristique » de A.

tr(A) est la trace de A. les valeurs propres de A sont les nombres λ tels que :

 Exemple :
tr(A)
Exercice :
  1 0 1
On considère la matrice de données X de taille (2,3) suivante : X   
 0  1 1
1- Calculer le produit matriciel X'X et s’assurer que c’est une matrice carrée et symétrique
2- Chercher les valeurs propres λi de X'X et ses vecteurs propres associés ui.
3- Quels sont les vecteurs unitaires de l’espace vectoriel généré.
PARTIE III : Quelques notions mathématiques utiles en AD
1- Calculs de base
Voici quelques notions mathématiques de base nécessaires pour comprendre la suite du cours :
1 I
 Moyenne : la moyenne d’une population (ou échantillon) I est donnée par : X k   X i k
I i 1

 Ecart type : c’est une mesure de dispersion de données, chaque loi statistique (normale, X2…) à sa
propre formule de calcul de l’écart type de la variable qui la suit. Empiriquement :
1 I
 Estimation de l’écart type d’un échantillon :  k   ( X ik  X k )2
I i 1

 Cosinus : Cosinus (Â) = Côté adjacent (a) / Hypoténuse (h) = a/h

 Théorème de Pythagore
Dans un triangle, le carré de la longueur de l’hypoténuse « c »
est égal à la somme des carrés des longueurs des côtés « a » et
« b » de l’angle droit. c2 = a2 + b2

 Variance : c’est le carré de l'écart-type (notée σ). Elle est généralement notée σ2 ou Var(X)

 Covariance :
On l'écrit Cov(X,Y) ou σxy , pour une population N la covariance est :
Sachant que : Cov(X,X) = V(X).
La matrice de covariance est la matrice carrée dont l'élément de la ligne i et de la colonne j est la
covariance des variables Xi et Xj. L’étude des valeurs propres et vecteurs propres de cette matrice est
l'objet de l'ACP qui peut être considérée comme une sorte de compression de l’information.

 Corrélation entre les variables


La corrélation (généralement linéaire) entre deux ou plusieurs variables numériques (mesuré par le
coefficient de corrélation linéaire, noté r) est l'intensité de la liaison qui existe entre ces variables.
 Le type le plus simple de liaison est la relation affine (y=ax+b).
 En cas de deux variables numériques, elle se calcule à travers une régression linéaire.
 Pour les variables qualitatives, on utilise les « tables de contingences » pour calculer
l’indépendance entre les variables.
Le coefficient de corrélation (compris entre -1 et 1) entre deux variables aléatoires réelles X et Y à
variance finie, noté Cor(X,Y) ou parfois ρXY ou simplement rp, est défini par :
Cov( X , Y )
Cor ( X , Y )  où : Cov(X,Y) : désigne la covariance des variables X et Y, et
 X Y
σX et σY : leurs écarts types.

La matrice de corrélation d'un vecteur de p variables aléatoires X  (X1 ,…, X P ) de variances finies, est
la matrice carrée dont les termes sont donnés par : rij=Cov(Xi,Xj)
Les termes diagonaux de cette matrice sont égaux à 1
Résumé CHAPITRE 2 : Analyse factorielle (AF)
1- Présentation générale
Les analyses factorielles constituent la plupart des méthodes d’analyse de données. Les méthodes ACP, ACM, AFC
sont fondées sur le même principe de représentation des données de la table à analyser par deux nuages de points
représentant graphiquement :
 Les lignes : les individus suivant les variables (nombre d’axes = nombre de variables)
 Les colonnes : les variables suivant les individus (nombre d’axes = nombre d’individus)
C’est le principe de la dualité d’analyse, ou ces deux représentations des lignes et des colonnes sont fortement liées
entre elles et permettent une analyse des données via plusieurs angles de vision.
2- Les objectifs
Sachant que les capacités de l’humain ne sont pas habituées à une vision plus que 3D. Les AF tentent de répondre
à la question : tenant compte des « ressemblances des individus » et des « liaisons entre variables », est-il possible
de résumer toutes les données par un nombre restreint de valeurs sans perte d'information importante ?
3- Ajustement du nuage des individus dans l'espace des variables
3.1 Droite d'ajustement
Maximiser la dispersion le long de la droite d1 revient à
minimiser les distances des points du nuage NI à la droite
d1, c'est-à-dire que la droite d1 passe au plus près de tous les
points du nuage NI.
Ainsi, maximiser la dispersion (l’inertie) le long de d1
revient à maximiser la somme  OHi2 .
iI
Or par le théorème de Pythagore :
 Oi2 =  OH2i +
iI iI

iI
iH2i

Le deuxième terme représente les distances des points i de NI à la droite d1.

Ainsi, pour que la déformation du nuage soit minimale il faut que l’axe trouvé soit le plus proche possible de tous
les points du nuage. Ainsi, « puisque la distance Oi est toujours la même, iHi sera petite si OHi est grande ».
 Donc, « le premier axe factoriel (le premier facteur) » assurera une dispersion maximale (inertie
maximale) des individus projetés sur cet axe.
Important : maximiser la dispersion le long de la droite d1 revient à maximiser ut1XtXu1, avec u1 le vecteur unitaire
de d1. En fait, nous avons l'égalité :  OH2i = (Xu1)t(Xu1) = ut1XtXu1 qui représente l'inertie le long de l'axe d1.
iI
Preuve : La projection OHi de Oi sur le sous-espace à une dimension d1 porté par u1 est le produit scalaire Oi * u1
OHi =  x ik u1k les I composantes OHi sont les I composantes de la matrice Xu1, donc  OHi = (Xu1 ) (Xu1 )
2 t

k K iI
Le problème revient donc à trouver u1 qui maximise la forme quadratique ut1XtXu1 avec la contrainte ut1u1 = 1
(contrainte de normalité). Le sous-espace (à une dimension) optimal au sens de l'inertie maximale est donc l'axe d1
défini par le vecteur u1 solution de ce problème.
3.2- Plan d'ajustement (2D) (chercher le sous-espace à deux dimensions s'ajustant au mieux au nuage NI)
 Le sous-espace à 2D qui ajuste au mieux le nuage NI contient u1 (puisque u1 est le meilleur 1ére axe trouvé)
 Le sous-espace à deux dimensions est donc caractérisé par l'axe précédent d1 et l'axe recherché d2 défini par
le vecteur u2 orthogonal à u1 vérifiant :
 ut2XtXu2 est maximal (inertie (variabilité) maximale dans cet axe factoriel u2 qui porte la direction d2)
 ut2u2 = 1 (contrainte de normalité du nouvel axe d2 (le 1ier axe factoriel u1 est aussi normalisé bien sur),
 ut2u1 = 0 (contrainte d'orthogonalité entre les deux axes u1 et u2 (donc entre les directions d1 et d2)).
3.3- Sous-espace d'ajustement
Dans le cas où S ≥ 2, le sous-espace à S dimensions s'ajustant au mieux au nuage NI contient les vecteurs (u1, u2,
…, uS-1) ayant une inertie (variabilité) plus grande que celle du nouveau vecteur unitaire calculé us. et vérifiant :
 le vecteur uS est orthogonal au sous-espace S (pour tous uq , utsuq=0 (contrainte d'orthogonalité))
 utSXtXuS est maximal (maximiser l’inertie dans chaque axe factoriel)
 utSuS = 1 (contrainte de normalité)
Résumé CHAP 3 : analyse en composantes principales (ACP)
L’ACP est l'une des analyses factorielles les plus importantes, l’ACP est même la base de la compréhension
actuelle des analyses factorielles, elle est de plus en plus utilisée, vu le développement des capacités de calcul.
Les objectifs de l'ACP sont ceux d'une analyse factorielle : réduire les dimensions des données.
Axes d’inertie maximale : Meilleure angle de vision :
Un axe bien choisi L’ACP recherche les meilleurs
angles de vision d’un nuage de
Grande dispersion (variabilité) points
des points sur cet axe Exemple : image du chameau
Exemple : les 2 axes d'une ACP Angle de vision en face = pas claire
sur la photo d'un poisson Angle de vision de coté = très claire

Exemple d’étude : V1 V2
 4 5
 Soit la matrice A=  6 7  , pour appliquer l’ACP on commence par rendre les données «centrées et réduites» :
8 0
 
Centrer les données (retirer la moyenne) : Réduire les données (diviser par l’écart type) :
 4  6 5  4    2 1  Ecart type(V ) = 1 8 =1,63 Ainsi, la   1.22 0.34 
Moy(V1)=(4+6+8)/3=6     1 ((2) 2  (0) 2  (2) 2 ) =  
⇨  6  6 7  4 = 0 3  3 3 matrice  0 1.03 
Moy(V2)=(5+7+0)/3=4  8  6 0  4   2  4  Ecart type(V ) = 1 centrée  1.22  1.37 
26 =2,91 réduite :  
    2 ((1)2  (3)2  (4)2 ) =
3 3
Vérification 1 : inutile de centrer ou réduire des données déjà centrées et réduites puisque :
 La moyenne des données centrées = 0 donc retirer la moyenne est sans effet (x-0=x)
 L’écart type des données réduite = 1 donc diviser par l’écart type est sans effet (x/1=x)
 Lorsque les données sont centrées et réduites, la covariance entre deux variables est égale à leur corrélation :
 Sachant que l’écart type σ de chaque variable réduite est égal à 1, donc :
 Corrélation(V1,V2) = Covariance(V1,V2)/(σ(V1)*σ(V2)) = Covariance(V1,V2) = Cos(V1,V2)=1/3*A'*A
 1  0,69 
 Г=matrice des corrélations=1/3*A'*A=   Calculer les valeurs et vecteurs propres de 1    0,69 
3 = nombre de lignes  0,69 1   0,69 1   
Les valeurs propres sont les solutions λ qui rendent le déterminant de cette matrice égale à zéro :
Det(Г-λI)=0  =0  (1-λ)2 -(-0,69)2=0  (1-λ-0,69)*( 1-λ+0,69)=0  (0,31-λ)*(1,69-λ) =0
Donc les deux valeurs propres de cette matrice (inerties de ses deux vecteur propres) sont : λ= 0.31 , λ=1.69
Vérification 2: la somme des valeurs propres «doit être égale à» la somme des éléments dans la diagonale de Г
Ainsi : 0.31+1.69=1+1=2 ; Ensuite, Calcul des vecteurs propres (axes factoriels) associées à ces valeurs propres :
On cherche les coordonnées du 1ier axe factoriel pour λ=1.69 (1ére composante principale, ayant l’inertie max)
 1  0.69   x1  x  Donc, Fλ1 est le 1ier
Гu1 = λ1u1     =1.69  1  x1=-x2 axe factoriel avec
  0.69 1   x2   x2  inertie λ1 = 1,69
Exemple : x(1,-1)
On cherche les coordonnées du 2ième axe factoriel pour λ=0.31 (le 2éme vecteur propre) :

 1  0.69   x1  x  Donc, Fλ2 est le 2éme


Гu2 = λ2u2     =0.31  1  x1=x2 axe factoriel avec
  0.69 1   x2   x2  inertie λ2 = 0,31
Exemple : x(1,1)
 On calcul maintenant les vecteurs unitaires de ces vecteurs propres : (diviser chaque vecteur propre par sa norme)
Vérification 3 : les vecteurs unitaires résultant doivent être orthonormés (norme =1, leur produit=0 (orthogonaux))
La norme du 1ier axe principal : x(1,1)  1  (1)  2 donc le 1ier vecteur unitaire u1=  1 
2 2 1
 , 
 2 2 

La norme du 2éme axe principal : x(1,1)  1  1  donc le 2éme vecteur unitaire u2=  1 
2 2
2 
1
, 
 2 2 
Avec : ||u1||=1 & ||u2||=1 & u1*u2 = 0

Vous aimerez peut-être aussi