Académique Documents
Professionnel Documents
Culture Documents
PARTIE I : Généralités
1- Définition de l’AD
L’Analyse des Données (AD) est une famille de méthodes statistiques multidimensionnelles descriptives
généralement basées sur le calcul matriciel et la géométrie.
Contrairement aux méthodes de la statistique classique, les techniques d’AD ne sont pas liées à une
opinion à priori (pas de supposition préalable) sur les lois suivis par les phénomènes analysés.
L’AD aide à faire ressortir les « relations » cachées dans un grand volume de données, par l’estimation
des corrélations entre les variables étudiées via des outils statistiques comme les matrices des corrélations
et des variances-covariances, et ensuite « synthétiser » ou « regrouper » ces données de façon à faire
apparaître clairement ce qui les rend homogènes, pour mieux les connaître. Ainsi, l’objectif de l’AD est :
Réduction des dimensions : la représentation synthétique de grands volumes de données
facilitera leur compréhension et aide à la prise des décisions. Cela passe par :
a. La recherche des ressemblances (proximités) entre les individus (lignes de la table)
b. La recherche des liaisons (corrélations) entre les variables (colonnes de la table)
Cette famille de méthodes cherche à représenter de grands ensembles de données par peu de variables
(généralement artificielles) qui synthétisent l’essentiel de ces données. Ces méthodes permettent de
représenter (graphiquement) le nuage de points à analyser dans le meilleur espace réduit possible sans
trop de perte d'information. Aussi, et puisqu’il est difficile de visualiser (et d’imaginer) des points dans
des espaces de dimensions supérieures à trois, généralement on vise à réduire les dimensions vers un plan
(2D) ou un espace en 3D (si on a un software de représentation graphique en 3D), cela en se basant sur le
calcul matriciel et l'analyse des vecteurs et valeurs propres.
Les principales méthodes de réduction des dimensions sont :
- L'Analyse en Composantes Principales ACP : adaptée aux variables quantitatives, continues, corrélées.
- L'Analyse Factorielle des Correspondances AFC : étude des tables de contingence à 2 variables
qualitatives
- L'analyse des correspondances multiples ACM : extension de l'AFC qui permet que le croisement
(étude de correspondance) de plusieurs variables qualitatives (utilisée pour analyser des sondages).
Classification : cherchant à regrouper et classer les données de manière automatique, ces
méthodes permettent d’identifier des groupes homogènes au sein d’une population. On cite :
- L'analyse factorielle discriminante : regroupe les individus en classes et ensuite affecte de nouveaux
individus dans ces classes.
- Les k plus proches voisins : choisir la classe la plus proche (suivant certaine distance) ou on doit affecter
un nouvel individu parmi ses k plus proches individus voisins (individus de la base d’apprentissage).
- La méthode des centres mobiles : associer les individus à des centres initiaux de classes, puis à recalculer
ces centres jusqu'à obtenir une convergence (stabilité des centres des classes (ne changent plus)).
Donnée : élément de base qui représente une information dans une BD, à savoir une mesure ou une
caractéristique
Exemple 1 :100
Exemple 2 : 4.5
Information : donnée complétée par une description qui indique le contexte : de quelle mesure s’agit-il ?
Exemple 1 : l’eau bout à 100° Celsius
Exemple 2 : la note de Amine à l’examen de physique est 4.5
Connaissance : c’est l’information interprétable et exploitable, ayant un sens (pourquoi cette mesure a été
prise ?)
Exemple 1 : lorsque l’eau bout à 100°, les microbes seront éliminés
Exemple 2 : puisque Amine a 4.5 en physique, c’est une note éliminatoire et il ne peut pas
compenser.
Compétence : c’est « la connaissance dans l’action » exploitable par les utilisateurs, donc acquérir une
capacité de résolution d’un problème.
Pour notre exemple 1 : maîtriser les conditions d’ébullition de l’eau pour qu’il soit stérilisé.
PARTIE II : Calculs de base en AD : les vecteurs propres & valeurs propres
2.1- Introduction
Problème : soit A= 4 1
. Calculer An avec 0 ≤ n ≤ 5 :
2 1
A0= 1 0 A1= 4 1 2 14 5
A3= 46 19 A4= 146 65 A5= 454 211
2 1
A =
0 1 10 1 38 11 130 49 422 179
An= 2 n 2 * 3 n 2 n 3n
n n
Et pour An on aura :
2* 2 2*3 2 * 2 n 3n
Remarque : ce qui est compliqué dans le calcul des puissances d’une matrice, c’est que tous les
coefficients se dispersent au cours des multiplications :
M= a b M2= a bc ab2 db M3= a 3 2bca bcd ba 2 bda bd 2 b 2 c
2
d 3 2bcd abc
ac dc d bc ca cda bc cd
2 2 2
c d
1 0 0 n1 0 0
0 2 0 n 0 n 2 0
Théorème A= A =
0 0 m 0 n m
0
Théorème : soit P une matrice inversible. Si D1, D2,…, Dn sont des matrices quelconques et :
A1=PD1P-1 A2=PD2P-1 … An=PDnP-1
Alors : A1 A2 … An = P D1 D2 … Dn P-1
En particulier : A = PDP-1 An = PDnP-1 . .
Conclusion : Les colonnes de P doivent forcément vérifier une égalité du type : Ac = λc.
Avec λ un nombre et c une matrice colonne non nulle. Quand on a une telle égalité, on dit que :
λ est une valeur propre de A et que c est un vecteur propre pour la valeur propre λ .
- Parce que les inconnues sont X1, X2, …, Xp et λ, ce n’est pas un système linéaire !
- Si les inconnues étaient seulement X1, X2, …, Xp , ce
serait un système linéaire dont on trouverait les
solutions par la méthode du pivot.
- C’est un « système linéaire homogène » dont on
cherche les « solutions non nulles ».
- Pour que ce système ait une solution non nulle, il
faut et il suffit que le déterminant de A-λI , sa matrice des coefficients, soit nul.
tr(A) est la trace de A. les valeurs propres de A sont les nombres λ tels que :
Exemple :
tr(A)
Exercice :
1 0 1
On considère la matrice de données X de taille (2,3) suivante : X
0 1 1
1- Calculer le produit matriciel X'X et s’assurer que c’est une matrice carrée et symétrique
2- Chercher les valeurs propres λi de X'X et ses vecteurs propres associés ui.
3- Quels sont les vecteurs unitaires de l’espace vectoriel généré.
PARTIE III : Quelques notions mathématiques utiles en AD
1- Calculs de base
Voici quelques notions mathématiques de base nécessaires pour comprendre la suite du cours :
1 I
Moyenne : la moyenne d’une population (ou échantillon) I est donnée par : X k X i k
I i 1
Ecart type : c’est une mesure de dispersion de données, chaque loi statistique (normale, X2…) à sa
propre formule de calcul de l’écart type de la variable qui la suit. Empiriquement :
1 I
Estimation de l’écart type d’un échantillon : k ( X ik X k )2
I i 1
Théorème de Pythagore
Dans un triangle, le carré de la longueur de l’hypoténuse « c »
est égal à la somme des carrés des longueurs des côtés « a » et
« b » de l’angle droit. c2 = a2 + b2
Variance : c’est le carré de l'écart-type (notée σ). Elle est généralement notée σ2 ou Var(X)
Covariance :
On l'écrit Cov(X,Y) ou σxy , pour une population N la covariance est :
Sachant que : Cov(X,X) = V(X).
La matrice de covariance est la matrice carrée dont l'élément de la ligne i et de la colonne j est la
covariance des variables Xi et Xj. L’étude des valeurs propres et vecteurs propres de cette matrice est
l'objet de l'ACP qui peut être considérée comme une sorte de compression de l’information.
Ainsi, pour que la déformation du nuage soit minimale il faut que l’axe trouvé soit le plus proche possible de tous
les points du nuage. Ainsi, « puisque la distance Oi est toujours la même, iHi sera petite si OHi est grande ».
Donc, « le premier axe factoriel (le premier facteur) » assurera une dispersion maximale (inertie
maximale) des individus projetés sur cet axe.
Important : maximiser la dispersion le long de la droite d1 revient à maximiser ut1XtXu1, avec u1 le vecteur unitaire
de d1. En fait, nous avons l'égalité : OH2i = (Xu1)t(Xu1) = ut1XtXu1 qui représente l'inertie le long de l'axe d1.
iI
Preuve : La projection OHi de Oi sur le sous-espace à une dimension d1 porté par u1 est le produit scalaire Oi * u1
OHi = x ik u1k les I composantes OHi sont les I composantes de la matrice Xu1, donc OHi = (Xu1 ) (Xu1 )
2 t
k K iI
Le problème revient donc à trouver u1 qui maximise la forme quadratique ut1XtXu1 avec la contrainte ut1u1 = 1
(contrainte de normalité). Le sous-espace (à une dimension) optimal au sens de l'inertie maximale est donc l'axe d1
défini par le vecteur u1 solution de ce problème.
3.2- Plan d'ajustement (2D) (chercher le sous-espace à deux dimensions s'ajustant au mieux au nuage NI)
Le sous-espace à 2D qui ajuste au mieux le nuage NI contient u1 (puisque u1 est le meilleur 1ére axe trouvé)
Le sous-espace à deux dimensions est donc caractérisé par l'axe précédent d1 et l'axe recherché d2 défini par
le vecteur u2 orthogonal à u1 vérifiant :
ut2XtXu2 est maximal (inertie (variabilité) maximale dans cet axe factoriel u2 qui porte la direction d2)
ut2u2 = 1 (contrainte de normalité du nouvel axe d2 (le 1ier axe factoriel u1 est aussi normalisé bien sur),
ut2u1 = 0 (contrainte d'orthogonalité entre les deux axes u1 et u2 (donc entre les directions d1 et d2)).
3.3- Sous-espace d'ajustement
Dans le cas où S ≥ 2, le sous-espace à S dimensions s'ajustant au mieux au nuage NI contient les vecteurs (u1, u2,
…, uS-1) ayant une inertie (variabilité) plus grande que celle du nouveau vecteur unitaire calculé us. et vérifiant :
le vecteur uS est orthogonal au sous-espace S (pour tous uq , utsuq=0 (contrainte d'orthogonalité))
utSXtXuS est maximal (maximiser l’inertie dans chaque axe factoriel)
utSuS = 1 (contrainte de normalité)
Résumé CHAP 3 : analyse en composantes principales (ACP)
L’ACP est l'une des analyses factorielles les plus importantes, l’ACP est même la base de la compréhension
actuelle des analyses factorielles, elle est de plus en plus utilisée, vu le développement des capacités de calcul.
Les objectifs de l'ACP sont ceux d'une analyse factorielle : réduire les dimensions des données.
Axes d’inertie maximale : Meilleure angle de vision :
Un axe bien choisi L’ACP recherche les meilleurs
angles de vision d’un nuage de
Grande dispersion (variabilité) points
des points sur cet axe Exemple : image du chameau
Exemple : les 2 axes d'une ACP Angle de vision en face = pas claire
sur la photo d'un poisson Angle de vision de coté = très claire
Exemple d’étude : V1 V2
4 5
Soit la matrice A= 6 7 , pour appliquer l’ACP on commence par rendre les données «centrées et réduites» :
8 0
Centrer les données (retirer la moyenne) : Réduire les données (diviser par l’écart type) :
4 6 5 4 2 1 Ecart type(V ) = 1 8 =1,63 Ainsi, la 1.22 0.34
Moy(V1)=(4+6+8)/3=6 1 ((2) 2 (0) 2 (2) 2 ) =
⇨ 6 6 7 4 = 0 3 3 3 matrice 0 1.03
Moy(V2)=(5+7+0)/3=4 8 6 0 4 2 4 Ecart type(V ) = 1 centrée 1.22 1.37
26 =2,91 réduite :
2 ((1)2 (3)2 (4)2 ) =
3 3
Vérification 1 : inutile de centrer ou réduire des données déjà centrées et réduites puisque :
La moyenne des données centrées = 0 donc retirer la moyenne est sans effet (x-0=x)
L’écart type des données réduite = 1 donc diviser par l’écart type est sans effet (x/1=x)
Lorsque les données sont centrées et réduites, la covariance entre deux variables est égale à leur corrélation :
Sachant que l’écart type σ de chaque variable réduite est égal à 1, donc :
Corrélation(V1,V2) = Covariance(V1,V2)/(σ(V1)*σ(V2)) = Covariance(V1,V2) = Cos(V1,V2)=1/3*A'*A
1 0,69
Г=matrice des corrélations=1/3*A'*A= Calculer les valeurs et vecteurs propres de 1 0,69
3 = nombre de lignes 0,69 1 0,69 1
Les valeurs propres sont les solutions λ qui rendent le déterminant de cette matrice égale à zéro :
Det(Г-λI)=0 =0 (1-λ)2 -(-0,69)2=0 (1-λ-0,69)*( 1-λ+0,69)=0 (0,31-λ)*(1,69-λ) =0
Donc les deux valeurs propres de cette matrice (inerties de ses deux vecteur propres) sont : λ= 0.31 , λ=1.69
Vérification 2: la somme des valeurs propres «doit être égale à» la somme des éléments dans la diagonale de Г
Ainsi : 0.31+1.69=1+1=2 ; Ensuite, Calcul des vecteurs propres (axes factoriels) associées à ces valeurs propres :
On cherche les coordonnées du 1ier axe factoriel pour λ=1.69 (1ére composante principale, ayant l’inertie max)
1 0.69 x1 x Donc, Fλ1 est le 1ier
Гu1 = λ1u1 =1.69 1 x1=-x2 axe factoriel avec
0.69 1 x2 x2 inertie λ1 = 1,69
Exemple : x(1,-1)
On cherche les coordonnées du 2ième axe factoriel pour λ=0.31 (le 2éme vecteur propre) :
La norme du 2éme axe principal : x(1,1) 1 1 donc le 2éme vecteur unitaire u2= 1
2 2
2
1
,
2 2
Avec : ||u1||=1 & ||u2||=1 & u1*u2 = 0