DEPARTEMENT DE MATHEMATIQUES-INFORMATIQUE
DEPARTMENT OF MATHEMATICS AND COMPUTER SCIENCE
RAPPORT DE TPE
DATASCIENCE
(DAS 467)
Portant sur
Encadré par :
Mr. MBAMA
LISTE DES MEMBRES
5 NTONGANBOU FARLENE
8
SOMMAIRE
INTRODUTION
I. ANALYSE CANONIQUE
I.3. EXEMPLE
II.1. DEFINITION
II.3.2 APPLICATION
CONCLUSION
INTRODUCTION
L'analyse multivariée désigne l'ensemble des méthodes descriptives et explicatives
utilisées pour traiter simultanément plusieurs variables, afin de mettre en évidence des relations
de dépendance. Les données collectées sont représentées graphiquement, pour faciliter leur
interprétation et identifier une association qui permet de faire des prévisions.
A La question, “Pourquoi faire une analyse multivariée ?”, on pourrait ainsi répondre que faire
une analyse multivariée est utile lorsque plusieurs facteurs influent potentiellement sur un
résultat.
Dans ce cas, elle permet de prendre simultanément en compte l'ensemble de ces facteurs, pour
décrire et expliquer les liaisons. L'analyse multivariée est ainsi effectuée à des fins exploratoires
d'une part, prévisionnelles d'autre part.
Ceci dit, Les méthodes les plus connues de l’analyse multivariée sont :
L’ACP : Analyse en Composante Principale (ou PCA en anglais)
L’ACC : Analyse Canonique des Corrélations (ou CCA en Anglais)
L’ADL : Analyse Discriminante Linéaire (ou DLA en anglais)
Le Partitionnement ou clustering
L'analyse factorielle des correspondances (AFC).
Dans la suite, nous présenterons principalement L’ACC et L’ADL, avec des exemples
d’applications pour illustrer ces méthodes.
I. ANALYSE CANONIQUE
L'analyse canonique des corrélations, parfois aussi nommée analyse des corrélations
canoniques, (canonical-correlation analysis en anglais) permet de comparer deux groupes de
variables quantitatives appliqués tous deux sur les mêmes individus. Le but de l'analyse
canonique est de comparer ces deux groupes de variables pour savoir s'ils décrivent un même
phénomène, auquel cas on pourra se passer d'un des deux groupes de variables.
Un exemple parlant est celui des analyses médicales effectuées sur les mêmes échantillons par
deux laboratoires différents.
,
Le choix du nombre d’axes se fait comme pour les autres méthodes de l’analyse
exploratoire, à partir des valeurs propres \lambda et en fonction de leur distribution.
ANNEXE THEORIQUE
Nous présentons ici une esquisse de la démarche méthodologique de l’analyse
canonique des corrélations.
Soit muni de la métrique . L’idée est alors de chercher un couple de vecteurs normés
sous contrainte d’obtenir l’angle le plus petit et ensuite le couple -orthogonal,
respectivement, à . sous cette même contrainte. Nous en faisons de même pour les autres
couples .
Les opérateurs utilisés sont alors de la forme,
,
, dont l’une des propriétés les plus intéressantes est que la restriction de est diagonalisable,
de valeurs propres -orthogonaux et de vecteurs propres réels positifs.
Cette propriété se démontre facilement par le fait que,
, étant donné que sont -symétriques.
En passant par la formule des matrices de covariance, nous en déduisons que les équations des
facteurs canoniques sont de forme,
I.3. EXEMPLE
Soit le jeu de données suivant :
–
Pour le calcul des valeurs propres et vecteurs propres associés utiles à la suite des calculs, nous
procédons à une analyse généralisée des valeurs propres en cherchant les matrices de vecteurs
propres maximisant,
, et,
–
Maintenant, calculons les projections après avoir centré-réduit les matrices ,
, et,
Nous pouvons désormais projeter nos variables dans le plan en deux dimensions (choix motivé
par simplicité de lecture étant donné qu’il s’agit d’un exemple),
– Les variables ne sont pas assez proches du cercle de corrélation pour être interprétées.
– Deux groupes sont à relever, le premier concerne les variables soit que la
possibilité de prédire à partir d’une combinaison linéaire des variables . Le second
concerne les variables , soit un lien très fort entre elles.
– Les deux groupes décrits ci-dessus sont indépendants étant donné qu’ils forment un angle de
°.
– Enfin, la variable est anti-corrélée (angle de °) au premier groupe décrit et
indépendante au second (angle de °).
II. ANALYSE DISCRIMINANTE
II.1. DEFINITION
En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant
analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit
d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir
de ses caractéristiques mesurées à l’aide de variables prédictives.
Au cours d'une étude statistique, il y a souvent des questions qui frappent le chercheur
et auxquelles il faut fournir des éléments de réponse. Ces questions incluent des questions telles
que "les groupes sont-ils différents ?", "sur quelles variables les groupes sont-ils les plus
différents ?", "peut-on prédire à quel groupe appartient une personne en utilisant ces
variables ?", etc. Pour répondre à ces questions, l'analyse discriminante est assez utile. L'analyse
discriminante est donc une technique statistique utilisée pour classer les observations en
groupes sans chevauchement, en fonction des scores d'une ou de plusieurs variables prédictives
quantitatives.
∑𝑘
𝑗=1(𝑛𝑗 −1)𝑣𝑎𝑟(𝑋𝑗𝑖 )
var(Xi)g =
∑𝑘
𝑗=1(𝑛𝑗 −1)
iii. Déterminer les valeurs propres de S, ensuite les vecteurs propres associés ;
iv. Utiliser les coordonnées du vecteur propre associé à la plus grande valeur propre
(comme les poids) pour calculer la composante discriminante.
Exemple : Soit un v(x, y)T un vecteur propre et soit une matrice de données
à 2 variables Var1 et Var2. Les composantes discriminantes sont définies par : CDi
= x .Var1i + y.Var2i en Analyse discriminante linéaire ;
Un groupe de douze personnes est admis dans un hôpital pour le diagnostic d’une
infection. En vue de mener à bien les tests, les médecins ont effectué des mesures sur la
concentration en protéine C-réactive (CRP) et la température au moment de l’admission des
patients. Ces mesures sont censées aider à déterminer la nature (virale ou bactérienne) de
l’infection de chaque patient. Au bout de 3 jours d’analyses, les résultats des douze patients
sont présentés dans le tableau suivant :
Le problème est que l’analyse dure 3 jours avant de déterminer la nature de l’infection.
Il sera donc judicieux de déterminer, rien qu’à partir de la concentration en CRP et de la
température, la nature de l’infection d’autant plus que le temps de mesure de ces variables prend
moins d’une heure.
Vérifions si les deux variables permettent, chacune, une séparation une séparation totale
indépendamment de l’autre (1 correspond à « Virale » et 2 à « Bactérienne » sur l’axe Infection)
i) Température
Temp(C)
60
50
40
30
20
10
0
0 0.5 1 1.5 2 2.5
On remarque, à travers la ligne verticale rouge, que la température seule ne permet pas une
parfaite séparation. Il en est de même pour la concentration en CRP
70
60
50
40
CRP
30
20
10
0
35 36 37 38 39 40 41 42 43 44
Temp
En utilisant les deux variables, on obtient une représentation avec laquelle il existe
une droite qui sépare au mieux les patients en deux groupe selon la nature de leur
infection : « Virale » dans la partie inférieure et « Bactérienne » dans la partie
supérieure de la courbe. Ainsi, il existe une fonction de discrimination qui permet
donc de séparer ces patients.
II.3.2. APPLICATION
Groupe B :
𝑋̅𝐵1 = 41,08
var(𝑋𝐵1 ) = 228,0
= 208,1
- Pour la variable Temp, on effectue les mêmes opérations pour déterminer la variance de
groupe var(X2)g associé
1) Centrons et réduisons X en appliquant :
𝑋𝑖,𝑗 −𝑋̅𝑗
Zi,J = avec i = 1, 2, … ,12 et j = 1, 2.
𝑣𝑎𝑟(𝑋𝑗 )𝑔
(𝑛−1)Co(XA)+(m−1)Co(XB)
W = avec n et m respectivement le nombre de patients
𝑛+𝑚−2
dans XA et XB
1,1 −0,816 0,86 −0,79
W =(( )+ ( ))⁄2
−0,816 1,1 −0,79 0,95
0,98 −0,803
=( )
−0,803 1,025
1,56 −0,468
T=( ) donc
−0,468 1,14
0,58 0,335
= ( )
0,335 0,115
2,4 1,21
S=( )
2,2 1,06
0,74 −0,44
V=( )
0,67 0,89
0,74
L’axe qui sépare le mieux les patients est dirigé par le vecteur V1 ( ) associé à λ1 d’autant
0,67
plus que ce dernier est la plus grande valeur propre.
Les coordonnées de Z sur l’axe dirigé par V1 sont alors données dans le tableau Z’ suivant :
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1.5 -1 -0.5 0 0.5 1 1.5 2
L’axe dirigé par le vecteur V1 assure bien la discrimination (séparation parfaite) entre les
groupes, avec les patients à infection bactériennes qui ont des abscisses plus grandes.
CONC LUSION
Il existe plusieurs manières de mener une analyse statistique sur un ensemble de
données. Les approches (canonique et discriminante) décrites dans cette leçon sont basées sur
des techniques spécifiques a chaque méthode mais en s’appuyant sur une structure décrite par
l’analyse en composantes principales tout en gardant leur particularité quant aux objectifs visés.