Vous êtes sur la page 1sur 21

UNIVERSITE DE DOUALA UNIVERSITY OF DOUALA

FACULTE DES SCIENCES FACULTY OF SCIENCE

DEPARTEMENT DE MATHEMATIQUES-INFORMATIQUE
DEPARTMENT OF MATHEMATICS AND COMPUTER SCIENCE

RAPPORT DE TPE

DATASCIENCE
(DAS 467)

Portant sur

ANALYSE CANONIQUE & ANALYSE


DISCRIMINANTE.
Consensus des connaissances acquises par le Groupe 2 et Exemples d’applications.

Encadré par :

Mr. MBAMA
LISTE DES MEMBRES

NUMERO NOM ET PRENOM MATRICULE CHARGE

1 TIOMELA BELRICK STEPHANE 22S70623 Resp.

2 DJELASSEM CYRILLE 18S08487 Assist.

3 CHIMI DEUNTCHA ANGILS ALLAN

4 NANA WOUNANG DALICK

5 NTONGANBOU FARLENE

6 SAMANKEU YVAN CABREL 19S31044

7 KAMENI NGUEMATCHA JAURES 19S29423

8
SOMMAIRE
INTRODUTION

I. ANALYSE CANONIQUE

I.1. DEFINITION MATHEMATIQUE

I.2. ETAPES DE RESOLUTION

I.3. EXEMPLE

II. ANALYSE DISCRIMINANTE

II.1. DEFINITION

II.2. PRINCIPE ET ETAPES DE CALCUL

II.3 . EXEMPLE D’APPLICATION DE L’ANALYSE DISCRIMINANTE


LINEAIRE

II.3.1. FORMULATION DU PROBLEME

II.3.2 APPLICATION

CONCLUSION
INTRODUCTION
L'analyse multivariée désigne l'ensemble des méthodes descriptives et explicatives
utilisées pour traiter simultanément plusieurs variables, afin de mettre en évidence des relations
de dépendance. Les données collectées sont représentées graphiquement, pour faciliter leur
interprétation et identifier une association qui permet de faire des prévisions.

A La question, “Pourquoi faire une analyse multivariée ?”, on pourrait ainsi répondre que faire
une analyse multivariée est utile lorsque plusieurs facteurs influent potentiellement sur un
résultat.
Dans ce cas, elle permet de prendre simultanément en compte l'ensemble de ces facteurs, pour
décrire et expliquer les liaisons. L'analyse multivariée est ainsi effectuée à des fins exploratoires
d'une part, prévisionnelles d'autre part.

Ceci dit, Les méthodes les plus connues de l’analyse multivariée sont :
 L’ACP : Analyse en Composante Principale (ou PCA en anglais)
 L’ACC : Analyse Canonique des Corrélations (ou CCA en Anglais)
 L’ADL : Analyse Discriminante Linéaire (ou DLA en anglais)
 Le Partitionnement ou clustering
 L'analyse factorielle des correspondances (AFC).

Dans la suite, nous présenterons principalement L’ACC et L’ADL, avec des exemples
d’applications pour illustrer ces méthodes.
I. ANALYSE CANONIQUE
L'analyse canonique des corrélations, parfois aussi nommée analyse des corrélations
canoniques, (canonical-correlation analysis en anglais) permet de comparer deux groupes de
variables quantitatives appliqués tous deux sur les mêmes individus. Le but de l'analyse
canonique est de comparer ces deux groupes de variables pour savoir s'ils décrivent un même
phénomène, auquel cas on pourra se passer d'un des deux groupes de variables.

Un exemple parlant est celui des analyses médicales effectuées sur les mêmes échantillons par
deux laboratoires différents.

I.1. DÉFINITION (MATHÉMATIQUE)

Soit ( X, Y ) > un vecteur de composantes X de dimension p1 et Y de dimension p2 ,

avec p : = p 1 + p 2 , de moyenne ( µ 1 , µ 2 ) = µ et matrice de variance covariance Σ =


Σ 11 Σ 12
Σ 21 Σ 22

Le but étant justement de maximiser cette corrélation


I.2. ETAPES

1. calcul des matrices de covariances intra et inter groupes

2. calcul des valeurs propres et vecteurs propres associés sous contrainte de


maximisation de :

3. Calcul des axes factorielles après standardisation de ,

4. Étape 4: Projection des variables dans le plan factoriel,

,
Le choix du nombre d’axes se fait comme pour les autres méthodes de l’analyse
exploratoire, à partir des valeurs propres \lambda et en fonction de leur distribution.

En termes d’interprétation, la lecture se fait à l’instar d’une Analyse en Composantes


Principales (ACP),

ANNEXE THEORIQUE
Nous présentons ici une esquisse de la démarche méthodologique de l’analyse
canonique des corrélations.
Soit muni de la métrique . L’idée est alors de chercher un couple de vecteurs normés
sous contrainte d’obtenir l’angle le plus petit et ensuite le couple -orthogonal,
respectivement, à . sous cette même contrainte. Nous en faisons de même pour les autres

couples .
Les opérateurs utilisés sont alors de la forme,
,
, dont l’une des propriétés les plus intéressantes est que la restriction de est diagonalisable,
de valeurs propres -orthogonaux et de vecteurs propres réels positifs.
Cette propriété se démontre facilement par le fait que,
, étant donné que sont -symétriques.

Dès lors, les vecteurs propres , -normés de sont associés aux


mêmes valeurs propres. De plus, ils s’expriment comme combinaisons linéaires de ,
, ,
, avec nos facteurs canoniques obtenus par,

En passant par la formule des matrices de covariance, nous en déduisons que les équations des
facteurs canoniques sont de forme,

I.3. EXEMPLE
Soit le jeu de données suivant :

Nous avons donc et , nos deux matrices ou


blocs de données à comparer.
Dans un premier temps, déterminons les matrices de covariances intra et inter groupes. Nous
avons,


Pour le calcul des valeurs propres et vecteurs propres associés utiles à la suite des calculs, nous
procédons à une analyse généralisée des valeurs propres en cherchant les matrices de vecteurs
propres maximisant,

, nous obtenons ainsi,

, et,


Maintenant, calculons les projections après avoir centré-réduit les matrices ,
, et,

Nous pouvons désormais calculer les corrélations entre et ,

Nous pouvons désormais projeter nos variables dans le plan en deux dimensions (choix motivé
par simplicité de lecture étant donné qu’il s’agit d’un exemple),
– Les variables ne sont pas assez proches du cercle de corrélation pour être interprétées.
– Deux groupes sont à relever, le premier concerne les variables soit que la
possibilité de prédire à partir d’une combinaison linéaire des variables . Le second
concerne les variables , soit un lien très fort entre elles.
– Les deux groupes décrits ci-dessus sont indépendants étant donné qu’ils forment un angle de
°.
– Enfin, la variable est anti-corrélée (angle de °) au premier groupe décrit et
indépendante au second (angle de °).
II. ANALYSE DISCRIMINANTE

II.1. DEFINITION
En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant
analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit
d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir
de ses caractéristiques mesurées à l’aide de variables prédictives.
Au cours d'une étude statistique, il y a souvent des questions qui frappent le chercheur
et auxquelles il faut fournir des éléments de réponse. Ces questions incluent des questions telles
que "les groupes sont-ils différents ?", "sur quelles variables les groupes sont-ils les plus
différents ?", "peut-on prédire à quel groupe appartient une personne en utilisant ces
variables ?", etc. Pour répondre à ces questions, l'analyse discriminante est assez utile. L'analyse
discriminante est donc une technique statistique utilisée pour classer les observations en
groupes sans chevauchement, en fonction des scores d'une ou de plusieurs variables prédictives
quantitatives.

II.2. PRINCIPE ET ETAPES DE CALCUL


Afin de d’effectuer l’ADL sur un jeu de données, un certains nombres d’étapes est requis et
classe dans l’ordre suivant :
i. Centrer et réduire la matrice de donnée comme en ACP mais en utilisant ici la
variance de groupe obtenue en faisant la moyenne des variances des différents
groupes(classe). Pour un jeu de données X divisé en k groupes de matrice Xj de
dimension nj× 𝑝 chacun (j = 1, …, k) et dont les observations sont décrites par p
variables, la variance des groupes par rapport à la variable i est définie par :

∑𝑘
𝑗=1(𝑛𝑗 −1)𝑣𝑎𝑟(𝑋𝑗𝑖 )
var(Xi)g =
∑𝑘
𝑗=1(𝑛𝑗 −1)

ii. Calculer la matrice de covariance intra-groupe W et déduire la matrice de covariance


intergroupe B en utilisant :
B = T-B avec T, la matrice de variances-covariances totale
de X ;
∑𝑘
𝑗=1(𝑛𝑗 −1)𝐶𝑜(𝑋𝑗 )
W= avec Co(Xj) la matrice de variances-covariances de Xj
∑𝑘
𝑗=1(𝑛𝑗 −1)

Ensuite Trouver S = W-1.B

iii. Déterminer les valeurs propres de S, ensuite les vecteurs propres associés ;
iv. Utiliser les coordonnées du vecteur propre associé à la plus grande valeur propre
(comme les poids) pour calculer la composante discriminante.

Exemple : Soit un v(x, y)T un vecteur propre et soit une matrice de données
à 2 variables Var1 et Var2. Les composantes discriminantes sont définies par : CDi
= x .Var1i + y.Var2i en Analyse discriminante linéaire ;

v. Enfin, faire une représentation des données composantes


discriminantes sur l’axe définie par le vecteur propre principal pour
visualiser la discrimination

II.3. EXEMPLE D’APPLICATION DE L’ANALYSE


DISCRIMINANTE LINEAIRE
II.3.1. FORMULATION DU PROBLEME

Un groupe de douze personnes est admis dans un hôpital pour le diagnostic d’une
infection. En vue de mener à bien les tests, les médecins ont effectué des mesures sur la
concentration en protéine C-réactive (CRP) et la température au moment de l’admission des
patients. Ces mesures sont censées aider à déterminer la nature (virale ou bactérienne) de
l’infection de chaque patient. Au bout de 3 jours d’analyses, les résultats des douze patients
sont présentés dans le tableau suivant :

CRP(mg/l) Temp(C) Infection


40,0 36,0 Virale
11,1 37,2 Virale
30,0 36,5 Virale
21 ,4 39,4 Virale
10,7 39,6 Virale
3,4 40,7 Virale
42,0 37,6 Bactérienne
31,1 42,2 Bactérienne
50,0 38,5 Bactérienne
60 ,4 39,4 Bactérienne
45,7 38,6 Bactérienne
17,3 42,7 Bactérienne

Le problème est que l’analyse dure 3 jours avant de déterminer la nature de l’infection.
Il sera donc judicieux de déterminer, rien qu’à partir de la concentration en CRP et de la
température, la nature de l’infection d’autant plus que le temps de mesure de ces variables prend
moins d’une heure.

Vérifions si les deux variables permettent, chacune, une séparation une séparation totale
indépendamment de l’autre (1 correspond à « Virale » et 2 à « Bactérienne » sur l’axe Infection)

i) Température

Temp(C)
60

50

40

30

20

10

0
0 0.5 1 1.5 2 2.5
On remarque, à travers la ligne verticale rouge, que la température seule ne permet pas une
parfaite séparation. Il en est de même pour la concentration en CRP

ii) Température et CRP


En utilisant les deux variables on a :

70

60

50

40
CRP

30

20

10

0
35 36 37 38 39 40 41 42 43 44
Temp

En utilisant les deux variables, on obtient une représentation avec laquelle il existe
une droite qui sépare au mieux les patients en deux groupe selon la nature de leur
infection : « Virale » dans la partie inférieure et « Bactérienne » dans la partie
supérieure de la courbe. Ainsi, il existe une fonction de discrimination qui permet
donc de séparer ces patients.

II.3.2. APPLICATION

On divise d’abord le tableau en deux groupes selon la nature de l’infection :


Groupe A :

CRP(mg/l) Temp(C) Infection


40,0 36,0 Virale
11,1 37,2 Virale
30,0 36,5 Virale
21 ,4 39,4 Virale
10,7 39,6 Virale
3,4 40,7 Virale

Groupe B :

CRP(mg/l) Temp(C) Infection


42,0 37,6 Bactérienne
31,1 42,2 Bactérienne
50,0 38,5 Bactérienne
60 ,4 39,4 Bactérienne
45,7 48,6 Bactérienne
17,3 42,7 Bactérienne

- Pour la variable CRP on a:

𝑋̅𝐴1 = (40+11,1+30+21,4+10,7+3,4)/6 = 19,433333333

var(𝑋𝐴1 ) = 188,3 en appliquant la formule

𝑋̅𝐵1 = 41,08

var(𝑋𝐵1 ) = 228,0

𝑋̅1 = (19,433333333 + 41,08)/2 = 30,3

La variance des groupes var(X1)g associée est donc définie par :

var(X1)g = [var(𝑋𝐴1 ) + var(𝑋𝐵1 )]/2


= (188,3+228)/2

= 208,1

- Pour la variable Temp, on effectue les mêmes opérations pour déterminer la variance de
groupe var(X2)g associé
1) Centrons et réduisons X en appliquant :
𝑋𝑖,𝑗 −𝑋̅𝑗
Zi,J = avec i = 1, 2, … ,12 et j = 1, 2.
𝑣𝑎𝑟(𝑋𝑗 )𝑔

On obtient le tableau Z centré et réduit suivant :

zCRP zTemp Infection


0,7 -1,5 Virale
-1,3 -0,5 Virale
0 -1,3 Virale
-0,6 0,2 Virale
-1,4 0,3 Virale
-1,9 0,8 Virale
0,8 -0,7 Bactérienne
0,1 1,6 Bactérienne
1,4 -0,3 Bactérienne
2,1 0,2 Bactérienne
1,1 -0,2 Bactérienne
-0,9 1,8 Bactérienne

2) Calculons la matrice de covariance intra-groupe W :

Le tableau est divisé en deux XA et XB comme précédemment. Notons par Co(XA) et


Co(XB) respectivement les matrices de variances-covariances de XA et XB définie
respectivement comme suit :
CRP(mg/l) Temp(C) Infection
0,7 -1,5 Virale
-1,3 -0,5 Virale
0 -1,3 Virale
-0,6 0,2 Virale
-1,4 0,3 Virale
-1,9 0,8 Virale

𝑋̅𝐴1 = -0,75 et 𝑋̅𝐴2 = -0,33

CRP(mg/l) Temp(C) Infection


0,8 -0,7 Bactérienne
0,1 1,6 Bactérienne
1,4 -0,3 Bactérienne
2,1 0,2 Bactérienne
1,1 -0,2 Bactérienne
-0,9 1,8 Bactérienne

𝑋̅𝐵1 = 0,76 et 𝑋̅𝐵2 = 0,4

En appliquant la formule définie précédemment on a :

1,1 −0,816 0,86 −0,79


Co(XB) = ( ) et Co(XA) = ( )
−0,816 1,1 −0,79 0,86

La matrice de covariance intra-groupe W est définie alors par :

(𝑛−1)Co(XA)+(m−1)Co(XB)
W = avec n et m respectivement le nombre de patients
𝑛+𝑚−2
dans XA et XB
1,1 −0,816 0,86 −0,79
W =(( )+ ( ))⁄2
−0,816 1,1 −0,79 0,95

0,98 −0,803
=( )
−0,803 1,025

Déterminons la matrice de covariance intergroupe B définie par :

B = T-W avec T la de variances-covariances de X qui après calcul est :

1,56 −0,468
T=( ) donc
−0,468 1,14

1,56 −0,468 0,98 −0,803


B=( )-( )
−0,468 1,14 −0,803 1,025

0,58 0,335
= ( )
0,335 0,115

La matrice S est donc déduite comme suit :

0,98 −0,803 −1 0,58 0,335


S = W-1 . B = ( ) ×( )
−0,803 1,025 0,335 0,115

2,84967 2,23247 0,58 0,335


=( )×( )
2,23247 2,72456 0,335 0,115

2,4 1,21
S=( )
2,2 1,06

Les valeurs propres de S se déduisent de det(S-λI) = 0

On a λ1 = 3,49 et λ2 = 0,033. On a la matrice de vecteurs propres V associés respectivement à


λ1 et λ2 qui est :

0,74 −0,44
V=( )
0,67 0,89

0,74
L’axe qui sépare le mieux les patients est dirigé par le vecteur V1 ( ) associé à λ1 d’autant
0,67
plus que ce dernier est la plus grande valeur propre.

Les composantes discriminantes CDi avec i = 1, 2, …, 12 sont définies par :

CDi = 0,74 × 𝑍1𝑖 +0,67 × 𝑍2𝑖

Exemple : CD1 = 0,74× 0,7 + (−1,5) × 0,67


= -0,487

Les coordonnées de Z sur l’axe dirigé par V1 sont alors données dans le tableau Z’ suivant :

zCRP zTemp Infection CD


0,7 -1,5 Virale -0,48
-1,3 -0,5 Virale -1,297
0 -1,3 Virale -0,871
-0,6 0,2 Virale -0,31
-1,4 0,3 Virale -0,835
-1,9 0,8 Virale -0,87
0,8 -0,7 Bactérienne -0,087
0,1 1,6 Bactérienne 1,146
1,4 -0,3 Bactérienne 0,835
2,1 0,2 Bactérienne 1,688
1,1 -0,2 Bactérienne 0,68
-0,9 1,8 Bactérienne 0,54

Il s’en suit le nuage de points suivant :

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
-1.5 -1 -0.5 0 0.5 1 1.5 2
L’axe dirigé par le vecteur V1 assure bien la discrimination (séparation parfaite) entre les
groupes, avec les patients à infection bactériennes qui ont des abscisses plus grandes.
CONC LUSION
Il existe plusieurs manières de mener une analyse statistique sur un ensemble de
données. Les approches (canonique et discriminante) décrites dans cette leçon sont basées sur
des techniques spécifiques a chaque méthode mais en s’appuyant sur une structure décrite par
l’analyse en composantes principales tout en gardant leur particularité quant aux objectifs visés.

Vous aimerez peut-être aussi