Analyse de Données

A NALYSE DES DONNÉES
B. El Asri
ENSA, Agadir
1ère année Finance et ingénierie décisionnelle ;
2019-2020.
1/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 1 / 39
P LAN
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
2/ 39
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
3/ 39
M ÉTHODES .
L’ ANALYSE DE DONNÉES REGROUPE DEUX FAMILLES DE MÉTHODES .
1 Représenter de grands ensembles de données par peu de

variables.
Analyse en composantes principales
Analyse factorielle des correspondances
2 Classer les données de manière automatique

Analyse discriminante
Classification
Régression logistique
4/ 39
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
5/ 39
A NALYSE EN COMPOSANTES PRINCIPALES
DÉFINITION
Le phénomène étudier apparait sous forme de données numériques,
on regroupe ces données dans un tableau et interpréter le tableau
comme une matrice:
 
x11 x12 . . . x1q
x21 x22 . . . x1q 
 
X = . . . .  .
 . . . . 
xp1 xp2 . . . xpq
I Decomposer X en p lignes Li (i = 1, . . . , p)et q colonnes

Cj (j = 1, . . . , q).
I X = (C1 , C2 , . . . , Cq ) .
I X 0 = (L01 , L02 , . . . L0p ).
6/ 39
R EMARQUE
R EMARQUE
L’analyse en composantes principales consiste: en
étude des projections des points du nuage sur un axe, un plan, ou

un hyperplan judicieusement déterminé.
Mathèmatiquement, l’analyse en composantes principales serait

le meilleur ajustement du nuage par un sous espace vectoriel en
Rq
7/ 39
A JUSTEMENT DU NUAGE
1 Coordonnées d’un point en Rq .
2 Ajustement du nuage par un axe suivant la méthode des moindres

carrées.
3 Ajustement du nuage par un plan suivant la méthode des

moindres carrées.
4 Recherche des axes
8/ 39
A NALYSE EN COMPOSANTES PRINCIPALES NORMÉES
1 Centrer et normer les variables Cj .
2 Déterminer la matrice V des variances-covariances(avec V = Γ

matrice des correlations des q variables Cj ).
3 Extraire les valeurs propres les plus grands λ1 , λ2 , . . . , de la

matrice Γ des correlations.
4 Déterminer les vecteurs propres F1 , F2 , . . . , Fq associé aux

valeurs propres λ1 , . . . , λq
9/ 39
C ONTRIBUTIONS DES AXES
1 La contribution relative de l’axe ∆k est

λk
.
λ1 + λ2 + . . . + λq
2 La contribution relative du plan engendré par les deux premiers

axes est
λ1 + λ2
λ1 + λ2 + . . . + λq
3 On se contente souvent de faire des représentations du nuage

des individus dans un sous-espace engendré par les d premiers
axes si ce sous-espace explique un pourcentage d’inertie proche
de 1.
10/ 39
I NTERPRÉTATION DES PROJECTIONS
1 Repréesentation des individus dans les nouveaux axes.

Les coordonnées de l’individu Li sur les axes est Yi = A0 Li avec
A0 = A−1
Une proximité entre les projections de deux points s’interprete
comme un comportement analogue.
2 Représentation des variables.
On note Z1 , . . . , Zq les composantes principales
[Z1 , . . . , Zq ] = Z = XA
Les corrélations√des anciennes variables avec les nouvelles est
λ a
cor(Zk , Cj ) = q k kj .
Var(Cj )
Les représentations des variables de départ sont des points qui se
trouvent à l intérieur d’un cercle de corrélation de rayon 1
11/ 39
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
12/ 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
1 L’AFC a pour objet le traitement de l’information contenue dans un

tableau appelé de contingence ou de dépendance, relatif à deux
ensembles de nature quelconque, en relation par moyen d’un
processus naturel ou expérimental plus ou moins bien connu.
2 Les données sont ici pondérées. Les fréquences de répétitions

s’interprète facilement en termes de probabilités.
13/ 39
C ONSIDÉRONS UN TABLEAU À DOUBLE ENTRÉE .
1 ... j ... m
1 x11 ... x1j ... x1m
i xi1 ... xij ... xim
n xn1 ... xnj ... xnm
Ensemble J (paramèttres), Ensemble I(individus)
14/ 39
1 Dans le cas qualitatif, le tableau précédent se présente sous la

forme d’un tableau des uns et des zéros (suivant si l’individu i
posséde ou non le paramètre j).
2 La probabilité associée au terme xij est:

xij
pij = Pn Pm
i=1 j=1 xij
15/ 39
1 ... j ... m Total
1 p11 ... p1j ... p1m p1.
i pi1 ... pij ... pim pi.
n pn1 ... pnj ... pnm pn.
Total p.1 p.j p.m 1
Où les probabilités marginales sont:

m
X
pi. = pij , avec i = 1, . . . , n
j=1
n
X
p.j = pij , avec j = 1, . . . , m.
i=1
Vérifient les propriétés:
n
X m
X
pi. = 1 et p.j = 1
i=1 j=1 16/ 39
C’ EST QUOI Ń LES CORRESPONDANCES Ż ?
Lorsque les variables sont quantitatives, on fait une étude de

corrélation.
Mais, lorsqu’on a aussi des variables qualitatives, on doit faire une
étude des correspondances.
I NDÉPENDANCE
Probabilités conditionnelles, dans ce cas:
pij pij
= p.j ⇐⇒ = pi.
pi. p.j
Formule d’indépendance:
pij = pi. p.j
17/ 39
D ISTANCE DU χ2
Pour deux individus quelconques i et i:

m
X 1 pij pi 0 j 2
d 2 (Li , Li 0 ) = ( − )
p.j pi. pi 0 .
j
P OURQUOI UNE TELLE DISTANCE ?

La distance euclidienne ne prend pas compte complètement de
tous les caractéres étudiés!
Il a été alors proposé de modifier la distance euclidienne en
tenant compte des écarts entre deux probabilités de deux
individus d’avoir un caractére en donnant de l’importance aux
probabilités que l’individu ait tous les caractères étudiés.
18/ 39
D ISTANCE DU χ2
Cette distance s’écrit sous forme matricielle:
d 2 (Li , Li 0 ) = (αij − αi 0 j )0 D(αij − αi 0 j )

pij 1
avec αij = pi. et D matrice diagonale Djj = p.j
α
Si βij = √ ij , alors
p.j
d 2 (Li , Li 0 ) = (βij − βi 0 j )0 (βij − βi 0 j )
19/ 39
M ATRICE DES VARIANCES - COVARIANCES R:
Matrice des variances-covariances W :
 
w11 w12 . . . w1m
w21 w22 . . . w1m 
 
W =  . . . . .

 . . . . 
wn1 wn2 . . . wnm
I La variance wjj caractérise la dispersion du nuage tout au long de

l’axe j:
X n
pi. (βij − p.j )2 .
p
wjj =
i
I La covariance wjk est
n
X p
p
wjk = pi. (βij − p.j )(βik − p.k ).
i
20/ 39
M ATRICE DES VARIANCES - COVARIANCES
I Soit encore, en remplacant βij par sa valeur:

n
X pij − pi. p.j 0 pik − pi. p.k
wjk = ( √ )( √ ).
pi. p.j pi. p.k
i
I Posons
pij − pi. p.j
rij = ( √ )
pi. p.j
Alors
W = R0R avec rij = R.
I Maximiser u 0 Wu revient à maximiser u 0 R 0 Ru avec u 0 u = 1 après
on utilise la même méthode que l’ACP.
21/ 39
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
22/ 39
I NTRODUCTION
I Objectif : Obtenir une représentation schématique simple d’un

tableau de données complexe à partir d’une typologie
(segmentation), partition des n individus dans des classes,
définies par l’observations de p variables.
I Méthode : Classifier, c’est regrouper des objets similaires selon
certains critères. Les diverses techniques de classification visent
toutes à répartir n individus, caractérisés par p variables en un
certain nombre m de sous-groupes aussi homogénes que
possible.
I Deux grandes techniques de classification :
le partitionnement et a classification hiérarchique.
23/ 39
PRÉSENTATION DE L’ ALGORITHME
1 Initialisation de l’algorithme.
Les classes initiales = n singletons individus.
Calcul de la matrice des distances des individus 2 à 2.
2 Itération des étapes suivantes.

Regrouper les 2 éléments (individus ou groupes) les plus proches
au sens d’un critère chosi.
Mise à jour du tableau des distances en remplacant les deux
éléments regroupés par le nouveau et en recalculant sa distance
avec les autres classes.
3 Fin de l’itération : agrégation de tous les individus en une seule

classe.
24/ 39
INDICE DE DISSIMILARITÉ ENTRE LES INDIVIDUS
1 La distance entre individus dépend des données étudiées et des

objectifs..
pP
2
Distance Euclidienne : d(x, y ) = i (xi − yi ) .
Distance Euclidienne au carré : Permet de "sur-pondérer" les
2
P
objets atypiques (éloignés), d(x, y ) = i (xi − yP i ) .
Distance du City-block (Manhattan): d(x, y ) = i |xi − yi |.
2 Choix de l’indice d’agrégation.

On regroupe les éléments en minimisant l’indice d’agrégation.
stratégie du saut minimum ∆(A, B) = mini∈A,j∈B d(i, j).
Méthode de ward: A chaque itération, on agrége de manière à avoir
une gain minimum d’inertie intra-classe
25/ 39
PARTITIONNEMENTS
1 On choisit aléatoirement k individus comme centres initiaux des
classes.
2 On attribue chaque objet à la classe la plus proche, ce qui définit k

classes.
3 Connaissant les membres de chaque classe on recalcule les

centres d’inertie de chaque classe.
4 On redistribue les objets dans la classe qui leur est la plus proche
en tenant des nouveaux centre de classe calculés à l’étape
précédente.
5 On retourne à l’étape 3 jusqu’à ce qu’il y ai convergence,

c’est-à-dire jusqu’à ce qu’il n’y ai plus aucun individu à changer de
classe.
26/ 39
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
27/ 39
I NTRODUCTION
I On se place dans le cadre de la modélisation d’une variable Y

qualitative à K modalités à partir de p variables explicatives
X1 , . . . , Xp quantitatives.
I On se place donc dans un cadre dit supervisé, où chaque
modalité de Y représente une classe (un groupe) d’individus que
l’on cherche à discriminer.
I Il s’agit de chercher quelles sont les combinaisons linéaires des
variables quantitatives qui permettent de séparer le mieux
possible les K modalités.
28/ 39
L ES DONNÉES
1 Centre de gravité
Pn
Centre de gravité global est :g = n1 i=1 xi
Pn
Centre de gravité du groupe Gk est: gk = n1k i∈Gk xi
2 Matrice de variance-covariance.
MatricePde variance-covariance globale est:
n
V = n1 i=1 (xi − g)(xi − g)0 .
Matrice de
Pnvariance-covariance du groupe Gk est
Vk = n1k i∈Gk (xi − gk )(xi − gk )0 .
PK nk
Matrice de variance-covariance intra-groupe est: W = k =1 n Vk
Matrice de variance-covariance inter-groupe est:
PK
B = k =1 nnk (gk − g)(gk − g)0 .
PK nk
3 Relations fondamentales: g = k =1 n gk et V = W + B
29/ 39
C ENTRAGE DES DONNÉES
1 En AFD comme en analyse en composantes principales (ACP),
on suppose que g = 0p , c’est à dire que les données sont
centrées.
2 En particulier, l’écriture des matrices de variance-covariance

globale et inter-groupe est simplifiée :
n
1X
V = xi xi0
n
i=1
K
X nk
B= gk gk0
n
k =1
Alors
1 0
V = XX
n
30/ 39
A XES , FACTEURS ET VARIABLES DISCRIMINANTES
O BJECTIF
Trouver une nouvelle variable, combinaison linéaire des variables
explicatives, qui "discrimine" au mieux les groupes définis par les
modalités de la variable à expliquer. Cette variable notée s est définie
ici comme un vecteur de Rn , s = Xu où u ∈ Rp
Comment mesurer que s "discrimine" bien.
Comment trouver u pour que s = Xu "discrimine" au mieux.
31/ 39
C RITÈRE À OPTIMISER
1 Variances
Pn
Variance de s est définie par :V = n1 i=1 (si − s)2 = u 0 Vu.
Variance intra-groupe de s est définie par :
PK
Intra(s) = k =1 nnk i∈Gk n1k (si − sk )2 = u 0 Wu.
P
Variance inter-groupe de s est définie par :
PK
Inter(s) = k =1 nnk (s − sk )2 = u 0 Bu.
2 Discrimination des groupes.

Les centres de gravité projetés sont bien éloignés i.e.
Inter(s) = u 0 Bu. est maximum.
Les groupes projetés ne sont pas trop dispersés i.e.
Intra(s) = u 0 Wu. est minimum.
0
Le critère à maximiser, uu 0Bu
Vu ∈ [0, 1].
0
u Bu
Le rapport u 0 Vu est maximal pour u1 vecteur propre de V −1 B
associé à la plus grande valeur propre notée λ1 , la valeur du
maximum étant λ1 .
32/ 39
R EMARQUES
R EMARQUES
Le premier facteur discriminant est u1 , le premier vecteur propre
de V −1 B.
La première variable discriminante est s1 = Xu1 .
u 0 Bu
Le pouvoir discriminant est λ1 = u 0 Vu .
Cas où λ1 = 1. Il y a alors évidemment discrimination parfaite.
Cas où λ1 = 0 : ici le meilleur axe discriminant ne permet pas de

séparer les K centres de gravité gk .
Il est possible de discriminer parfaitement les groupes, avec

λ1 < 1. On dit que λ est un mesure pessimiste du pouvoir 33/ 39
discriminant.
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
34/ 39
N OTATIONS
I L’objectif est de prédire les valeurs prises par la variable aléatoire

Y définie dans {y1 , y2 , . . . yk }. Pour la rǵression logistique binaire,
Y prend uniquement deux modalités {+, −} (ou {1, 0} pour
simplifier).
I Dans le cadre binaire, pour un individu donné, sa probabilité a
priori d’être positif sécrit P[Y (w) = +] = p(w).
I La probabilité a posteriori d’un individu d’être positif c-à-d.
sachant les valeurs prises par les descripteurs est notée
P[Y (w) = + | X (w)] = π(w). Lorsqu’il ne peut y avoir de
confusions, nous écrirons π. Ce dernier terme est très important.
En effet, c’est la probabilité que l’on cherche à modéliser en
apprentissage supervisé.
35/ 39
F ONDEMENTS PROBABILISTES
1 Estimer la probabilité conditionnelle P(Y /X ):

P(Y =yk )P(X |Y =yk )
P(Y = yk | X ) = P(X )
P(Y =yk )P(X |Y =yk )
= PK
i=1 P(Y =yi )P(X |Y =yi )
2 La règle d’affectation dans le cas à 2 classes devient:
P(Y = + | X ) P(Y = +) P(X | Y = +)

=
P(Y = − | X ) P(Y = −) P(X | Y = −)
Si (ce rapport > 1) Alors Y = +.
36/ 39
H YPOTHÈSE FONDAMENTALE DE LA RÉGRESSION
LOGISTIQUE
1 LOGIT d’un individu:

π(w)
ln[ ] = a0 + a1 X1 + . . . + aJ XJ ,
1 − π(w)
a0 , . . . , aJ sont les paramètres que l’on souhaite estimer à partir

des données.
2 La fonction de répartition de la loi Logistique
exp(a0 + a1 X1 + . . . + aJ XJ )
π(X ) =
1 + exp(a0 + a1 X1 + . . . + aJ XJ )
.
37/ 39
E STIMATION DES PARAMÈTRES PAR LA MAXIMISATION
DE LA VRAISEMBLANCE
1 Y est une variable binaire, on modélise la probabilité à l’aide de la

loi binomiale B(1, π), avec
P(Y (w) | X (w)) = π(w)y (w) (1 − π(w))1−y (w) .
2 La vraisemblance (en anglais likelihood) d’un échantillon Ω s’écrit
Y
L= π(w)y (w) (1 − π(w))1−y (w) .
w
3 Pour faciliter les manipulations, on préfère souvent travailler sur la
log-vraisemblance (log-likelihood)
X
LL = y (w) ln(π(w)) + (1 − y (w)) ln(1 − π(w))
w
4 Le logarithme étant une fonction monotone, le vecteur a qui
maximise la vraisemblance est le même que celui qui maximise la
log-vraisemblance. Bien souvent, on utilise la quantité
= −2LL
DB.MEl Asri (ENSA)
Déviance Analyse des données. 2019-2020
38/ 39
38 / 39
O UTLINE
1 M ÉTHODES
4 C LASSIFICATION
7 E XEMPLES
39/ 39

Analyse de Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse de Données

Transféré par

Droits d'auteur :

Formats disponibles

A NALYSE DES DONNÉES

1ère année Finance et ingénierie décisionnelle ;

L’ ANALYSE DE DONNÉES REGROUPE DEUX FAMILLES DE MÉTHODES .

1 Représenter de grands ensembles de données par peu de

2 Classer les données de manière automatique

I Decomposer X en p lignes Li (i = 1, . . . , p)et q colonnes

étude des projections des points du nuage sur un axe, un plan, ou

Mathèmatiquement, l’analyse en composantes principales serait

1 Coordonnées d’un point en Rq .

2 Ajustement du nuage par un axe suivant la méthode des moindres

3 Ajustement du nuage par un plan suivant la méthode des

4 Recherche des axes

1 Centrer et normer les variables Cj .

2 Déterminer la matrice V des variances-covariances(avec V = Γ

3 Extraire les valeurs propres les plus grands λ1 , λ2 , . . . , de la

4 Déterminer les vecteurs propres F1 , F2 , . . . , Fq associé aux

1 La contribution relative de l’axe ∆k est

2 La contribution relative du plan engendré par les deux premiers

3 On se contente souvent de faire des représentations du nuage

1 Repréesentation des individus dans les nouveaux axes.

1 L’AFC a pour objet le traitement de l’information contenue dans un

2 Les données sont ici pondérées. Les fréquences de répétitions

C ONSIDÉRONS UN TABLEAU À DOUBLE ENTRÉE .

Ensemble J (paramèttres), Ensemble I(individus)

1 Dans le cas qualitatif, le tableau précédent se présente sous la

2 La probabilité associée au terme xij est:

Où les probabilités marginales sont:

Lorsque les variables sont quantitatives, on fait une étude de

pij = pi. p.j

Pour deux individus quelconques i et i:

P OURQUOI UNE TELLE DISTANCE ?

Cette distance s’écrit sous forme matricielle:

d 2 (Li , Li 0 ) = (αij − αi 0 j )0 D(αij − αi 0 j )

d 2 (Li , Li 0 ) = (βij − βi 0 j )0 (βij − βi 0 j )

I La variance wjj caractérise la dispersion du nuage tout au long de

I Soit encore, en remplacant βij par sa valeur:

I Objectif : Obtenir une représentation schématique simple d’un

2 Itération des étapes suivantes.

3 Fin de l’itération : agrégation de tous les individus en une seule

1 La distance entre individus dépend des données étudiées et des

2 Choix de l’indice d’agrégation.

2 On attribue chaque objet à la classe la plus proche, ce qui définit k

3 Connaissant les membres de chaque classe on recalcule les

5 On retourne à l’étape 3 jusqu’à ce qu’il y ai convergence,

I On se place dans le cadre de la modélisation d’une variable Y

2 En particulier, l’écriture des matrices de variance-covariance

Comment mesurer que s "discrimine" bien.

Comment trouver u pour que s = Xu "discrimine" au mieux.

2 Discrimination des groupes.

La première variable discriminante est s1 = Xu1 .

Cas où λ1 = 1. Il y a alors évidemment discrimination parfaite.

Cas où λ1 = 0 : ici le meilleur axe discriminant ne permet pas de

Il est possible de discriminer parfaitement les groupes, avec

I L’objectif est de prédire les valeurs prises par la variable aléatoire

1 Estimer la probabilité conditionnelle P(Y /X ):

2 La règle d’affectation dans le cas à 2 classes devient:

P(Y = + | X ) P(Y = +) P(X | Y = +)

Si (ce rapport > 1) Alors Y = +.

1 LOGIT d’un individu:

a0 , . . . , aJ sont les paramètres que l’on souhaite estimer à partir

2 La fonction de répartition de la loi Logistique

1 Y est une variable binaire, on modélise la probabilité à l’aide de la

Vous aimerez peut-être aussi