Académique Documents
Professionnel Documents
Culture Documents
B. El Asri
ENSA, Agadir
2019-2020.
1/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 1 / 39
P LAN
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
2/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 2 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
3/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 3 / 39
M ÉTHODES .
4/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 4 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
5/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 5 / 39
A NALYSE EN COMPOSANTES PRINCIPALES
DÉFINITION
Le phénomène étudier apparait sous forme de données numériques,
on regroupe ces données dans un tableau et interpréter le tableau
comme une matrice:
x11 x12 . . . x1q
x21 x22 . . . x1q
X = . . . . .
. . . .
xp1 xp2 . . . xpq
R EMARQUE
L’analyse en composantes principales consiste: en
7/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 7 / 39
A JUSTEMENT DU NUAGE
8/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 8 / 39
A NALYSE EN COMPOSANTES PRINCIPALES NORMÉES
9/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 9 / 39
C ONTRIBUTIONS DES AXES
11/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 11 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
12/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 12 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
13/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 13 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
1 ... j ... m
1 x11 ... x1j ... x1m
i xi1 ... xij ... xim
n xn1 ... xnj ... xnm
14/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 14 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
15/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 15 / 39
A NALYSE FACTORIELLE DES CORRESPONDANCES
1 ... j ... m Total
1 p11 ... p1j ... p1m p1.
i pi1 ... pij ... pim pi.
n pn1 ... pnj ... pnm pn.
Total p.1 p.j p.m 1
Formule d’indépendance:
17/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 17 / 39
D ISTANCE DU χ2
18/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 18 / 39
D ISTANCE DU χ2
α
Si βij = √ ij , alors
p.j
19/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 19 / 39
M ATRICE DES VARIANCES - COVARIANCES R:
Matrice des variances-covariances W :
w11 w12 . . . w1m
w21 w22 . . . w1m
W = . . . . .
. . . .
wn1 wn2 . . . wnm
I Posons
pij − pi. p.j
rij = ( √ )
pi. p.j
Alors
W = R0R avec rij = R.
I Maximiser u 0 Wu revient à maximiser u 0 R 0 Ru avec u 0 u = 1 après
on utilise la même méthode que l’ACP.
21/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 21 / 39
O UTLINE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
22/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 22 / 39
I NTRODUCTION
23/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 23 / 39
PRÉSENTATION DE L’ ALGORITHME
1 Initialisation de l’algorithme.
Les classes initiales = n singletons individus.
Calcul de la matrice des distances des individus 2 à 2.
24/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 24 / 39
INDICE DE DISSIMILARITÉ ENTRE LES INDIVIDUS
25/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 25 / 39
PARTITIONNEMENTS
1 On choisit aléatoirement k individus comme centres initiaux des
classes.
4 On redistribue les objets dans la classe qui leur est la plus proche
en tenant des nouveaux centre de classe calculés à l’étape
précédente.
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
27/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 27 / 39
I NTRODUCTION
28/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 28 / 39
L ES DONNÉES
1 Centre de gravité
Pn
Centre de gravité global est :g = n1 i=1 xi
Pn
Centre de gravité du groupe Gk est: gk = n1k i∈Gk xi
2 Matrice de variance-covariance.
MatricePde variance-covariance globale est:
n
V = n1 i=1 (xi − g)(xi − g)0 .
Matrice de
Pnvariance-covariance du groupe Gk est
Vk = n1k i∈Gk (xi − gk )(xi − gk )0 .
PK nk
Matrice de variance-covariance intra-groupe est: W = k =1 n Vk
Matrice de variance-covariance inter-groupe est:
PK
B = k =1 nnk (gk − g)(gk − g)0 .
PK nk
3 Relations fondamentales: g = k =1 n gk et V = W + B
29/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 29 / 39
C ENTRAGE DES DONNÉES
1 En AFD comme en analyse en composantes principales (ACP),
on suppose que g = 0p , c’est à dire que les données sont
centrées.
O BJECTIF
Trouver une nouvelle variable, combinaison linéaire des variables
explicatives, qui "discrimine" au mieux les groupes définis par les
modalités de la variable à expliquer. Cette variable notée s est définie
ici comme un vecteur de Rn , s = Xu où u ∈ Rp
31/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 31 / 39
C RITÈRE À OPTIMISER
1 Variances
Pn
Variance de s est définie par :V = n1 i=1 (si − s)2 = u 0 Vu.
Variance intra-groupe de s est définie par :
PK
Intra(s) = k =1 nnk i∈Gk n1k (si − sk )2 = u 0 Wu.
P
Variance inter-groupe de s est définie par :
PK
Inter(s) = k =1 nnk (s − sk )2 = u 0 Bu.
u 0 Bu
Le pouvoir discriminant est λ1 = u 0 Vu .
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
34/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 34 / 39
N OTATIONS
35/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 35 / 39
F ONDEMENTS PROBABILISTES
36/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 36 / 39
H YPOTHÈSE FONDAMENTALE DE LA RÉGRESSION
LOGISTIQUE
exp(a0 + a1 X1 + . . . + aJ XJ )
π(X ) =
1 + exp(a0 + a1 X1 + . . . + aJ XJ )
.
37/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 37 / 39
E STIMATION DES PARAMÈTRES PAR LA MAXIMISATION
DE LA VRAISEMBLANCE
1 M ÉTHODES
2 A NALYSE EN COMPOSANTES PRINCIPALES
3 A NALYSE FACTORIELLE DES CORRESPONDANCES
4 C LASSIFICATION
Classification Hiérarchique Ascendante
Méthode partitionnement
5 A NALYSE DISCRIMINANTE
6 R ÉGRESSION LOGISTIQUE
7 E XEMPLES
39/ 39
B. El Asri (ENSA) Analyse des données. 2019-2020 39 / 39