Académique Documents
Professionnel Documents
Culture Documents
2
Analyse de Données, SAID EL HASSANI
Introduction
3
Analyse de Données, SAID EL HASSANI
Introduction
Approche Multidimensionnelle :
S’oppose à unidimensionnelle, c’est dire que l’on traite
plusieurs variables en même temps,
Les individus statistiques seront caractérisés par plusieurs
variables (Ex : une enquête avec un questionnaire qui
comprends 25 questions les individus sont les personnes
questionnées et les variables sont les questions posées
Approche Exploratoire : Veut dire qu’on n’a pas une question
précise, on fait de l’exploration des données, on veut connaitre les
données , une idée de la variabilité des données. Exploratoire s’oppose
à inférentielle
5
Analyse de Données, SAID EL HASSANI
Introduction
Domaines d’applications
Nombreux domaines d’application
Impossible de les énumérer
Par exemple :
Marketing :
pour la gestion de la clientèle
Pour la proposition de nouveaux produits ou services
Analyse des enquêtes :
Interprétation des sondages
Études des caractéristiques des populations sondées
Météorologie : ce domaine est un grand consommateur de
données
Banque : étude des profils des clients
Assurance, téléphonie
Ingénierie mécanique : permet d’extraire des informations
pertinentes souvent difficile à modéliser
6
Analyse de Données, SAID EL HASSANI
Données manipulées
8
Analyse de Données, SAID EL HASSANI
Introduction
Données
9
Analyse de Données, SAID EL HASSANI
Introduction
Données
Individus i xik
Tableau rectangulaire :
Lignes Individus
Colonnes Variables
I xk
xik est la réponse de l’individu i pour la question k sk
Autrement dit : le score de la kème variable pour l’observation i
10
Analyse de Données, SAID EL HASSANI
Introduction
Données
1 k K
Individu : C’est l’unité statistique 1
Pour de petites dimensions : Cette
représentation peut faciliter la lecture des
petit tableaux : On peut détecter les
tendances xik
Individus i
Qu’en est t il des grands tableaux :
humainement, on ne peut pas les
appréhender. Grandes dimensions
11
Analyse de Données, SAID EL HASSANI
Objectifs
12
Analyse de Données, SAID EL HASSANI
Introduction
Objectifs
Les techniques d’analyse de données : Répondre aux problèmes posés par les
données de grandes dimensions.
13
Analyse de Données, SAID EL HASSANI
Introduction
Objectifs
14
Analyse de Données, SAID EL HASSANI
Introduction
Objectifs
Récapitulons :
Les données : en tableau
Lignes : individus
Colonnes : variables
Les données peuvent être de très grandes dimensions :
Les techniques des statistiques descriptives sont insuffisantes
Impossible de les traiter tous ensemble
Impossibles de les visualiser directement
Objectifs :
Synthétiser l’information
Trouver des ressemblances et des liaisons
15
Analyse de Données, SAID EL HASSANI
Les méthodes
16
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes
Deux principales méthodes en analyse de Données
17
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes
Deux principales méthodes en analyse de Données
18
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes ACP
19
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes AFC
20
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes AFCM
21
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes AC
Analyse Canonique :
Très peu utilisée
Son intérêt porte sur son aspect théorique
Cherche à analyser les relations entre deux groupes de variables
L’AFC peut être considérée comme un cas particulier de l’AC
22
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes ALD
Deux principales méthodes en analyse de Données
23
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes RL
Deux principales méthodes en analyse de Données
Régression Logistique :
Cherche à déterminer la probabilité à postériori P C
x
d’appartenance à une classe
PC
ln x
d
i xi
1 P C
x
0
i 1
24
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes CH
Deux principales méthodes en analyse de Données
25
Analyse de Données, SAID EL HASSANI
Interlude : notation matricielle
Vecteur :
matrice a une seule colonne.
Cas particuliers :
1 ... 0 1
I 1
0 ... 1 1
Transposition de matrice :
échange des lignes et des colonnes d'une matrice. On note Mt la transposée de
M.
27 Analyse de Données, SAID EL HASSANI
Tableau de données
Pour I individus et K variables, on a le tableau
X qui est une matrice rectangulaire a « I » lignes et « K » colonnes
2 5 8
10 5 6
2 10 8 7 2
Exemple : X 8 5 6 X t 5 5 5 8 3
7 8 1 8 6 6 1 4
2 3 4
Ici :
K = 3 (Trois Colonnes)
I = 5 (Cinq Lignes)
Individu
ei ( xi1
Une ligne du tableau t
xi 2 xiK )
Comment
On associe aux individus un poids pi tel que
p1 p2 ... p I 1
On représente ces poids dans la matrice diagonale de taille I
p1 ... 0
p2
D
0 ... pI
Cas uniforme
tous les individus ont le même poids pi = 1 / I
31 Analyse de Données, SAID EL HASSANI
Point moyen et tableau centré
Point moyen
C'est le vecteur g des moyennes arithmétiques de chaque variable :
g t ( x1 ... xK )
I
ou bien x j pi xij
i 1
Tableau centré
Il est obtenu en centrant les variables autour de leur moyenne
yij xij x j
En notation matricielle,
32 Y X 1g t ( I 11Analyse
t
D) Xde Données, SAID EL HASSANI
Matrice de variance covariance
s11 s12 ... s1K
Définition
s s22
C'est une matrice carrée de dimension K V 21
s K 1 ... s KK
où :
sij est la covariance des variables xi et xj
sjj est la variance de la variable xj
A remarquer : sij=sji
Formule matricielle V X t DX gg t Y t DY
1
s 0
1
1
Formule matricielle
R D 1 VD 1 D1 s2
s s s
0 1
s p
34 Analyse de Données, SAID EL HASSANI
Distance entre individus
• Motivation
afin de pouvoir considérer la structure du nuage des individus, il faut
définir une distance, qui induira une géométrie.
• Généralisation simple aj
on multiplie la variable j par
p
d 2 (u , v) a j (u j v j ) 2
j 0
Analyse factorielle
36
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
37
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
Principe :
Repose sur le fait que les deux nuages de points des lignes et des
colonnes sont construits et représentés par des graphiques
(exploratoire)
38
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
39
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
Principe Général
Revenons à notre matrice de données X xik
Supposons qu’il existe :
un vecteur u1 R
K
t
( u1 étant le transposé de u1 )
u1 étant de dimension K
v1 étant de dimension I
A partir de I+K valeurs des vecteurs u1 et v1 on peut retrouver les IxK
valeurs de X
on a réduit le problème
Hypothèse Improbable : Voir utopique
40
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X xik tel que :
S ui R K
X v1u1t v2u 2t v3u3t ..... vS u St E ou X vi uit E
i 1 vi R I
On dit que la matrice X (ou bien les données) est reconstituée dans un
espace de dimension S à E près. E étant une matrice de « I » lignes et « K »
colonnes de termes négligeables (matrice résiduelle)
Réduction : les « IxK » valeurs initiales de X sont reconstituées par les
«S.(I+K)» valeurs des vecteurs u i et vi
41
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
S
X v u v u v u ..... vS u E
t
1 1
t
2 2
t
3 3
t
S ou X vi uit E
i 1
f 1
1
f 1
2
f1s
1 1 s
f 2 f 2 f2
F1 v1u1t F2 v2u 2t Fs vs u st
1 2 s
f I f I f I
Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X xik tel que :
43
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X xik tel que :
44
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X xik tel que :
Nous allons voir lors de la présentation de l’ACP tous ces aspects en détail
FIN
45
Analyse de Données, SAID EL HASSANI
MERCI