7 - Analyse Des Données Par ALAOUIII

Analyse de données
Analyse de Données, SAID EL HASSANI 1

Sommaire
Introduction
Domaine d’application
Les données
Les objectifs
Les méthodes
Analyse factorielle
Introduction
Les objectifs
Principe général
2
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes statistiques on souvent deux objectifs distincts :
Objectif Exploratoire : pour explorer les données ou bien décrire les

données (tendance centrale, dispersion, etc.)
Objectif Inférentiel : pour prédire un événement ou un
comportement
L’analyse de données s’inscrit dans le cadre des statistiques

multidimensionnelles et exploratoires des données : Deux mots clés :
Multidimensionnelle et Exploratoire
3
Introduction
Approche Multidimensionnelle :
S’oppose à unidimensionnelle, c’est dire que l’on traite
plusieurs variables en même temps,
Les individus statistiques seront caractérisés par plusieurs
variables (Ex : une enquête avec un questionnaire qui
comprends 25 questions  les individus sont les personnes
questionnées et les variables sont les questions posées
Approche Exploratoire : Veut dire qu’on n’a pas une question
précise, on fait de l’exploration des données, on veut connaitre les
données , une idée de la variabilité des données. Exploratoire s’oppose
à inférentielle
BUT : Synthétiser et structurer l'information contenue

dans des données multidimensionnelles
4
Introduction
Souvent : les méthodes de l’analyse de données reviennent à des

calculs matriciels très complexes et ardus
Ces méthodes d’analyse de données ont été avantagé par le
développement de l’informatique :
Puissance de calcul
Puissance des mémoires
Logiciel puissant de calcul
L’analyse de données est un domaine de recherche en constante

évolution pour s’adapter aux nouvelles situations :
Nature de données
Volume de données
Exigences
5
Introduction
Domaines d’applications
Nombreux domaines d’application
Impossible de les énumérer
Par exemple :
Marketing :
pour la gestion de la clientèle
Pour la proposition de nouveaux produits ou services
Analyse des enquêtes :
Interprétation des sondages
Études des caractéristiques des populations sondées
Météorologie : ce domaine est un grand consommateur de
données
Banque : étude des profils des clients
Assurance, téléphonie
Ingénierie mécanique : permet d’extraire des informations
pertinentes souvent difficile à modéliser
6
Données manipulées

Introduction
Données
On parle de population : c’est le groupe ou ensemble d'individus

que l'on analyse.
Exemple : clients pour une étude marketing ou de banque
On parle de Recensement : étude de tous les individus d'une
population donnée.
Exemple : Recensement de la population et des habitats
effectué par la Direction des Statistiques
On parle de Sondage : Etude d'une partie seulement d'une
population appelée échantillon.
Exemple : Sondage d’opinion, sondage avant le lancement d’un
produit.
8
Introduction
Données
Les populations sont décrites par des caractéristiques  Variables

Variables
ensemble de caractéristiques d'une population.
Peuvent être Quantitative ou Qualitative
Quantitatives: nombres sur lesquels les opérations usuelles

(somme, moyenne,...) ont un sens. Elles peuvent être discrètes (ex : nombre
d'éléments dans un ensemble) ou continues (ex: prix, taille)
Qualitatives: appartenance a une catégorie donnée. Elle peuvent être

nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées
(ex : très résistant, assez résistant, peu résistant).
9
Introduction
Données
La plupart des méthodes 1 k K

d’analyse des données 1
nécessitent une présentations
des données comme suit :
Individus i xik
Tableau rectangulaire :
Lignes  Individus
Colonnes  Variables
I xk
xik est la réponse de l’individu i pour la question k sk
Autrement dit : le score de la kème variable pour l’observation i
10
Introduction
Données
1 k K
Individu : C’est l’unité statistique 1
Pour de petites dimensions : Cette
représentation peut faciliter la lecture des
petit tableaux : On peut détecter les
tendances xik
Individus i
Qu’en est t il des grands tableaux :
humainement, on ne peut pas les
appréhender.  Grandes dimensions
Techniques des statistiques descriptives : si I xk

sk
nous souhaitons détecter des relations
entres des variables (colonnes) ou entre
individus (lignes), ces techniques ne sont Notion d’espace
plus suffisantes. (Comparaison ligne à ligne
ou colonne à colonne)
11
Objectifs
12
Introduction
Objectifs
Etat des lieux :

Nous manipulons donc de grands tableaux de données
Les techniques des statistiques descriptives ne sont plus suffisante
Les techniques d’analyse de données :  Répondre aux problèmes posés par les
données de grandes dimensions.
Deux objectifs ressortent :

La visualisation des données dans le meilleur espace réduit
Le regroupement des données dans tout l’espace
13
Introduction
Objectifs
Les techniques d’analyse de données doivent donc :
Représenter synthétiquement de vastes ensembles numériques pour faciliter la prise de

décision (représentation sur des plans, sur des droites : plus visible pour l’homme)
Faire ressortir des ressemblances entre individus (par des graphiques)
Faire ressortir des liaisons entre variables (par des graphiques)
Ressemblance entre individus  Typologie des individus

Liaisons entre variables  Facteurs
14
Introduction
Objectifs
Récapitulons :
Les données : en tableau
Lignes : individus
Colonnes : variables
Les données peuvent être de très grandes dimensions :
Les techniques des statistiques descriptives sont insuffisantes
Impossible de les traiter tous ensemble
Impossibles de les visualiser directement
Objectifs :
Synthétiser l’information
Trouver des ressemblances et des liaisons
15
Les méthodes
16
Introduction
Les méthodes
Deux principales méthodes en analyse de Données
1er groupe de méthodes : cherche à représenter de grands

ensembles de données par peu de variables  :
Représentation synthétique des données
Recherche des dimensions pertinentes
Réduction des dimensions
1. Analyse en composantes principales  sera vue au cours

2. Analyse factorielle des correspondances  sera abordée !!!
3. Analyse factorielle des correspondances multiples
4. Analyse canonique
17
Introduction
Les méthodes
2ème groupe de méthodes : cherche à classer les données de manière

automatique
Rappel : l’objectif étant de caractériser les proximités entre

individus et variables
Ces méthodes de classification sont de deux sortes
Avec apprentissage  Nécessitent une base
d’apprentissage (Analyse discriminante)
Sans apprentissage
1. Analyse linéaire discriminante

2. Régression logistique  on en parlera
3. Classification hiérarchique  sera vue au cours ???
18
Introduction
Les méthodes  ACP
1er groupe de méthode : cherche à représenter de grands ensembles

de données par peu de variables  :
Analyse en Composantes Principales :

La plus employée
Particulièrement adaptée pour les variables quantitatives
continues, a priori corrélées entres elles
Réduction des dimensions : fonctionne par projection sur des
axes orthogonaux
Les proximités entre variables s’interprètent en terme de
corrélation
Les similitudes entre individus s’interprètent en terme de
Typologie des individus (Valeurs propres)
19
Introduction
Les méthodes  AFC

Analyse Factorielle des Correspondances :

S’intéresse aux variables qualitative (contrairement à l’ACP)
Croisement des variables
L’entrée est constituée par la matrice de contingence
En ACP : on parle de corrélation entre les variables
En AFC : on parle d’écart à une situation d’indépendance
Les lignes et les colonnes jouent un rôle symétrique
Ne peut traiter que DEUX variables qualitatives
20
Introduction
Les méthodes  AFCM

Analyse Factorielle des Correspondances

Multiples :
C’est une extension de l’AFC
Elle peut traiter plusieurs variables qualitatives
Bien adaptée pour les grands tableaux de variables qualitatives
Adaptée par exemple au traitement des enquêtes
21
Introduction
Les méthodes  AC

Analyse Canonique :
Très peu utilisée
Son intérêt porte sur son aspect théorique
Cherche à analyser les relations entre deux groupes de variables
L’AFC peut être considérée comme un cas particulier de l’AC
22
Introduction
Les méthodes  ALD

automatique
Analyse Linéaire Discriminante :

S’apparente à une ACP supervisé
Elle décrit les individus en classes
Affecte les nouveaux individus dans ces classes
C’est une méthode descriptive et exploratoire
Descriptive : constitution des classes
Exploratoire : affectation des nouveaux individus dans ces
classes
Elle permet de traiter des variables quantitatives et qualitatives
23
Introduction
Les méthodes  RL

automatique
Régression Logistique :
 
Cherche à déterminer la probabilité à postériori P C
x
d’appartenance à une classe
 PC
ln x
     d
  i xi
1 P C
 x
  0
i 1
Il faut estimer les  i

SPSS possède cette fonctionnalité
24
Introduction
Les méthodes  CH

automatique
Classification Hiérarchique :  sera vue en cours ???

Consiste à regrouper les individus selon leur ressemblance
La difficulté consiste à trouver un critère de ressemblance
Ou autrement une distance
Distance entre deux individus
25
Interlude : notation matricielle
26 Analyse de Données, SAID EL HASSANI

Interlude : notation matricielle
Matrice :
tableau de données carré ou rectangulaire.
Vecteur :
matrice a une seule colonne.
Cas particuliers :
1 ... 0 1
I       1  
0 ... 1 1
Transposition de matrice :
échange des lignes et des colonnes d'une matrice. On note Mt la transposée de
M.
Tableau de données
Pour I individus et K variables, on a le tableau
X qui est une matrice rectangulaire a « I » lignes et « K » colonnes
 x11 x12 x1K 

...
 
 x21 x22 
  
X  ( x1 ,..., xK )   
  xij  
  
 
 xI 1 ... xIK 
Tableau de données
2 5 8
10 5 6
 2 10 8 7 2
Exemple : X 8 5 6 X t  5 5 5 8 3
 
7 8 1 8 6 6 1 4
 2 3 4
Ici :
K = 3 (Trois Colonnes)
I = 5 (Cinq Lignes)

Vecteurs variable et individu
Variable  x1 j 
Une colonne du tableau  
 x2 j 
xj 
 
 
 xIj 
Individu
ei  ( xi1
Une ligne du tableau t
xi 2 xiK )

La matrice des poids
Pourquoi
Utile quand les individus n'ont pas la même importance
Comment
On associe aux individus un poids pi tel que
p1  p2  ...  p I  1
On représente ces poids dans la matrice diagonale de taille I
 p1 ... 0
 p2 
D 
  
 
0 ... pI 
Cas uniforme
tous les individus ont le même poids pi = 1 / I
Point moyen et tableau centré
Point moyen
C'est le vecteur g des moyennes arithmétiques de chaque variable :
g t  ( x1 ... xK )
I
ou bien x j   pi xij
i 1
On peut aussi écrire g  X t D1
Tableau centré
Il est obtenu en centrant les variables autour de leur moyenne
yij  xij  x j
En notation matricielle,
32 Y  X  1g t  ( I  11Analyse
t
D) Xde Données, SAID EL HASSANI
Matrice de variance covariance
 s11 s12 ... s1K 
Définition  
s s22
C'est une matrice carrée de dimension K V   21 
    
 
 s K 1 ... s KK 
où :
sij est la covariance des variables xi et xj
sjj est la variance de la variable xj
A remarquer : sij=sji
Formule matricielle V  X t DX  gg t  Y t DY

Matrice de corrélation
1 r12  r1K 
Définition  
r 1
Si l'on note r  skl R   21 
kl
sk sl    
 
rK 1  1 
1 
s 0
 1 
 1
Formule matricielle  
R  D 1 VD 1 D1  s2 
s s s   
 
0 1
 s p 
Distance entre individus
• Motivation
afin de pouvoir considérer la structure du nuage des individus, il faut
définir une distance, qui induira une géométrie.
• Distance euclidienne classique

la distance la plus simple entre deux points de Rp est définie par
p
d 2 (u , v)   (u j  v j ) 2  u  v
j 0
• Généralisation simple aj
on multiplie la variable j par
p
d 2 (u , v)   a j (u j  v j ) 2
j 0
Analyse factorielle
36
Introduction
Analyse Factorielle
Revenons aux données :

les données sont sous forme de matrice de dimension (I,K) avec « I »
individus et « K » variables
On peut considérer les « I » individus comme des points dans un espace
de dimension « K »
Exemple : une matrice de 10 lignes (individus) et 3 variables
(colonnes) peut être considérée comme un ensemble de 10 points
dans l’espace vectoriel R3
On peut donc parler d’un nuage de points : contenant « I » points dans un
espace de dimension « K »
On peut inverser les rôles des lignes et des colonnes et considérer que les
données peuvent aussi être représentées par un nuage de points (« K »
Variables) dans un espace de dimension « I » (les individus)
37
Introduction
Analyse Factorielle
Principe :
Repose sur le fait que les deux nuages de points des lignes et des
colonnes sont construits et représentés par des graphiques
(exploratoire)
Les données peuvent être représentées dans des espaces euclidiens
Toutes les théories des espaces vectoriel et du calcul matriciel sont

applicables
38
Introduction
Analyse Factorielle
Objectifs : a deux niveaux
Dans une population d’individus  il y’a toujours des ressemblances

entre individus  Comment puis-je faire ressortir cette ressemblance
en résumant les données par un nombre restreint de valeurs sans
perdre trop l’information
Dans un ensemble de variables  il y’a toujours des corrélations 

comment puis-je réduire le nombre de variables pour n’obtenir en fin
de parcours que peu de « variables » facilement interprétables
Cela s’appelle réduction des dimensions
Réduction  Moins d’information  Interprétation graphique
39
Introduction
Analyse Factorielle
Principe Général
Revenons à notre matrice de données X   xik 
Supposons qu’il existe :
un vecteur u1  R
K
un vecteur v1  R I tel que : X  v1u1

t
t
( u1 étant le transposé de u1 )
u1 étant de dimension K
v1 étant de dimension I
A partir de I+K valeurs des vecteurs u1 et v1 on peut retrouver les IxK
valeurs de X
 on a réduit le problème
Hypothèse Improbable : Voir utopique
40
Introduction
Analyse Factorielle
Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X   xik  tel que :
S ui  R K
X  v1u1t  v2u 2t  v3u3t  .....  vS u St  E ou X   vi uit  E
i 1 vi  R I
On dit que la matrice X (ou bien les données) est reconstituée dans un
espace de dimension S à E près. E étant une matrice de « I » lignes et « K »
colonnes de termes négligeables (matrice résiduelle)
Réduction : les « IxK » valeurs initiales de X sont reconstituées par les
«S.(I+K)» valeurs des vecteurs u i et vi
41
Introduction
Analyse Factorielle
S
X  v u  v u  v u  .....  vS u  E
t
1 1
t
2 2
t
3 3
t
S ou X   vi uit  E
i 1
f  1
1
f  1
2
 f1s 
  1   1  s
f  2 f  2  f2 
     
F1  v1u1t    F2  v2u 2t    Fs  vs u st   
     
     
 1  2  s
 f I   f I   f I 
 x11 x12 x1k 

...  f11 f1s   e1 
 1   1   
 x2 x22   f2 f 2s  e2 
      
X  ( x ,..., x )  
1 k
j     
 xi      
      
 1   1   
 xI ... xI 
K
 f I f I  eI 
s

Introduction
Analyse Factorielle
Principe Général
X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E

Reconstitution
La reconstitution des données reviens donc à trouver les vecteurs u i et vi
Le reconstitution est d’autant plus parfaite que la matrice résiduelle E est
proche de zéro
La meilleure reconstitution serait de trouver une valeur de S petite et une
matrice résiduelle très proche de zéro
La matrice résiduelle «E» représente la perte d’information
Au fait, l’équation plut haut donne le formalisme de projection des
données sur un espace de dimension S avec un résidu «E»
43
Introduction
Analyse Factorielle
Principe Général

Dans le cas de S=1
On reconstitue la matrice X (ou bien le nuage de point) sur une droite
On veut réduire la complexité (réduire la dimension des données) en
projetant le nuage sur une droite  il faut essayer de trouver une droite
qui déforme le moins le nuage (E la plus proche de zéro)
44
Introduction
Analyse Factorielle
Principe Général

Dans le cas de S=2
On reconstitue la matrice X (ou bien le nuage de point) sur un plan
Nous allons voir lors de la présentation de l’ACP tous ces aspects en détail
FIN
45
MERCI

7 - Analyse Des Données Par ALAOUIII

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

7 - Analyse Des Données Par ALAOUIII

Transféré par

Droits d'auteur :

Formats disponibles

Analyse de données

Analyse de Données, SAID EL HASSANI 1

Les méthodes statistiques on souvent deux objectifs distincts :

Objectif Exploratoire : pour explorer les données ou bien décrire les

L’analyse de données s’inscrit dans le cadre des statistiques

BUT : Synthétiser et structurer l'information contenue

Souvent : les méthodes de l’analyse de données reviennent à des

L’analyse de données est un domaine de recherche en constante

Analyse de Données, SAID EL HASSANI 7

On parle de population : c’est le groupe ou ensemble d'individus

Les populations sont décrites par des caractéristiques  Variables

Quantitatives: nombres sur lesquels les opérations usuelles

Qualitatives: appartenance a une catégorie donnée. Elle peuvent être

La plupart des méthodes 1 k K

Techniques des statistiques descriptives : si I xk

Etat des lieux :

Deux objectifs ressortent :

Les techniques d’analyse de données doivent donc :

Représenter synthétiquement de vastes ensembles numériques pour faciliter la prise de

Ressemblance entre individus  Typologie des individus

1er groupe de méthodes : cherche à représenter de grands

1. Analyse en composantes principales  sera vue au cours

2ème groupe de méthodes : cherche à classer les données de manière

Rappel : l’objectif étant de caractériser les proximités entre

1. Analyse linéaire discriminante

1er groupe de méthode : cherche à représenter de grands ensembles

Analyse en Composantes Principales :

1er groupe de méthode : cherche à représenter de grands ensembles

Analyse Factorielle des Correspondances :

1er groupe de méthode : cherche à représenter de grands ensembles

Analyse Factorielle des Correspondances

1er groupe de méthode : cherche à représenter de grands ensembles

2ème groupe de méthodes : cherche à classer les données de manière

Analyse Linéaire Discriminante :

2ème groupe de méthodes : cherche à classer les données de manière

Il faut estimer les  i

2ème groupe de méthodes : cherche à classer les données de manière

Classification Hiérarchique :  sera vue en cours ???

26 Analyse de Données, SAID EL HASSANI

 x11 x12 x1K 

29 Analyse de Données, SAID EL HASSANI

30 Analyse de Données, SAID EL HASSANI

On peut aussi écrire g  X t D1

33 Analyse de Données, SAID EL HASSANI

• Distance euclidienne classique

Revenons aux données :

Les données peuvent être représentées dans des espaces euclidiens

Toutes les théories des espaces vectoriel et du calcul matriciel sont

Objectifs : a deux niveaux

Dans une population d’individus  il y’a toujours des ressemblances

Dans un ensemble de variables  il y’a toujours des corrélations 

Cela s’appelle réduction des dimensions

Réduction  Moins d’information  Interprétation graphique

un vecteur v1  R I tel que : X  v1u1

 x11 x12 x1k 

Analyse de Données, SAID EL HASSANI 42

X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E

X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E

X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E

Analyse de Données, SAID EL HASSANI 46

Vous aimerez peut-être aussi