Vous êtes sur la page 1sur 46

Analyse de données

Analyse de Données, SAID EL HASSANI 1


Sommaire
Introduction
Domaine d’application
Les données
Les objectifs
Les méthodes
Analyse factorielle
Introduction
Les objectifs
Principe général

2
Analyse de Données, SAID EL HASSANI
Introduction

Les méthodes statistiques on souvent deux objectifs distincts :

Objectif Exploratoire : pour explorer les données ou bien décrire les


données (tendance centrale, dispersion, etc.)
Objectif Inférentiel : pour prédire un événement ou un
comportement

L’analyse de données s’inscrit dans le cadre des statistiques


multidimensionnelles et exploratoires des données : Deux mots clés :
Multidimensionnelle et Exploratoire

3
Analyse de Données, SAID EL HASSANI
Introduction

Approche Multidimensionnelle :
S’oppose à unidimensionnelle, c’est dire que l’on traite
plusieurs variables en même temps,
Les individus statistiques seront caractérisés par plusieurs
variables (Ex : une enquête avec un questionnaire qui
comprends 25 questions  les individus sont les personnes
questionnées et les variables sont les questions posées
Approche Exploratoire : Veut dire qu’on n’a pas une question
précise, on fait de l’exploration des données, on veut connaitre les
données , une idée de la variabilité des données. Exploratoire s’oppose
à inférentielle

BUT : Synthétiser et structurer l'information contenue


dans des données multidimensionnelles
4
Analyse de Données, SAID EL HASSANI
Introduction

Souvent : les méthodes de l’analyse de données reviennent à des


calculs matriciels très complexes et ardus
Ces méthodes d’analyse de données ont été avantagé par le
développement de l’informatique :
Puissance de calcul
Puissance des mémoires
Logiciel puissant de calcul

L’analyse de données est un domaine de recherche en constante


évolution pour s’adapter aux nouvelles situations :
Nature de données
Volume de données
Exigences

5
Analyse de Données, SAID EL HASSANI
Introduction
Domaines d’applications
Nombreux domaines d’application
Impossible de les énumérer
Par exemple :
Marketing :
pour la gestion de la clientèle
Pour la proposition de nouveaux produits ou services
Analyse des enquêtes :
Interprétation des sondages
Études des caractéristiques des populations sondées
Météorologie : ce domaine est un grand consommateur de
données
Banque : étude des profils des clients
Assurance, téléphonie
Ingénierie mécanique : permet d’extraire des informations
pertinentes souvent difficile à modéliser

6
Analyse de Données, SAID EL HASSANI
Données manipulées

Analyse de Données, SAID EL HASSANI 7


Introduction
Données

On parle de population : c’est le groupe ou ensemble d'individus


que l'on analyse.
Exemple : clients pour une étude marketing ou de banque
On parle de Recensement : étude de tous les individus d'une
population donnée.
Exemple : Recensement de la population et des habitats
effectué par la Direction des Statistiques
On parle de Sondage : Etude d'une partie seulement d'une
population appelée échantillon.
Exemple : Sondage d’opinion, sondage avant le lancement d’un
produit.

8
Analyse de Données, SAID EL HASSANI
Introduction
Données

Les populations sont décrites par des caractéristiques  Variables


Variables
ensemble de caractéristiques d'une population.
Peuvent être Quantitative ou Qualitative

Quantitatives: nombres sur lesquels les opérations usuelles


(somme, moyenne,...) ont un sens. Elles peuvent être discrètes (ex : nombre
d'éléments dans un ensemble) ou continues (ex: prix, taille)

Qualitatives: appartenance a une catégorie donnée. Elle peuvent être


nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées
(ex : très résistant, assez résistant, peu résistant).

9
Analyse de Données, SAID EL HASSANI
Introduction
Données

La plupart des méthodes 1 k K


d’analyse des données 1
nécessitent une présentations
des données comme suit :

Individus i xik

Tableau rectangulaire :
Lignes  Individus
Colonnes  Variables
I xk
xik est la réponse de l’individu i pour la question k sk
Autrement dit : le score de la kème variable pour l’observation i

10
Analyse de Données, SAID EL HASSANI
Introduction
Données
1 k K
Individu : C’est l’unité statistique 1
Pour de petites dimensions : Cette
représentation peut faciliter la lecture des
petit tableaux : On peut détecter les
tendances xik
Individus i
Qu’en est t il des grands tableaux :
humainement, on ne peut pas les
appréhender.  Grandes dimensions

Techniques des statistiques descriptives : si I xk


sk
nous souhaitons détecter des relations
entres des variables (colonnes) ou entre
individus (lignes), ces techniques ne sont Notion d’espace
plus suffisantes. (Comparaison ligne à ligne
ou colonne à colonne)

11
Analyse de Données, SAID EL HASSANI
Objectifs

12
Analyse de Données, SAID EL HASSANI
Introduction
Objectifs

Etat des lieux :


Nous manipulons donc de grands tableaux de données
Les techniques des statistiques descriptives ne sont plus suffisante

Les techniques d’analyse de données :  Répondre aux problèmes posés par les
données de grandes dimensions.

Deux objectifs ressortent :


La visualisation des données dans le meilleur espace réduit
Le regroupement des données dans tout l’espace

13
Analyse de Données, SAID EL HASSANI
Introduction
Objectifs

Les techniques d’analyse de données doivent donc :

Représenter synthétiquement de vastes ensembles numériques pour faciliter la prise de


décision (représentation sur des plans, sur des droites : plus visible pour l’homme)
Faire ressortir des ressemblances entre individus (par des graphiques)
Faire ressortir des liaisons entre variables (par des graphiques)

Ressemblance entre individus  Typologie des individus


Liaisons entre variables  Facteurs

14
Analyse de Données, SAID EL HASSANI
Introduction
Objectifs

Récapitulons :
Les données : en tableau
Lignes : individus
Colonnes : variables
Les données peuvent être de très grandes dimensions :
Les techniques des statistiques descriptives sont insuffisantes
Impossible de les traiter tous ensemble
Impossibles de les visualiser directement
Objectifs :
Synthétiser l’information
Trouver des ressemblances et des liaisons

15
Analyse de Données, SAID EL HASSANI
Les méthodes

16
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes
Deux principales méthodes en analyse de Données

1er groupe de méthodes : cherche à représenter de grands


ensembles de données par peu de variables  :
Représentation synthétique des données
Recherche des dimensions pertinentes
Réduction des dimensions

1. Analyse en composantes principales  sera vue au cours


2. Analyse factorielle des correspondances  sera abordée !!!
3. Analyse factorielle des correspondances multiples
4. Analyse canonique

17
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes
Deux principales méthodes en analyse de Données

2ème groupe de méthodes : cherche à classer les données de manière


automatique

Rappel : l’objectif étant de caractériser les proximités entre


individus et variables
Ces méthodes de classification sont de deux sortes
Avec apprentissage  Nécessitent une base
d’apprentissage (Analyse discriminante)
Sans apprentissage

1. Analyse linéaire discriminante


2. Régression logistique  on en parlera
3. Classification hiérarchique  sera vue au cours ???

18
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  ACP

1er groupe de méthode : cherche à représenter de grands ensembles


de données par peu de variables  :

Analyse en Composantes Principales :


La plus employée
Particulièrement adaptée pour les variables quantitatives
continues, a priori corrélées entres elles
Réduction des dimensions : fonctionne par projection sur des
axes orthogonaux
Les proximités entre variables s’interprètent en terme de
corrélation
Les similitudes entre individus s’interprètent en terme de
Typologie des individus (Valeurs propres)

19
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  AFC

1er groupe de méthode : cherche à représenter de grands ensembles


de données par peu de variables  :

Analyse Factorielle des Correspondances :


S’intéresse aux variables qualitative (contrairement à l’ACP)
Croisement des variables
L’entrée est constituée par la matrice de contingence
En ACP : on parle de corrélation entre les variables
En AFC : on parle d’écart à une situation d’indépendance
Les lignes et les colonnes jouent un rôle symétrique
Ne peut traiter que DEUX variables qualitatives

20
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  AFCM

1er groupe de méthode : cherche à représenter de grands ensembles


de données par peu de variables  :

Analyse Factorielle des Correspondances


Multiples :
C’est une extension de l’AFC
Elle peut traiter plusieurs variables qualitatives
Bien adaptée pour les grands tableaux de variables qualitatives
Adaptée par exemple au traitement des enquêtes

21
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  AC

1er groupe de méthode : cherche à représenter de grands ensembles


de données par peu de variables  :

Analyse Canonique :
Très peu utilisée
Son intérêt porte sur son aspect théorique
Cherche à analyser les relations entre deux groupes de variables
L’AFC peut être considérée comme un cas particulier de l’AC

22
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  ALD
Deux principales méthodes en analyse de Données

2ème groupe de méthodes : cherche à classer les données de manière


automatique

Analyse Linéaire Discriminante :


S’apparente à une ACP supervisé
Elle décrit les individus en classes
Affecte les nouveaux individus dans ces classes
C’est une méthode descriptive et exploratoire
Descriptive : constitution des classes
Exploratoire : affectation des nouveaux individus dans ces
classes
Elle permet de traiter des variables quantitatives et qualitatives

23
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  RL
Deux principales méthodes en analyse de Données

2ème groupe de méthodes : cherche à classer les données de manière


automatique

Régression Logistique :
 
Cherche à déterminer la probabilité à postériori P C
x
d’appartenance à une classe
 PC
ln x
     d
  i xi
1 P C
 x
  0
i 1

Il faut estimer les  i


SPSS possède cette fonctionnalité

24
Analyse de Données, SAID EL HASSANI
Introduction
Les méthodes  CH
Deux principales méthodes en analyse de Données

2ème groupe de méthodes : cherche à classer les données de manière


automatique

Classification Hiérarchique :  sera vue en cours ???


Consiste à regrouper les individus selon leur ressemblance
La difficulté consiste à trouver un critère de ressemblance
Ou autrement une distance
Distance entre deux individus

25
Analyse de Données, SAID EL HASSANI
Interlude : notation matricielle

26 Analyse de Données, SAID EL HASSANI


Interlude : notation matricielle
Matrice :
tableau de données carré ou rectangulaire.

Vecteur :
matrice a une seule colonne.

Cas particuliers :

1 ... 0 1
I       1  
0 ... 1 1

Transposition de matrice :
échange des lignes et des colonnes d'une matrice. On note Mt la transposée de
M.
27 Analyse de Données, SAID EL HASSANI
Tableau de données
Pour I individus et K variables, on a le tableau
X qui est une matrice rectangulaire a « I » lignes et « K » colonnes

 x11 x12 x1K 


...
 
 x21 x22 
  
X  ( x1 ,..., xK )   
  xij  
  
 
 xI 1 ... xIK 
28 Analyse de Données, SAID EL HASSANI
Tableau de données

2 5 8
10 5 6
 2 10 8 7 2
Exemple : X 8 5 6 X t  5 5 5 8 3
 
7 8 1 8 6 6 1 4
 2 3 4

Ici :
K = 3 (Trois Colonnes)
I = 5 (Cinq Lignes)

29 Analyse de Données, SAID EL HASSANI


Vecteurs variable et individu
Variable  x1 j 
Une colonne du tableau  
 x2 j 
xj 
 
 
 xIj 

Individu
ei  ( xi1
Une ligne du tableau t
xi 2 xiK )

30 Analyse de Données, SAID EL HASSANI


La matrice des poids
Pourquoi
Utile quand les individus n'ont pas la même importance

Comment
On associe aux individus un poids pi tel que
p1  p2  ...  p I  1
On représente ces poids dans la matrice diagonale de taille I
 p1 ... 0
 p2 
D 
  
 
0 ... pI 
Cas uniforme
tous les individus ont le même poids pi = 1 / I
31 Analyse de Données, SAID EL HASSANI
Point moyen et tableau centré

Point moyen
C'est le vecteur g des moyennes arithmétiques de chaque variable :
g t  ( x1 ... xK )
I
ou bien x j   pi xij
i 1

On peut aussi écrire g  X t D1

Tableau centré
Il est obtenu en centrant les variables autour de leur moyenne
yij  xij  x j
En notation matricielle,
32 Y  X  1g t  ( I  11Analyse
t
D) Xde Données, SAID EL HASSANI
Matrice de variance covariance
 s11 s12 ... s1K 
Définition  
s s22
C'est une matrice carrée de dimension K V   21 
    
 
 s K 1 ... s KK 
où :
sij est la covariance des variables xi et xj
sjj est la variance de la variable xj
A remarquer : sij=sji

Formule matricielle V  X t DX  gg t  Y t DY

33 Analyse de Données, SAID EL HASSANI


Matrice de corrélation
1 r12  r1K 
Définition  
r 1
Si l'on note r  skl R   21 
kl
sk sl    
 
rK 1  1 

1 
s 0
 1 
 1
Formule matricielle  
R  D 1 VD 1 D1  s2 
s s s   
 
0 1
 s p 
34 Analyse de Données, SAID EL HASSANI
Distance entre individus
• Motivation
afin de pouvoir considérer la structure du nuage des individus, il faut
définir une distance, qui induira une géométrie.

• Distance euclidienne classique


la distance la plus simple entre deux points de Rp est définie par
p
d 2 (u , v)   (u j  v j ) 2  u  v
j 0

• Généralisation simple aj
on multiplie la variable j par
p
d 2 (u , v)   a j (u j  v j ) 2
j 0
Analyse factorielle

36
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Revenons aux données :


les données sont sous forme de matrice de dimension (I,K) avec « I »
individus et « K » variables
On peut considérer les « I » individus comme des points dans un espace
de dimension « K »
Exemple : une matrice de 10 lignes (individus) et 3 variables
(colonnes) peut être considérée comme un ensemble de 10 points
dans l’espace vectoriel R3
On peut donc parler d’un nuage de points : contenant « I » points dans un
espace de dimension « K »
On peut inverser les rôles des lignes et des colonnes et considérer que les
données peuvent aussi être représentées par un nuage de points (« K »
Variables) dans un espace de dimension « I » (les individus)

37
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Principe :

Repose sur le fait que les deux nuages de points des lignes et des
colonnes sont construits et représentés par des graphiques
(exploratoire)

Les données peuvent être représentées dans des espaces euclidiens

Toutes les théories des espaces vectoriel et du calcul matriciel sont


applicables

38
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Objectifs : a deux niveaux

Dans une population d’individus  il y’a toujours des ressemblances


entre individus  Comment puis-je faire ressortir cette ressemblance
en résumant les données par un nombre restreint de valeurs sans
perdre trop l’information

Dans un ensemble de variables  il y’a toujours des corrélations 


comment puis-je réduire le nombre de variables pour n’obtenir en fin
de parcours que peu de « variables » facilement interprétables

Cela s’appelle réduction des dimensions

Réduction  Moins d’information  Interprétation graphique

39
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Principe Général
Revenons à notre matrice de données X   xik 
Supposons qu’il existe :
un vecteur u1  R
K

un vecteur v1  R I tel que : X  v1u1


t

t
( u1 étant le transposé de u1 )
u1 étant de dimension K
v1 étant de dimension I
A partir de I+K valeurs des vecteurs u1 et v1 on peut retrouver les IxK
valeurs de X
 on a réduit le problème
Hypothèse Improbable : Voir utopique
40
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X   xik  tel que :
S ui  R K
X  v1u1t  v2u 2t  v3u3t  .....  vS u St  E ou X   vi uit  E
i 1 vi  R I
On dit que la matrice X (ou bien les données) est reconstituée dans un
espace de dimension S à E près. E étant une matrice de « I » lignes et « K »
colonnes de termes négligeables (matrice résiduelle)
Réduction : les « IxK » valeurs initiales de X sont reconstituées par les
«S.(I+K)» valeurs des vecteurs u i et vi

41
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle
S
X  v u  v u  v u  .....  vS u  E
t
1 1
t
2 2
t
3 3
t
S ou X   vi uit  E
i 1
f  1
1
f  1
2
 f1s 
  1   1  s
f  2 f  2  f2 
     
F1  v1u1t    F2  v2u 2t    Fs  vs u st   
     
     
 1  2  s
 f I   f I   f I 

 x11 x12 x1k 


...  f11 f1s   e1 
 1   1   
 x2 x22   f2 f 2s  e2 
      
X  ( x ,..., x )  
1 k
j     
 xi      
      
 1   1   
 xI ... xI 
K
 f I f I  eI 
s

Analyse de Données, SAID EL HASSANI 42


Introduction
Analyse Factorielle

Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X   xik  tel que :

X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E


Reconstitution
La reconstitution des données reviens donc à trouver les vecteurs u i et vi
Le reconstitution est d’autant plus parfaite que la matrice résiduelle E est
proche de zéro
La meilleure reconstitution serait de trouver une valeur de S petite et une
matrice résiduelle très proche de zéro
La matrice résiduelle «E» représente la perte d’information
Au fait, l’équation plut haut donne le formalisme de projection des
données sur un espace de dimension S avec un résidu «E»

43
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X   xik  tel que :

X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E


Dans le cas de S=1
On reconstitue la matrice X (ou bien le nuage de point) sur une droite
On veut réduire la complexité (réduire la dimension des données) en
projetant le nuage sur une droite  il faut essayer de trouver une droite
qui déforme le moins le nuage (E la plus proche de zéro)

44
Analyse de Données, SAID EL HASSANI
Introduction
Analyse Factorielle

Principe Général
Dans la pratique : on cherche une approximation de rang S pour notre
matrice X   xik  tel que :

X  v1u1t  v2u2t  v3u3t  .....  vS uSt  E


Dans le cas de S=2
On reconstitue la matrice X (ou bien le nuage de point) sur un plan

Nous allons voir lors de la présentation de l’ACP tous ces aspects en détail
FIN

45
Analyse de Données, SAID EL HASSANI
MERCI

Analyse de Données, SAID EL HASSANI 46

Vous aimerez peut-être aussi