Académique Documents
Professionnel Documents
Culture Documents
multi
Techniques
Techniques multi‐
multi‐variées
multi‐ variées
d'analyse
d analyse des données
des données
Ahmed Ramzi SIAGH
Maître assistant et chercheur
Plan
Objectifs
Introduction
Les différentes étapes d’une étude empirique
Principales statistiques
Présentation
Présentation logiciel de traitements de données
logiciel de traitements de données
Objectifs de l'analyse des données
Techniques d'analyse des données
Méthodes et Techniques d’Analyse Factorielle des Données
Analyse en Composantes Principales (ACP)
Analyse des Correspondances (AFC, AFCM)
Analyse des Correspondances (AFC AFCM)
Analyse Discriminante (AFD)
Méthodes et Techniques de Classification des Données
Méth
Méthodes de Partitionnement
d d P titi t
Méthodes de Classification Hiérarchique
OBJECTIFS
Ce travail vise à donner une connaissance d d'usage
usage des concepts et calculs
relatifs aux principales méthodes multidimensionnelles d'analyse des
données ainsi qu'à donner la capacité d'interpréter en termes économiques
lles résultats
é lt t de d telles
t ll analyses
analyses.
l .
Exposer une interaction entre, d’une part, le traitement informatique des
données et, d’autre part, l’utilisation d’une méthode statistique et
l’interprétation des résultats facilite un apprentissage opérationnel de l’art de
l’analyse multivariée
À sa finalité l’utilisateur
l utilisateur saura
saura::
i. identifier les finalités et les particularités des différentes méthodes, à
savoir : régression, analyse en composantes principales, analyse
discriminante et classification automatique
automatique;;
ii. reconnaître les étapes de calculs propres à ces méthodes et effectuer
lui‐‐même ces calculs à l'aide du logiciel
lui g SPSS;
SPSS;
iii. distinguer les éléments communs aux différentes méthodes factorielles;
factorielles;
iv. juger de la pertinence d'une analyse des données face à un problème
é
économique d
donné é et évaluer
é l quelle(s)
ll ( ) méthode(s)
é h d ( ) est adéquate
dé d
dans
un contexte défini.
défini.
INTRODUCTION
Au niveau du contenu théorique, ce document se veut un complément
du cours de statistique traitant des aspects monovariées (mesures de
tendance centrale et de dispersion, étude des distributions et tests
d'hypothèses)) et bivariées (corrélations et régression linéaire).
d'hypothèses linéaire).
Ce travail porte sur les techniques multivariées d'analyse
d analyse des données
(régression linéaire multiple, analyse en composantes principales,
analyse discriminante et classifications)
classifications). Ayant pour objectif de donner
la capacité de mener et d’interpréter
d interpréter les différentes analyses des
données classiques :
9 Choix de la méthode adaptée aux données/objectifs
9 Utilisation d’un logiciel pour la mettre en œuvre
9 Optimisation de l’analyse
9 Interprétation des résultats
Interprétation des résultats
Les applications illustrant ces méthodes couvrent différents domaines.
domaines.
Le p
point de vue descriptif
p de ces méthodes est favorisé p par rapport
pp à
une optique plus statistique et inférentielle.
inférentielle.
Les différentes étapes d’une étude
1. Formulation du problème : discussions avec les décideurs, des
experts.. Etude des données historiques.
experts historiques. (Analyse des données
secondaires)
2. Élaboration d’une méthodologie : poser des hypothèses,
définir des objectifs, des questions de recherche ou d’étude.
d’étude.
Informations a recueillir
recueillir..
3. Définition du design (ou protocole) d’étude : recensement et
définition des informations nécessaires, choix du type d’étude
(exploratoire descriptive,
(exploratoire, descriptive explicative),
explicative) spécification des
procédures de mesure, élaboration d’un questionnaire et du
mode de collecte, détermination de lʼéchantillon (taille et
structure) préparation du plan dʼanalyse des données
structure),
4. Collecte des données
données;;
5. Préparation et analyse des données
données;;
6. Rédaction
é du rapport d’étude
d’étude.
é .
L’analyse des données correspond à certaines étapes bien
spéciales
spéciales du processus empirique de recherche
du processus empirique de recherche
1. Problème de base
2 Questions posées & problématique
2. Questions posées & problématique
2. Questions posées & problématique Cerner le problème étudié
Cerner le problème étudié
Cerner le problème
3. Hypothèses
4. Conceptualisation
5. Choix des indicateurs
5. Choix des indicateurs
6. Formation des indices (questions)
6. Formation des indices (questions) Construire les principaux outils qui
7. Pré
7. Pré‐‐Test seront utiles pour ll’enquête
enquête
8. Rédaction finale du questionnaire
8. Rédaction finale du questionnaire
9. Échantillon
9. Échantillon
10 C
10. Collecte des données
10. Collecte des données
ll t d d é Travail «
Travail « sur le terrain »
Travail « sur le terrain »
sur le terrain »
11. Codification des réponses
11. Codification des réponses
12. Traitement
12. Traitement informatique des données
12. Traitement informatique des données
informatique des données
13. Analyse des données
13. Analyse des données L’analyse des données.
L’analyse des données.
14. Interprétation des
14. Interprétation des résultats
résultats
15. Rédaction du rapport de recherche
15. Rédaction du rapport de recherche
15. Rédaction du rapport de recherche
La Statistique
La Statistique
• Deux objectifs :
D bj tif
– Décrire : statistiques descriptive ou exploratoire
Décrire :
– Prévoir : statistiques inférentielle
Prévoir : ou probabiliste
• Statistique exploratoire
Statistique descriptive Æ Décrire, synthétiser, résumer
– Statistique descriptive
Statistique descriptive Æ Décrire, synthétiser, résumer
(variables prises séparément ou en couple)
– Analyse des données Æ Décrire, synthétiser, résumer
(variables prises globalement)
(variables prises globalement)
• Statistique inférentielle
Statistique inférentielle
– Estimation Æ Évaluer
– Tests Æ Vérifier
– Régression Æ Modéliser, expliquer, prévoir
(Travail avec un échantillon d’un nombre réduit de variables)
Principales statistiques d’un
Principales statistiques d un échantillon
échantillon
Mesures de tendance centrale:
d d l
• Moyenne arithmétique:
• Moyenne harmonique (H) :
• Mode : Valeur la plus fréquente (habituellement sur un histogramme pour des variables continues)
• Médiane : Valeur centrale de l’échantillon
Mesures de dispersion
p
• Variance
Ou
• Écart‐type
• Écart inter‐
Écart inter quartile :Différence, dans la série ordonnée, entre l’observation correspondant au 75e
quartile :Différence dans la série ordonnée entre l’observation correspondant au 75e
percentile (3e quartile) et l’observation correspondant au 25e percentile (1er quartile).
Principaux
Principaux paramètres d
paramètres d’une
une population
population
Mesures de tendance centrale:
d d l
• Moyenne ou espérance mathématique: μ=E[X]
• Mode: Valeur la plus probable, i.e. x0 est le mode de f(x) la fonction de densité, si f(x0)=max(f(x))
• Médiane: Valeur centrale de l’échantillon
Médiane: Valeur centrale de l échantillon, i.e
i e x0 est la médiane si F(x0)=0,50, où F(x) est la fonction de
x0 est la médiane si F(x0)=0 50 où F(x) est la fonction de
répartition.
Mesures de dispersion
p
• Variance: σ2 = E[(X‐μ)²] = E[X²]‐μ²
• Écart‐type:
• Écart inter‐quartile: F‐1(0,75)‐F‐1(0,25)
où F‐1(p) est la fonction inverse de la fonction de répartition.
Les logiciels de
Les logiciels de traitement des données
traitement des données
• Le logiciel Excel, produit par Microsoft;;
Le logiciel Excel, produit par Microsoft
• StatBox et Question,
et Question, par
par la firme
la firme Grimmer
Grimmer Logiciels
Logiciels, sont
, sont des logiciels conçus
des logiciels conçus
spécialement pour l’analyse des données d’enquête et
spécialement pour l’analyse des données d’enquête et fonctionnent à partir
fonctionnent à partir
d’Excel;
• Le Sphinx, dont le concepteur est Jean
Le Sphinx, dont le concepteur est Jean Moscarola
Moscarola, professeur
, professeur à Grenoble
à Grenoble, est un
, est un
logiciel utilisé surtout pour la recherche marketing..
logiciel utilisé surtout pour la recherche marketing
• Minitab est un logiciel statistique puissant qui propose un grand nombre
est un logiciel statistique puissant qui propose un grand nombre de de
procédures statistiques;
procédures statistiques;
• Le logiciel SAS (système d’analyse statistique) a été conçu au départ
Le logiciel SAS (système d’analyse statistique) a été conçu au départ pour le
pour le
calcul économique et les modèles de régression
q g
• Le logiciel SPSS (Statistical
Le logiciel SPSS ( Statistical Package for the Social Sciences)
Package for the Social Sciences) a été créé pour
a été créé pour les
les
besoins des psychologues, puis
besoins des psychologues, puis a intégré un
a intégré un grand nombre
grand nombre de procédures
de procédures
statistiques
statistiques de manipulation
q de manipulation des données.
p des données.
Fonctionnement du logiciel SPSS
Fonctionnement du logiciel SPSS
• Le logiciel SPSS fonctionne à partir de fenêtres et de menus. Chacun des menus présente plusieurs
commandes et chacune des commandes comprend des sous‐commandes qui précisent la
commande principale. Voyons chacun de ces menus :
• • File (fichier) est le menu qui concerne le fichier de travail ; il permet de créer un fichier SPSS, de
l
le sauvegarder et aussi, si nécessaire, de créer des copies du fichier principal.
d t i i é i d é d i d fi hi i i l
• • Edit (édition) contient les commandes servant à couper, copier et coller du texte, ainsi que les
fonctions de recherche et les options très nombreuses de ce logiciel.
• • View (affichage) porte sur l’organisation même des fenêtres et des infosbulles (que nous verrons
plus loin)
plus loin).
• • Data (données) est un menu très important, car il permet de définir des variables et d’insérer de
nouvelles informations et de nouvelles variables si besoin est.
• • Transform (transformer) joue aussi un rôle essentiel, qui est de transformer les variables selon les
besoins de l’analyse
besoins de l analyse des données.
des données
• • Analyze (analyse) renferme les principales procédures statistiques, les plus connues et les plus
utilisées dans tous les domaines des sciences sociales et des sciences de la gestion.
• • Graphs (graphes) est le menu qui permet de créer des graphiques de toutes les formes possibles.
• • Utilities (outils) propose deux façons d
• Utilities (outils) propose deux façons d’afficher
afficher les informations : par le nom des variables ou par
les informations : par le nom des variables ou par
leur contenu.
• • Window (fenêtre) donne un accès facile et rapide aux fenêtres d’applications, de définition des
variables et aux fenêtres des résultats de l’application des commandes.
• • Enfin, Help (aide) fournit des indications sur les façons d
Enfin, Help (aide) fournit des indications sur les façons d’utiliser
utiliser les commandes de SPSS et sur les
les commandes de SPSS et sur les
diverses procédures statistiques.
• es principales
• commandes
Les principales commandes de SPSS concernent plus particulièrement la définition des variables et la
Les principales commandes de SPSS concernent plus particulièrement la
Les principales commandes de SPSS concernent plus particulièrement la définition des variables et la
définition des variables et la
saisie des données ; sans ces
saisie des données ; sans ces opérations essentielles
opérations essentielles, l’analyse des données est impossible.
, l’analyse des données est impossible.
La fenêtre
fenêtre d
d’application
application ou fenêtre Editeur de données
ou fenêtre Editeur de données
la fenêtre d’application est un tableau où
la fenêtre d’application est un tableau où
les lignes correspondent à des observations
g p
et les colonnes, à des
et les colonnes, à des variables.
variables.
• Cette fenêtre affiche le chier de données sur lequel les traitements
statistiques seront effectués Il s’agit
statistiques seront effectués. Il s agit d
d’un
un tableau dont les lignes
tableau dont les lignes
correspondent aux observations (individus) et les colonnes aux variables
(caractères).
Affichage des variables
• Cet onglet permet de définir précisément la nature des variables, au paramétrage des variables et la façon dont
elles seront affichées
elles seront affichées.
• Nom: nom interne de la variable utilisé. Il doit être simple, sans accent, sans espace ni caractère exotique. Se
limiter aux 26 lettres de l’alphabet complétées par des chiffres et le tiret bas (_). En outre, le nom d’une variable
est limité à 8 caractères.
• Type : type (informatique) de données contenues dans la variable. Les deux type principaux sont Numérique (un
nombre éventuellement décimal par exemple 123 45) et Chaîne (une chaîne de caractères par exemple Limoges)
nombre, éventuellement décimal, par exemple 123,45) et Chaîne (une chaîne de caractères, par exemple Limoges)
• Largeur/Décimales : précise le format du type de données : nombre de caractères/chiffres (largeur) et nombre de
chiffres après la virgule (décimales)
• Etiquette : nom de la variable utilisé pour l’affichage des résultats. Aucune limitation pour ce champ. Toutefois, il
est préférable éviter les noms trop longs qui encombreraient l’affichage des résultats.
• Valeurs : permet de définir des étiquettes de valeurs utilisées lors de l’affichage des résultats. Par exemple, il est
l d défi i d é i d l ili é l d l’ ffi h d é l l il
fréquent de coder 1/0, la réponse à une question dichotomique (Oui / Non).
• Manquant : permet de spécifier les valeurs utilisées pour représenter les données manquantes (données non
renseignées). En général, 9, 99, 999, etc.
• Colonnes/Aligner : permet de définir la largeur de la colonne et l’alignement des données dans la colonne.
• Mesure : précise l’échelle de mesure utilisée : Echelle (variable quantitative), Ordinales (variable qualitative
ordinale), Nominales (variable qualitative nominale).
La fenêtre Viewer
La fenêtre Viewer
La fenêtre des résultats
• Cette fenêtre contient la suite chronologique des
traitements statistiques effectués. Le navigateur de
résultat, dans la partie gauche de la fenêtre, permet de
é l d l i h d l f ê d
passer rapidement d’un résultat à l’autre.
Type de Données
yp
• Tableau individus / variables
• Un Tableau de Contingence (tris croisés): est un tableaux à deux dimensions constitué
par le croisement de deux variables qualitatives à catégories nominales (e.g. le sexe,
statut matrimonial, ...) ou ordinales (e.g. le niveau d'études, la tranche de salaire, ...)
dont les cases contiennent le dénombrement d d'occurrences
occurrences conjointes des caractères
présents dans une population d'individus. Y1 … Yc Σ
X1 n11 … n1c n1+
…. …. … … …
Xr nr1 … nrc nr+
Σ n+1 … n+c n
• Tableau logique ou Tableau Disjonctif Complet:
La somme de chaque ligne est égale à pp, nombre de variables X
Xj .
La somme de chaque colonne correspond à l’effectif marginal nk de chaque modalité kk.
L'analyse
L analyse des données
des données
L’analyse des données s’inscrit dans la convergence :
• de disciplines particulières des sciences de la gestion ou des sciences sociales ;
• des méthodes de la statistique appliquée ;
g p
• et de l’existence de logiciels très performants de traitement des données.
Dans l’analyse des données, on distingue habituellement :
• ll’analyse
analyse univariée, qui porte sur l
analyse univariée
univariée, qui porte sur l
qui porte sur l’étude
étude des variables prises individuellement
des variables prises individuellement
dans la présentation, description et l’interprétation ;
• l’analyse bivariée
• l’analyse bivariée, qui a pour objectif d’examiner les relations de deux variables
, qui a pour objectif d’examiner les relations de deux variables
en même temps ;
ê t
• enfin, l’analyse multivariée
• enfin, l’analyse multivariée, qui vise l’étude de plusieurs variables en même
, qui vise l’étude de plusieurs variables en même
temps et cherche les relations simultanées entre plusieurs variables.
Méthodes factorielles Variables
A.F.C.
qualitatives
réduction des analyse des correspondances
dimensions
Méthode A.F.D.
explicative
Analyse des Analyse discriminante
Données
Nombre de
groupes variable Classifications Hiérarchiques
Classifications
regroupement des
observations
Nombre de Partitionnement
groupes fixe
Principe des analyses factorielles
p y
Les analyses factorielles visent toutes les mêmes objectifs :
représenter en dimension 2 ou 3 des données multidimensionnelles
concéder une perte dʼinformation qui devra être mesurée (On perd en
information pour gagner en signification).
signification).
Ces méthodes d’analyses dépendent du type des variables :
• variables quantitatives : Analyse en Composantes Principales
• variables quantitatives :
i bl tit ti A l
Analyse en Composantes Principales
C t P i i l
• deux variables qualitatives : Analyse des Correspondances
• deux variables qualitatives : Analyse des Correspondances
• variables qualitatives et quantitatives : Analyse des Correspondances Multiples
• variables qualitatives et quantitatives : Analyse des Correspondances Multiples
P i i :
Principe:
Principe
Les données sont représentées dans un espace de dimension n
Elles sont ensuite projetées dans un espace de dimension 2 ou 3
Cette projection entraîne une perte dʼinformation qu'il faudra mesurer et
minimiser.
minimiser
i i i .
TECHNIQUES D'ANALYSE
TECHNIQUES D'ANALYSE DES DONNÉES
DES DONNÉES
• Analyse en Composantes Principales (ACP)
ACP):: l’objectif de l’ACP est
d’étudier les liens entre plusieurs variables quantitatives prises globalement.
globalement. Elle peut aussi
s’appliquer
s appliquer à des variables (numériques) qualitatives ordinales
ordinales.. Les objectifs de l’ACP
l ACP sont :
– une réduction de l’information : les variables sont regroupées en un petit nombre de
nouvelles variables appelées composantes principales
principales;;
– la typologie des individus : le positionnement des individus par rapport à ces composantes
principales permet de mettre en valeur des groupes d’individus
d’individus....
On cherche les corrélations qui existent entre les différentes variables, pour rapprocher au sein
de « composantes » les variables les plus proches entre elles.
elles.
On regroupe les variables pour qu’elles « composent » des dimensions pour réduire le nombre
de caractéristiques décrivant les individus afin de mieux interpréter les données
données..
On pratique chaque dimension est définie par la meilleur combinaison linéaire de variables
expliquant la variance non expliquée par la dimension précédente
précédente..
TECHNIQUES D'ANALYSE
TECHNIQUES D'ANALYSE DES DONNÉES
DES DONNÉES
• Analyse Factorielle des Correspondances (AFC): permet d’étudier la
liaison (ou correspondance) entre deux variables qualitatives
qualitatives.. Plus généralement, elle permet
d’étudier
d étudier les tableaux de contingence (tris croisés)
croisés)..