Stat - Ad Siagh Ar

Techniques
multi
Techniques
Techniques multi‐
multi‐variées
multi‐ variées
d'analyse
d analyse des données
des données
Ahmed Ramzi SIAGH
Maître assistant et chercheur
Plan
Objectifs
Introduction
Les différentes étapes d’une étude empirique
Principales statistiques
Présentation
Présentation logiciel de traitements de données
logiciel de traitements de données
Objectifs de l'analyse des données
Techniques d'analyse des données
Méthodes et Techniques d’Analyse Factorielle des Données
Analyse en Composantes Principales (ACP)
Analyse des Correspondances (AFC, AFCM)
Analyse des Correspondances (AFC AFCM)
Analyse Discriminante (AFD)
Méthodes et Techniques de Classification des Données
Méth
Méthodes de Partitionnement
d d P titi t
Méthodes de Classification Hiérarchique
OBJECTIFS
Ce travail vise à donner une connaissance d d'usage
usage des concepts et calculs
relatifs aux principales méthodes multidimensionnelles d'analyse des
données ainsi qu'à donner la capacité d'interpréter en termes économiques
lles résultats
é lt t de d telles
t ll analyses
analyses.
l .
Exposer une interaction entre, d’une part, le traitement informatique des
données et, d’autre part, l’utilisation d’une méthode statistique et
l’interprétation des résultats facilite un apprentissage opérationnel de l’art de
l’analyse multivariée
À sa finalité l’utilisateur
l utilisateur saura
saura::
i. identifier les finalités et les particularités des différentes méthodes, à
savoir : régression, analyse en composantes principales, analyse
discriminante et classification automatique
automatique;;
ii. reconnaître les étapes de calculs propres à ces méthodes et effectuer
lui‐‐même ces calculs à l'aide du logiciel
lui g SPSS;
SPSS;
iii. distinguer les éléments communs aux différentes méthodes factorielles;
factorielles;
iv. juger de la pertinence d'une analyse des données face à un problème
é
économique d
donné é et évaluer
é l quelle(s)
ll ( ) méthode(s)
é h d ( ) est adéquate
dé d
dans
un contexte défini.
défini.
INTRODUCTION
Au niveau du contenu théorique, ce document se veut un complément
du cours de statistique traitant des aspects monovariées (mesures de
tendance centrale et de dispersion, étude des distributions et tests
d'hypothèses)) et bivariées (corrélations et régression linéaire).
d'hypothèses linéaire).
Ce travail porte sur les techniques multivariées d'analyse
d analyse des données
(régression linéaire multiple, analyse en composantes principales,
analyse discriminante et classifications)
classifications). Ayant pour objectif de donner
la capacité de mener et d’interpréter
d interpréter les différentes analyses des
données classiques :
9 Choix de la méthode adaptée aux données/objectifs
9 Utilisation d’un logiciel pour la mettre en œuvre
9 Optimisation de l’analyse
9 Interprétation des résultats
Interprétation des résultats
Les applications illustrant ces méthodes couvrent différents domaines.
domaines.
Le p
point de vue descriptif
p de ces méthodes est favorisé p par rapport
pp à
une optique plus statistique et inférentielle.
inférentielle.
Les différentes étapes d’une étude
1. Formulation du problème : discussions avec les décideurs, des
experts.. Etude des données historiques.
experts historiques. (Analyse des données
secondaires)
2. Élaboration d’une méthodologie : poser des hypothèses,
définir des objectifs, des questions de recherche ou d’étude.
d’étude.
Informations a recueillir
recueillir..
3. Définition du design (ou protocole) d’étude : recensement et
définition des informations nécessaires, choix du type d’étude
(exploratoire descriptive,
(exploratoire, descriptive explicative),
explicative) spécification des
procédures de mesure, élaboration d’un questionnaire et du
mode de collecte, détermination de lʼéchantillon (taille et
structure) préparation du plan dʼanalyse des données
structure),
4. Collecte des données
données;;
5. Préparation et analyse des données
données;;
6. Rédaction
é du rapport d’étude
d’étude.
é .
L’analyse des données correspond à certaines étapes bien
spéciales
spéciales du processus empirique de recherche
du processus empirique de recherche
1. Problème de base
2 Questions posées & problématique
2. Questions posées & problématique
2. Questions posées & problématique Cerner le problème étudié
Cerner le problème étudié
Cerner le problème
3. Hypothèses
4. Conceptualisation
5. Choix des indicateurs
5. Choix des indicateurs
6. Formation des indices (questions)
6. Formation des indices (questions) Construire les principaux outils qui
7. Pré
7. Pré‐‐Test seront utiles pour ll’enquête
enquête
8. Rédaction finale du questionnaire
8. Rédaction finale du questionnaire
9. Échantillon
9. Échantillon
10 C
ll t d d é Travail «
Travail « sur le terrain »
Travail « sur le terrain »
sur le terrain »
11. Codification des réponses
11. Codification des réponses
12. Traitement
12. Traitement informatique des données
12. Traitement informatique des données
informatique des données
13. Analyse des données
13. Analyse des données L’analyse des données.
L’analyse des données.
14. Interprétation des
14. Interprétation des résultats
résultats
15. Rédaction du rapport de recherche
La Statistique
La Statistique
• Deux objectifs :
D bj tif
– Décrire : statistiques descriptive ou exploratoire
Décrire :
– Prévoir : statistiques inférentielle
Prévoir : ou probabiliste
• Statistique exploratoire
Statistique descriptive Æ Décrire, synthétiser, résumer
– Statistique descriptive
Statistique descriptive Æ Décrire, synthétiser, résumer
(variables prises séparément ou en couple)
– Analyse des données Æ Décrire, synthétiser, résumer
(variables prises globalement)
(variables prises globalement)
• Statistique inférentielle
Statistique inférentielle
– Estimation Æ Évaluer
– Tests Æ Vérifier
– Régression Æ Modéliser, expliquer, prévoir
(Travail avec un échantillon d’un nombre réduit de variables)
Principales statistiques d’un
Principales statistiques d un échantillon
échantillon
Mesures de tendance centrale:
d d l
• Moyenne arithmétique:
• Moyenne géométrique (G) :

Moyenne géométrique (G) :
• Moyenne harmonique (H) :
• Mode : Valeur la plus fréquente (habituellement sur un histogramme pour des variables continues)
• Médiane : Valeur centrale de l’échantillon
Mesures de dispersion
p
• Variance
Ou
• Écart‐type
• Écart inter‐
Écart inter quartile :Différence, dans la série ordonnée, entre l’observation correspondant au 75e
quartile :Différence dans la série ordonnée entre l’observation correspondant au 75e
percentile (3e quartile) et l’observation correspondant au 25e percentile (1er quartile).
Principaux
Principaux paramètres d
paramètres d’une
une population
population
Mesures de tendance centrale:
d d l
• Moyenne ou espérance mathématique: μ=E[X]
• Mode: Valeur la plus probable, i.e. x0 est le mode de f(x) la fonction de densité, si f(x0)=max(f(x))
• Médiane: Valeur centrale de l’échantillon
Médiane: Valeur centrale de l échantillon, i.e
i e x0 est la médiane si F(x0)=0,50, où F(x) est la fonction de
x0 est la médiane si F(x0)=0 50 où F(x) est la fonction de
répartition.
Mesures de dispersion
p
• Variance: σ2 = E[(X‐μ)²] = E[X²]‐μ²
• Écart‐type:
• Écart inter‐quartile: F‐1(0,75)‐F‐1(0,25)
où F‐1(p) est la fonction inverse de la fonction de répartition.
Les logiciels de
Les logiciels de traitement des données
traitement des données
• Le logiciel Excel, produit par Microsoft;;
Le logiciel Excel, produit par Microsoft
• StatBox et Question,
et Question, par
par la firme
la firme Grimmer
Grimmer Logiciels
Logiciels, sont
, sont des logiciels conçus
des logiciels conçus
spécialement pour l’analyse des données d’enquête et
spécialement pour l’analyse des données d’enquête et fonctionnent à partir
fonctionnent à partir
d’Excel;
• Le Sphinx, dont le concepteur est Jean
Le Sphinx, dont le concepteur est Jean Moscarola
Moscarola, professeur
, professeur à Grenoble
à Grenoble, est un
, est un
logiciel utilisé surtout pour la recherche marketing..
logiciel utilisé surtout pour la recherche marketing
• Minitab est un logiciel statistique puissant qui propose un grand nombre
est un logiciel statistique puissant qui propose un grand nombre de de
procédures statistiques;
procédures statistiques;
• Le logiciel SAS (système d’analyse statistique) a été conçu au départ
Le logiciel SAS (système d’analyse statistique) a été conçu au départ pour le
pour le
calcul économique et les modèles de régression
q g
• Le logiciel SPSS (Statistical
Le logiciel SPSS ( Statistical Package for the Social Sciences)
Package for the Social Sciences) a été créé pour
a été créé pour les
les
besoins des psychologues, puis
besoins des psychologues, puis a intégré un
a intégré un grand nombre
grand nombre de procédures
de procédures
statistiques
statistiques de manipulation
q de manipulation des données.
p des données.
Fonctionnement du logiciel SPSS
Fonctionnement du logiciel SPSS
• Le logiciel SPSS fonctionne à partir de fenêtres et de menus. Chacun des menus présente plusieurs
commandes et chacune des commandes comprend des sous‐commandes qui précisent la
commande principale. Voyons chacun de ces menus :
• • File (fichier) est le menu qui concerne le fichier de travail ; il permet de créer un fichier SPSS, de
l
le sauvegarder et aussi, si nécessaire, de créer des copies du fichier principal.
d t i i é i d é d i d fi hi i i l
• • Edit (édition) contient les commandes servant à couper, copier et coller du texte, ainsi que les
fonctions de recherche et les options très nombreuses de ce logiciel.
• • View (affichage) porte sur l’organisation même des fenêtres et des infosbulles (que nous verrons
plus loin)
plus loin).
• • Data (données) est un menu très important, car il permet de définir des variables et d’insérer de
nouvelles informations et de nouvelles variables si besoin est.
• • Transform (transformer) joue aussi un rôle essentiel, qui est de transformer les variables selon les
besoins de l’analyse
besoins de l analyse des données.
des données
• • Analyze (analyse) renferme les principales procédures statistiques, les plus connues et les plus
utilisées dans tous les domaines des sciences sociales et des sciences de la gestion.
• • Graphs (graphes) est le menu qui permet de créer des graphiques de toutes les formes possibles.
• • Utilities (outils) propose deux façons d
• Utilities (outils) propose deux façons d’afficher
afficher les informations : par le nom des variables ou par
les informations : par le nom des variables ou par
leur contenu.
• • Window (fenêtre) donne un accès facile et rapide aux fenêtres d’applications, de définition des
variables et aux fenêtres des résultats de l’application des commandes.
• • Enfin, Help (aide) fournit des indications sur les façons d
Enfin, Help (aide) fournit des indications sur les façons d’utiliser
utiliser les commandes de SPSS et sur les
les commandes de SPSS et sur les
diverses procédures statistiques.
• es principales
• commandes
Les principales commandes de SPSS concernent plus particulièrement la définition des variables et la
Les principales commandes de SPSS concernent plus particulièrement la
Les principales commandes de SPSS concernent plus particulièrement la définition des variables et la
définition des variables et la
saisie des données ; sans ces
saisie des données ; sans ces opérations essentielles
opérations essentielles, l’analyse des données est impossible.
, l’analyse des données est impossible.
La fenêtre
fenêtre d
d’application
application ou fenêtre Editeur de données
ou fenêtre Editeur de données
la fenêtre d’application est un tableau où
la fenêtre d’application est un tableau où
les lignes correspondent à des observations
g p
et les colonnes, à des
et les colonnes, à des variables.
variables.
• Cette fenêtre affiche le chier de données sur lequel les traitements
statistiques seront effectués Il s’agit
statistiques seront effectués. Il s agit d
d’un
un tableau dont les lignes
tableau dont les lignes
correspondent aux observations (individus) et les colonnes aux variables
(caractères).
Affichage des variables
• Cet onglet permet de définir précisément la nature des variables, au paramétrage des variables et la façon dont
elles seront affichées
elles seront affichées.
• Nom: nom interne de la variable utilisé. Il doit être simple, sans accent, sans espace ni caractère exotique. Se
limiter aux 26 lettres de l’alphabet complétées par des chiffres et le tiret bas (_). En outre, le nom d’une variable
est limité à 8 caractères.
• Type : type (informatique) de données contenues dans la variable. Les deux type principaux sont Numérique (un
nombre éventuellement décimal par exemple 123 45) et Chaîne (une chaîne de caractères par exemple Limoges)
nombre, éventuellement décimal, par exemple 123,45) et Chaîne (une chaîne de caractères, par exemple Limoges)
• Largeur/Décimales : précise le format du type de données : nombre de caractères/chiffres (largeur) et nombre de
chiffres après la virgule (décimales)
• Etiquette : nom de la variable utilisé pour l’affichage des résultats. Aucune limitation pour ce champ. Toutefois, il
est préférable éviter les noms trop longs qui encombreraient l’affichage des résultats.
• Valeurs : permet de définir des étiquettes de valeurs utilisées lors de l’affichage des résultats. Par exemple, il est
l d défi i d é i d l ili é l d l’ ffi h d é l l il
fréquent de coder 1/0, la réponse à une question dichotomique (Oui / Non).
• Manquant : permet de spécifier les valeurs utilisées pour représenter les données manquantes (données non
renseignées). En général, 9, 99, 999, etc.
• Colonnes/Aligner : permet de définir la largeur de la colonne et l’alignement des données dans la colonne.
• Mesure : précise l’échelle de mesure utilisée : Echelle (variable quantitative), Ordinales (variable qualitative
ordinale), Nominales (variable qualitative nominale).
La fenêtre Viewer
La fenêtre Viewer
La fenêtre des résultats
• Cette fenêtre contient la suite chronologique des
traitements statistiques effectués. Le navigateur de
résultat, dans la partie gauche de la fenêtre, permet de
é l d l i h d l f ê d
passer rapidement d’un résultat à l’autre.
Type de Données
yp
• Tableau individus / variables
• Un Tableau de Contingence (tris croisés): est un tableaux à deux dimensions constitué
par le croisement de deux variables qualitatives à catégories nominales (e.g. le sexe,
statut matrimonial, ...) ou ordinales (e.g. le niveau d'études, la tranche de salaire, ...)
dont les cases contiennent le dénombrement d d'occurrences
occurrences conjointes des caractères
présents dans une population d'individus. Y1 … Yc Σ
X1 n11 … n1c n1+
…. …. … … …
Xr nr1 … nrc nr+
Σ n+1 … n+c n
• Tableau logique ou Tableau Disjonctif Complet:
La somme de chaque ligne est égale à pp, nombre de variables X
Xj .
La somme de chaque colonne correspond à l’effectif marginal nk de chaque modalité kk.
L'analyse
L analyse des données
des données
L’analyse des données s’inscrit dans la convergence :
• de disciplines particulières des sciences de la gestion ou des sciences sociales ;
• des méthodes de la statistique appliquée ;
g p
• et de l’existence de logiciels très performants de traitement des données.
Dans l’analyse des données, on distingue habituellement :
• ll’analyse
analyse univariée, qui porte sur l
analyse univariée
univariée, qui porte sur l
qui porte sur l’étude
étude des variables prises individuellement
des variables prises individuellement
dans la présentation, description et l’interprétation ;
• l’analyse bivariée
• l’analyse bivariée, qui a pour objectif d’examiner les relations de deux variables
, qui a pour objectif d’examiner les relations de deux variables
en même temps ;
ê t
• enfin, l’analyse multivariée
• enfin, l’analyse multivariée, qui vise l’étude de plusieurs variables en même
, qui vise l’étude de plusieurs variables en même
temps et cherche les relations simultanées entre plusieurs variables.
Ces méthodes peuvent servir à analyser les données de toute provenance.

provenance. Elles ont
été développées tout au long du 20e
20e siècle par des statisticiens et des chercheurs
provenant surtout des domaines.
domaines.
Objectifs de l'analyse des données
L'analyse des données vise essentiellement à décrire les liens entre les variables et les
observations de la matrice de donnée. Plus précisément ces méthodes tenteront de fournir
des réponses:
i. Peut‐on prédire le comportement d'une variable à partir d'une ou plusieurs autres
variables (problème de régression)? Quelle est la meilleure équation de prédiction?
ii. Peut‐on identifier, voir interpréter, des facteurs pouvant expliquer les variations observées
dans les différentes variables (analyse factorielle)?
dans les différentes variables (analyse factorielle)?
iii. Peut‐on filtrer de nos données l'effet dû à des facteurs indésirables (analyse factorielle)?
iv. Peut‐on identifier les différences existant entre divers groupes parmi nos données (analyse
discriminante)? Comment utiliser ces différences pour prédire le groupe auquel appartient
discriminante)? Comment utiliser ces différences pour prédire le groupe auquel appartient
une nouvelle observation?
v. Quelles sont les observations (ou les variables) ayant des ressemblances au niveau de leur
comportement (classification automatique)?
p ( q )
• Les variables sont habituellement mesurées. Certaines de ces variables peuvent être
autocorrélées de sorte que l'échantillon ne peut être considéré comme étant constitué
d'observations indépendantes d'une même population. Ce qui impose la nécessité de
précautions supplémentaires lors du prélèvement de l'échantillon. Si l'on veut que les
descriptions de notre échantillon aient quelque pertinence que ce soit en regard de la
population, il conviendra d'obtenir un échantillon le plus homogène possible.
Objectif des analyses
Objectif des analyses multivariées
multivariées
L’objectif de l’analyse multivariée est d’étudier
les interrelations entre plusieurs variables
prises globalement figurant dans une base de
d
données
é et, sii possible,
ibl d’en
d’ généraliser
é é li l
les
conclusions par inférence statistique.
statistique.
Ce qui permet de synthétiser et de visualiser
une grande quantité dʼinformation
information..
Elles reposent sur un examen des
interdépendances entre toutes les variables
variables..
Les Méthodes d’Analyses Multivariées
Les Méthodes d’Analyses Multivariées
L’analyse multivariée réunit un grand nombre de
méthodes, souvent complexes, qui tentent de donner
une image
i simplifiée
i lifié des
d multiples
lti l relations
l ti entre
t
les variables d’une enquête ou d’une base de
données.. Elles sont
données sont::
Analyse Factorielle des Données
Analyse des Correspondances (AFC, AFCM)
Classification des Données
Méthodes de Classification Hiérarchique
A.C.P..
A.C.P
Variables
Variables
analyse en composantes
quantitatives
principales
Méthodes factorielles Variables
A.F.C.
qualitatives
réduction des analyse des correspondances
dimensions
Méthode A.F.D.
explicative
Analyse des Analyse discriminante
Données
Nombre de
groupes variable Classifications Hiérarchiques
Classifications
regroupement des
observations
Nombre de Partitionnement
groupes fixe
Principe des analyses factorielles
p y
Les analyses factorielles visent toutes les mêmes objectifs :
représenter en dimension 2 ou 3 des données multidimensionnelles
concéder une perte dʼinformation qui devra être mesurée (On perd en
information pour gagner en signification).
signification).
Ces méthodes d’analyses dépendent du type des variables :
• variables quantitatives : Analyse en Composantes Principales
• variables quantitatives :
i bl tit ti A l
Analyse en Composantes Principales
C t P i i l
• deux variables qualitatives : Analyse des Correspondances
• deux variables qualitatives : Analyse des Correspondances
• variables qualitatives et quantitatives : Analyse des Correspondances Multiples
• variables qualitatives et quantitatives : Analyse des Correspondances Multiples
P i i :
Principe:
Principe
Les données sont représentées dans un espace de dimension n
Elles sont ensuite projetées dans un espace de dimension 2 ou 3
Cette projection entraîne une perte dʼinformation qu'il faudra mesurer et
minimiser.
minimiser
i i i .
TECHNIQUES D'ANALYSE
TECHNIQUES D'ANALYSE DES DONNÉES
DES DONNÉES
• Analyse en Composantes Principales (ACP)
ACP):: l’objectif de l’ACP est
d’étudier les liens entre plusieurs variables quantitatives prises globalement.
globalement. Elle peut aussi
s’appliquer
s appliquer à des variables (numériques) qualitatives ordinales
ordinales.. Les objectifs de l’ACP
l ACP sont :
– une réduction de l’information : les variables sont regroupées en un petit nombre de
nouvelles variables appelées composantes principales
principales;;
– la typologie des individus : le positionnement des individus par rapport à ces composantes
principales permet de mettre en valeur des groupes d’individus
d’individus....
On cherche les corrélations qui existent entre les différentes variables, pour rapprocher au sein
de « composantes » les variables les plus proches entre elles.
elles.
On regroupe les variables pour qu’elles « composent » des dimensions pour réduire le nombre
de caractéristiques décrivant les individus afin de mieux interpréter les données
données..
On pratique chaque dimension est définie par la meilleur combinaison linéaire de variables
expliquant la variance non expliquée par la dimension précédente
précédente..
TECHNIQUES D'ANALYSE
TECHNIQUES D'ANALYSE DES DONNÉES
DES DONNÉES
• Analyse Factorielle des Correspondances (AFC): permet d’étudier la
liaison (ou correspondance) entre deux variables qualitatives
qualitatives.. Plus généralement, elle permet
d’étudier
d étudier les tableaux de contingence (tris croisés)
croisés)..
• Analyse Factorielle des Correspondances Multiples (AFCM)

(AFCM):: est
une « généralisation » de l’AFC (simples).
(simples). Elle permet d’étudier les liaisons qui existent entre
plusieurs
l i variables
i bl qualitatives
li i sur une mêmeê population
l i et décrit
dé i lla liaison
li i entre lles
(modalités des) variables
variables.. Lorsque les variables ne sont pas qualitatives, il est possible d’utiliser
l’AFCM en transformant les variables quantitatives en variables qualitatives en regroupant les
valeurs des variables initiales en classes
classes..
• Analyse Discriminante (AD): étudie des données provenant de groupes connus à
priori. On est souvent intéressé à obtenir la meilleure discrimination possible avec le minimum de
variables. L’AD vise deux buts principaux:
i. Description
Description:: Parmi les groupes connus, quelles sont les principales différences que l'on peut
déterminer à l'aide des variables mesurées?
iiii.. Classement
Classement:: Peut‐
Peut‐ on déterminer le groupe d'appartenance d'une nouvelle observation
uniquement à partir des variables mesurées?
Dans l'AD, les groupes sont connus à prioripriori.. Ils servent à définir des équations permettant de
classer
l une nouvelle
ll observation
b ti dont
d t lle groupe estt iinconnu
inconnu.. L'analyse
L' l di i i
discriminante
t se rattache
tt h
au champ plus vaste de la reconnaissance des formes.
formes. Par ses objectifs, elle s'apparente également
aux réseaux neuronaux, sujet très à la mode en recherche informatique
informatique..
• Classification Automatique (CA)

(CA):: L’objectif de ces méthodes est de créer des
typologies en regroupant en groupes homogènes les individus décrits par des variables
quantitatives.. Elles sont utilisées pour :
quantitatives
– segmentert un marché hé ;
– comprendre les comportements d’achat ;
– classer les produits et marques d’un marché ;
– synthétiser des données . . .
synthétiser des données ;
On peut distinguer deux grands types de méthodes de classification:
– les méthodes non hiérarchiques qui produisent directement une partition des individus en
les méthodes non hiérarchiques qui produisent directement une partition des individus en
un nombre fixé a priori de groupes ;
un nombre fixé a priori de groupes ;
– les méthodes hiérarchiques qui produisent une suite de partitions emboitées représentable
les méthodes hiérarchiques qui produisent une suite de partitions emboitées représentable
sous la forme d’un arbre.

Stat - Ad Siagh Ar

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Stat - Ad Siagh Ar

Transféré par

Droits d'auteur :

Formats disponibles

Techniques

• Moyenne géométrique (G) :

Ces méthodes peuvent servir à analyser les données de toute provenance.

• Analyse Factorielle des Correspondances Multiples (AFCM)

• Classification Automatique (CA)

Vous aimerez peut-être aussi