Vous êtes sur la page 1sur 14

Université Abdelmalek Essaâdi

Faculté Poly-disciplinaire de Larache

FPL

Master : Management et Finance


Module : méthodologie de recherche

Projet de fin de semestre :

Méthodes exploratoires

Présenté par :

Réalisé par  :
Sous la supervision de  :
 Kettaoui hakima
 Seyouf farah Pr. MGHIZOU Hasnae
 Ararou ayoub

ANNEE UNIVERSITAIRE : 2022/2023

1
Plan :
Table des matières
Résumé :.......................................................................................................................................................3
Introduction :...............................................................................................................................................4
I. Définition et caractéristique................................................................................................................5
1. Définition..........................................................................................................................................5
2. Objectifs des méthodes exploratoires :............................................................................................5
II. Outils d'analyse des données exploratoires :.......................................................................................6
III. Les méthodes exploratoires :...........................................................................................................6
1. ACP (Analyse en Composantes Principales)......................................................................................7
2. AFC (Analyse Factorielle des Correspondances)...............................................................................7
3. ACM (Analyse des Correspondances Multiples) :.............................................................................9
4. Analyse de similarité.......................................................................................................................10
5. Analyse typologique.......................................................................................................................12
Conclusion :................................................................................................................................................14

2
Résumé :
Les recherches, qu’elles soient de nature quantitative ou qualitative, visent la description,
l’exploration, l’évaluation, l’explication ou la prédiction du monde-vie tel que nous le percevons
et le construisons socialement. Camper la recherche qualitative dans le domaine exploratoire
représente une amputation de son pouvoir d’intelligibilité de la réalité. Il est plutôt souhaitable de
qualifier l’ambition descriptive, exploratoire, évaluative, explicative ou prédictive d’une
recherche. Et à notre travail, nous tentons de définir l'analyse exploratoire et présenter ces
méthodes.

3
Introduction :

Les méthodes d’analyse exploratoire prennent une extension nouvelle dans la recherche et la
statistique avec l’émergence des données massives (big data). Ces outils d’analyse et de
visualisation des données  sont des fondements essentiels pour y repérer des structures et
développer des modélisations statistiques solides.

Quel que soit le type de données (quantitative, qualitative, textuelle, relationnelle, localisée)
l’étape d’exploration est une étape préliminaire dans la démarche d’une analyse statistique
pour répondre à une problématique posée.

Quand des individus sont décrits par un jeu de variables, plusieurs méthodes sont possibles
selon le type de variables considéré (quantitatives ou qualitatives).on trouve principalement 5
méthodes :

 ACM (Analyse des Correspondances Multiples)


 AFC (Analyse Factorielle des Correspondances)
 ACP (Analyse en Composantes Principales)
 Analyse de similarité
 Analyse typologique

4
I. Définition et caractéristique

1. Définition

L’analyse exploratoire est une famille de méthodes qui ont pour objet de faciliter la visualisation
des données, de révéler leur structure sous-jacente et d’extraire certaines variables
importantes. On y fait généralement appel, dans une recherche de type hypothético-déductive,
pour affiner les interprétations dans le cadre de la vérification des hypothèses ou des questions
de recherche.

L'analyse exploratoire des données comprend l'utilisation de graphiques et de visuels pour


explorer et analyser un jeu de données. L'objectif est d'explorer, de rechercher et d'apprendre,
plutôt que de confirmer les hypothèses statistiques.

L'analyse exploratoire des données est un moyen puissant d'explorer un jeu de données. Même
lorsque l'objectif est d'effectuer des analyses planifiées, l'analyse exploratoire des données peut
être utilisée pour le nettoyage de données, l'analyse des sous-groupes ou simplement pour
mieux comprendre les données. Une étape initiale importante dans l'analyse des données
consiste à représenter graphiquement les données.

 L'analyse exploratoire des données est donc un processus d'enquête qui consiste à
utiliser des résumés statistiques et des outils graphiques pour apprendre à connaître les
données.

2. Objectifs des méthodes exploratoires :

 Ces méthodes permettent d’obtenir des informations sur différents aspects des données
à partir de différents graphiques.

5
 Ces méthodes consistent à utiliser des résumés et des visualisations numériques pour
examiner les données et identifier les relations potentielles entre des variables ;
 trouver des anomalies dans les données, comme des observations inhabituelles ou des
valeurs aberrantes qui peuvent indiquer des problèmes de qualité des données ou
conduire à des informations intéressantes.
 comprendre les relations potentielles entre des variables et formuler des questions ou
des hypothèses intéressantes.

II. Outils d'analyse des données exploratoires :

 Python : Langage de programmation interprété, orienté objet, avec une sémantique


dynamique. Python et AED peuvent être utilisés ensemble pour identifier des valeurs
manquantes dans un ensemble de données, ce qui est important pour pouvoir décider
de la manière de traiter les valeurs manquantes pour l'apprentissage automatique.
 R : Langage de programmation open source et environnement logiciel libre pour le calcul
statistique et les graphiques. Le langage R est largement utilisé par les statisticiens en
science des données pour développer des observations statistiques et des analyses de
données.

III. Les méthodes exploratoires :

Quand des individus sont décrits par un jeu de variables, plusieurs méthodes sont possibles
selon le type de variables considéré (quantitatives ou qualitatives). On distingue principalement
5 méthodes :

6
1. ACP (Analyse en Composantes Principales)
L'analyse en composantes principales (ACP, ou PCA en anglais) permet de dégager rapidement
les principales tendances de votre échantillon, en diminuant le nombre de variables nécessaires
à la représentation de vos données, tout en perdant le moins d'informations possible.

Les objectifs de l’ACP:

L’objectif de l’analyse en composantes principales (ou ACP) est purement descriptif : il s’agit «
d’explorer » un ensemble d’observations rassemblées sous la forme d’un tableau de données
indiquant pour chaque unité statistique les valeurs observées d’un certain nombre de variables
quantitatives. L’unité statistique peut-être primaire (par exemple un individu, une entreprise)
ou secondaire. Dans ce dernier cas, il s’agit de regroupement d’unités statistiques primaires.
L’objectif de l’Analyse en Composantes Principales est de revenir à un espace de dimension
réduite en déformant le moins possible la réalité. Il s’agit donc d’obtenir le résumé le plus
pertinent des données initiales.

Démarche d’une ACP:

 Préparation des données


 Paramétrer le logiciel
 Réaliser les calculs

2. AFC (Analyse Factorielle des Correspondances)

L’analyse factorielle des correspondances, notée AFC, est une analyse destinée au traitement
des tableaux de données où les valeurs sont positives et homogènes comme les tableaux de
contingence (qui constituent la majeure partie des tableaux traités par cette méthode).

L’AFC a été introduite de façon complète dans les années 60 par JP BENZECRI. L’AFC est une
ACP. Les composantes principales sont toujours obtenues à partir de la distance entre les
différents points des nuages multidimensionnels, mais les points ont des coordonnées qui ont

7
subis une transformation préalable permettant de conserver une métrique identique à celle de
l’ACP pour calculer ces distances.

Le but principal de l’AFC reste donc le même ; lire l’information contenue dans un espace
multidimensionnel par une réduction de la dimension de cet espace tout en conservant un
maximum de l’information contenu dans l’espace de départ.

Principe

« L’analyse factorielle traite des tableaux de nombres. Elle remplace un tableau de nombres
difficile à analyser par une série de tableaux plus simples qui sont une bonne approximation de
celui-ci » Ces tableaux sont « simples », car ils sont exprimables sous forme de graphiques

Pourquoi « des correspondances » ?

Variables numériques  Corrélation

Variables nominales  Correspondance

Pourquoi « factorielle » ?

Il s’agit de décomposer le tableau original en une somme de tableaux/matrices qui sont chacun
le produit de facteurs simples. Autrement dit, on les « met en facteurs »

Démarche

L'analyse factorielle des correspondances AFC développée par Jean-Paul Benzecri et ses
collaborateurs emploie la métrique du chi-deux : chaque ligne est affectée d'une masse qui est
sa somme marginale, le tableau étudié est le tableau des profils des lignes, ce qui permet de
représenter dans le même espace à la fois les deux nuages de points associés aux lignes et aux
colonnes du tableau de données; elle est par ailleurs très agréablement complétée par des
outils de classification ascendante hiérarchique (CAH) qui permettent d'apporter des visions
complémentaires, en particulier en construisant des arbres de classification des lignes ou des
colonnes.

8
3. ACM (Analyse des Correspondances Multiples) :

L'Analyse des Correspondances Multiples (ACM) est une méthode qui permet d'étudier
l'association entre au moins deux variables qualitatives.

Elle permet en effet d'aboutir à des cartes de représentation sur lesquelles on peut visuellement
observer les proximités entre les catégories des variables qualitatives et les observations.

Cette méthode a pour objectif de Visualiser et de résumer l’information contenue dans des
masses volumineuses de données.

L’ACM vise à mettre en évidence :

 Les relations entre les modalités des différentes variables


 Les relations entre les individus statistiques
 Les relations entre les variables telles qu’elles apparaissent à partir des relations entre
modalités

On étudie les individus, les variables et les modalités :

 Etude des individus : deux individus sont proches s'ils ont répondu de la même façon
aux questions. On ne s'intéressera pas vraiment aux individus en tant que tels mais
plutôt aux populations : y a-t-il des groupes d'individus ?
 Etude des variables et des modalités : les questions sont les mêmes que pour l'ACP.
Premièrement, on veut étudier les relations entre variables et les associations entre
modalités. Deux modalités sont proches si elles ont souvent été prises ensemble.
Deuxièmement, on recherche une ou plusieurs variable(s) synthétique(s) continue(s)
pour résumer les variables qualitatives. Troisièmement, on cherche à caractériser des
groupes d'individus par des modalités.

9
L'ACM permet d'étudier le lien entre ces variables par l'intermédiaire d'un tableau disjonctif
complet (TDC) ou du tableau de Burt (TB).

 Construction du tableau disjonctif complet : Comporte une colonne pour chaque


modalité des variables étudiées, et une ligne pour chaque individu statistique. Les
cellules du tableau contiennent 1 ou 0 selon que l’individu considéré présente la
modalité correspondante ou non
 Construction du tableau BRUT : Chaque cellule du tableau indique le nombre d’individus
statistique qui possèdent en même temps la modalité ligne et la modalité colonne
correspondante

Domaine d'application :

L'ACM est une méthode très générale qui s'applique à tout tableau dans lequel un ensemble
d'individus est décrit par des variables qualitatives. Elle n'est donc pas inféodée à un champ
disciplinaire particulier. Toutefois elle est très utilisée dans le traitement des enquêtes
d'opinion, les questionnaires étant souvent composés de questions à choix multiples.

4. Analyse de similarité

Nous avons vu qu'une mesure associée à un concept établit une correspondance entre les
objets et des nombres, ce qui permet de comparer les objets et de déterminer la valeur de
vérité d'une ou de plusieurs des relations =, ≠, > ou <. Si, comme cela arrive souvent, un concept
comprend plusieurs dimensions, et que l'on veut néanmoins le traiter comme un tout.

 Définition :

L'analyse de similitudes est une méthode d'analyse des données s'inscrivant dans une approche
issue de la théorie des graphes et qui se base sur la recherche de similitudes ou de
dissimilitudes. Cette approche permet de ne pas créer de catégories a priori, et de plutôt

10
construire les catégories à analyser à partir de similitudes formelles entre les entités au sein
d'un réseau.

 Objectif :

L’analyse de similitude (ADS) est une technique, reposant sur la théorie des graphes,
classiquement utilisée pour décrire des représentations sociales, sur la base de questionnaires
d’enquête. Nous avons intégré au logiciel Iramuteq (P. Ratinaud) l’analyse de similitude d’une
matrice textuelle.

Les analyses permettent de montrer, en un seul graphique, à la fois les éléments communs
(généralement absents des recherches de spécificités, analyses des correspondances ou
classifications lexicales), mais également les éléments différentiés en fonction de variables liées
au corpus.

 La démarche de l’analyse de similarité :

La démarche consiste à classer les objets pour dégager des types ne peut qu'être grandement
facilitée si l'on peut formaliser le concept de similarité et lui associer une mesure. Il existe
d'ailleurs des procédures de classification automatique fondées sur des mesures de similarité.
En outre, on souhaitera parfois s'en tenir à une démarche heuristique, plus informelle, et
examiner le degré de similarité entre des objets sans aller jusqu'à construire une typologie.

11
 Logiciel utilisé :

Le Logiciel Iramuteq (P. Ratinaud) :

Définition du logiciel :

 IRaMuTeQ est un logiciel libre d’analyses statistiques de données textuelles. La présentation


permettra d’aborder le formatage des corpus, les principales étapes d’une indexation et les
analyses disponibles dans le logiciel. Nous détaillerons notamment la classification
hiérarchique avec la méthode Reinert, qui permet d’étudier les différentes thématiques
présentes dans un corpus et leurs liens statistiques avec les informations associées aux
textes
 IRaMuTeQ est un Logiciel d'analyse de textes et de tableaux de données. Il s'appuie sur le
logiciel de statistique R et sur le langage python, il propose un ensemble de traitements et
d'outils pour l'aide à la description et à l'analyse de corpus texte et de matrices de type
individus/caractères.

5. Analyse typologique

 Définition :

L’analyse typologique s’utilise sur tous types de variables (numériques, qualitatives…). Elle
permet de répartir la population de l’enquête en un nombre défini de sous-groupes aussi

12
différents que possibles les uns des autres et dans lesquels les individus sont aussi semblables
que possible entre eux. Les différentes méthodes d’analyse typologique partent des individus
eux-mêmes et essaient de les classer progressivement selon la ressemblance de leurs réponses
aux variables sélectionnées. Contrairement à la segmentation qui privilégie une seule variable à
expliquer, la typologie prend en compte toutes les variables choisies pour l’analyse, sur le même
plan. Ces variables sont utilisées pour découper le groupe d’individus initial en sous-groupes
aussi différents que possibles les uns des autres et avec des individus aussi semblables que
possibles à l’intérieur de chacun des groupes, ce qui est exactement ce que l’on recherche
lorsqu’on évoque ordinairement la notion de segmentation.

 Objectif :

L’analyse typologique est une technique d’analyse qui a pour objet de regrouper les
sujets/objets, de telle sorte que chaque groupe de sujets/objets soit le plus homogène possible
sur les variables utilisées et diffère des autres groupes sur ces mêmes variables…

 La démarche d’analyse typologique :

Mettre en place l’analyse typologique :

Quatre questions doivent être posées pour résoudre une analyse typologique :

 Le choix de l’indice de proximité des individus ou objets constituant un groupe


 Le processus de constitution des groupes
 La description des groupes
 La fiabilité statistique des résultats obtenus

Les phases de l’analyse typologique :

 La définition du corpus1
 Le classement préalable
 L’élaboration des types
 La typologie.

1
Le corpus est un tout, un vaste ensemble, qui constitue à lui seul le cadre et le référentiel de l'analyse.

13
 Logiciel utilisé :

Le Logiciel SPSS (Statistical Package for the Social Sciences)

Définition du logiciel :

SPSS signifie « Statistical Package for the Social Sciences ». Son objectif est d'offrir un logiciel
permettant de réaliser la totalité des analyses statistiques habituellement utilisées en sciences
humaines. C'est un logiciel très complet et dans ce cours, nous ne verrons qu'une très faible
partie de ses possibilités. Il existe bien d'autres logiciels comme S-Plus, R ou SAS qui permettent
d'atteindre les mêmes buts, c'est-à-dire faire des analyses statistiques.

Conclusion :
La recherche exploratoire est une méthode utilisée pour étudier des problèmes qui ne sont pas
clairement définis ou compris. Il est important que les chercheurs comprennent clairement leur
problème de recherche avant d'essayer d'y répondre afin de déterminer si le sujet vaut la peine
d'être étudié.
14

Vous aimerez peut-être aussi