Académique Documents
Professionnel Documents
Culture Documents
Objectifs : Ce cours doit donner aux étudiants les bases pratiques de l’analyse de données
réelles. L’accent est mis, au travers de TP dans le langage R et le langage Python, sur les
contraintes posées par les données, aussi bien dans le choix des représentations graphiques que
dans celui des tests statistiques appropriés.
1
Chapitre 1 Introduction à l’analyse de données
1.1. Introduction
L’analyse de données (aussi appelée analyse exploratoire des données) est une famille de
méthodes statistiques dont les principales caractéristiques sont d’être multidimensionnelles et
descriptives. Elle désigne généralement le sous-ensemble appelé la statistique multivariée. Elle
permet de traiter un nombre important de données et de dégager les aspects les plus intéressants
de la structure de celle-ci. En statistique, les analyses multivariées ont pour caractéristique de
s’intéresser à des lois de probabilités à plusieurs variables. Les analyses bivariées sont des cas
particuliers à deux variables.
L’analyse de données est un ensemble de techniques descriptives dont l’outil mathématique
majeur est l’algèbre matricielle, qui s’exprime sans supposer a priori un modèle probabiliste.
C’est le processus qui consiste à examiner et à interpréter des données afin d'élaborer des
réponses à des questions.
Les principales étapes du processus d'analyse consistent à cerner les sujets d'analyse, à
déterminer la disponibilité de données appropriées, à décider des méthodes qu'il y a lieu
d'utiliser pour répondre aux questions d'intérêt, à appliquer les méthodes et à évaluer, résumer
et communiquer les résultats.
Une partie des méthodes cherche à représenter de grands ensembles de données par peu
de variables signifie recherche les dimensions pertinentes de ces données. Les variables
ainsi déterminées permettent une représentation synthétique recherchée. Parmi ces
méthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que l'analyse
en composantes principales, l'analyse factorielle des correspondances, l'analyse
factorielle des correspondances multiples, ou encore l'analyse canonique. L'analyse en
composantes principales est l'une des méthodes les plus employées. Elle est
particulièrement adaptée aux variables quantitatives, continues, a priori corrélées entre
elles. Une fois les données projetées dans différents plans, les proximités entre variables
s'interprètent en termes de corrélations, tandis que les proximités entre individus
s'interprètent en termes de similitudes globales des valeurs observées.
L'analyse factorielle des correspondances (ou analyse des correspondances binaires)
a été conçue pour l'étude des tableaux de contingence obtenus par croisement de
variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et
est surtout adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes
ont un rôle symétrique et s'interprètent de la même façon. L’analyse factorielle des
correspondances multiples est une extension de l'analyse factorielle des
correspondances qui ne permet que le croisement de deux variables qualitatives. Elle
est donc adaptée à la description de grands tableaux de variables qualitatives par
exemple pour le traitement d'enquêtes. L'analyse canonique est très peu utilisée en
pratique, son intérêt porte sur son aspect théorique. Elle cherche à analyser les relations
entre deux groupes de variables de nature différente. De ce fait l'analyse factorielle des
correspondances peut être vu comme analyse canonique particulière
3
descriptive et prédictive. Elle permet de traiter aussi bien des variables quantitatives que
qualitatives.
1.6. Généralités
1.6.1. Les statistiques
On appelle statistique l’ensemble des méthodes permettant d’analyser (de traiter) des ensembles
d’observations (de données). L’analyse de données est donc un domaine des statistiques qui se
préoccupe de la description de données multidimensionnelles.
4
calcul de résumés numériques en ayant recours à la géométrie euclidienne. Autres
synonymes : statistiques descriptives, méthodes exploratoires.
Méthodes prédictives ou décisionnelles ou inférentielles : méthodes dont l’objectif
est de préciser un phénomène sur une population globale, à partir de son observation sur
une partie restreinte de cette population en ayant recours à des hypothèses géométriques.
Il s’agit d’induire (ou d’inférer) du particulier au général.
D’un point de vue méthodologique, on notera que la statistique descriptive précède en général
la statistique inférentielle dans une démarche de traitement de données : les deux aspects de la
statistique se complètent bien plus qu’elles ne s’opposent.
Les variables qualitatives : Les valeurs qu’elles prennent sont appelées des catégories, ou
modalités. Ces dernières sont exprimées sous forme littérale (par un mot, une phrase ou un
code) ou par un codage numérique sur lequel les opérations arithmétiques n’ont aucun sens.
Une variable qualitative est nominale ou ordinale.
Une variable est ordinale si ses modalités peuvent être ordonnées. La variable
"tranche_depense" est ordinale, car on peut dire qu’une dépense de la tranche « petite dépense
» est plus petite qu’une « dépense moyenne », elle-même plus petite qu’une « grosse dépense
». Dans un autre cadre, les mentions attribuées à un examen (moyen, bien, très bien) sont aussi
une variable ordinale.
L’identifiant d’une opération est nominal, car on ne peut pas dire que l’opération numéro 1 est
« inférieure » à l’opération numéro 40 (on suppose ici que les identifiants ne sont pas forcément
classés par date d’opération).
5
Tableaux de distances : tableaux des nxn distances entre individus
Tableaux de présence absence
Autres types de tableaux : tableaux de notes, de pourcentage
Le but de l’analyse statistique est relativement simple : trouver/révéler une structure dans
les données. Une structure est normalement définie par un croisement entre 2 variables (par
exemple tableau, histogramme par catégories, ou nuage de points) ou par plusieurs variables.
6
DONNÉES = RELATION + VARIANCE NON EXPLIQUÉE
Attention : La structure est différente pour chaque type d'analyse statistique : Pour la
corrélation, il s'agit d'un simple nombre, pour la régression il s'agit d'une formule pour une
droite, etc.
La régression est un ensemble de méthodes statistiques très utilisées pour analyser la relation
d’une variable par rapport à une ou plusieurs autres.
7
Si la variable expliquée est une variable aléatoire binomiale, il est courant d’utiliser une
régression logistique. La régression logistique est un modèle de régression binomiale. Il s’agit
de modéliser au mieux un modèle mathématique simple à des observations réelles nombreuses.
C’est-à-dire associer un vecteur de variables aléatoires (x1, …., xk) une variable aléatoire
binomiale générique notée y.
Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modèle de régression
non paramétrique.
Remarque : avec un bon programme d’analyse de données statistiques, il est facile d’effectuer
plusieurs étapes en une opération
Au-delà de ces coefficients qui résument des relations vous devez aussi veiller à respecter les
hypothèses sur les données, donc par exemple montrer que des variables utilisés dans une
analyse "paramétrique" (corrélation de Pearson, Anova, etc.) possède une distribution proche
de la normale. Ces quatre types sont mathématiquement liés :
Exemple, le seuil de signification ne dépend pas uniquement de la taille de votre échantillon,
mais également de la force d’une relation.
Un tableau similaire peut être créé pour une analyse multivariée, mais nous n’allons pas
présenter ce sujet.
9
Hypothèses de données
Les hypothèses de données (Angl. : "Data assumptions") vous disent si oui ou non un méthode
statistique est appropriée par rapport à un type de données. Savoir distinguer entre variables
intervalles, ordinales et nominales est la chose la plus importante, mais il existe des contraintes
supplémentaires. Les analyses "paramétrique" comme la régression, la corrélation de Pearson
et la régression exigent que les données soient proches d'une distribution normale. Cela
implique par exemple qu'on ne peut faire une régression avec une variable dichotomique (par
exemple, 1=réussite et 2=non-réussite).
10