Vous êtes sur la page 1sur 10

INF2144 : Analyse des Données

Objectifs : Ce cours doit donner aux étudiants les bases pratiques de l’analyse de données
réelles. L’accent est mis, au travers de TP dans le langage R et le langage Python, sur les
contraintes posées par les données, aussi bien dans le choix des représentations graphiques que
dans celui des tests statistiques appropriés.

1
Chapitre 1 Introduction à l’analyse de données
1.1. Introduction
L’analyse de données (aussi appelée analyse exploratoire des données) est une famille de
méthodes statistiques dont les principales caractéristiques sont d’être multidimensionnelles et
descriptives. Elle désigne généralement le sous-ensemble appelé la statistique multivariée. Elle
permet de traiter un nombre important de données et de dégager les aspects les plus intéressants
de la structure de celle-ci. En statistique, les analyses multivariées ont pour caractéristique de
s’intéresser à des lois de probabilités à plusieurs variables. Les analyses bivariées sont des cas
particuliers à deux variables.
L’analyse de données est un ensemble de techniques descriptives dont l’outil mathématique
majeur est l’algèbre matricielle, qui s’exprime sans supposer a priori un modèle probabiliste.
C’est le processus qui consiste à examiner et à interpréter des données afin d'élaborer des
réponses à des questions.

Les principales étapes du processus d'analyse consistent à cerner les sujets d'analyse, à
déterminer la disponibilité de données appropriées, à décider des méthodes qu'il y a lieu
d'utiliser pour répondre aux questions d'intérêt, à appliquer les méthodes et à évaluer, résumer
et communiquer les résultats.

1.2. Domaines d’application de l’analyse de données


L’analyse de données est utilisée dans tous les domaines dès lors que les données se présentent
en trop grand nombre pour être appréhendées par l’esprit humain.
Aujourd'hui les méthodes d'analyse de données sont employées dans un grand nombre de
domaines qu'il est impossible d'énumérer. Actuellement ces méthodes sont beaucoup utilisées
en marketing par exemple pour la gestion de la clientèle (pour proposer de nouvelles offres
ciblées par exemple). Elles permettent également l'analyse d'enquêtes par exemple par
l'interprétation de sondages (où de nombreuses données qualitatives doivent être prises en
compte). Nous pouvons également citer la recherche documentaire qui est de plus en plus utile
notamment avec internet (la difficulté porte ici sur le type de données textuelles ou autres). Le
grand nombre de données en météorologie a été une des premières motivations pour le
développement des méthodes d'analyse de données. En fait, tout domaine scientifique qui doit
gérer de grande quantité de données de type varié ont recours à ces approches (écologie,
linguistique, économie, etc) ainsi que tout domaine industriel (assurance, banque, téléphonie,
etc). Ces approches ont également été mis à profit en traitement du signal et des images, où
elles sont souvent employées comme prétraitements (qui peuvent être vus comme des filtres).
En ingénierie mécanique, elles peuvent aussi permettre d'extraire des informations intéressantes
sans avoir recours à des modèles parfois alourdis pour tenir compte de toutes les données.

1.3. Les objectifs de l’analyse de données


Les objectifs que se sont fixés les chercheurs en analyse de données sont donc de répondre aux
problèmes posés par des tableaux de grandes dimensions. Les objectifs sont souvent présentés
en fonction du type de méthodes, ainsi deux objectifs ressortent : la visualisation des données
dans le meilleur espace réduit et le regroupement dans tout l'espace.
Les méthodes de l'analyse de données doivent donc permettre de représenter synthétiquement
de vastes ensembles numériques pour faciliter l'opérateur dans ses décisions. En fait
d'ensembles numériques, les méthodes d'analyse de données se proposent également de traiter
des données qualitatives, ce qui en fait des méthodes capables de considérer un grand nombre
de problèmes. Les représentations recherchées sont bien souvent des représentations
2
graphiques, comme il est difficile de visualiser des points dans des espaces de dimensions
supérieures à deux, nous chercherons à représenter ces points dans des plans.
Ces méthodes ne se limitent pas à une représentation des données, ou du moins pour la rendre
plus aisée, elles cherchent les ressemblances entre les individus et les liaisons entre les
variables. Ces proximités entre individus et variables vont permettre à l'opérateur de déterminer
une typologie des individus et des variables, et ainsi il pourra interpréter ses données et fournir
une synthèse des résultats des analyses.

1.4. Les méthodes d’analyse de données


L'analyse de données regroupe deux familles de méthodes suivant les deux objectifs cités
précédemment :

 Une partie des méthodes cherche à représenter de grands ensembles de données par peu
de variables signifie recherche les dimensions pertinentes de ces données. Les variables
ainsi déterminées permettent une représentation synthétique recherchée. Parmi ces
méthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que l'analyse
en composantes principales, l'analyse factorielle des correspondances, l'analyse
factorielle des correspondances multiples, ou encore l'analyse canonique. L'analyse en
composantes principales est l'une des méthodes les plus employées. Elle est
particulièrement adaptée aux variables quantitatives, continues, a priori corrélées entre
elles. Une fois les données projetées dans différents plans, les proximités entre variables
s'interprètent en termes de corrélations, tandis que les proximités entre individus
s'interprètent en termes de similitudes globales des valeurs observées.
L'analyse factorielle des correspondances (ou analyse des correspondances binaires)
a été conçue pour l'étude des tableaux de contingence obtenus par croisement de
variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et
est surtout adaptée à ce type de variables. Dans cette approche, les lignes et les colonnes
ont un rôle symétrique et s'interprètent de la même façon. L’analyse factorielle des
correspondances multiples est une extension de l'analyse factorielle des
correspondances qui ne permet que le croisement de deux variables qualitatives. Elle
est donc adaptée à la description de grands tableaux de variables qualitatives par
exemple pour le traitement d'enquêtes. L'analyse canonique est très peu utilisée en
pratique, son intérêt porte sur son aspect théorique. Elle cherche à analyser les relations
entre deux groupes de variables de nature différente. De ce fait l'analyse factorielle des
correspondances peut être vu comme analyse canonique particulière

 Parmi les méthodes issues de l'analyse discriminante et directement rattachées à


l'analyse de données il y a l'analyse linéaire discriminante, la régression logistique, les
k plus proches voisins ou encore les arbres de décision. D'autres méthodes issues de
l'intelligence artificielle et du monde de la reconnaissance des formes peuvent être
rattachées à l'analyse discriminante telles que le perceptron multicouche (et les autres
réseaux de neurones) et les chaînes de Markov ou encore issues de la théorie de
l'apprentissage statistique telle que les machines à vecteurs de supports. Si ces dernières
ne sont pas toujours considérées comme faisant partie de l'analyse de données, elles sont
parfaitement intégrées dans le data mining.
L'analyse linéaire discriminante est aussi appelée analyse factorielle discriminante car
elle est en fait une analyse en composantes principales supervisée. Elle décrit les
individus en classes (celles-ci sont données par une variable issue de l'apprentissage) et
ensuite affecte de nouveaux individus dans ces classes. C'est donc une méthode à la fois

3
descriptive et prédictive. Elle permet de traiter aussi bien des variables quantitatives que
qualitatives.

1.5. Les logiciels d’analyse données


Les méthodes d'analyse de données nées de la recherche universitaire sont depuis longtemps
entrées dans le monde industriel. Il y a cependant peu de logiciels qui savent intégrer ces
méthodes pour une recherche exploratoire aisée dans les données. Nous citons ici six logiciels :
 SAS
 Splus
 R
 XlStat
 UniWin Plus
 Stalab
 SPAD
 Python

1.6. Généralités
1.6.1. Les statistiques

Aspect descriptif, exploratoire de la statistique : tableaux, graphiques, résumés numériques


Aspect explicatif, inférentiel, décisionnel de la statistique : échantillon issu d’une population,
estimations, tests hypothèses probabilistes.

On appelle statistique l’ensemble des méthodes permettant d’analyser (de traiter) des ensembles
d’observations (de données). L’analyse de données est donc un domaine des statistiques qui se
préoccupe de la description de données multidimensionnelles.

Il existe deux principales méthodes statistiques :


 Méthodes descriptives : méthodes dont l’objectif est la description des données
étudiées à travers leur représentation graphique des individus et/ou des variables et le

4
calcul de résumés numériques en ayant recours à la géométrie euclidienne. Autres
synonymes : statistiques descriptives, méthodes exploratoires.
 Méthodes prédictives ou décisionnelles ou inférentielles : méthodes dont l’objectif
est de préciser un phénomène sur une population globale, à partir de son observation sur
une partie restreinte de cette population en ayant recours à des hypothèses géométriques.
Il s’agit d’induire (ou d’inférer) du particulier au général.
D’un point de vue méthodologique, on notera que la statistique descriptive précède en général
la statistique inférentielle dans une démarche de traitement de données : les deux aspects de la
statistique se complètent bien plus qu’elles ne s’opposent.

1.6.2. Quelques définitions

Population : ensemble d’objets


Individus, unités statistiques : objets de base
Échantillon : partie observée
Variables : grandeurs mesurées sur les individus
Il y a 2 types de variables, chacun d’eux est sub-divisé en 2 groupes :
 Variables quantitatives : discrètes ou continues
 Variables qualitatives : nominales ou ordinales
Les variables quantitatives sont les variables qui prennent des valeurs numériques, à
condition que ces valeurs expriment une quantité et aient un sens lorsque l’on y applique des
opérations arithmétiques. Une variable quantitative est soit discrète, soit continue.
Si le nombre de valeurs possibles (et probables) d'une variable est très grand, alors on peut la
considérer comme continue. Sinon, on la considère comme discrète.

Les variables qualitatives : Les valeurs qu’elles prennent sont appelées des catégories, ou
modalités. Ces dernières sont exprimées sous forme littérale (par un mot, une phrase ou un
code) ou par un codage numérique sur lequel les opérations arithmétiques n’ont aucun sens.
Une variable qualitative est nominale ou ordinale.
Une variable est ordinale si ses modalités peuvent être ordonnées. La variable
"tranche_depense" est ordinale, car on peut dire qu’une dépense de la tranche « petite dépense
» est plus petite qu’une « dépense moyenne », elle-même plus petite qu’une « grosse dépense
». Dans un autre cadre, les mentions attribuées à un examen (moyen, bien, très bien) sont aussi
une variable ordinale.
L’identifiant d’une opération est nominal, car on ne peut pas dire que l’opération numéro 1 est
« inférieure » à l’opération numéro 40 (on suppose ici que les identifiants ne sont pas forcément
classés par date d’opération).

1.6.3. Les différents types de tableaux de données

 Tableaux individus variables : il est constitué de :


 n lignes : les individus et
 p colonnes : les variables
o numériques : matrice X nxp
o qualitatives : modalités codées (arbitraires) ou tableau
disjonctif (indicatrices)

 Tableau de contingence croisement de 2 variables qualitatives


 Tableaux de préférence (ou de rangs) entre objets : les variables sont les objets et
chaque individu range ces objets par ordre de préférence décroissante.

5
 Tableaux de distances : tableaux des nxn distances entre individus
 Tableaux de présence absence
 Autres types de tableaux : tableaux de notes, de pourcentage

1.6.4. Les différentes méthodes

Il existe deux familles de méthodes de classement de données selon l’objectif poursuivi :


 Description : le but est de comprendre au mieux les données grâce à une description
simplifiée aussi proche que possible de la réalité. (On étudie le tableau entier)
 Explication et prévision : but est d’expliquer et de prévoir une ou plusieurs variables
du tableau en fonction d’autres variables. (Tableau partitionné en 2)

Les différentes méthodes exploratoires de données :


 Méthodes factorielles : réduction du nombre de variables en les résumant par un petit
nombre de composantes synthétiques appelés facteurs :
 ACP pour les variables quantitatives (analyse en composantes principales)
 AFC pour 2 variables qualitatives (analyse factorielle des correspondances
simples)
 ACM pour plusieurs variables qualitatives (analyse des correspondances
multiples)
Extension des méthodes factorielles : non linéaire, données mixtes, évolutives,
tableaux...
 Méthodes de classification : réduction du nombre d’individus par la formation de
groupes homogènes :
 Méthodes de partitionnement en un nombre fixé de classes a priori :
méthode des centres mobiles, nuées dynamiques
 Méthodes hiérarchiques : suite de partitions emboîtées : méthodes de
classification ascendante hiérarchique (CAH)…
 Extension : classification de variables (méthodes divisives), méthodes
probabilistes modèles de mélanges (non géométriques)
 Méthodes explicatives, décisionnelles ou inférentielles
– Modèle linéaire général : recherche d’une relation entre une variable numérique et
plusieurs autres :
• Numériques : régression
• Qualitatives : analyse de la variance
• Mixtes : analyse de la covariance
– Analyse discriminante : prédiction d’une variable qualitative à l’aide de plusieurs
prédicteurs en général numériques
– Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire,
réseaux de neurones…

1.6.5. Principe de base d’analyse statistique

Le but de l’analyse statistique est relativement simple : trouver/révéler une structure dans
les données. Une structure est normalement définie par un croisement entre 2 variables (par
exemple tableau, histogramme par catégories, ou nuage de points) ou par plusieurs variables.

Ce principe peut être exprimé par trois formules synonymes :


DONNÉES = STRUCTURE + NON-STRUCTURE
DONNÉES = VARIANCE EXPLIQUÉE + VARIANCE NON EXPLIQUÉE

6
DONNÉES = RELATION + VARIANCE NON EXPLIQUÉE

Exemple : analyse de régression simple


DONNÉES = droite de régression prédite + résidus (données non expliquées)
L’analyse de régression cherche à établir une droite qui permettra de maximiser la prédiction
et de minimiser les résidus comme l'illustre la figure suivante :

Structure de régression linéaire (droite)

Attention : La structure est différente pour chaque type d'analyse statistique : Pour la
corrélation, il s'agit d'un simple nombre, pour la régression il s'agit d'une formule pour une
droite, etc.

La régression est un ensemble de méthodes statistiques très utilisées pour analyser la relation
d’une variable par rapport à une ou plusieurs autres.

Les principaux modèles de régression

Le modèle de régression le plus connu est le modèle de régression linéaire. Un modèle de


régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre
une variable, dite expliquée et une ou plusieurs variables dites explicatives.
Lorsque le modèle n’est pas linéaire, on peut effectuer une régression approchée par des
algorithmes itératifs, on parle ainsi de régression non linéaire.
Si on s’intéresse au quantile conditionnel de la distribution aléatoire y sachant le vecteur de
variables aléatoires x, on utilise un modèle de régression quantile (La régression quantile
donne par approximation soit la médiane, soit les autres quantiles de la variable réponse. Les
quantiles sont les valeurs qui divisent un jeu de données en intervalles contenant le même
nombre de données. Il y a donc un quantile de moins que le nombre de groupes créés. La
médiane est la quantile qui sépare le jeu de données en deux groupes de tailles égale. Les
quartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de
tailles égales.).

7
Si la variable expliquée est une variable aléatoire binomiale, il est courant d’utiliser une
régression logistique. La régression logistique est un modèle de régression binomiale. Il s’agit
de modéliser au mieux un modèle mathématique simple à des observations réelles nombreuses.
C’est-à-dire associer un vecteur de variables aléatoires (x1, …., xk) une variable aléatoire
binomiale générique notée y.
Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modèle de régression
non paramétrique.

Etapes de l’analyse statistique

Tableau 1 : Principales étapes de l’analyse statistique

Remarque : avec un bon programme d’analyse de données statistiques, il est facile d’effectuer
plusieurs étapes en une opération

Types de coefficients statistiques


Chaque analyse statistique produit différents types de coefficients, i.e. des chiffres qui résument
certains types d’information. Assurez-vous toujours d’utiliser uniquement des coefficients
appropriés pour vos données. Il y a quatre types principaux de coefficients, que vous trouverez
dans la plupart des méthodes d’analyse :
8
Tableau 2 : Types de coefficients statistiques qui décrivent une relation

Au-delà de ces coefficients qui résument des relations vous devez aussi veiller à respecter les
hypothèses sur les données, donc par exemple montrer que des variables utilisés dans une
analyse "paramétrique" (corrélation de Pearson, Anova, etc.) possède une distribution proche
de la normale. Ces quatre types sont mathématiquement liés :
Exemple, le seuil de signification ne dépend pas uniquement de la taille de votre échantillon,
mais également de la force d’une relation.

Aperçu des méthodes statistiques


Les méthodes d’analyse de données statistiques peuvent être catégorisées en fonction des types
de données (concept expliqué dans Statistiques descriptives et échelles). Le tableau ci-dessous
présente des méthodes d’analyse bivariée courantes pour une variable X (explicative)
indépendante et pour une variable Y (à expliquer) dépendante.

Simples analyses bi-variées courantes

Un tableau similaire peut être créé pour une analyse multivariée, mais nous n’allons pas
présenter ce sujet.

9
Hypothèses de données
Les hypothèses de données (Angl. : "Data assumptions") vous disent si oui ou non un méthode
statistique est appropriée par rapport à un type de données. Savoir distinguer entre variables
intervalles, ordinales et nominales est la chose la plus importante, mais il existe des contraintes
supplémentaires. Les analyses "paramétrique" comme la régression, la corrélation de Pearson
et la régression exigent que les données soient proches d'une distribution normale. Cela
implique par exemple qu'on ne peut faire une régression avec une variable dichotomique (par
exemple, 1=réussite et 2=non-réussite).

10