Académique Documents
Professionnel Documents
Culture Documents
d'analyse de données
par: B. Dousset
INTRODUCTION A L'ANALYSE DE DONNEES
Institut de Recherche en Informatique de Toulouse
OBJECTIFS DE L'ANALYSE DE DONNEES
L'analyse de données est apparue dans les années trente grâce à H. Hotteling, qui
initialisait le principe de l'analyse en composantes principales et de l'analyse
canonique en s'inspirant des travaux de C. Spearman et de K. Pearson datant du début
du siècle.
Ces méthodes furent ensuite complétées et perfectionnées sans grand succès, car
elles nécessitaient de très importants calculs. Le développement de l'informatique,
dans les années soixante, a remis cette approche de la statistique au goût du jour et la
multiplication de micro-ordinateurs scientifiques a permis sa vulgarisation.
La statistique classique ne s'intéresse qu'à un nombre limité de caractères
mesurés sur un ensemble restreint d'individus. Elle s'appuie sur des estimations ou
des tests très restrictifs. Les hypothèses émises sont souvent très approximatives et les
lois de distribution très théoriques. Dans la réalité, les individus sont le plus souvent
décrits par de très nombreux paramètres, qui n'obéissent pas à des lois connues à
priori. La différence essentielle de l'analyse de données, par rapport à la statistique
classique, est qu'elle réalise une étude globale du couple individus caractères en
s'appuyant sur des représentations graphiques beaucoup plus lisibles que de
volumineux tableaux de mesures. Les ressemblances ou les dissemblances entre
individus ou entre caractères, leur corrélations positives ou négatives sont à la base de
l'analyse, qui peut s'effectuer suivant plusieurs points de vue. Des méthodes de
classification automatique viennent compléter les analyses graphiques, les classes
obtenues pouvant à leur tour être visualisées sous forme d'arborescence ou de cluster.
Cette approche multidimensionnelle, depuis qu'elle est maîtrisée grâce à l'apport
de l'informatique, a connu un très grand nombre d'applications pratiques pour
l'observation et la compréhension des phénomènes complexes notamment en
médecine, physique, sciences naturelles, sciences humaines, etc...
NATURE DES DONNEES ANALYSABLES
Les matrices de données
En analyse de données on distingue deux types d'informations:
les individus
les variables
Les individus peuvent représenter des entités comme des personnes, des
entreprises, des pays, des journaux, etc. Sur ces individus nous allons réaliser des
observations ou des mesures. Les individus peuvent représenter l'ensemble d'une
population ou simplement une partie qui n'est pas nécessairement sensée être, comme
en statistique inférentielle, un échantillon représentatif.
Les variables sont des caractères relatifs à ces individus. Elles peuvent être de
deux types:
quantitatives
qualitatives
Une variable sera quantitative si elle prend des valeurs sur une échelle
numérique comme par exemple:
Analyse de données et Bibliométrie
2
Institut de Recherche en Informatique de Toulouse
l'age
la taille
le poids
le salaire
le nombre d'enfants
le chiffre d'affaires
le nombre d'employés, etc.
Les opération algébriques habituelles (addition, multiplication, calcul de
moyenne) peuvent être utilisées pour combiner ou normaliser leurs valeurs
numériques.
Une variable sera qualitative si elle peut prendre des modalités non numériques
comme:
le sexe
la profession
les diplômes
le niveau hiérarchique
la situation de famille, etc.
Les valeurs possibles prises par une variable de type quantitatif sont appelées
des modalités.
Si ces variables peuvent être ordonnées même grossièrement, on parlera de
variables qualitatives ordinales:
niveau hiérarchique, diplômes,
niveau de satisfaction, etc.
Sinon ce sont des variables qualitatives nominales:
couleur
entreprise
région d'origine,
pays, etc.
Les matrices individus x variables
Les données sont consignée dans une matrice rectangulaire qui croise les
individus et leurs variables ou les modalités de leurs variables.
Les lignes représentent les individus Ii i=1,m.
Les colonnes représentent les variables Vj j=1,n ou leurs modalités Mk.
Voici un exemple de matrice de croisement:
V1 V2 Vj Vn
Fréquence
Age Poids Taille cardiaque
Dans cet exemple, nous avons observé n variables quantitatives sur m individus
distincts.
Sur la ligne i correspondant à l'individu i, nous avons noté les variables
quantitatives suivantes:
Sur cette même série de m individus, nous aurions pu tout aussi bien observer
des variables qualitatives telles que sexe, niveau hiérarchique, situation de famille,
etc...
Afin de pouvoir les traiter numériquement, ces variables qualitatives sont codées
sous forme de présence/absence avec des 1 et des 0. Ceci s'appelle une forme
disjonctive complète:
Nous pouvons la représenter par un tableau de m individus (lignes) comportant n
variables, qui présentent en tout p modalités (colonnes), sous la forme suivante:
I1 1 0 0 1 0 0 0 1
I2 0 1 0 1 0 1 0 0
Ii 1 0 0 0 1 0 1 0
Im 0 1 0 0 1 0 0 1
Les 3 variables qualitatives qui sont observées (V1, V2, V3) sur les m individus
de la matrice précédente présentent 8 modalités au total, donc 8 colonnes sont
utilisées, mais seulement trois valeurs 1 sont présentes sur chaque ligne (une par
variable). L'individu i, par exemple, est un homme qui est cadre et célibataire.
De plus, une variable quantitative peut être découpée en classes (tranche d'age,
plage de revenus, etc) et ainsi devenir une variable qualitative à plusieurs modalités.
A remarquer que les opérateurs algébriques gardent, ici, un certain sens.
Les matrices de contingences
Elles sont constituées par les fréquences d'association des modalités de 2
variables qualitatives. Les individus servent ici de base pour le calcul statistique.
Il est possible, par exemple, d'associer les catégories socioprofessionnelles (9
modalités) avec les arrondissements de Paris (20 modalités). Un élément d'indices i et
Une représentation plus classique serait de consacrer une ligne à chaque habitant
de paris et de mettre en colonnes les modalités respectives des deux variables
qualitatives catégorie socioprofessionnelle et arrondissement de Paris. Chaque
colonne peut aussi être considérée comme une variable indicatrice (une modalité par
variable). Une ligne représentant un habitant de paris ne contient alors que des 0 sauf
sur les colonnes correspondant respectivement à sa catégorie et à son arrondissement
où il y a un 1.
Si (iii) n'est pas vérifiée, on dit plutôt que d est une dissimilarité.
ELEMENTS DE STATISTIQUE
LES HISTOGRAMMES
Quand nous observons une variable qualitative à plusieurs modalités sur un
ensemble d'individus, nous commençons par compter le nombre d'individus présents
Si la variable observée est quantitative, comme ici, il est normal d'en tirer un
histogramme afin de mieux visualiser le résultat obtenu (un dessin est beaucoup plus
évocateur qu'un tableau de nombres).
LA MOYENNE
Nous avons la possibilité d'en calculer la valeur moyenne. Si la variable x prend
les valeurs x1, ..., xi, ..., xn le calcul de la moyenne sera le suivant:
Si chaque observation est pondérée par un poids pi>0 de telle sorte que:
Remarque:
dans le cas normal les pondérations sont toutes identiques et égales à 1/n.
LA VARIANCE
La notion de moyenne n'est pas suffisante pour décrire, même succinctement, un
ensemble de nombres. La dispersion de ces nombres autour de la moyenne est une
information tout aussi intéressante et qui vient compléter l'information donnée par la
moyenne. La dispersion est assimilée à la notion d'écart à la moyenne. D'après le
théorème de Pythagore, l'écart quadratique est égal à la somme des carrés des écarts
sur chaque valeur de la variable. Sa valeur moyenne nommée variance servira à
estimer cette dispersion:
Pour les deux séries de salaires suivantes les moyennes sont égales (14850), par
contre les variances sont très différentes:
Nous pouvons raisonner sur l'exemple suivant dans lequel nous avons relevé le
prix de vente (en milliers de francs) et la surface (en mètres carrés) de 10
appartements:
n°1 n°2 n°3 n°4 n°5 n°6 n°7 n°8 n°9 n°10
28 50 55 60 48 35 86 65 32 52
Origine sociale
Cadre Agriculteur Ouvrier Autre Total
Ouvrier 11 14 107 75 207
Maîtrise 1 10 60 31 102
cadre 23 2 16 40 81
Total 35 26 183 146 390
Tout d'abord, nous allons adopter la notation suivante pour les valeurs
marginales (totaux sur lignes et colonnes):
La somme relative des écarts au carré que nous noterons D2 aura pour
expression:
Si l'échantillon utilisé a été tiré au hasard, cette expression suit une loi du 2 à
(p-1)(q-1) degrés de liberté, où p et q représentent les nombre des modalités
respectives des deux variables comparées.
Dans l'exemple choisi et s'il y a indépendance des deux variables, D2 a 99% de
chances d'être compris entre 0 et 16,81.
Or D2=69,2, nous sommes donc conduits à rejeter nettement l'hypothèse
d'indépendance de ces deux variables.
LIAISON ENTRE CARACTÈRES QUANTITATIFS ET QUALITATIFS.
Dans ce cas la liaison est déterminée par le rapport de corrélation que nous
définirons par:
ANALYSE DE LA VARIANCE
MÉTHODE DES MOINDRES CARRÉS
Pour étudier un phénomène Y, qui est lié à un ensemble de causes xj j=1,n, nous
pouvons réaliser m mesures, dont chacune donnera n résultats correspondants aux n
causes du phénomène. Nous nous proposons de chercher un modèle de dépendance
linéaire de Y en fonction de chacune de ces causes.
Chaque mesure permet d'obtenir une valeur expérimentale yi, qui comparée aux
mesure effectués sur le phénomène vérifie la relation suivante:
On peut aussi minimiser la racine carrée de S, qui n'est autre que la norme
euclidienne du vecteur des erreurs dans Rm.
MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Comme précédemment, nous réalisons m expériences et nous obtenons les m
résultats expérimentaux suivants:
ANALYSES MULTIDIMENSIONNELLES
PRINCIPE GENERAL
Ces méthodes ont pour but de décrire des données consignées dans un tableau
croisant des individus (m lignes) et des caractères ou variables (n colonnes) qui sont
mesurés sur ces individus. L'étude s'effectue par réduction du nombre de caractères,
non sous forme d'une simple sélection de certains d'entre eux, mais par construction
de nouveaux caractères synthétiques obtenus en combinant les caractères initiaux
(méthode factorielle). De plus la méthode de modélisation sera ici linéaire puisque
chaque facteur synthétique sera combinaison linéaire des caractères initiaux. Les
principales méthodes issues de cette démarche seront:
L'analyse en composantes principales,
L'analyse factorielle des correspondances,
L'analyse canonique,
L'analyse factorielle discriminante.
ANALYSE EN COMPOSANTES PRINCIPALES
Principe général.
Nous sommes ici dans le cadre classique de données quantitatives contenues
dans un tableau individusXcaractères, bien que cette méthode soit applicable sous
certaines conditions aux tableaux de contingence qui font intervenir les fréquences de
présence simultanée de deux modalités issues de deux caractères (par exemple:
croisement des mots clés et des revues).
L'analyse en composantes principales (A.C.P.) est une méthode de l'analyse des
données basée sur la recherche des axes principaux d'un nuage de points et sur
l'analyse de la représentation de ce dernier dans le repère formé par les premiers de
ces axes. Le but de l'A.C.P. est d'obtenir une représentation du nuage dans un espace
de dimension réduite de telle manière que l'inertie expliquée dans cet espace soit la
plus grande possible. Pour cela, il est nécessaire dans un premier temps de rechercher
les plus grandes valeurs propres de la matrice et de déterminer, par les vecteurs
propres associés, les axes de plus forte inertie du nuage des individus dans l'espace
des paramètres. Ceci fait, une carte factorielle permettra de montrer les
caractéristiques essentielles du jeu de données étudié. Ceci pourra être complété par
une carte représentant le cercle de corrélation des paramètres, afin de pouvoir faire le
x1 x2 xj xn
Les lignes xi représentent les individus, les colonnes xj les caractères les
éléments xij de la matrice X les valeurs prises par ces caractères pour chaque
individu.
Les outils statistiques utilisés
Pour chacun des n caractères quantitatifs nous calculerons sa moyenne et son
écart type et nous en déduirons le centre de gravité g du nuage:
Les liaisons entre deux caractères pris deux à deux sont décrites par leur
covariance sjk ou par leur coefficient de corrélation rjk.
Les variances (termes diagonaux) et les covariances sont consignées dans un
tableau V appelé matrice de variance-covariance:
METHODES DE CLASSIFICATION
CLASSIFICATION PAR ANALYSE DE CONNEXITE
Dans ce cas, la matrice individus/variables ou la matrice de contingence croisant
deux types de caractères sur une population donnée, est considérée comme celle d’un
graphe non orienté dont on va rechercher les composantes simplement connexe.
Comme le simple connexité est une relation d’équivalence, nous obtenons une
partition de l’unité en différentes classes indépendantes les unes des autres. Si le
graphe issu de la matrice est simplement connexe (une seule classe), il est alors
possible de partiellement le déconnecter en enlevant les liens faibles (ici les arêtes de
valeur 1 ou 2). Le tri fait alors apparaitre des classes faiblement liées que l’on peut
considérer comme représentatives de la structure des données analysées.
Dans l’exemple ci-dessous, la matrice initiale (croisement entre auteurs) a été classée
par analyse de connexité et présente des blocs diagonaux correspondant à des classes
d’auteurs qui co-signent des publications dans le domaine étudié.. La première de ces
classes a ensuite été épurée puis reclassée par connexité afin de faire apparaitre sa
structure interne.
Pour que la partition soit de bonne qualité il faut donc que fW soit la plus faible
possible.
La dispertion des centres de gravité autour de g, centre de gravité du nuage, est
appelée inertie interclasse, elle sera notée fB:
EVOLUTION RELATIVE
DONNEES BIPARTIES