Vous êtes sur la page 1sur 21

Cours

d'analyse de données

par: B. Dousset
INTRODUCTION A L'ANALYSE DE DONNEES
Institut de Recherche en Informatique de Toulouse
OBJECTIFS DE L'ANALYSE DE DONNEES
L'analyse de données est apparue dans les années trente grâce à H. Hotteling, qui
initialisait le principe de l'analyse en composantes principales et de l'analyse
canonique en s'inspirant des travaux de C. Spearman et de K. Pearson datant du début
du siècle.
Ces méthodes furent ensuite complétées et perfectionnées sans grand succès, car
elles nécessitaient de très importants calculs. Le développement de l'informatique,
dans les années soixante, a remis cette approche de la statistique au goût du jour et la
multiplication de micro-ordinateurs scientifiques a permis sa vulgarisation.
La statistique classique ne s'intéresse qu'à un nombre limité de caractères
mesurés sur un ensemble restreint d'individus. Elle s'appuie sur des estimations ou
des tests très restrictifs. Les hypothèses émises sont souvent très approximatives et les
lois de distribution très théoriques. Dans la réalité, les individus sont le plus souvent
décrits par de très nombreux paramètres, qui n'obéissent pas à des lois connues à
priori. La différence essentielle de l'analyse de données, par rapport à la statistique
classique, est qu'elle réalise une étude globale du couple individus caractères en
s'appuyant sur des représentations graphiques beaucoup plus lisibles que de
volumineux tableaux de mesures. Les ressemblances ou les dissemblances entre
individus ou entre caractères, leur corrélations positives ou négatives sont à la base de
l'analyse, qui peut s'effectuer suivant plusieurs points de vue. Des méthodes de
classification automatique viennent compléter les analyses graphiques, les classes
obtenues pouvant à leur tour être visualisées sous forme d'arborescence ou de cluster.
Cette approche multidimensionnelle, depuis qu'elle est maîtrisée grâce à l'apport
de l'informatique, a connu un très grand nombre d'applications pratiques pour
l'observation et la compréhension des phénomènes complexes notamment en
médecine, physique, sciences naturelles, sciences humaines, etc...
NATURE DES DONNEES ANALYSABLES
Les matrices de données
En analyse de données on distingue deux types d'informations:
les individus
les variables
Les individus peuvent représenter des entités comme des personnes, des
entreprises, des pays, des journaux, etc. Sur ces individus nous allons réaliser des
observations ou des mesures. Les individus peuvent représenter l'ensemble d'une
population ou simplement une partie qui n'est pas nécessairement sensée être, comme
en statistique inférentielle, un échantillon représentatif.
Les variables sont des caractères relatifs à ces individus. Elles peuvent être de
deux types:
quantitatives
qualitatives
Une variable sera quantitative si elle prend des valeurs sur une échelle
numérique comme par exemple:
Analyse de données et Bibliométrie
2
Institut de Recherche en Informatique de Toulouse
l'age
la taille
le poids
le salaire
le nombre d'enfants
le chiffre d'affaires
le nombre d'employés, etc.
Les opération algébriques habituelles (addition, multiplication, calcul de
moyenne) peuvent être utilisées pour combiner ou normaliser leurs valeurs
numériques.
Une variable sera qualitative si elle peut prendre des modalités non numériques
comme:
le sexe
la profession
les diplômes
le niveau hiérarchique
la situation de famille, etc.
Les valeurs possibles prises par une variable de type quantitatif sont appelées
des modalités.
Si ces variables peuvent être ordonnées même grossièrement, on parlera de
variables qualitatives ordinales:
niveau hiérarchique, diplômes,
niveau de satisfaction, etc.
Sinon ce sont des variables qualitatives nominales:
couleur
entreprise
région d'origine,
pays, etc.
Les matrices individus x variables
Les données sont consignée dans une matrice rectangulaire qui croise les
individus et leurs variables ou les modalités de leurs variables.
Les lignes représentent les individus Ii i=1,m.
Les colonnes représentent les variables Vj j=1,n ou leurs modalités Mk.
Voici un exemple de matrice de croisement:

V1 V2 Vj Vn
Fréquence
Age Poids Taille cardiaque

I1 x11 x12 x1j x1n

I2 x21 x22 x2j x2n

Analyse de données et Bibliométrie


3
Institut de Recherche en Informatique de Toulouse

Ii xi1 xi2 xij xin

Im xm1 xm2 xmj xmn

Dans cet exemple, nous avons observé n variables quantitatives sur m individus
distincts.
Sur la ligne i correspondant à l'individu i, nous avons noté les variables
quantitatives suivantes:

age, poids, ..., taille, ... fréquence cardiaque

Elle prennent respectivement les valeurs:

xi1, xi2, ..., xij, ..., xin.

Sur cette même série de m individus, nous aurions pu tout aussi bien observer
des variables qualitatives telles que sexe, niveau hiérarchique, situation de famille,
etc...

Afin de pouvoir les traiter numériquement, ces variables qualitatives sont codées
sous forme de présence/absence avec des 1 et des 0. Ceci s'appelle une forme
disjonctive complète:
Nous pouvons la représenter par un tableau de m individus (lignes) comportant n
variables, qui présentent en tout p modalités (colonnes), sous la forme suivante:

Analyse de données et Bibliométrie


4
Institut de Recherche en Informatique de Toulouse
V1 V1 V2 V2 V2 V3 V3 V3

Sexe Sexe Niveau Niveau Niveau Situation Situation Situation


hiérarchique hiérarchique hiérarchique de famille de famille de famille
Modalité Modalité Modalité Modalité Modalité Modalité Modalité Modalité
1 2 1 2 3 1 2 3
Veuf
Masculin Féminin Ouvrier Maîtrise Cadre Marié Célibataire Divorcé

I1 1 0 0 1 0 0 0 1

I2 0 1 0 1 0 1 0 0

Ii 1 0 0 0 1 0 1 0

Im 0 1 0 0 1 0 0 1

Les 3 variables qualitatives qui sont observées (V1, V2, V3) sur les m individus
de la matrice précédente présentent 8 modalités au total, donc 8 colonnes sont
utilisées, mais seulement trois valeurs 1 sont présentes sur chaque ligne (une par
variable). L'individu i, par exemple, est un homme qui est cadre et célibataire.

Cette représentation des variables qualitatives permet de les assimiler, en fait, à


des variables quantitatives ne pouvant prendre que les valeurs 0 et 1, tout en
remarquant que les modalités d'une même variable sont toutes à 0 sauf une.

Cette technique autorise la représentation simultanée dans la même matrice de


variables à la fois quantitatives et qualitatives.

De plus, une variable quantitative peut être découpée en classes (tranche d'age,
plage de revenus, etc) et ainsi devenir une variable qualitative à plusieurs modalités.
A remarquer que les opérateurs algébriques gardent, ici, un certain sens.
Les matrices de contingences
Elles sont constituées par les fréquences d'association des modalités de 2
variables qualitatives. Les individus servent ici de base pour le calcul statistique.
Il est possible, par exemple, d'associer les catégories socioprofessionnelles (9
modalités) avec les arrondissements de Paris (20 modalités). Un élément d'indices i et

Analyse de données et Bibliométrie


5
Institut de Recherche en Informatique de Toulouse
j de cette matrice correspond au nombre d'individus habitant le quartier i et exerçant
la profession j. Dans une telle approche, les individus sont regroupés et ne peuvent
plus être distingués.

Une représentation plus classique serait de consacrer une ligne à chaque habitant
de paris et de mettre en colonnes les modalités respectives des deux variables
qualitatives catégorie socioprofessionnelle et arrondissement de Paris. Chaque
colonne peut aussi être considérée comme une variable indicatrice (une modalité par
variable). Une ligne représentant un habitant de paris ne contient alors que des 0 sauf
sur les colonnes correspondant respectivement à sa catégorie et à son arrondissement
où il y a un 1.

Si les 2 matrices d'indicatrices sont désignées par respectivement X1 et X2 la


matrice de contingence sera égale à:

comme dans l'exemple suivant:

Les matrices de proximité


Lorsqu'on dispose d'une mesure de ressemblance ou de dissemblance entre les
éléments pris deux à deux d'un ensemble d'objets, il est possible de dresser une
matrice contenant en indices i et j le résultat de la mesure pour chaque paire. Cette
matrice, le plus souvent symétrique, sera comparable à une matrice de distance
(dissimilarité) ou d'inverse de distance (similarité), bien que le critère utilisé ne
possède pas nécessairement les même propriétés axiomatiques que ces dernières (en
particulier l'inégalité triangulaire).

Remarque: propriétés des distances:

(i) d(a,b) = 0 a=b

(ii) d(a,b) = d(b,a) (symétrie)

(iii) d(a,b) d(a,c) + d(b,c) (inégalité triangulaire)

Si (iii) n'est pas vérifiée, on dit plutôt que d est une dissimilarité.

ELEMENTS DE STATISTIQUE
LES HISTOGRAMMES
Quand nous observons une variable qualitative à plusieurs modalités sur un
ensemble d'individus, nous commençons par compter le nombre d'individus présents

Analyse de données et Bibliométrie


6
Institut de Recherche en Informatique de Toulouse
dans chaque modalité. Prenons par exemple les 6800 individus classés par Anemon
(zur Anthropologie der Badener) suivant la couleur de leurs cheveux:

Modalités Blonds Bruns Noirs Roux Total


Fréquence 2829 2632 1223 116 6800
Pourcentage 41 39 18 2 100

Si la variable observée est quantitative, comme ici, il est normal d'en tirer un
histogramme afin de mieux visualiser le résultat obtenu (un dessin est beaucoup plus
évocateur qu'un tableau de nombres).

LA MOYENNE
Nous avons la possibilité d'en calculer la valeur moyenne. Si la variable x prend
les valeurs x1, ..., xi, ..., xn le calcul de la moyenne sera le suivant:

Si chaque observation est pondérée par un poids pi>0 de telle sorte que:

l'expression qui donne la moyenne devient:

Remarque:
dans le cas normal les pondérations sont toutes identiques et égales à 1/n.
LA VARIANCE
La notion de moyenne n'est pas suffisante pour décrire, même succinctement, un
ensemble de nombres. La dispersion de ces nombres autour de la moyenne est une
information tout aussi intéressante et qui vient compléter l'information donnée par la
moyenne. La dispersion est assimilée à la notion d'écart à la moyenne. D'après le
théorème de Pythagore, l'écart quadratique est égal à la somme des carrés des écarts
sur chaque valeur de la variable. Sa valeur moyenne nommée variance servira à
estimer cette dispersion:

Pour les deux séries de salaires suivantes les moyennes sont égales (14850), par
contre les variances sont très différentes:

Analyse de données et Bibliométrie


7
Institut de Recherche en Informatique de Toulouse
1 2 3 4 5 6 7 8 9 10
12500 14000 16000 20000 12500 15000 13500 15000 14500
15500
9000 10000 9500 22500 30000 25000 8000 12000 12500 10000
Pour la première série nous aurons:
s2 = 420 250
alors que pour la seconde série ce sera:
s2 = 5 615 250
L'ÉCART TYPE
La variance est une valeur au carré, elle n'est donc pas exprimée dans la même
unité que les valeurs prises par la variable x. Pour remédier à cela, on utilise l'écart
type qui n'est autre que la racine carrée de la variance. Pour les deux séries
précédentes les écarts types sont respectivement:
s= 2 050
s = 7 493
La seconde série possède donc par rapport à la première une dispersion
supérieure de plus de 5 000 f.

LIAISONS ENTRE VARIABLES


LIAISON LINÉAIRE ENTRE DEUX CARACTÈRES QUANTITATIFS.
Droite de régression.
Dans la suite des méthodes que nous proposerons, nous envisagerons les
dépendances linéaires entre caractères. Lorsque, de façon évidente, certains caractères
observés ne varient pas de façon proportionnelle ou inversement proportionnelle
(exemple: le poids et la taille), il est toujours possible de relinéariser leurs variations
réciproques.
Sur le plan statistique, le coefficient de corrélation linéaire r permet d'évaluer la
force de la liaison entre des variables quantitatives.

Nous pouvons raisonner sur l'exemple suivant dans lequel nous avons relevé le
prix de vente (en milliers de francs) et la surface (en mètres carrés) de 10
appartements:

n°1 n°2 n°3 n°4 n°5 n°6 n°7 n°8 n°9 n°10
28 50 55 60 48 35 86 65 32 52

Analyse de données et Bibliométrie


8
Institut de Recherche en Informatique de Toulouse
260 560 536 640 500 500 700 600 310 490

r est obtenu de la manière suivante:

Elle est ici définie par :


y = 7,049 x + 149,415
Coefficient de corrélation.
Or comme l'erreur quadratique par rapport à la droite de régression est inférieure
au carré de la distance par rapport à la droite horizontale passant par la moyenne des
y, on a toujours:

r sera alors défini par:

r représente en fait le coefficient de corrélation entre les deux variables. Si r=0


la droite est horizontale et la valeur de x ne joue aucun rôle pour déterminer y. Si r est
égal à + ou - 1 la prévision est parfaite.
Dans l'exemple r= 0,89 soit une très forte corrélation positive entre x et y (on
pouvait s'en douter un peu).
Covariance de deux variables.
La notion de régression est symétrique, celle de corrélation aussi. Pour justifier
cela nous allons introduire la notion de covariance:
Analyse de données et Bibliométrie
9
Institut de Recherche en Informatique de Toulouse

ou si les individus sont pondérés:

Le coefficient de corrélation s'exprime alors de la façon suivante:

Ou Sx et Sy sont respectivement les écarts types des variables x et y.


LIAISON LINÉAIRE ENTRE DEUX CARACTÈRES QUALITATIFS.
Pour les caractères qualitatifs nous pouvons calculer le 2 de contingence très
utilisé en analyse des correspondances.
Il faut préalablement construire un tableau de contingences entre variables
quantitatives comme dans l'exemple suivant qui compare, sur une population
d'individus, le niveau hiérarchique et l'origine sociale:

Origine sociale
Cadre Agriculteur Ouvrier Autre Total
Ouvrier 11 14 107 75 207
Maîtrise 1 10 60 31 102
cadre 23 2 16 40 81
Total 35 26 183 146 390

Tout d'abord, nous allons adopter la notation suivante pour les valeurs
marginales (totaux sur lignes et colonnes):

Si les variables observées sont indépendantes, la probabilité d'avoir


simultanément les modalités i et j ne dépend que des probabilités marginales d'avoir
la modalité i en ligne et la modalité j en colonne:

Analyse de données et Bibliométrie


10
Institut de Recherche en Informatique de Toulouse
or, si n représente l'effectif total, la probabilité constatée est en fait:

Soit un écart entre effectif constaté et effectif calculé de:

La somme relative des écarts au carré que nous noterons D2 aura pour
expression:

Si l'échantillon utilisé a été tiré au hasard, cette expression suit une loi du 2 à
(p-1)(q-1) degrés de liberté, où p et q représentent les nombre des modalités
respectives des deux variables comparées.
Dans l'exemple choisi et s'il y a indépendance des deux variables, D2 a 99% de
chances d'être compris entre 0 et 16,81.
Or D2=69,2, nous sommes donc conduits à rejeter nettement l'hypothèse
d'indépendance de ces deux variables.
LIAISON ENTRE CARACTÈRES QUANTITATIFS ET QUALITATIFS.
Dans ce cas la liaison est déterminée par le rapport de corrélation que nous
définirons par:

ANALYSE DE LA VARIANCE
MÉTHODE DES MOINDRES CARRÉS
Pour étudier un phénomène Y, qui est lié à un ensemble de causes xj j=1,n, nous
pouvons réaliser m mesures, dont chacune donnera n résultats correspondants aux n
causes du phénomène. Nous nous proposons de chercher un modèle de dépendance
linéaire de Y en fonction de chacune de ces causes.
Chaque mesure permet d'obtenir une valeur expérimentale yi, qui comparée aux
mesure effectués sur le phénomène vérifie la relation suivante:

Analyse de données et Bibliométrie


11
Institut de Recherche en Informatique de Toulouse
ei représente l'erreur due à l'approximation du phénomène par le modèle linéaire
proposé.
La méthode des moindres carrés consiste à minimiser la somme des carrés des
écarts constatés entre les résultats de mesure et les valeurs obtenues à l'aide du
modèle linéaire.

On peut aussi minimiser la racine carrée de S, qui n'est autre que la norme
euclidienne du vecteur des erreurs dans Rm.
MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Comme précédemment, nous réalisons m expériences et nous obtenons les m
résultats expérimentaux suivants:

Nous représenterons cette série d'expériences par un point Y de l'espace Rm.

Nous avons donc dans Rm une fonction de répartition:

La probabilité de réalisation de Y est:

Nous cherchons la probabilité de réalisation des m expériences en sachant


qu'elles sont indépendantes et identiquement distribuées:

Analyse de données et Bibliométrie


12
Institut de Recherche en Informatique de Toulouse
La méthode du maximum de vraisemblance consiste à maximiser la probabilité
de réalisation L de la série d'expériences Y. Pour cela nous pouvons maximiser le
logarithme de L pour transformer les produits en sommes.

Remarque: les hypothèses de l'analyse de la variance:


Nous allons supposer que les erreurs commises sur les expériences par le modèle
linéaire vérifient les propriétés suivantes:
1- Esp(ei)=0,
2- Les ei sont des variables aléatoires indépendantes,
3- les ei ont même variance 2.
Nous pouvons donc en déduire que les ei ont un comportement de loi normale
centrée de variance 2: N(0,2).
Si l'approximation par le modèle linéaire s'écrit:

On en déduit que le yi suivent aussi une loi normale:

La fonction de répartition des yi peut alors s'écrire sous la forme:

Le problème consiste alors à trouver le maximum de S, ce qui revient à trouver


le minimum:

Analyse de données et Bibliométrie


13
Institut de Recherche en Informatique de Toulouse
car:

Nous sommes donc conduits à résoudre le même problème qu'avec la méthode


des moindres carrés. Les estimateurs obtenus par ces deux méthodes sont donc
rigoureusement identiques.

ANALYSES MULTIDIMENSIONNELLES
PRINCIPE GENERAL
Ces méthodes ont pour but de décrire des données consignées dans un tableau
croisant des individus (m lignes) et des caractères ou variables (n colonnes) qui sont
mesurés sur ces individus. L'étude s'effectue par réduction du nombre de caractères,
non sous forme d'une simple sélection de certains d'entre eux, mais par construction
de nouveaux caractères synthétiques obtenus en combinant les caractères initiaux
(méthode factorielle). De plus la méthode de modélisation sera ici linéaire puisque
chaque facteur synthétique sera combinaison linéaire des caractères initiaux. Les
principales méthodes issues de cette démarche seront:
L'analyse en composantes principales,
L'analyse factorielle des correspondances,
L'analyse canonique,
L'analyse factorielle discriminante.
ANALYSE EN COMPOSANTES PRINCIPALES
Principe général.
Nous sommes ici dans le cadre classique de données quantitatives contenues
dans un tableau individusXcaractères, bien que cette méthode soit applicable sous
certaines conditions aux tableaux de contingence qui font intervenir les fréquences de
présence simultanée de deux modalités issues de deux caractères (par exemple:
croisement des mots clés et des revues).
L'analyse en composantes principales (A.C.P.) est une méthode de l'analyse des
données basée sur la recherche des axes principaux d'un nuage de points et sur
l'analyse de la représentation de ce dernier dans le repère formé par les premiers de
ces axes. Le but de l'A.C.P. est d'obtenir une représentation du nuage dans un espace
de dimension réduite de telle manière que l'inertie expliquée dans cet espace soit la
plus grande possible. Pour cela, il est nécessaire dans un premier temps de rechercher
les plus grandes valeurs propres de la matrice et de déterminer, par les vecteurs
propres associés, les axes de plus forte inertie du nuage des individus dans l'espace
des paramètres. Ceci fait, une carte factorielle permettra de montrer les
caractéristiques essentielles du jeu de données étudié. Ceci pourra être complété par
une carte représentant le cercle de corrélation des paramètres, afin de pouvoir faire le

Analyse de données et Bibliométrie


14
Institut de Recherche en Informatique de Toulouse
lien entre la position des points (individus) dans l'espace et la cause principale de
cette position.
Champ d'application
C'est la méthode de base de l'analyse des données. Elle permet d'analyser des
caractères quantitatifs, qui jouent le même rôle (contingences, budgets, populations,
cooccurrences, etc...).
Le tableau de départ prendra la forme suivante:

x1 x2 xj xn

x1 x11 x12 x1j x1n

x2 x21 x22 x2j x2n

xi xi1 xi2 xij xin

xm xm1 xm2 xmj xmn

Les lignes xi représentent les individus, les colonnes xj les caractères les
éléments xij de la matrice X les valeurs prises par ces caractères pour chaque
individu.
Les outils statistiques utilisés
Pour chacun des n caractères quantitatifs nous calculerons sa moyenne et son
écart type et nous en déduirons le centre de gravité g du nuage:

Les liaisons entre deux caractères pris deux à deux sont décrites par leur
covariance sjk ou par leur coefficient de corrélation rjk.
Les variances (termes diagonaux) et les covariances sont consignées dans un
tableau V appelé matrice de variance-covariance:

Les coefficients de corrélation sont regroupés dans la matrice R de termes


diagonaux unitaires:

Analyse de données et Bibliométrie


15
Institut de Recherche en Informatique de Toulouse
Si, de plus, nous notons:

Nous obtenons la relation matricielle suivante:

La qualité des informations et de leur analyse.


L'analyse en composante principales est donc basée sur la réduction de la
dimension de l'espace des paramètres afin de pouvoir en obtenir une représentation
lisible sous forme de carte factorielle. Le but est de conserver, dans cette carte, la
majeure partie de l'information analysée. La décroissance des valeurs propres permet
de répondre en partie à cette attente, puisqu'on peut en déduire une courbe de
variation du taux d'explication en fonction du nombre d'axes conservés. Si, avec
quatre axes, nous n'obtenons pas au moins 80%, une analyse descendante sera
nécessaire, afin de rechercher certaines caractéristiques masquées par l'information la
plus visible. En effet, les premiers axes ne contenant pas toute l'information, il est
utile d'éliminer les éléments les plus visibles dans le but de faire apparaître
l'information cachée qui est bien souvent celle que l'on recherche. Suivant ce même
principe, nous avons complété l'observatoire de la qualité par des histogrammes sur la
densité
La visualisation des cartes en 2D, 3D et 4D.
- Le système de visualisation 2D: il propose des résultats graphiques sous forme
de cartes factorielles à deux dimensions comparables à celles qui sont obtenues dans
les logiciels classiques de l'analyse des données.
- Le système de visualisation 3D: il propose et manipule des résultats graphiques
sous forme de cartes factorielles à trois dimensions en utilisant les moyens classiques
de l'infographie. Le pourcentage d'information manipulée alors étant souvent très
supérieur à celui de la technique précédente.
- Le système de visualisation 4D: il propose une approche originale pour la
visualisation et la manipulation de résultats graphiques sous forme de cartes
factorielles en quatre dimensions. Il utilise, pour le codage de la dimension
complémentaire, des niveaux de gris, ce qui permet, ici encore, d'augmenter la
proportion d'information effectivement manipulée dans l'analyse.
La synchronisation des rotations du cercle de corrélation.
Nous avons vu que l'A.C.P. conduisait à l'obtention de deux cartes factorielles:
une représentant au mieux les individus dans l'espace des paramètres l'autre décrivant
le cercle de corrélation (au travers des individus) de ces mêmes paramètres. Les
espaces n'étant pas les mêmes et les objets représentés non plus (nuage, cercle de
corrélation) une seule carte n'est pas suffisante. Néanmoins, leurs axes sont corrélés,
aussi est-il possible de synchroniser les rotations des deux cartes afin d'obtenir, par
l'une, l'explication des positions sur l'autre. Ce lien est très efficace pour détecter des

Analyse de données et Bibliométrie


16
Institut de Recherche en Informatique de Toulouse
causalités qui pourront toujours êtres confirmées par les histogrammes délivrés par le
tableur. Si deux individus semblent proches sur la carte, leur proximité trouvera une
explication dans le cercle de corrélation grâce aux paramètres se situant très
nettement dans le même secteur (corrélation positive) ou dans le secteur opposé
(corrélation négative). Dans TETRALOGIE, nous avons donc rendu possible
l'exportation de rotation, dans le but d'amener les deux espaces dans la même
configuration et ainsi de pouvoir les comparer visuellement. Une technique de travail
efficace consistera à ouvrir une fenêtre 4D sur chacun des espaces et une autre fenêtre
sur le tableur, afin de pouvoir directement vérifier, dans les données, l'exactitude et
l'amplitude des caractéristiques communes découvertes par la confrontation des deux
cartes.
Notion de liens entre lignes et de liens entre colonnes.
Dans cette même optique, nous avons développé un module de visualisation de
la force des liens inter lignes et inter colonnes. En effet, dans chaque carte factorielle
de l'A.C.P., les individus voisins ont des caractéristiques communes, mais comme
l'espace représenté est très synthétique, les liens ne sont pas systématiques ou sont de
forces inégales. Il est donc souhaitable, en désignant un individu d'un simple clic de
souris, de voir apparaître la force de ses liens avec ses voisins. Nous avons utilisé,
pour cette visualisation, une échelle de niveaux de gris avec un seuil minimum. Dans
le cas du cercle de corrélation, la même fonction a été implantée, elle permet une
évaluation directe de la force et de la nature des corrélations de paramètres voisins sur
la carte.
ANALYSE EN COMPOSANTES PRINCIPALES REDUITES.
La réduction des données.
Lorsque les données sont de même nature la métrique euclidienne est utilisable,
mais elle va privilégier les caractères à forte dispersion. Dans tous les autres cas, il
convient de normaliser les données en les divisant par leur écart type. Cette technique
offre de nombreux avantages, car elle permet de s'affranchir de la notion d'unité et
elle conduit à un rééquilibrage entre les caractères analysés. Dans le cas des tableaux
de contingence, cette normalisation conduit à traiter tous les caractères sur un même
pied d'égalité, même si certains d'entre eux sont très peu présents.
Comparaison avec l'A.C.P., validité, interprétation.
La comparaison n'est possible que si l'A.C.P. normale est applicable. Dans ce
cas, la réduction des données va permettre de prendre en compte les petits paramètres
et si certains de ceux-ci sont plus caractéristiques que tous les autres, il apparaîtront
maintenant sur les cartes factorielles. Dans le cas de tableaux de contingence, la
comparaison entre les deux approches a un grand intérêt, l'A.C.P. réalise en fait une
analyse quantitative absolue et l'A.C.P.R., qui est plus nuancée, compare les
influences relatives des paramètres les plus caractéristiques sans en fait tenir compte
de leurs valeurs absolues.

Analyse de données et Bibliométrie


17
Institut de Recherche en Informatique de Toulouse
ANALYSE FACTORIELLE DES CORRESPONDANCES

EDITION AUTOMATIQUE D'UN COMPTE RENDU D’ANALYSE

METHODES DE CLASSIFICATION
CLASSIFICATION PAR ANALYSE DE CONNEXITE
Dans ce cas, la matrice individus/variables ou la matrice de contingence croisant
deux types de caractères sur une population donnée, est considérée comme celle d’un
graphe non orienté dont on va rechercher les composantes simplement connexe.
Comme le simple connexité est une relation d’équivalence, nous obtenons une
partition de l’unité en différentes classes indépendantes les unes des autres. Si le
graphe issu de la matrice est simplement connexe (une seule classe), il est alors
possible de partiellement le déconnecter en enlevant les liens faibles (ici les arêtes de
valeur 1 ou 2). Le tri fait alors apparaitre des classes faiblement liées que l’on peut
considérer comme représentatives de la structure des données analysées.
Dans l’exemple ci-dessous, la matrice initiale (croisement entre auteurs) a été classée
par analyse de connexité et présente des blocs diagonaux correspondant à des classes
d’auteurs qui co-signent des publications dans le domaine étudié.. La première de ces
classes a ensuite été épurée puis reclassée par connexité afin de faire apparaitre sa
structure interne.

Une analyse factorielle des correspondances de la matrice non épurée permet


alors de visualiser les liens entre classes et la position relative de chaque classe dans
l’espace des colonnes.
Le tri de connexité est surtout efficace dans le cas des co-signatures ou des
cooccurrences de multi termes issus du texte libre comme les titre ou les résumés
d’articles.
Analyse de données et Bibliométrie
18
Institut de Recherche en Informatique de Toulouse

CLASSIFICATION ASCENDANTE HIERARCHIQUE


Principe général
Les méthodes hiérarchiques produisent des partitions en classes imbriquées de
plus en plus grandes, le nombre de classes n’est pas connu à priori, plusieurs
partitions imbriquées peuvent être proposées.
La classification ascendante hiérarchique (C.A.H.) consiste à regrouper les
individus en classes en fonction de deux critères:
les individus d’une même classe sont le plus semblable possible,
les classes sont les plus disjointes possible.
Pour cela, nous avons besoin d’une mesure globale de la proximité des individus
à l’intérieur de chaque classe et de la distance interclasse pour apprécier la qualité de
la partition obtenue. Comme il n’est pas envisageable d’évaluer toutes les partition
pour ne garder que la meilleure au sens du critère choisi (problème trop fortement
combinatoire), il est donc exclu de trouver cette meilleure partition et nous nous
contenterons de méthodes approchées.
Inertie interclasse et inertie intraclasse.
Si nous considérons, ici encore, les individus comme des points d’un espace
euclidien, la classification se résume à la recherche d’un partition d’un nuage de m
points en k sous nuages distincts en utilisant la notion de dispersion d’un nuage
mesurée par son inertie. Une classe j sera homogène si son inertie fj est faible.
Soient g1, g2,..., gk les centres de gravité des classes,
f1, f2,..., fk les inerties des classes correspondantes,
la somme fW des inerties est appelée l’inertie intraclasse:

Pour que la partition soit de bonne qualité il faut donc que fW soit la plus faible
possible.
La dispertion des centres de gravité autour de g, centre de gravité du nuage, est
appelée inertie interclasse, elle sera notée fB:

où pj représente la somme des poids des individus composant la classe j.


Pour que les classes soient bien distinctes, il faut que fB soit le plus grand
possible à l’inverse de fW.
Or ces deux inerties, intraclasse et interclasse, sont liées par une formule
généralisant le théorème de Huyghens:

ou f représente l’inertie totale du nuage des m points de depart, qui est


constante..
Dans ces conditions, rendre fB maximum est équivalent à rendre fW minimum, et
ce pour un même nombre de classes k. En effet, au sens de l’inertie la meilleure
partition possible sera celle en m classes car fW est alors nulle et fB=f. De manière

Analyse de données et Bibliométrie


19
Institut de Recherche en Informatique de Toulouse
générale, une patition en k classes sera toujours meilleure qu’une partition en k+1
classes.

Analyse de données et Bibliométrie


20
Institut de Recherche en Informatique de Toulouse
ANALYSE DE L'EVOLUTION
EVOLUTION ABSOLUE

EVOLUTION RELATIVE

DONNEES BIPARTIES

Analyse de données et Bibliométrie


21

Vous aimerez peut-être aussi