Vous êtes sur la page 1sur 11

Analyse des donnes

Statistiques appliques la gestion Cours danalyse de donns Master 1

F. SEYTE : Matre de confrences HDR en sciences conomiques Universit de Montpellier I

M. TERRAZA : Professeur de sciences conomiques Universit de Montpellier I

Campus Numrique, 2007

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Prsentation de lanalyse de donnes

Lanalyse des donnes a pour but de fournir grce lordinateur un outil permettant dapprhender le contenu de tableaux de taille importante laide de reprsentations accessibles par lutilisateur , Edwin Diday. Lanalyse des donnes cest aujourdhui lexpression consacre pour dsigner les analyses statistiques descriptives multidimensionnelles Lanalyse des donnes rassemble un groupe de techniques aux fondements mathmatiques qui permet dapprhender la structure de linformation contenue dans un espace plusieurs dimensions. Linformation, cest la position relative des points dans lespace multidimensionnel. Lanalyse des donnes est ralisable lorsquil est possible de rduire lespace multidimensionnel (o linformation nest pas lisible) en un espace deux ou trois dimensions (o linformation est lisible), de telle sorte que cet espace rduit conserve une part importante de linformation qui tait contenue dans lespace multidimensionnel dorigine. Les espaces multidimensionnels ont pour origine des tableaux statistiques de donnes de toute nature mais o les dimensions des lignes et des colonnes sont importantes. Ce sont ces lignes et ces colonnes qui constituent les dimensions des espaces et les points qui forment les nuages informationnels. Lanalyse des donnes est utilise par la plupart des sciences appliques : les psychologues, les juristes, les historiens, les conomistes, les gestionnaires Lanalyse des donnes a ses premiers dveloppements mathmatiques au dbut du sicle prcdent (1905). Elle a cependant connu un essor sans prcdent dans les annes 70 et 80, grce lamlioration des instruments de calcul et au dveloppement de la micro-informatique. Sous lexpression gnrique de lanalyse des donnes, on rassemble deux grandes techniques : les analyses factorielles : ces mthodes doivent leur nom aux nouveaux axes de lespace que lon peut rduire, qui portent le nom daxes principaux, mais aussi de facteurs. Les techniques de classification automatique : ce sont des algorithmes informatiques automatiques capables de dresser des typologies, des regroupement de points, bref deffectuer des classifications.

Ce sont les analyses factorielles qui font lobjet de ce cours.

I du tableau de donnes lanalyse des donnes


Les analyses de donnes ont pour matire principale le tableau de donnes. De la nature de ce tableau dpend la nature des variables qui le composent. Lindividu est un lment dun ensemble fini que lon appelle lensemble des individus. Ils sont ports en ligne du tableau. La description de ces individus est ralise par des variables. Les variables sont portes en colonne du tableau. Une variable est dfinie par un ensemble que lon appelle lensemble des observations (qui sont portes lintrieur du tableau) par une structure algbrique sur cet ensemble et par une application de lensemble des individus sur lensemble des observations. Plus gnralement, une variable est un caractre statistique particulier. On dnombre deux types de caractres : quantitatif et qualitatif. Le caractre quantitatif est mesurable, cest--dire quil prend ses valeurs dans des ensembles mathmatiques comme par exemple lensemble des entiers naturels relatifs, rels Cest ce caractre quon appelle variable.

2 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Le caractre qualitatif est non mesurable. Il est qualifi par des modalits. On considre quil existe deux types de modalits : des modalits quon peut classer (ex : petit, moyen, grand), des modalits o le classement est indiffrent (ex yeux bleus, verts). Caractre

Quantitatif (variable)

Qualitatif

Continu R

Discret Z, N Ordinales

modalits

nominales

Classes

intervalles

Frquemment, les variables quantitatives sont transformes en classes (pour le cas continu) ou en intervalles (pour le cas discret). On considre alors que ces classes ou intervalles sont les modalits dune variable qualitative ordinale. On constate alors que dans la plupart des tableaux, on ne dispose que dun seul type de caractre : le caractre qualitatif, nominal ou ordinal. Dans la suite du cours, lappellation caractre ne sera pas retenue. Comme dans la plupart des manuels, on retiendra le terme gnrique de variables. Les diffrents caractres (variables) que lon vient de dfinir permettent dlaborer des tableaux diffrents et cest cette diffrence qui, son tour, dfinit les mthodes danalyse de donnes. On considre dans la pratique quatre tableaux de donnes sur lesquels sappliquent des mthodes danalyses factorielles diffrentes. le tableau de variables (caractres) quantitatives : Variables

x1
1 individus i N

xi

xn

xij

La mthode danalyse factorielle qui permet de traiter ce tableau porte le nom danalyse en composantes principales : ACP.

3 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

le tableau de contingence : Modalits de Y 1 1 Modalits de X i N M j n

nij

Les modalits doivent tre exhaustives. (tous les M individus sont renseigns par les caractres X et Y) et exclusives les unes par rapport aux autres. Cest la rpartition de M individus selon les modalits des caractres X et Y. La mthode danalyse factorielle qui permet de traiter ce tableau porte le nom danalyse factorielle des correspondances (AFC). les tableaux denqutes ou de sondages : 1 1 Individus i N Les rponses des N individus aux questions sont codes en affectant un chiffre aux diverses possibilits de rponses. Ces codes constituent pour une question le nombre de ses modalits. Le tableau cod est alors transform en un tableau disjonctif complet. C'est--dire un tableau qui ne prsente que des 0 ou des 1. Le chiffre 1 est donn la modalit possde par lindividu. On applique ce tableau une AFC et la mthode sappelle analyse factorielle des correspondances multiples (AFCM) Exemple :
Codification (pour la saisie des rponses)

Questions .n

Tableau disjonctif
Homme Femme Franais Etranger Yeux bleus Marron Noir

1 2 3 4 5 6 N

Nationnali Couleur Sexe t Yeux homme Franais Bleu femme Etranger Marron femme Etranger Noir homme Etranger Bleu femme Franais Marron homme Franais Noir femme Franais Bleu

Sexe

Nationnalit

Couleur Yeux

1 2 2 1 2 1 2

1 2 2 2 1 1 2

1 2 3 1 2 3 1

1 0 0 1 0 1 0

0 1 1 0 1 0 1

1 0 0 0 1 1 1

0 1 1 1 0 0 0

1 0 0 1 0 0 1

0 1 0 0 1 0 0

0 0 1 0 0 1 0

Individus

les tableaux quantitatifs o les individus sont regroups par paquet en fonction dune variable qualitative :

4 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

x1
1 individus i N

xi

xn

Variable qualitative

q1

qr

La mthode factorielle applique ce tableau porte le nom danalyse factorielle discriminante (note AFD)

Les calculs de lanalyse de donnes ne se font jamais la main. Les logiciels pour lutiliser sont trs nombreux et lon peut les segmenter selon plusieurs types : les logiciels de traitement denqute (Le Sphinx, ethnos, Question, ). Bien que leur spcialit soit le traitement de questionnaires, ils intgrent quelques mthodes danalyses factorielles. Les sorties sont relativement sommaires et les options disponibles sont limites (pas de rotation des axes, ) les logiciels botes outils (XLSTAT, Statbox). Ils permettent de raliser diverses analyses factorielles (ACP, AFC, ACM), quelques techniques de classification (Classification hirarchique, K moyennes) ainsi que les techniques de prvision classiques. Les donnes sont gres partir du logiciel Microsoft Excel et les sorties seffectuent dans des feuilles de calculs. Globalement, ils offrent un bon rapport qualit/prix Les logiciels de statistique (SPSS, SPAD, SAS, ). Conus pour manipuler et analyser de grands tableaux de donnes, ils sont trs complets sur le plan des mthodes prsentes et sur les options disponibles. Lutilisation est plus complexe et ncessite parfois plusieurs journes (voire plusieurs mois) de formation. Leur prix en fait un outil rserv aux cabinets statistiques ou aux directions statistiques de grandes entreprises.

Dans ce cours, nous utiliserons les sorties du logiciel Statbox.

Les bases de lanalyse de donnes


Aprs avoir introduit les principes gnraux de lanalyse de donnes, nous rappellerons ici certaines statistiques lmentaires qui forment les fondations de lanalyse des donnes.

Prsentation des donnes et types de variables


Gnralement, le problme rsoudre se prsente sous forme de table contenant les observations (ou individus ou exemples) en ligne et les variables (ou attributs) en colonne. Les diffrents types de variables vont conditionner le choix des techniques utilises. On distingue gnralement :

5 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Type de variables Qualitatives Disjonctives (ou dichotomiques)

Caractristiques Elles peuvent prendre deux tats (exemple vrai ou faux) Les diffrentes catgories ne contiennent pas de notions dordre (exemple : couleur des yeux) Les diffrentes catgories peuvent tre classes (ex classes dges, chelles de Lickert) Elles peuvent prendre des valeurs numriques sur lesquelles des calculs, tels que la moyenne peuvent tre effectus.

Catgoriques non ordonnes ou qualitatives non ordonnes Quantitatives Catgoriques ordonnes qualitatives ordonnes Continues ou

La notion dassociation
Les associations sont des critres permettant de regrouper des variables. Elles se mesurent diffremment selon que lon sintresse des variables quantitatives ou qualitatives.

Lassociation sur des variables quantitatives


La corrlation linaire Elle mesure la covariation qui existe entre deux variables X et Y. Le coefficient de corrlation indique si deux variables voluent dans le mme sens ou en sens contraire. Il est compris entre -1 (corrlation ngative) et +1 (corrlation positive). Lorsquil est nul on dit que les variables ne sont pas corrles.

Le coefficient de corrlation scrit : r xy =


n n

cov( x, y ) avec : x y

cov( x, y ) = p i ( x i x )( y i y ) = p i x i y i x y avec pi poids de l'individu i et


i=1 i=1

pi = 1, n le
n i=1

nombre dobservations.

En gnral, i { 1,....n} pi =

1 . Cest le cas le plus classique, tous les individus ont le mme n 1 n poids. La formule de la moyenne devient alors : x = x i et n i=1 cov( x, y ) = 1 n ( x i x )( y i y ) . n i=1

La rgression La rgression permet danalyser la manire dont une variable (dite explique) est affecte par les valeurs dune ou plusieurs autres variables (dites explicatives). Exemple : y = ax + b La mthode des MCO (Moindres Carrs Ordinaires), par exemple, permet de calculer les paramtres a et b en fonction des observations x i et y i :

6 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

= a

cov( x, y ) = xa y et b V( x )

Lassociation sur les variables qualitatives


Le test du
2

Principe du test : il permet de tester lexistence ou non dune relation entre deux variables quelconques. Il repose sur une comparaison de la frquence de distribution de ces variables une distribution thorique. Il consiste calculer ( une table ou tabul)
2 2

calcul) la somme des carts entre la distribution


2

thorique et la distribution observe et comparer ce rsultat une valeur prdtermine ( lu dans

Si le calcul est suprieur au tabul alors il existe une relation entre les deux variables.
2 2

(voir le rappel de cours de L3 dans le fichier MS1_M1M2Res : Module 2)

La notion de similarit
Similarit sur des variables dichotomiques
On dit que deux objets A et B, dcrits par p attributs sont similaires, si le maximum dattributs sur les p attributs sont identiques. Le nombre de points communs (ou concidences) permet de construire une mesure quantitative de la similarit entre des objets. Il existe deux types de concidences : Valeur de lattribut A Oui Oui Non Non Valeur de lattribut A Oui Non Oui Non Concidence Positive Non concidence Non concidence Ngative

Selon la manire de prendre en compte les concidences ngatives, on obtiendra diffrentes valeurs de similarit : Lindice de Russel naccorde aucun poids aux concidences ngatives. Cest donc le nombre de concidences positives divis par le nombre de comparaisons Lindice de Jaccard consiste donner un poids moins important aux concidences ngatives quaux positives. Cest donc le nombre de concidences positives divis par la diffrence entre le nombre de comparaisons et le nombre de concidences ngatives. Lindice de Sokal donne le mme poids aux concidences ngatives et positives. Nombre de concidence positives et ngatives divis par le nombre de comparaisons. Le choix du bon indice de concidence ne peut seffectuer quaprs une analyse des variables de comparaison et une tude de la distribution des valeurs.

7 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Un exemple : comparons la composition de trois desserts selon leur composition


Barre de crales Oui Non Non Non Non Oui Oui Oui Non Non Crme dessert Non Non Oui Non Oui Oui Oui Non Non Non Gteau de Riz Oui Oui Non Oui Oui Non Oui Oui Oui Oui

Chocolat Beurre Liquide Parfum mandarine Emballage mtal Mini-dose Sucre Riz Edulcorant Colorant

Matrice de Concidence
Barre de crales Oui Non 2 2 2 4 3 5 2 0

Crme dessert Gteau de Riz

Oui Non Oui Non

Indices de similarit :
Indice Formule Concidences positives / Nombre de comparaisons Concidences positives / (Nombre de comparaisonsconcidences ngatives) Concidences positives et ngatives / Nombre de comparaisons Barre de Crale / Barre de Crales Crme dessert / Gteau de Riz 20% 30% Conclusion Gteau de riz proche de barre de crales Crme dessert proche de barre de crales Crme dessert proche de barre de crales

Russel

Jaccard

33%

30%

Sokal

60%

30%

Dans cet exemple, on voit que le choix de lindice de similarit a une importance capitale car la conclusion dpendra de lindice choisi.

Similarit sur variables quelconques


Il sagit de construire un indice composite de toutes les similarits sur diffrents critres :

la similarit sur variables dichotomique est gale 1 si les deux objets prsentent le mme critre la similarit sur les variables qualitatives est gale 1 si les objets prsentent la mme caractristique la similarit sur les variables quantitatives mesure lcart entre les deux objets de manire relative par rapport ltendue de la distribution de la variable.

Exemple de similarit sur variables quantitatives

8 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Prix

Produit A 1300

Produit B 1500

Produit C 1800

Produit D 1600

Etendue de la distribution : Cest lcat entre la valeur maximale et la valeur minimale, donc ici elle est gale (1800-1300)=500 La Similarit entre A et B sera gale au complment 1 de la valeur absolue de lcart entre A et B, divis par ltendue. Soit ici : = 1 (abs(1500-1300)/500) = 0,6 On voit aisment que deux produits qui ont un mme prix auront une similarit=1 et les deux extrmes auront une similarit=0.

La notion de distance
Cette notion est trs utilise dans les analyses multidimensionnelles et notamment dans les techniques de classification. La notion de distance est le complment la notion de similarit. Deux objets similaires ont en effet une distance nulle et une distance maximale spare deux objets diffrents.

La notion de distance
Sil existe plusieurs faons de calculer des distances, lune des plus utilises est la distance euclidienne. La distance euclidienne se dfinie dans R
n

de la faon suivante :

d : R n xR n R +
( x, y) a d( x, y ) =

(y
n i=1

xi )2

Les diffrents types de distances : Distances euclidiennes gnrales : ce sont les distances les plus classiques, elles vrifient: dM2(wi,wi) =t(xi - xi)M (xi - xi) o M est une matrice symtrique dfinie positive. On les nomme galement distances quadratiques ou mtriques. Nous listons quelques cas particuliers : distance euclidienne simple : cest le cas o M=1 : d2(wi,wi) = pj=1(xij - xij)2 (Cest le cas prcdent) distance de Mahalanobis : elle se rencontre frquemment en analyse des donnes et surtout 2 t -1 en analyse discriminante. Son expression analytique est la suivante : d (wi,wi) = (xi - xi)V (xi xi) o V est la matrice de variance-covariance. distance du 2 : la distance du chi2 (lire qui deux ) est importante en analyse des donnes. Elle est particulirement bien adapte aux tableaux de contingence. Elle est utilise en analyse factorielle des correspondances. Rappelons quelle sexprime ainsi : d2(wi,wi) = pj=1 1/x.j (xij/xi. xij/xi'.)2 o x.j=ni=1 xij et xi.= pj=1xij.

La notion de variance et les techniques de typologie


Pour mesurer le degr dhomognit dune population, certaines techniques utilisent la notion de variance. Considrons les notes en math et en franais obtenues par des lves dune classe :

9 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Maths Elve 1 Elve 2 Elve 3 Elve 4 Elve 5 Elve 6 Elve 7 Moyenne 3 4 6 11 16 18 19 11

Franais 7 8 9 11 13 14 15 11

La variance des notes se calcule en calculant les carts par rapport la moyenne, en levant ces carts au carr et en divisant par le nombre dobservations. La formule de la variance est :

V=

1 n xi x n i=1

On peut apprhender la variance comme tant une surface. Plus elle est importante, plus la distribution sloigne de la moyenne. Si on considre cette surface comme tant un carr, la racine carre de la variance reprsentera un cot de ce carr. Ce sera lcart-type qui sera lui aussi une mesure de la dispersion autour de la moyenne. Dans lexemple, la variance des notes de maths est de 39,43, celles des notes de franais de 8,28. De mme, lcart type des notes de maths est de 6,27 et celui des notes de franais de 2,87. Ainsi, le professeur de math construit une chelle de diffrenciation plus importante que le professeur de franais. Comme la distance euclidienne, la variance permet de dcouper une population en sous ensembles homognes.
20 18 16 Notes de Franais 14 12 10 8 6 4 2 0 0 5 10 Notes de maths 15 20

On peut envisager lalgorithme suivant : La variable maths possdant la variance la plus forte, on dcoupe la population selon la note de math. On cre les groupes suivants : Groupe 1 : lves 1,2 et 3 , Groupe 2 : lves 4,5,6 et 7

10 / 11

Analyse des donnes

Module 1 : Prsentation de lanalyse de donnes

M1

Le centre de gravit du nuage total est le point moyen (11,11) Le centre de gravit du groupe 1 est gal aux moyennes en math et franais des trois individus de ce groupe. Idem pour le groupe 2 La variance totale du nuage se calcule comme le carr de la distance entre lensemble des points et le centre de gravit. Ce qui donne (thorme de dcomposition de la variance) : La variance du groupe 1 correspond aux carts entre les points du groupe 1 et le centre de gravit du groupe 1. De mme, la variance du groupe 2 correspond aux carts entre les points du groupe 2 et le centre de gravit du groupe 2 La variance intraclasse aussi appele variance rsiduelle est une moyenne des variances lintrieur des groupes La variance interclasse correspond aux carts entre les centres de gravit des groupes 1 et 2 et le centre de gravit de lensemble des points. On lappelle galement variance explique (par la rpartition en groupe). Une bonne typologie (ou segmentation) se juge sur la variance intraclasse (plus elle est faible, plus les points dun groupe sont proches) et sur la variance interclasse (plus elle est forte, plus les groupes sont loigns). Elle aura donc un ratio variance interclasse/ variance intraclasse maximal.

11 / 11

Vous aimerez peut-être aussi