M1
Lanalyse des donnes a pour but de fournir grce lordinateur un outil permettant dapprhender le contenu de tableaux de taille importante laide de reprsentations accessibles par lutilisateur , Edwin Diday. Lanalyse des donnes cest aujourdhui lexpression consacre pour dsigner les analyses statistiques descriptives multidimensionnelles Lanalyse des donnes rassemble un groupe de techniques aux fondements mathmatiques qui permet dapprhender la structure de linformation contenue dans un espace plusieurs dimensions. Linformation, cest la position relative des points dans lespace multidimensionnel. Lanalyse des donnes est ralisable lorsquil est possible de rduire lespace multidimensionnel (o linformation nest pas lisible) en un espace deux ou trois dimensions (o linformation est lisible), de telle sorte que cet espace rduit conserve une part importante de linformation qui tait contenue dans lespace multidimensionnel dorigine. Les espaces multidimensionnels ont pour origine des tableaux statistiques de donnes de toute nature mais o les dimensions des lignes et des colonnes sont importantes. Ce sont ces lignes et ces colonnes qui constituent les dimensions des espaces et les points qui forment les nuages informationnels. Lanalyse des donnes est utilise par la plupart des sciences appliques : les psychologues, les juristes, les historiens, les conomistes, les gestionnaires Lanalyse des donnes a ses premiers dveloppements mathmatiques au dbut du sicle prcdent (1905). Elle a cependant connu un essor sans prcdent dans les annes 70 et 80, grce lamlioration des instruments de calcul et au dveloppement de la micro-informatique. Sous lexpression gnrique de lanalyse des donnes, on rassemble deux grandes techniques : les analyses factorielles : ces mthodes doivent leur nom aux nouveaux axes de lespace que lon peut rduire, qui portent le nom daxes principaux, mais aussi de facteurs. Les techniques de classification automatique : ce sont des algorithmes informatiques automatiques capables de dresser des typologies, des regroupement de points, bref deffectuer des classifications.
2 / 11
M1
Le caractre qualitatif est non mesurable. Il est qualifi par des modalits. On considre quil existe deux types de modalits : des modalits quon peut classer (ex : petit, moyen, grand), des modalits o le classement est indiffrent (ex yeux bleus, verts). Caractre
Quantitatif (variable)
Qualitatif
Continu R
Discret Z, N Ordinales
modalits
nominales
Classes
intervalles
Frquemment, les variables quantitatives sont transformes en classes (pour le cas continu) ou en intervalles (pour le cas discret). On considre alors que ces classes ou intervalles sont les modalits dune variable qualitative ordinale. On constate alors que dans la plupart des tableaux, on ne dispose que dun seul type de caractre : le caractre qualitatif, nominal ou ordinal. Dans la suite du cours, lappellation caractre ne sera pas retenue. Comme dans la plupart des manuels, on retiendra le terme gnrique de variables. Les diffrents caractres (variables) que lon vient de dfinir permettent dlaborer des tableaux diffrents et cest cette diffrence qui, son tour, dfinit les mthodes danalyse de donnes. On considre dans la pratique quatre tableaux de donnes sur lesquels sappliquent des mthodes danalyses factorielles diffrentes. le tableau de variables (caractres) quantitatives : Variables
x1
1 individus i N
xi
xn
xij
La mthode danalyse factorielle qui permet de traiter ce tableau porte le nom danalyse en composantes principales : ACP.
3 / 11
M1
nij
Les modalits doivent tre exhaustives. (tous les M individus sont renseigns par les caractres X et Y) et exclusives les unes par rapport aux autres. Cest la rpartition de M individus selon les modalits des caractres X et Y. La mthode danalyse factorielle qui permet de traiter ce tableau porte le nom danalyse factorielle des correspondances (AFC). les tableaux denqutes ou de sondages : 1 1 Individus i N Les rponses des N individus aux questions sont codes en affectant un chiffre aux diverses possibilits de rponses. Ces codes constituent pour une question le nombre de ses modalits. Le tableau cod est alors transform en un tableau disjonctif complet. C'est--dire un tableau qui ne prsente que des 0 ou des 1. Le chiffre 1 est donn la modalit possde par lindividu. On applique ce tableau une AFC et la mthode sappelle analyse factorielle des correspondances multiples (AFCM) Exemple :
Codification (pour la saisie des rponses)
Questions .n
Tableau disjonctif
Homme Femme Franais Etranger Yeux bleus Marron Noir
1 2 3 4 5 6 N
Nationnali Couleur Sexe t Yeux homme Franais Bleu femme Etranger Marron femme Etranger Noir homme Etranger Bleu femme Franais Marron homme Franais Noir femme Franais Bleu
Sexe
Nationnalit
Couleur Yeux
1 2 2 1 2 1 2
1 2 2 2 1 1 2
1 2 3 1 2 3 1
1 0 0 1 0 1 0
0 1 1 0 1 0 1
1 0 0 0 1 1 1
0 1 1 1 0 0 0
1 0 0 1 0 0 1
0 1 0 0 1 0 0
0 0 1 0 0 1 0
Individus
les tableaux quantitatifs o les individus sont regroups par paquet en fonction dune variable qualitative :
4 / 11
M1
x1
1 individus i N
xi
xn
Variable qualitative
q1
qr
La mthode factorielle applique ce tableau porte le nom danalyse factorielle discriminante (note AFD)
Les calculs de lanalyse de donnes ne se font jamais la main. Les logiciels pour lutiliser sont trs nombreux et lon peut les segmenter selon plusieurs types : les logiciels de traitement denqute (Le Sphinx, ethnos, Question, ). Bien que leur spcialit soit le traitement de questionnaires, ils intgrent quelques mthodes danalyses factorielles. Les sorties sont relativement sommaires et les options disponibles sont limites (pas de rotation des axes, ) les logiciels botes outils (XLSTAT, Statbox). Ils permettent de raliser diverses analyses factorielles (ACP, AFC, ACM), quelques techniques de classification (Classification hirarchique, K moyennes) ainsi que les techniques de prvision classiques. Les donnes sont gres partir du logiciel Microsoft Excel et les sorties seffectuent dans des feuilles de calculs. Globalement, ils offrent un bon rapport qualit/prix Les logiciels de statistique (SPSS, SPAD, SAS, ). Conus pour manipuler et analyser de grands tableaux de donnes, ils sont trs complets sur le plan des mthodes prsentes et sur les options disponibles. Lutilisation est plus complexe et ncessite parfois plusieurs journes (voire plusieurs mois) de formation. Leur prix en fait un outil rserv aux cabinets statistiques ou aux directions statistiques de grandes entreprises.
5 / 11
M1
Caractristiques Elles peuvent prendre deux tats (exemple vrai ou faux) Les diffrentes catgories ne contiennent pas de notions dordre (exemple : couleur des yeux) Les diffrentes catgories peuvent tre classes (ex classes dges, chelles de Lickert) Elles peuvent prendre des valeurs numriques sur lesquelles des calculs, tels que la moyenne peuvent tre effectus.
Catgoriques non ordonnes ou qualitatives non ordonnes Quantitatives Catgoriques ordonnes qualitatives ordonnes Continues ou
La notion dassociation
Les associations sont des critres permettant de regrouper des variables. Elles se mesurent diffremment selon que lon sintresse des variables quantitatives ou qualitatives.
cov( x, y ) avec : x y
pi = 1, n le
n i=1
nombre dobservations.
En gnral, i { 1,....n} pi =
1 . Cest le cas le plus classique, tous les individus ont le mme n 1 n poids. La formule de la moyenne devient alors : x = x i et n i=1 cov( x, y ) = 1 n ( x i x )( y i y ) . n i=1
La rgression La rgression permet danalyser la manire dont une variable (dite explique) est affecte par les valeurs dune ou plusieurs autres variables (dites explicatives). Exemple : y = ax + b La mthode des MCO (Moindres Carrs Ordinaires), par exemple, permet de calculer les paramtres a et b en fonction des observations x i et y i :
6 / 11
M1
= a
cov( x, y ) = xa y et b V( x )
Principe du test : il permet de tester lexistence ou non dune relation entre deux variables quelconques. Il repose sur une comparaison de la frquence de distribution de ces variables une distribution thorique. Il consiste calculer ( une table ou tabul)
2 2
Si le calcul est suprieur au tabul alors il existe une relation entre les deux variables.
2 2
La notion de similarit
Similarit sur des variables dichotomiques
On dit que deux objets A et B, dcrits par p attributs sont similaires, si le maximum dattributs sur les p attributs sont identiques. Le nombre de points communs (ou concidences) permet de construire une mesure quantitative de la similarit entre des objets. Il existe deux types de concidences : Valeur de lattribut A Oui Oui Non Non Valeur de lattribut A Oui Non Oui Non Concidence Positive Non concidence Non concidence Ngative
Selon la manire de prendre en compte les concidences ngatives, on obtiendra diffrentes valeurs de similarit : Lindice de Russel naccorde aucun poids aux concidences ngatives. Cest donc le nombre de concidences positives divis par le nombre de comparaisons Lindice de Jaccard consiste donner un poids moins important aux concidences ngatives quaux positives. Cest donc le nombre de concidences positives divis par la diffrence entre le nombre de comparaisons et le nombre de concidences ngatives. Lindice de Sokal donne le mme poids aux concidences ngatives et positives. Nombre de concidence positives et ngatives divis par le nombre de comparaisons. Le choix du bon indice de concidence ne peut seffectuer quaprs une analyse des variables de comparaison et une tude de la distribution des valeurs.
7 / 11
M1
Chocolat Beurre Liquide Parfum mandarine Emballage mtal Mini-dose Sucre Riz Edulcorant Colorant
Matrice de Concidence
Barre de crales Oui Non 2 2 2 4 3 5 2 0
Indices de similarit :
Indice Formule Concidences positives / Nombre de comparaisons Concidences positives / (Nombre de comparaisonsconcidences ngatives) Concidences positives et ngatives / Nombre de comparaisons Barre de Crale / Barre de Crales Crme dessert / Gteau de Riz 20% 30% Conclusion Gteau de riz proche de barre de crales Crme dessert proche de barre de crales Crme dessert proche de barre de crales
Russel
Jaccard
33%
30%
Sokal
60%
30%
Dans cet exemple, on voit que le choix de lindice de similarit a une importance capitale car la conclusion dpendra de lindice choisi.
la similarit sur variables dichotomique est gale 1 si les deux objets prsentent le mme critre la similarit sur les variables qualitatives est gale 1 si les objets prsentent la mme caractristique la similarit sur les variables quantitatives mesure lcart entre les deux objets de manire relative par rapport ltendue de la distribution de la variable.
8 / 11
M1
Prix
Produit A 1300
Produit B 1500
Produit C 1800
Produit D 1600
Etendue de la distribution : Cest lcat entre la valeur maximale et la valeur minimale, donc ici elle est gale (1800-1300)=500 La Similarit entre A et B sera gale au complment 1 de la valeur absolue de lcart entre A et B, divis par ltendue. Soit ici : = 1 (abs(1500-1300)/500) = 0,6 On voit aisment que deux produits qui ont un mme prix auront une similarit=1 et les deux extrmes auront une similarit=0.
La notion de distance
Cette notion est trs utilise dans les analyses multidimensionnelles et notamment dans les techniques de classification. La notion de distance est le complment la notion de similarit. Deux objets similaires ont en effet une distance nulle et une distance maximale spare deux objets diffrents.
La notion de distance
Sil existe plusieurs faons de calculer des distances, lune des plus utilises est la distance euclidienne. La distance euclidienne se dfinie dans R
n
de la faon suivante :
d : R n xR n R +
( x, y) a d( x, y ) =
(y
n i=1
xi )2
Les diffrents types de distances : Distances euclidiennes gnrales : ce sont les distances les plus classiques, elles vrifient: dM2(wi,wi) =t(xi - xi)M (xi - xi) o M est une matrice symtrique dfinie positive. On les nomme galement distances quadratiques ou mtriques. Nous listons quelques cas particuliers : distance euclidienne simple : cest le cas o M=1 : d2(wi,wi) = pj=1(xij - xij)2 (Cest le cas prcdent) distance de Mahalanobis : elle se rencontre frquemment en analyse des donnes et surtout 2 t -1 en analyse discriminante. Son expression analytique est la suivante : d (wi,wi) = (xi - xi)V (xi xi) o V est la matrice de variance-covariance. distance du 2 : la distance du chi2 (lire qui deux ) est importante en analyse des donnes. Elle est particulirement bien adapte aux tableaux de contingence. Elle est utilise en analyse factorielle des correspondances. Rappelons quelle sexprime ainsi : d2(wi,wi) = pj=1 1/x.j (xij/xi. xij/xi'.)2 o x.j=ni=1 xij et xi.= pj=1xij.
9 / 11
M1
Franais 7 8 9 11 13 14 15 11
La variance des notes se calcule en calculant les carts par rapport la moyenne, en levant ces carts au carr et en divisant par le nombre dobservations. La formule de la variance est :
V=
1 n xi x n i=1
On peut apprhender la variance comme tant une surface. Plus elle est importante, plus la distribution sloigne de la moyenne. Si on considre cette surface comme tant un carr, la racine carre de la variance reprsentera un cot de ce carr. Ce sera lcart-type qui sera lui aussi une mesure de la dispersion autour de la moyenne. Dans lexemple, la variance des notes de maths est de 39,43, celles des notes de franais de 8,28. De mme, lcart type des notes de maths est de 6,27 et celui des notes de franais de 2,87. Ainsi, le professeur de math construit une chelle de diffrenciation plus importante que le professeur de franais. Comme la distance euclidienne, la variance permet de dcouper une population en sous ensembles homognes.
20 18 16 Notes de Franais 14 12 10 8 6 4 2 0 0 5 10 Notes de maths 15 20
On peut envisager lalgorithme suivant : La variable maths possdant la variance la plus forte, on dcoupe la population selon la note de math. On cre les groupes suivants : Groupe 1 : lves 1,2 et 3 , Groupe 2 : lves 4,5,6 et 7
10 / 11
M1
Le centre de gravit du nuage total est le point moyen (11,11) Le centre de gravit du groupe 1 est gal aux moyennes en math et franais des trois individus de ce groupe. Idem pour le groupe 2 La variance totale du nuage se calcule comme le carr de la distance entre lensemble des points et le centre de gravit. Ce qui donne (thorme de dcomposition de la variance) : La variance du groupe 1 correspond aux carts entre les points du groupe 1 et le centre de gravit du groupe 1. De mme, la variance du groupe 2 correspond aux carts entre les points du groupe 2 et le centre de gravit du groupe 2 La variance intraclasse aussi appele variance rsiduelle est une moyenne des variances lintrieur des groupes La variance interclasse correspond aux carts entre les centres de gravit des groupes 1 et 2 et le centre de gravit de lensemble des points. On lappelle galement variance explique (par la rpartition en groupe). Une bonne typologie (ou segmentation) se juge sur la variance intraclasse (plus elle est faible, plus les points dun groupe sont proches) et sur la variance interclasse (plus elle est forte, plus les groupes sont loigns). Elle aura donc un ratio variance interclasse/ variance intraclasse maximal.
11 / 11