Vous êtes sur la page 1sur 29

Mohamed AZMI Yassine_azmi@yahoo.

fr 2011/2012

Lanalyse de donnes
Le principe consiste synthtiser, structurer linformation contenue dans des donnes multidimensionnelles (n individus, p variables). Lanalyse de donnes se base sur deux groupes de mthodes mthodes de classication : rduire la taille de lensemble des individus en formant des groupes homognes . mthodes factorielles : rduire le nombre de variables en les rsumant par un petit nombre de composantes synthtiques. Deux types de mthodes factorielles analyse en composantes principales : variables numriques . analyse des correspondances : variables qualitatives.

Mthodes couvertes par le cours


analyse en composantes principales (ACP) ; analyse (factorielle) des correspondances (AFC) ; Mthodes de classification. Analyse discriminante

Terminologie
La statistique est une mthode scientifique dont lobjet est de recueillir, dorganiser, de rsumer et danalyser les donnes dune enqute, dune tude ou dune exprience, aussi bien que de tirer des conclusions et de prendre les dcisions qui simposent partir des analyses effectues. Ensemble d'individus dfinis par une proprit commune donne. Exp : si lon veut tudier la dure de vie des ampoules lectriques fabriques par une compagnie, la population considre est lensemble de toutes les ampoules fabriques par cette compagnie. Sous-ensemble de la population. Exp : pour tablir la dure de vie des ampoules lectriques produites par une machine, on peut prlever au hasard un certain nombre dampoules - un chantillon- parmi toutes les celles produites par cette machine.

Statistique

Population

Echantillon

Terminologie
Individu ou unit statistique La taille
Chaque lment de la population ou de lchantillon. Exp : dans lexemple prcdant, chaque ampoule constitue un individu ou une unit statistique. Reprsente le nombre dindividus dun chantillon ou dune population. Elle est symbolise par n dans le cas dun chantillon et par N dans le cas dune population. Cest laspect particulier que lon dsire tudier. Exp : concernant un groupe de personnes, on peut sintresser leur age, leur sexe leur taille Les diffrentes manires dtre que peut prsenter une variable. Exp 1 : le sexe est un caractere qui presente deux modalits : feminin ou masculin Exp 2 : quant au nombre denfants par famille, les modalits de ce caractere peuvent tre 0,1, 2,3,20.

Variable

Les modalits

Terminologie
Echantillon

Population

Individu

Taille de lchantillon =3

Terminologie

Variables statistiques
Variables qualitatives Variables quantitatives Variables continues

Variables discrtes

Terminologie

Variable qualitative

Ses modalits ne sexpriment pas par un nombre Exp : la religion, le sexe, lopinion Ses modalits sont numriques. Lensemble des valeurs que peut prendre le caractre est fini ou dnombrable. Le plus souvent, ces valeurs sont entires. Exp :le nombre denfant dans une famille, le nombre de tlviseurs par foyer . Ses modalits sont numriques. Le caractre peut prendre thoriquement nimporte quelle valeur dans un intervalle donn de nombres rels. Exp : la taille dun individu, le poids

Variable quantitative discrte

Variable quantitative continue

La covariance
la covariance est un nombre permettant d'valuer le sens de variation de deux variables et, ainsi, de qualifier l'indpendance de ces variables. Si deux variables sont indpendantes alors leur covariance est nulle, mais la rciproque est fausse. L'unit de mesure de la covariance cov(X,Y) est le produit des units des variables alatoires X et Y et sa valeur est comprise dans

Coefficient de corrlation linaire:


Le coefficient de corrlation linaire a pour objet de mesurer l'intensit de la liaison linaire entre deux variables X et Y :

cov (x , y ) r= x . y
Le coefficient de corrlation linaire est une mesure de dpendance linaire sans unit et prend ses valeurs dans [ 1 ; 1 ]

cov (x , y ) r= = 0 ,6 x . y
Alors 60% des variations de X (resp. Y) sont contrles par Y (resp. X)

Objectifs et aspect thorique de l ACP


Lanalyse en composantes principales a surtout trois objectifs : Etudier les interrelations entre un assez grand nombre de variables . A partir de cette tude, regrouper ces variables dans des groupes limits appels facteurs ou composantes . Etablir entre ces groupes de variables une hirarchie base essentiellement sur la valeur explicative de chacun deux .

En bref, lanalyse en composantes principales considre quatre types de relations : 1. les relations des variables entre elles ; 2. les relations des variables aux facteurs ; 3. les relations entre les variables dun mme facteur ; 4. les relations entre les diffrents facteurs;

Quantifier la variabilit contenue dans un tableau de donnes

Projeter sur un plan un tableau de donnes j dimensions

Dans un tableau de donnes j variables, les individus se trouvent dans un espace j dimensions.

Lobjectif de l ACP est de reprsenter sous forme graphique lessentiel de linformation contenue dans un tableau de donnes quantitatif.

Reprsentation graphique

Au plan pratique, lanalyse en composantes principales essaie de rpondre des questions simples. EXEMPLE par exemple, au sujet dune marque de voiture, parmi les qualits suivantes : le prix, la vitesse, le look, la scurit, le confort. lesquelles sont les plus importantes ? On pose ces questions un chantillon de clients possibles , ils doivent noter chacune de ces qualits de 1 10. o 1 = Pas du tout important. 10 = Trs important.

On aura donc les relations suivantes

On voit que les variables sont relies tous les facteurs. LACP permettra, par exemple, darriver aux rsultats suivants

Dans la publicit, les qualits de scurit et de confort sont les arguments les plus importants utiliser pour maximiser les ventes dune marque donne .

Dans le facteur I, la scurit est juge plus importante que le confort. Dans le facteur II, il y a aussi une gradation, un ordre hirarchique : le prix, la vitesse, le look.

Lanalyse en composantes principales, dans cet exemple, a bien rempli son rle : Rduire les donnes . Donner une certaine explication aux choix effectus par les rpondants.

Lanalyse en composantes principales doit respecter certaines contraintes le nombre des variables doit tre suffisant (cinq variables ou plus)

la forme des rponses aux questions (les items) doit tre la mme (par exemple, cinq choix de rponse), dans le cas contraire, les variables doivent tre rduites et normalises On doit avoir dix fois plus de cas quil y a de variables impliques ,par exemple 10 variables fois 10 cas donnent une taille n gale 100.

Prsentation lmentaire de lACP

Statistiques lmentaires

Coefficients de corrlations

La matrice Var-Covar

Linertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3

Les valeurs propres de la matrice Var-Covar

Les valeurs propres sont les variances des composantes principales correspondant La somme des 4 valeurs propres est 40,3

Le nuage de points en dim 4 est toujours le mme (variables initiales ou composantes principales) et sa dispersion globale na pas change. Cest la rpartition de cette dispersion selon les nouvelles variables (composantes principales) qui se trouve modifie. Les deux premires composantes principales restituent elles seules la quasi-totalit de la dispersion du nuage, ce qui permet de ngliger les deux autres. Cest ainsi que lobjectif (rsum pertinent des donnes en petite dim) est atteint.

Rsultats sur les variables

Il sagit dun axe dopposition entre disciplines scientifiques et disciplines littraire Surtout marqu par lopposition entre le franais et les maths. Cette interprtation sera prcise avec les graphiques et tableaux relatifs aux individus

On peut voir que laxe 1 reprsente le rsultat de lensemble des lves. Par ailleurs, llve le plus bas sur le graphique avec une coordonne leve sur le deuxime axe principal est Pier dont les rsultats sont les plus contrasts en faveur des disciplines littraires ( 14 et 11,5 contre 7 et 5,5). Cest le contraire pour Andr qui obtient la moyenne dans les disciplines scientifiques mais des rsultats trs faibles dans les disciplines littraires. On note que Mon et Alan ont un scores voisin de zero sur le deuxime axe car ils ont des rsultats trs homognes dans les quatre disciplines