Vous êtes sur la page 1sur 29
Mohamed AZMI Yassine_azmi@yahoo.fr 2011/2012
Mohamed AZMI
Yassine_azmi@yahoo.fr
2011/2012
L’analyse de données Le principe consiste à synthétiser, structurer l’information contenue dans des données

L’analyse de données

Le principe consiste à synthétiser, structurer l’information contenue dans des données multidimensionnelles (n individus, p variables).

L’analyse de données se base sur deux groupes de méthodes

– méthodes de classification : réduire la taille de l’ensemble des individus en formant des groupes homogènes .

– méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques.

Deux types de méthodes factorielles

– analyse en composantes principales : variables

– analyse des correspondances : variables qualitatives.

numériques .

Méthodes couvertes par le cours – analyse en composantes principales (ACP) ; – analyse (factorielle)

Méthodes couvertes par le cours

– analyse en composantes principales (ACP) ; – analyse (factorielle) des correspondances (AFC) ; – Méthodes de classification. – Analyse discriminante

Terminologie Statistique • La statistique est une méthode scientifique dont l’objet est de recueillir,
Terminologie
Statistique
• La statistique est une méthode scientifique dont l’objet est
de recueillir, d’organiser, de résumer et d’analyser les
données d’une enquête, d’une étude ou d’une expérience,
aussi bien que de tirer des conclusions et de prendre les
décisions qui s’imposent à partir des analyses effectuées.
Ensemble d'individus définis par une propriété commune
donnée.
Population
• Exp : si l’on veut étudier la durée de vie des ampoules
électriques fabriquées par une compagnie, la population
considérée est l’ensemble de toutes les ampoules
fabriquées par cette compagnie.
• Sous-ensemble de la population.
Echantillon
• Exp : pour établir la durée de vie des ampoules électriques
produites par une machine, on peut prélever au hasard un
certain nombre d’ampoules - un échantillon- parmi toutes
les celles produites par cette machine.
Terminologie Individu ou unité statistique • Chaque élément de la population ou de l’échantillon. •
Terminologie
Individu ou
unité
statistique
• Chaque élément de la population ou de l’échantillon.
• Exp : dans l’exemple précédant, chaque ampoule constitue
un individu ou une unité statistique.
La taille
• Représente le nombre d’individus d’un échantillon ou
d’une population. Elle est symbolisée par « n » dans le cas
d’un échantillon et par « N » dans le cas d’une population.
• C’est l’aspect particulier que l’on désire étudier.
Variable
• Exp : concernant un groupe de personnes, on peut
s’intéresser à leur age, leur sexe leur taille…
• Les différentes manières d’être que peut présenter une
variable.
Les
• Exp 1 : le sexe est un caractere qui presente deux modalités :
modalités
feminin ou masculin
• Exp 2 : quant au nombre d’enfants par famille, les
modalités de ce caractere peuvent être 0,1, 2,3…,20.
Terminologie
Terminologie
Echantillon Population Taille de l’échantillon =3 Individu
Echantillon
Population
Taille de
l’échantillon
=3
Individu
Terminologie
Terminologie
Variables statistiques Variables qualitatives Variables quantitatives Variables discrètes Variables continues
Variables statistiques
Variables qualitatives
Variables quantitatives
Variables discrètes
Variables continues
Terminologie
Terminologie
Variable • Ses modalités ne s’expriment pas par un nombre qualitative • Exp : la
Variable
• Ses modalités ne s’expriment pas par un nombre
qualitative
• Exp : la religion, le sexe, l’opinion…
• Ses modalités sont numériques.
Variable
quantitative
• L’ensemble des valeurs que peut prendre le caractère est
fini ou dénombrable. Le plus souvent, ces valeurs sont
entières.
discrète
• Exp :le nombre d’enfant dans une famille, le nombre de
téléviseurs par foyer .
• Ses modalités sont numériques. Variable quantitative • Le caractère peut prendre théoriquement n’importe
• Ses modalités sont numériques.
Variable
quantitative
• Le caractère peut prendre théoriquement n’importe
quelle valeur dans un intervalle donné de nombres réels.
continue
• Exp : la taille d’un individu, le poids…
La covariance la covariance est un nombre permettant d'évaluer le sens de variation de deux

La covariance

la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et, ainsi, de qualifier l'indépendance de ces variables.

Si deux variables sont indépendantes alors leur covariance est nulle, mais la réciproque est fausse.

L'unité de mesure de la covariance cov(X,Y) est le produit des unités des variables aléatoires X et Y et sa valeur est comprise dans

la covariance cov( X , Y ) est le produit des unités des variables aléatoires X
la covariance cov( X , Y ) est le produit des unités des variables aléatoires X
Coefficient de corrélation linéaire : Le coefficient de corrélation linéaire a pour objet de mesurer

Coefficient de corrélation linéaire:

Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre deux variables X et Y :

r =

cov

(x ,

y )

x

.

y

Le coefficient de corrélation linéaire est une mesure de dépendance linéaire sans unité et prend ses valeurs dans [ − 1 ; 1 ]

r = cov ( x , y ) x . y = 0,6 Alors 60%

r =

cov

(

x

,

y

)

x

.

y

= 0,6

Alors 60% des variations de X (resp. Y) sont contrôlées par Y (resp. X)

Objectifs et aspect théorique de l’ ACP L’analyse en composantes principales a surtout trois objectifs

Objectifs et aspect théorique de l’ ACP

L’analyse en composantes principales a surtout trois objectifs :

Etudier les interrelations entre un assez grand nombre de variables .

A partir de cette étude, regrouper ces variables dans des groupes limités appelés facteurs ou composantes .

Etablir entre ces groupes de variables une hiérarchie basée essentiellement sur la valeur explicative de chacun d’eux .

En bref, l’analyse en composantes principales considère quatre types de relations : 1. les relations

En bref, l’analyse en composantes principales considère quatre types de relations :

1. les relations des variables entre elles ;

2. les relations des variables aux facteurs ;

3. les relations entre les variables d’un même facteur ;

4. les relations entre les différents facteurs;

Quantifier la variabilité contenue dans un tableau de données

Quantifier la variabilité contenue dans un tableau de données

Quantifier la variabilité contenue dans un tableau de données
Projeter sur un plan un tableau de données à j dimensions Dans un tableau de

Projeter sur un plan un tableau de données à j dimensions

Dans un tableau de données à j variables, les individus se trouvent dans un espace à j dimensions.

L’objectif de l’ ACP est de représenter sous forme graphique l’essentiel de l’information contenue dans un tableau de données quantitatif.

Représentation graphique

Représentation graphique

Représentation graphique
Au plan pratique, l’analyse en composantes principales essaie de répondre à des questions simples. EXEMPLE

Au plan pratique, l’analyse en composantes principales essaie de répondre à des questions simples.

EXEMPLE par exemple, au sujet d’une marque de voiture, parmi les qualités suivantes : le prix, la vitesse, le look, la sécurité, le confort. lesquelles sont les plus importantes ?

On pose ces questions à un échantillon de clients possibles , ils doivent noter chacune de ces qualités de 1 à 10.

1 = Pas du tout important. 10 = Très important.

On aura donc les relations suivantes On voit que les variables sont reliées à tous

On aura donc les relations suivantes

On aura donc les relations suivantes On voit que les variables sont reliées à tous les

On voit que les variables sont reliées à tous les facteurs. L’ACP permettra, par exemple, d’arriver aux résultats suivants

que les variables sont reliées à tous les facteurs. L’ACP permettra, par exemple, d’arriver aux résultats
Dans la publicité, les qualités de sécurité et de confort sont les arguments les plus

Dans la publicité, les qualités de sécurité et de confort sont les arguments les plus importants à utiliser pour maximiser les ventes d’une marque donnée .

Dans le facteur I, la sécurité est jugée plus importante que le confort. Dans le facteur II, il y a aussi une gradation, un ordre hiérarchique : le prix, la vitesse, le look.

L’analyse en composantes principales, dans cet exemple, a bien rempli son rôle :

Réduire les données .

Donner une certaine explication aux choix effectués par les répondants.

L’analyse en composantes principales doit respecter certaines contraintes : • le nombre des variables doit

L’analyse en composantes principales doit respecter certaines contraintes

:

• le nombre des variables doit être suffisant (cinq variables ou plus)

• la forme des réponses aux questions (les items) doit être la même (par exemple, cinq choix de réponse), dans le cas contraire, les variables doivent être réduites et normalisées

• On doit avoir dix fois plus de cas qu’il y a de variables impliquées ,par exemple 10 variables fois 10 cas donnent une taille n égale à 100.

Présentation élémentaire de l’ACP

Présentation élémentaire de l’ACP

Présentation élémentaire de l’ACP
Statistiques élémentaires Coefficients de corrélations

Statistiques élémentaires

Statistiques élémentaires Coefficients de corrélations

Coefficients de corrélations

Statistiques élémentaires Coefficients de corrélations
La matrice Var-Covar L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3 Les valeurs propres de la

La matrice Var-Covar

La matrice Var-Covar L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3 Les valeurs propres de la

L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3

Les valeurs propres de la matrice Var-Covar

= 40,3 Les valeurs propres de la matrice Var-Covar Les valeurs propres sont les variances des

Les valeurs propres sont les variances des composantes principales correspondant La somme des 4 valeurs propres est 40,3

Le nuage de points en dim 4 est toujours le même (variables initiales ou composantes

Le nuage de points en dim 4 est toujours le même (variables initiales ou composantes principales) et sa dispersion globale n’a pas changée. C’est la répartition de cette dispersion selon les nouvelles variables (composantes principales) qui se trouve modifiée.

Les deux premières composantes principales restituent à elles seules la quasi-totalité de la dispersion du nuage, ce qui permet de négliger les deux autres. C’est ainsi que l’objectif (résumé pertinent des données en petite dim) est atteint.

Résultats sur les variables Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines

Résultats sur les variables

Résultats sur les variables Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines

Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines littéraire Surtout marqué par l’opposition entre le français et les maths. Cette interprétation sera précisée avec les graphiques et tableaux relatifs aux individus

On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs,
On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs,
On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs,

On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs, l’élève le « plus bas » sur le graphique avec une coordonnée élevée sur le deuxième axe principal est Pier dont les résultats sont les plus contrastés en faveur des disciplines littéraires ( 14 et 11,5 contre 7 et 5,5). C’est le contraire pour Andr qui obtient la moyenne dans les disciplines scientifiques mais des résultats très faibles dans les disciplines littéraires. On note que Mon et Alan ont un scores voisin de zero sur le deuxième axe car ils ont des résultats très homogènes dans les quatre disciplines