Vous êtes sur la page 1sur 20

29/12/2020

C TRE D’ETUDE ET DE FORMATION –EL OUATIA-


ENUNIVERSITE IBN-ZOHR-
AGADIR

ANALYSE DES DONNEES

PROFESSEUR:
Mr. HICHAM GOUMRHAR

BIBLIOGRAPHIE:

 ALALOUF. S. 1990, « INTRODUCTION A LA STATISTIQUE


APPLIQUEE », WESLEY.

 CLAUSTIAUX J.J, 1994, « L’ANALYSE DE LA VARIANCE »,


BIOMETRIE-PRAXIMETRIE.

 LAFORGE . H . 1989, « ANALYSE MULTIVARIEE », ÉDITION


ÉTUDES VIVANTES. MONTRÉAL.

 PIERRE DAGNELIE, 1981, « ANALYSE STATISTIQUE à


PLUSIEURS VARIABLES », LES PRESSES AGRONOMIQUES DE
GEMBLOUX.

 PALM. R, 1994, « LES METHODES D’ANALYSE FACTORIELLE:


PRINCIPES ET APPLICATIONS », UER DE STATISTIQUE ET
INFORMATIQUE, FACULTES DES SCIENCES AGRONOMIQUES B-
5030, GEMBLOUX.

Plan:
Introduction:
Introduction
Dans une enquête de terrain, une fois les questionnaires sont
Définition et notions de bases remplis, on passe par un ensemble des étapes :

Analyse Multivariée: 1- La saisie des données.

- ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 2- Le contrôle des


- ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 1
29/12/2020

La saisie des données :


Consiste à reporter les codes qui existent sur le questionnaire sur une plateforme informatique sous forme d’une matrice de données (variables/individus ou entreprise) en utilisant un program
Le contrôle des données :
Cette étape consiste à détecter parmi les données saisies celles qui sont erronées pour les corriger ou les supprimer. Cette opération est nommée « épuration des données », elle comporte de

le contrôle de validité.
le contrôle de cohérence.

3. Analyse des données:

L’analyse des données peut faire l’objet :

De deux variables De plusieurs variables


D’une variable (on (on parle d’une (on parle ici d’une
parle d’une analyse
analyse analyse
unidimensionnelle) bidimensionnelle) multidimensionnelles )

3.2 Analyse bidimensionnelle (ou analyse bivariée): c’est


3.1 Analyse unidimensionnelle (ou univariée): consiste l’étude l’étude de la relation entre deux variables.
d’ une seule variable.

2
29/12/2020

3.3. Analyse multidimensionnelle

 Analyse multidimensionnelle (ou plurivariée ou multivariée) :


consiste à étudier la relation entre deux ou plusieurs variables.
 Ce type d’analyse recouvre un ensemble de méthodes statistiques
multidimensionnelles. Ces méthodes permettent une étude globale des
individus et des variables.
Le choix d’une méthode d’analyse des données multidimensionnelle
dépend essentiellement de deux critères:

1. Objectifs de l’analyse : on peut distinguer deux groupes de méthodes:


Méthodes explicatives; méthodes descriptives.
2. La nature de la variable: quantitative ou qualitative (ordinale ou

nominale).

 Les méthodes explicatives: dans ce cas la matrice des données présente


deux ou plusieurs groupes distincts de variables, une ou plusieurs variables
dépendantes et une ou plusieurs variables explicatives, et un seul groupe
d’individus. Ces méthodes tentent d’expliquer une variable dépendante
au moyen (en fonction) d’une ou plusieurs variables explicatives…
…Selon la nature de la variable à expliquer et des variables explicatives, on
distingue plusieurs méthodes (la régression linéaire, l’analyse de la variance,
l’analyse discriminante et l’analyse conjointe).

 Les méthodes descriptives : dans ce cas la matrice des données concerne


un seul groupe de variables et deux ou plusieurs groupes distincts
d’individus. Ces méthodes tentent de fournir une information
synthétisée….Selon la nature des variables, on distingue plusieurs méthodes.
L’analyse en composantes principales, l’analyse factorielle des
correspondances, l’analyse typologique ou classification.

I. L’ANALYSE EN COMPOSANTES PRINCIPALES


3
29/12/2020

1.1. Principes et définition:

L’analyse en composantes principales créée par (Hotelling en 1933) est une méthode descriptive qui a pour but l’analyse des tableaux de données/observations ne comportant à priori aucune

L’objectif de l’ACP est de résumer l’information contenue dans un tableau, constitué souvent d’un nombre élevé de lignes et de colonnes, en quelques représentations graphiques à deux dim

 L’ACP est utilisée dans le cas de plusieurs individus (n individus)


mesurés par rapport à un grand nombre de variables (X1….Xp). Or, ces
variables sont souvent corrélées entre elles et représentent des parts à
peu près égales d’explication des variations observées dans les données
(à variance égale).

 Graphiquement, le nuage de points, représentant les données, s’inscrit


dans un espace à (P) dimensions puisque chaque point représente un
individu mesuré par rapport à X1 , X2 , ,Xp, ce qui est pratiquement
impossible à représenter. En plus la dispersion du nuage de points sur
les différentes dimensions est à peu près égale.

Pour résoudre ce problème, l’ACP effectue une simple rotation


des axes pour obtenir de nouveaux axes appelés composantes

Illustration:
Soit le cas d’un nuage de points pour deux variables X1 et X2  L’Analyse en composantes principales effectue une simple
normales centrées réduites c-à-dire moyenne=0 et Ecart-type = 1). rotation (rotation rigide) des axes X1 et X2 pour obtenir de
nouveaux axes Y1 et Y2 appelés « composantes » qui sont non
corrélées entre elles et à variance ordonnée comme l’indique la
figure ci-dessous (figure 2).

4
29/12/2020
Figure 1 : nuage de points dans un espace à 2 dimensions

ACP

L’analyse en composantes principales (ACP) permet d’obtenir de nouvelles variables, appelées « composantes », qui seront non corrélées entre elles et à variance o

 La matrice de corrélation, et d’autre part, l’indice de


KMO (Kaiser-Meyer-Olkin) et le test de sphéricité de
Bartlett. La matrice de corrélation doit montrer une forte
liaison entre la majorité de nos variables (>0,6). De même
pour notre indice KMO qui doit tendre vers 1 (>0,7) avec
une signification du test de Bartlett qui doit tend vers 0
(<0,05), confirmant ainsi la possibilité de factorisation dans
notre cas.

A partir des variables initiales, l’ACP consiste à calculer des nouvelles


variables, appelées composantes et qui sont des combinaisons linéaires des
1.2. Calculs et interprétation des composantes: variables initiales. Telle que :

On dispose de (n) individus caractérisés par (p) variables quantitatives. Les données se représententC1
sous
= laa11X’1
forme +
d’un tableau appelé matrice
a21X’2+…..+ap1X’p telle des
que données de dimensions
la variance de C1 soit(n x p).
maximale parmi toutes les autres combinaisons linéaires (C2,C3…..Cn) .

Les « P » variables sont le plus souvent de nature différente, c’est la raison pour laquelle les variables seront centrées et réduites pour homogénéiser les unités Xp’=. On remplace les variable
C2 = a12X’1 + a22X’2+…..+ap2X’p telle que C2 est non corrélée avec C1
corrélation (C1,C2)=0, et C2 possède la variance maximale parmi toutes les
combinaisons linéaires qui ne sont pas corrélées avec C1.

C3 = a13X’1 + a23X’2+…..+ap3X’p telle que C3 est non corrélée avec C1 et


C2 corrélation (C2,C3)=0 et (C1,C3)=0, et C3 possède la variance 5
29/12/2020

Remarque: Les composantes sont toujours de moyennes nulles et de variances égales aux valeurs propres ordonnés : λ1 >λ2 >... λp > 0 .

1.3. Les propriétés des composantes: Interprétation des résultats de l’analyse à composantes principales (ACP):

Les composantes calculées, à partir de l’ACP, possèdent un certain nombre de propriétés : L’ACP passe par plusieurs étapes :

Var (Ci) = λi Repérage des observations aberrantes: éliminer les données manquantes ou aberrantes (ou extrêm
Corrélation (Ci ; Cj) = 0
= p ; la somme des valeurs propres correspondent au nombre de variables initiales.
L’analyse de
La valeur propre (ou la variance de la composante) exprimée en pourcentage représente le pourcentage de la
la matrice
variancede corrélation
totale expliquéedes
parvariables initiales:
la composante Ci. l’analyse de la matrice de corrélat
Les variances cumulées exprimées en pourcentage indiquent respectivement le pourcentage de la variance totale expliquée par la première composante, les deux premières composantes, les tro

6
29/12/2020

3. Choix des composantes principales:

Dans la littérature statistique , on trouve plusieurs règles :

 la règle empirique proposée par le statisticien Kaiser en 1960 consiste à


retenir les composantes principales dont la valeur propre correspondante est
supérieure à 1 (λi > 1).

 Selon la règle empirique proposée par Cattell (1966) appelée « test de


Talus » (scree test), on retient les composantes dont les valeurs propres
correspondantes sont au-dessus de la droite joignant les dernières valeurs
propres. Cette règle se base sur le graphique des valeurs propres de la
matrice de corrélation R en fonction de leur rang.

4. Interprétation des axes factoriels: Exemple: cercle de corrélation : jeu des données des cours:

 Dans cette étape, on interprète les axes factoriels en se basant sur le


niveau et le sens de corrélation entre les composantes principales et
les variables initiales. Ces corrélations sont représentées sur un
graphique appelé « cercle de corrélation ».
 On cherche les variables initiales qui sont fortement corrélées avec
les axes, ce qui permet de donner une interprétation aux axes.

7
29/12/2020

Exemple: cercle de corrélation : jeu des données des cours:

EXEMPLE : DIAGRAMME DE DISPERSION

5. Représentation des individus:

Les scores des individus (donnés par l’exercice c’est l’ordre des individus) sur les composantes principales, appelés aussi les coordonnées en composantes « factor scores », peuvent être représ

Étant donné que l’étape précédente détermine le positionnement des variables d’origine par rapport aux axes principaux, cette étape permet de savoir le positionnement des individus par rapport

8
29/12/2020

PROCÉDURES DE L’ACP (SPSS)

Procédures (ACP) sur SPSS (1/2):

Analyse
Factorisation (ou réduction des dimensions) Analyse factorielle
Dans Variables, sélectionner toutes les variables métriques à factoriser.
Dans Caractéristiques, cocher caractéristiques uni variées et coefficients de corrélation.
Dans Extraction, cocher Graphique des valeurs propres et dans nombre de facteurs saisissez 2.
Dans Facteurs, cocher Enregistrer dans des variables.
Dans Rotation, cocher Carte factorielle.
Dans Option, cocher Classement des variables par taille et Supprimer les valeurs absolues inférieures à 0,10 ; ceci permettra de sélectionner les variables les plus importantes et cacher celle

Procédures (ACP) sur SPSS (2/2):

Représentation des individus: diagramme de dispersion:

La procédure SPSS pour élaborer le graphe des individus est la suivante :


ACP
Sélectionner dans le menu Graphes, Diagramme de dispersion. APPLICATION NUMÉRIQUE SUR SPSS
Cliquer sur définir.
Faire glisser la variable REGR Factor Score 1 dans l’axe X et REGR Factor Score 2 dans l’axe Y.
Faire glisser la variable i (avec i = 1…n) vers «étiqueter les observations par » afin d’afficher les numéros correspondants.
Cliquer sur Options et cocher « Afficher le diagramme avec les étiquettes d’observations ».
9
29/12/2020

Exemple : l’étude du comportement bancaire des clients


d’une banque.

 Une agence bancaire réalise une étude visant à mieux connaître la


situation et le comportement de sa clientèle à partir des données
figurant dans ses fichiers informatiques de gestion. Elle a constitué un
échantillon de 50 clients titulaires d’un compte courant appartenant à
des ménages différents. Pour décrire l’échantillon, l’agence a relevé
11 variables quantitatives exprimant leur comportement bancaire :

1. SOLDE : Solde moyen du compte.


2. CHEQUE : Montant moyen des chè ques tiré s lors du dernier
semestre.
3. NB_DEC : Nombre de mois avec dé couvert lors de l’anné e
précé dente.
4. MT_DEC : Montant cumulé des dé couverts lors de l’anné e
précé dente.
5. NB_PR : Nombre de produits de la banque utilisé s en plus du
compte courant.
6. NB_EMP : Nombre d’emprunts divers effectué s lors des cinq
derniè res années.
7. MT_EMP : Montant total des emprunts effectué s lors des cinq
derniè res années.
8. P_VA_D_E : Pourcentage de variation des dé pô ts d’é pargne pour
les douze derniers mois.
9. MT_DEP_E : Montant total des dé pô ts sur les comptes d’é pargne
effectué s lors de l’anné e pré cé dente.
10. MT_RET_E : Montant total des retraits sur les comptes d’é pargne
effectué s lors de l’anné e pré cé dente.
11. P_VA_R_E : Pourcentage de variation des retraits sur les comptes
d’é pargne pour les douze derniers mois.

Les résultats de l’analyse sont:

1. Statistiques descriptives des variables:

10
29/12/2020

2. Matrice de corrélation des variables initiales:

3. Chois des composantes principales:

Graphique des valeurs propres:

Interprétation des axes factoriels : la Qual

11
29/12/2020

La qualité de représentation exprime la part de la variance des variables initiales qui est restituée par les composantes principales retenues. Ainsi les deux composantes principales contri

Les variables pourcentage de variation des retraits sur les comptes d’épargne pour les douze derniers mois, nombre d’emprunts divers effectués lors des cinq dernières années, montant cumu

La matrice des
composantes

La matrice des composantes ou le diagramme des composantes, indiquent les corrélations des variables initiales avec les composantes principales. Ainsi la première composante est fortemen

…elle est corrélée négativement avec Nombre de mois avec découvert lors de l’année précédente et Montant cumulé des découverts lors de l’année précédente.

La deuxième composante est fortement corrélée positivement avec Nombre d’emprunts divers effectués lors des cinq dernières années, Montant total des retraits sur les comptes d’épargne e

12
29/12/2020

Synthèse:

On peut donc conclure que la première composante met en opposition deux catégories de clients de comportements totalement opposé, d’un côté, une catégorie de clients qu’on

…Alors que la deuxième composante principale permet de distinguer une troisième catégorie de clients qu’on peut qualifier d’investisseurs.

Diagramme de dispersion

Le graphe des individus indique que :


-les clients 30 et 27 représentent les plus grands épargnants,
- les clients 10 et 14 sont des grands dépensiers,
- alors que les clients 11 et 46 sont des grands investisseurs.

I. Définition :

L’analyse factorielle des correspondances a pour objectif d’étudier la relation de dépendance (ou de
L’AFC permet de répondre à deux questions :

II. ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)


13
29/12/2020

L’AFC s’applique sur des données qui se présentent sous forme d’un tableau de fréquences (tableau de contingence) à deux entrées (deux caractères). Ces fréquences représentent les éléme

Les lignes et les colonnes représentent les modalités des deux variables étudiées. Le principe de l’AFC est identique à celui de l’ACP, c’est identifier un petit nombre de dimensions afin

II. Interprétation des résultats de l’AFC:

Pour interpréter une analyse factorielle des correspondances (AFC) on passe par trois étapes :

L’analyse du tableau des correspondances


Le choix du nombre de dimensions

Interprétation des dimensions

Analyse du tableau des correspondances:


2.1.Le choix du nombre des dimensions principales:
Il s’agit d’analyser, à partir d’un tableau de contingence (ou de fréquences), les fréquences conditionnelles exprimées en % lignes et % colonnes (appelées également les profils li

Le choix du nombre de dimensions:


….on retient comme dimensions principales les dimensions ayant un cumul de 70%
Le nombre total de dimensions est égal au minimum du nombre de lignes et nombre de colonnes diminué de 1. Le choix du nombre de dimensions principales est basé sur le taux

14
29/12/2020

Exemple : Soit une variable composée de 8 modalités et l’autre variable composée de 5 modalités. Le nombre de dimensions à prendre est donc de 4 dimensions. cinq modalités diminué
Avec H0 : les deux variables sont dépendantes
H1 : les deux variables sont indépendan
aucune relation ent

Dans le tableau « choix du nombre des dimensions », on vérifie la valeur de Khi-deux observée ou encore sa probabilité.

Si la valeur calculée de Khi deux > la valeur théorique (au seuil de signification de (p=5 %) et 28 degré de liberté ddl = 28) ou si la P-value < 0,05

On accepte l’hypothèse nulle H0 de dépendance

Interprétation des dimensions:

L’interprétation des dimensions passe par les étapes suivantes:

Les contributions des lignes et des colonnes aux dimensions : elles représentent, en pourcentage, les parts de chaque modalité dans l’inertie totale des dimensions. Plus cette part est élevé

Qualité de la représentation des lignes et des colonnes dans les sous-espaces constitués des dimensions : elle indique la capacité des dimensions à restituer l’information contenue dans l

3.3. Représentation graphique : Contrairement à l’analyse en composantes principales, où on eff

Explication
Dans ce graphique, la proximité de deux points lignes ou de deux points colonnes traduit la similitu

Qualité de la représentation:
En pratique, on repère en premier lieu les points lignes et les points colonnes qui ont une forte cont

Mesure la part de la quantité d’information de chaque modalité extraite par chaque dimension principales. elle indique la capacité des dimensions à restituer l’informa

15
29/12/2020

(AFC)
Procédures sur SPSS

Procédures sur SPSS (1/2)

La procédure SPSS pour réaliser une AFC est la suivante :

Analyse
Factorisation(ou réduction des dimensions) Analyse des correspondances.

Dans Ligne, glisser la variable correspondant aux lignes du tableau croisé. Cliquer sur définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale (géné

Procédures sur SPSS (2/2)

Dans Colonne, glisser la variable correspondant aux colonnes du tableau croisé.

(AFC)
Cliquer sur définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale (généralement le nombre de modalités) puis cliquez sur mettre à jour puis poursui
Application numérique sur SPSS
Dans Modèles, saisissez le nombre de dimensions à retenir dans dimensions de la solution (souvent 2 ou 3).

Dans Statistiques, cochez profils lignes et profils colonnes. 16


29/12/2020

Application numérique sur SPSS:

On cherche à étudier la fréquence d’achat d’une marque d’un produit d’hygiène en fonction de l’âge du consommateur. On voudrait savoir quelle est la tranche d’âge la plus réceptive à

Un échantillon de 420 personnes a été interrogé. On a effectué un tri croisé entre les différentes classes d’âge des répondants et la variable fréquence d’achat comportant 4 modalités. Les clas
….Les modalités de la variable fréquence d’achat sont: Systématiquement ; Souvent ; Occasionnellement ; Jamais.

Les données ont été saisies sur SPSS en définissant deux variables : la variable âge et la variable fréquence d’achat. Les modalités de la variable âge sont codées de 1 à 6, ce

Le but de l’analyse (AFC): l’analyse factorielle des correspondances a été effectuée dans le but de savoir si la fréquence d’achat est liée à l’âge du consommateur, et dans

1. Analyse du tableau des correspondances: 1.1. Profils ligne:

Ce tableau présente le pourcentage que représente l’effectif du tableau des correspondances par rapport
Chaque case du tableau représente le nombre d’individus présentant les deux modalités considérées. Dans la première case par exemple, 7 individus sont âgés de moins de 20 ans et décla 17
29/12/2020

1.2. Profils colonnes:

Ce tableau présente le pourcentage que représente l’effectif du tableau des


correspondances par rapport au total de la colonne. Ainsi 15,2 % des
individus achetant systématiquement la marque, sont âgés de moins de 20
ans.
L’analyse de cette première colonne montre que l’achat systématique de la
marque est surtout un comportement de la tranche d’âge 35 à moins de 45

2. Le choix du nombre de dimensions :

Khi deux (40,887) > Khi deux théorique (24,996) pour 15 ddl. On conclut
donc que l’âge des consommateurs a une influence sur la fréquence d’achat de
la marque. (p_value < 0,05).

Le choix du nombre de dimensions principales est basé e sur le taux


d’inertie qui quantifie la part d’information extraite par chaque
dimension. Les deux dimensions contribuent ensemble pour 81,8 %

Table statistique KHI-DEUX (X²),

3. Interprétation des dimensions:

On distingue entre deux types de tableaux:

3.1. Les contributions des lignes aux dimensions et qualité de la


représentation des lignes dans les sous-espaces constitués des
dimensions.

3.2. Les contributions des colonnes aux dimensions et qualité de


la représentation des colonnes dans les sous-espaces constitués 18
29/12/2020

3.1. Les contributions des lignes aux dimensions et qualité de la représentation des lignes dans les sous-espaces constitués des dimensions.

Interprétation:

Pour la variable âge, la contribution la plus forte à la dimension 1 est celle de la tranche 60 ans et plus (38,6 %). La dimension 2 quant à elle, résulte de la contribution de la

Les tranches d’âge 45 à moins de 60 ans et 60 ans et plus sont les mieux représentées sur la dimension 1 (respectivement 66,7% et 65,4%), tandis que la dimension 2 représ

Les deux composantes principales sont suffisantes pour synthétiser les variances de la majorité des modalités .

Interprétation :
Pour
3.2. Les contributions des colonnes aux dimensions et qualité de la représentation des colonnes dans leslasous-espaces
variable fréquence d’achat,
constitués la contribution la plus forte à la dimension 1 est celle de l’ach
des dimensions.
%).

La modalité achat systématique est la mieux représentée sur la dimension 1 (95,7%), tandis que

A partir des deux tableaux, on peut confirmer que sur la dimension 1, il y a une certaine corr
19
29/12/2020

4. Représentation graphique: Diagramme de dispersion

Synthèse:

De cette analyse factorielle des correspondances (AFC), on peut affirmer qu’il y a une opposition entre une classe d’âge âgée (60 ans et plus) à laquelle semble être associé un

III. ANALYSE DESCRIMINANTE

20

Vous aimerez peut-être aussi