Vous êtes sur la page 1sur 55

30/11/2022

CENTRE D’ETUDE ET DE FORMATION –EL OUATIA-


UNIVERSITE IBN-ZOHR-
AGADIR

ANALYSE DES DONNEES

PROFESSEUR:
Mr. HICHAM GOUMRHAR

Année Universitaire : 2022-2023

BIBLIOGRAPHIE:

 ALALOUF. S. 1990, « INTRODUCTION A LA STATISTIQUE


APPLIQUEE », WESLEY.

 CLAUSTIAUX J.J, 1994, « L’ANALYSE DE LA VARIANCE »,


BIOMETRIE-PRAXIMETRIE.

 LAFORGE . H . 1989, « ANALYSE MULTIVARIEE », ÉDITION


ÉTUDES VIVANTES. MONTRÉAL.

 PIERRE DAGNELIE, 1981, « ANALYSE STATISTIQUE à


PLUSIEURS VARIABLES », LES PRESSES AGRONOMIQUES DE
GEMBLOUX.

 PALM. R, 1994, « LES METHODES D’ANALYSE FACTORIELLE:


PRINCIPES ET APPLICATIONS », UER DE STATISTIQUE ET
INFORMATIQUE, FACULTES DES SCIENCES AGRONOMIQUES B-
5030, GEMBLOUX.

1
30/11/2022

Plan:

Introduction

Définition et notions de bases

Analyse Multivariée:

- ANALYSE EN COMPOSANTES PRINCIPALES (ACP)


- ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)
- ANALYSE DESCRIMINANTE

Procédures et applications sur SPSS

Introduction:

Dans une enquête de terrain, une fois les questionnaires sont


remplis, on passe par un ensemble des étapes :

1- La saisie des données.

2- Le contrôle des données.

3- L’analyse des données.

2
30/11/2022

1. La saisie des données :


Consiste à reporter les codes qui existent sur le questionnaire sur
une plateforme informatique sous forme d’une matrice de données
(variables/individus ou entreprise) en utilisant un programme
adéquat (par exemple : SPSS- STATA et autres…). Cette opération
nécessite une concentration et un contrôle de la part des
responsables.
2. Le contrôle des données :
Cette étape consiste à détecter parmi les données saisies celles qui
sont erronées pour les corriger ou les supprimer. Cette opération
est nommée « épuration des données », elle comporte deux
étapes :

- le contrôle de validité.
- le contrôle de cohérence.

3. Analyse des données:

L’analyse des données peut faire l’objet :

De deux variables De plusieurs variables


D’une variable (on
(on parle d’une (on parle ici d’une
parle d’une analyse
analyse analyse
unidimensionnelle)
bidimensionnelle) multidimensionnelles)

3
30/11/2022

3.1 Analyse unidimensionnelle (ou univariée): consiste l’étude


d’ une seule variable.

3.2 Analyse bidimensionnelle (ou analyse bivariée): c’est


l’étude de la relation entre deux variables.

4
30/11/2022

3.3. Analyse multidimensionnelle

 Analyse multidimensionnelle (ou plurivariée ou multivariée) :


consiste à étudier la relation entre deux ou plusieurs variables.
 Ce type d’analyse recouvre un ensemble de méthodes statistiques
multidimensionnelles. Ces méthodes permettent une étude globale des
individus et des variables.
Le choix d’une méthode d’analyse des données multidimensionnelle
dépend essentiellement de deux critères:

1. Objectifs de l’analyse : on peut distinguer deux groupes de méthodes:


Méthodes explicatives; méthodes descriptives.
2. La nature de la variable: quantitative ou qualitative (ordinale ou
nominale).

 Les méthodes explicatives: dans ce cas la matrice des données présente


deux ou plusieurs groupes distincts de variables, une ou plusieurs variables
dépendantes et une ou plusieurs variables explicatives, et un seul groupe
d’individus. Ces méthodes tentent d’expliquer une variable dépendante
au moyen (en fonction) d’une ou plusieurs variables explicatives…

…Selon la nature de la variable à expliquer et les variables explicatives, on


distingue plusieurs méthodes (la régression linéaire, l’analyse de la variance,
l’analyse discriminante et l’analyse conjointe).

 Les méthodes descriptives : dans ce cas la matrice des données concerne


un seul groupe de variables et deux ou plusieurs groupes distincts
d’individus. Ces méthodes tentent de fournir une information synthétisée…

.Selon la nature des variables, on distingue plusieurs méthodes. L’analyse en


composantes principales (ACP), l’analyse factorielle des correspondances
(AFC), l’analyse typologique ou de classification.

5
30/11/2022

I. L’ANALYSE EN COMPOSANTES PRINCIPALES


(ACP)

6
30/11/2022

1.1. Principes et définition:

o L’analyse en composantes principales créée par (Hotelling en 1933)


est une méthode descriptive qui a pour but l’analyse des tableaux de
données/observations ne comportant à priori aucune distinction, ni
entre variables, ni entre individus.

o L’objectif de l’ACP est de résumer l’information contenue dans un


tableau, constitué souvent d’un nombre élevé de lignes et de
colonnes, en quelques représentations graphiques à deux dimensions
(appelées composantes principales), plus un certain nombre de
caractéristiques numériques (moyenne, écart type, corrélation…) en
vue de faciliter l’analyse des données.

 L’ACP est utilisée dans le cas de plusieurs individus (n individus)


mesurés par rapport à un grand nombre de variables (X1….Xp). Or, ces
variables sont souvent corrélées entre elles et représentent des parts à
peu près égales d’explication des variations observées dans les données
(à variance égale).

 Graphiquement, le nuage de points, représentant les données, s’inscrit


dans un espace à (P) dimensions puisque chaque point représente un
individu mesuré par rapport à X1 , X2 ,....,Xp, ce qui est pratiquement
impossible à représenter. En plus la dispersion du nuage de points sur
les différentes dimensions est à peu près égale.

Pour résoudre ce problème, l’ACP permet d’obtenir de nouveaux


axes appelés composantes (Ci) qui sont non corrélées et sont à
variance ordonnée.

7
30/11/2022

ACP

L’analyse en composantes principales (ACP) permet d’obtenir de


nouvelles variables, appelées « composantes », qui seront non
corrélées entre elles et à variance ordonnée. Un petit nombre
de ces composantes permettra souvent d’expliquer la plus grande
partie de la variance observée (inertie). Ce petit nombre de ces
composantes sont appelées composantes principales.

LA POSSIBILITÉ DE FACTORISATION

 La matrice de corrélation, et d’autre part, l’indice de KMO


(Kaiser-Meyer-Olkin) et le test de sphéricité de Bartlett
confirme ou infirme la possibilité de factorisation.

La matrice de corrélation doit montrer une forte liaison entre la


majorité de nos variables (>0,6). De même pour notre l’indice KMO
qui doit tendre vers 1 (>0,7) avec une signification du test de Bartlett
qui doit tendre vers 0 (<0,05), confirmant ainsi la possibilité de
factorisation dans notre cas.

8
30/11/2022

1.2. Calculs et interprétation des composantes:

 On dispose de (n) individus caractérisés par (p) variables


quantitatives. Les données se représentent sous la forme d’un tableau
appelé matrice des données de dimensions (n x p).

 Les « P » variables sont le plus souvent de nature différente, c’est la


raison pour laquelle les variables seront centrées et réduites pour
homogénéiser les unités Xp’= . On remplace les variables
initiales par les variables centrées réduites correspondantes,
l’analyse portera donc sur la matrice X des données centrées réduites
(notion de standardisation).

A partir des variables initiales, l’ACP consiste à calculer des nouvelles


variables, appelées composantes et qui sont des combinaisons linéaires des
variables initiales. Telle que :

C1 = a11X’1 + a21X’2+…..+ap1X’p telle que la variance de C1 soit


maximale parmi toutes les autres combinaisons linéaires (C2,C3…..Cn) .

C2 = a12X’1 + a22X’2+…..+ap2X’p telle que C2 est non corrélée avec C1


corrélation (C1,C2)=0, et C2 possède la variance maximale parmi toutes les
combinaisons linéaires qui ne sont pas corrélées avec C1.

C3 = a13X’1 + a23X’2+…..+ap3X’p telle que C3 est non corrélée avec C1 et


C2 corrélation (C2,C3)=0 et (C1,C3)=0, et C3 possède la variance
maximale parmi toutes les combinaisons linéaires qui ne sont pas corrélées
avec les composantes précédentes.

C4 = a14X’1 + a24X’2+…..+ap4X’p telle que C4 est non corrélée avec C3 et


C1 et C2 corrélation (C3,C4)=0 et (C1,C4)=0 et (C2,C4)=0, et C4 possède
la variance maximale parmi toutes les combinaisons linéaires qui ne sont
pas corrélées avec les composantes précédentes.

9
30/11/2022

Remarque: Les composantes sont toujours de


moyennes nulles et de variances égales aux valeurs
propres ordonnés : λ1 >λ2 >... λp > 0 .

Exemple d’une matrice de corrélation

10
30/11/2022

1.3. Les propriétés des composantes: (Ci)

Les composantes calculées, à partir de l’ACP, possèdent un certain


nombre de propriétés :

 Var (Ci) = λi
 Corrélation (Ci ; Cj) = 0
 = p ; la somme des valeurs propres correspondent au nombre
de variables initiales.
 La valeur propre (ou la variance de la composante) exprimée en
pourcentage représente le pourcentage de la variance totale
expliquée par la composante Ci.
 Les variances cumulées exprimées en pourcentage indiquent
respectivement le pourcentage de la variance totale expliquée par la
première composante, les deux premières composantes, les trois
premières composantes…..

3. Interprétation des résultats de l’analyse à composantes


principales (ACP):

L’ACP passe par plusieurs étapes :

1. Repérage des observations aberrantes: éliminer les données


manquantes ou aberrantes (ou extrêmes) car elles influencent sur la
moyenne et la variance de l’ensemble des données et risquent de
biaiser l’analyse (fausser).

2. L’analyse de la matrice de corrélation des variables initiales:


l’analyse de la matrice de corrélation permet d’identifier des
groupes de variables corrélées entre elles. Plus la corrélation est
forte entre les variables, plus l’ACP donnera des axes factoriels
représentatifs des observations et, par conséquent, une forte
représentation de l’information par les axes.

11
30/11/2022

3. Choix des composantes principales:

Dans la littérature statistique , on trouve plusieurs règles :

 la règle empirique proposée par le statisticien Kaiser en 1960 consiste à


retenir les composantes principales dont la valeur propre correspondante est
supérieure à 1 (λi > 1).

 Selon la règle empirique proposée par Cattell (1966) appelée « test de


Talus » (scree test), on retient les composantes dont les valeurs propres
correspondantes sont au-dessus de la droite joignant les dernières valeurs
propres. Cette règle se base sur le graphique des valeurs propres de la
matrice de corrélation R en fonction de leur rang.

12
30/11/2022

4. Interprétation des axes factoriels:

 Dans cette étape, on interprète les axes factoriels en se basant sur le


niveau et le sens de corrélation entre les composantes principales et
les variables initiales. Ces corrélations sont représentées sur un
graphique appelé « cercle de corrélation ».
 On cherche les variables initiales qui sont fortement corrélées avec
les axes, ce qui permet de donner une interprétation aux axes.

Cette étape permet de savoir, parmi les variables d’origine,


celles qui entretiennent une forte corrélation avec les
composantes principales retenues ainsi que le sens de la
corrélation (positif ou négatif).

Exemple: cercle de corrélation : jeu des données des cours :

13
30/11/2022

Exemple de diagramme de composantes

5. Représentation des individus:

 Les scores des individus (donnés par l’exercice c’est l’ordre des
individus) sur les composantes principales, appelés aussi les
coordonnées en composantes « factor scores », peuvent être
représentés graphiquement afin d’établir la part des liens entre
les variables d’origines et les individus.

 Étant donné que l’étape précédente détermine le positionnement


des variables d’origine par rapport aux axes principaux, cette étape
permet de savoir le positionnement des individus par rapport aux
mêmes axes. Ce qui nous permet ainsi de conclure le lien entre les
variables d’origine et les individus pour une bonne analyse.

14
30/11/2022

EXEMPLE : DIAGRAMME DE DISPERSION

PROCÉDURES DE L’ACP
(SPSS)

15
30/11/2022

Procédures (ACP) sur SPSS (1/2):

Analyse
Factorisation (ou réduction des dimensions)
Analyse factorielle
 Dans Variables, sélectionner toutes les variables métriques à
factoriser.
 Dans Caractéristiques, cocher caractéristiques uni-variées et
coefficients de corrélation.
 Dans Extraction, cocher Graphique des valeurs propres et dans
nombre de facteurs saisissez 2.
 Dans Facteurs, cocher Enregistrer dans des variables.
 Dans Rotation, cocher Carte factorielle.
 Dans Option, cocher Classement des variables par taille et
Supprimer les valeurs absolues inférieures à 0,10 ; ceci permettra
de sélectionner les variables les plus importantes et cacher celles
qui n’expliquent pas les dimensions.

Procédures (ACP) sur SPSS (2/2):

Représentation des individus: diagramme de dispersion:

La procédure SPSS pour élaborer le graphe des individus est la


suivante :

 Sélectionner dans le menu Graphique, Diagramme de dispersion


(dispersion simple).
 Cliquer sur définir.
 Faire glisser la variable REGR Factor Score 1 dans l’axe X et
REGR Factor Score 2 dans l’axe Y.
 Faire glisser la variable i (avec i = 1…n) vers «étiqueter les
observations par » afin d’afficher les numéros correspondants.
 Cliquer sur Options et cocher « Afficher le diagramme avec les
étiquettes d’observations ».

16
30/11/2022

ACP
APPLICATION NUMÉRIQUE SUR SPSS
(Exemple)

Exemple : l’étude du comportement bancaire des clients


d’une banque.

 Une agence bancaire réalise une étude visant à mieux connaître la


situation et le comportement de sa clientèle à partir des données
figurant dans ses fichiers informatiques de gestion. Elle a constitué un
échantillon de 50 clients titulaires d’un compte courant appartenant à
des ménages différents. Pour décrire l’échantillon, l’agence a relevé
11 variables quantitatives exprimant leur comportement bancaire :

17
30/11/2022

1. SOLDE : Solde moyen du compte.


2. CHEQUE : Montant moyen des chèques tirés lors du dernier
semestre.
3. NB_DEC : Nombre de mois avec découvert lors de l’année
précédente.
4. MT_DEC : Montant cumulé des découverts lors de l’année
précédente.
5. NB_PR : Nombre de produits de la banque utilisés en plus du
compte courant.
6. NB_EMP : Nombre d’emprunts divers effectués lors des cinq
dernières années.
7. MT_EMP : Montant total des emprunts effectués lors des cinq
dernières années.
8. P_VA_D_E : Pourcentage de variation des dépôts d’épargne pour
les douze derniers mois.
9. MT_DEP_E : Montant total des dépôts sur les comptes d’épargne
effectués lors de l’année précédente.
10. MT_RET_E : Montant total des retraits sur les comptes d’épargne
effectués lors de l’année précédente.
11. P_VA_R_E : Pourcentage de variation des retraits sur les comptes
d’épargne pour les douze derniers mois.

18
30/11/2022

Les résultats de l’analyse sont:

1. Statistiques descriptives des variables:

3. Matrice de corrélation des variables initiales:

19
30/11/2022

3. Choix des composantes principales:

20
30/11/2022

Graphique des valeurs propres:

Selon le graphique des valeurs propres (Cattell, 1966), on


retient deux composantes principales. En effet, la différence de
variance entre la deuxième composante et la troisième est très
importante.

Interprétation
des axes
factoriels : la
Qualité de la
représentation

21
30/11/2022

 La qualité de représentation exprime la part de la variance, des


variables initiales, qui est restituée par les composantes principales
retenues. Ainsi les deux composantes principales contribuent à
63,2% de la variance du solde moyen du compte courant. Les
deux composantes sont suffisantes pour synthétiser les variances de
la majorité des variables initiales.

 Les variables « pourcentage de variation des retraits sur les comptes


d’épargne pour les douze derniers mois », « le nombre d’emprunts
divers effectués lors des cinq dernières années », « le montant
cumulé des découverts lors de l’année précédente » et « le montant
moyen des chèques tirés lors du dernier semestre » ne sont pas bien
prises en compte par les deux composantes retenues, ce qui suggère
l’existence d’une ou plusieurs autres composantes principales
pertinentes.

La matrice des
composantes

22
30/11/2022

 La matrice des composantes ou le diagramme des composantes,


indiquent les corrélations des variables initiales avec les
composantes principales. Ainsi la première composante est
fortement corrélée positivement avec Montant total des dépôts
sur les comptes d’épargne effectués lors de l’année précédente,
Pourcentage de variation des dépôts d’épargne pour les douze
derniers mois et Solde moyen du compte…

…elle est corrélée négativement avec Nombre de mois avec


découvert lors de l’année précédente et Montant cumulé des
découverts lors de l’année précédente.

 La deuxième composante est fortement corrélée positivement


avec Nombre d’emprunts divers effectués lors des cinq dernières
années, Montant total des retraits sur les comptes d’épargne
effectués lors de l’année précédente et Nombre de produits de la
banque utilisés en plus du compte courant.

23
30/11/2022

Synthèse:

On peut donc conclure que la première composante met en


opposition deux catégories de clients de comportements
totalement opposé, d’un côté, une catégorie de clients qu’on
peut qualifier d’épargnants et d’un autre côté, une deuxième
catégorie de clients qu’on peut qualifier de dépensiers.

…Alors que la deuxième composante principale permet de


distinguer une troisième catégorie de clients qu’on peut
qualifier d’investisseurs.

Diagramme de dispersion

Le graphe des individus indique que :


-les clients 30 et 27 représentent les plus grands épargnants,
- les clients 10 et 14 sont des grands dépensiers,
- alors que les clients 11 et 46 sont des grands investisseurs.

24
30/11/2022

II. ANALYSE FACTORIELLE DES


CORRESPONDANCES (AFC)

I. Définition :

L’analyse factorielle des correspondances a pour objectif d’étudier la


relation de dépendance (ou de correspondance) entre des
variables qualitatives. La correspondance ou la dépendance est
illustrée par des représentations graphiques.
L’AFC permet de répondre à deux questions :

Si oui, savoir comment se


Savoir s’il y a un lien entre comporte un facteur par
les deux caractères étudiés rapport à l’autre facteur
(degré de dépendance)

25
30/11/2022

 L’AFC s’applique sur des données qui se présentent sous forme


d’un tableau de fréquences (tableau de contingence) à deux
entrées (deux caractères). Ces fréquences représentent les
éléments d’une matrice de dimensions n lignes et p colonnes
(n*p). (n) et (p) représentent les nombres de modalités relatives
aux deux variables prises en considération.

 Les lignes et les colonnes représentent les modalités des deux


variables étudiées. Le principe de l’AFC est identique à celui de
l’ACP, c’est identifier un petit nombre de dimensions* afin de
faciliter et simplifier l’interprétation des données importantes
en minimisant la perte d’information.

*dimensions correspondent aux composantes pour une ACP;

II. Interprétation des résultats de l’AFC:

Pour interpréter une analyse factorielle des correspondances


(AFC), on passe par trois étapes :

L’analyse du Le choix du
Interprétation
tableau des nombre de
des dimensions
correspondances dimensions

26
30/11/2022

1. Analyse du tableau des correspondances:

Il s’agit d’analyser, à partir d’un tableau de contingence (ou de


fréquences), les fréquences relatives conditionnelles exprimées
en % lignes et % colonnes (appelées également les profils lignes
et profils colonnes).

2. Le choix du nombre de dimensions:

Le nombre total de dimensions est égal au minimum du nombre


de lignes et nombre de colonnes diminué de 1. Le choix du
nombre de dimensions principales est basé sur le taux d’inertie
qui mesure la part de la quantité d’information extraite par
chaque dimension. Le taux d’inertie de l’AFC c’est
l’équivalent de la variance pour l’ACP…

2.1.Le choix du nombre des dimensions principales:

….on retient comme dimensions principales les


dimensions ayant un cumul de 70% d’inertie totale et
plus, les dimensions avec un pourcentage d’inertie moins de
20% sont en générales négligées car ne représentent pas de
grande influence sur les données.

27
30/11/2022

Exemple : Soit une variable composée de 8 modalités et l’autre


variable composée de 5 modalités. Le nombre de dimensions à
prendre est donc de 4 dimensions. cinq modalités diminuée de 1.
(5-1 = 4).
Avec H0 : les deux variables sont dépendantes ;
H1 : les deux variables sont indépendantes (c.à.d. il n y a
aucune relation entre les 2 variables)

Dans le tableau « choix du nombre de dimensions », on vérifie la


valeur de Khi-deux observée ou encore sa probabilité.

 Si la valeur calculée de Khi deux > la valeur théorique (au seuil


de signification de (p=5%) et 28 degré de liberté ddl) ou si la
P_value < 0,05

On accepte l’hypothèse nulle H0 de dépendance

Table statistique KHI-DEUX (X²),

28
30/11/2022

3. Interprétation des dimensions:

L’interprétation des dimensions passe par les étapes suivantes:

3.1. Les contributions des lignes et des colonnes aux dimensions :


elles représentent, en pourcentage, les parts de chaque modalité
dans l’inertie totale des dimensions, ainsi que la part de chaque
modalité dans l’inertie de chaque dimension principale. Plus cette
part est élevée, et plus la modalité caractérise le mieux la
dimension.

3.2. Qualité de la représentation des lignes et des colonnes dans


les sous-espaces constitués des dimensions : elle indique la
capacité des dimensions principales à restituer l’information
contenue dans la variable initiale. Un pourcentage élevé traduit
une perte d’information minime, c’est-à-dire que la dimension
permet une bonne représentation de la modalité.

Explication :

Qualité de la représentation:

Mesure la part de la quantité d’information (la part d’inertie), de


chaque modalité, extraite (expliquée) par chacune des dimensions
principales. elle indique la capacité des dimensions principales à
restituer l’information contenue dans chaque modalité des
variables initiales.

Elle permet de répondre à la question: Quelles sont les


modalités les mieux représentées par les dimensions
principales. Il existe une relation bidirectionnelle entre
contribution et qualité de la représentation.

29
30/11/2022

3.3. Représentation graphique : Contrairement à l’analyse en


composantes principales, où on effectue habituellement des
graphiques séparés pour les individus et variables, l’AFC utilise une
représentation graphique simultanée des points lignes et des points
colonnes dans un plan factoriel, elle met en correspondance les liens
éventuels entre les modalités des deux caractères étudiés.

 Dans ce graphique, la proximité de deux points lignes ou de deux


points colonnes traduit la similitude des profils, c’est à dire des
distributions conditionnelles, relatifs à ces deux lignes ou à ces deux
colonnes.

 En pratique, on repère en premier lieu les points lignes et les points


colonnes qui ont une forte contribution aux dimensions et qui ont, en
même temps, une qualité de représentation satisfaisante. (on
examine leur projections et leur sens).

(AFC)
Procédures sur SPSS

30
30/11/2022

Procédures sur SPSS (1/2)

La procédure SPSS pour réaliser une AFC est la suivante :

Analyse
Factorisation(ou réduction des dimensions)
Analyse des correspondances.

 Dans Ligne, glisser la variable correspondant aux lignes du


tableau croisé.
 Cliquer sur définir intervalle, saisissez la valeur minimale des
codes (généralement 1) et la valeur maximale (généralement le
nombre de modalités) puis cliquez sur mettre à jour puis
poursuivre.

Procédures sur SPSS (2/2)

 Dans Colonne, glisser la variable correspondant aux colonnes du


tableau croisé.

 Cliquer sur définir intervalle, saisissez la valeur minimale des


codes (généralement 1) et la valeur maximale (généralement le
nombre de modalités) puis cliquez sur mettre à jour puis
poursuivre.

 Dans Modèles, saisissez le nombre de dimensions à retenir dans


dimensions de la solution (souvent 2 ou 3).

 Dans Statistiques, cochez profils lignes et profils colonnes.

31
30/11/2022

(AFC)
Application numérique sur SPSS

 Application numérique sur SPSS:

 On cherche à étudier la fréquence d’achat d’une marque d’un


produit d’hygiène en fonction de l’âge du consommateur. On
voudrait savoir quelle est la tranche d’âge la plus réceptive à cette
marque (la plus consommable de la marque).

 Un échantillon de 420 personnes a été interrogé. On a effectué un


tri croisé entre les différentes classes d’âge des répondants et la
variable fréquence d’achat comportant 4 modalités. Les classes
d’âges sont au nombre de 6 : Moins de 20 ans ; 20 à moins de 25
ans ; 25 à moins de 35 ans ; 35 à moins de 45 ans ; 45 à moins de
60 ans ; 60 ans et plus…
….Les modalités de la variable fréquence d’achat sont:
Systématiquement (régulière) ; Souvent ; Occasionnellement ;
Jamais.

32
30/11/2022

 Les données ont été saisies sur SPSS en définissant deux


variables : la variable âge et la variable fréquence d’achat.
Les modalités de la variable âge sont codées de 1 à 6, celles
de la variable fréquence d’achat sont codées de 1 à 4.

 Le but de l’analyse (AFC): l’analyse factorielle des


correspondances a été effectuée dans le but de savoir si la
fréquence d’achat est liée à l’âge du consommateur, et dans
l’affirmative, comment se comporte cette fréquence d’achat
en fonction des différentes tranches d’âge.

1. Analyse du tableau des correspondances:

Chaque case du tableau représente le nombre d’individus


présentant les deux modalités considérées. Dans la première case
par exemple, 7 individus sont âgés de moins de 20 ans et déclarent
effectuer un achat systématique de la marque.

33
30/11/2022

1.1. Profils ligne:

Ce tableau présente le pourcentage que représente l’effectif du tableau des


correspondances par rapport au total de la ligne. Ainsi 14,6 % des individus
âgés de moins de 20 ans, déclarent acheter systématiquement la marque.

L’analyse de cette première ligne montre que les consommateurs âgés de


moins de 20 ans ont tendance à acheter occasionnellement la marque
(50%). Un achat souvent de la marque semble être une tendance pour les
individus âgés de 60 ans et plus (39,2%).

1.2. Profils colonnes:

Ce tableau présente le pourcentage que représente l’effectif du tableau des


correspondances par rapport au total de la colonne. Ainsi 15,2 % des
individus achetant systématiquement la marque, sont âgés de moins de 20
ans.
L’analyse de cette première colonne montre que l’achat systématique de la
marque est surtout un comportement de la tranche d’âge 35 à moins de 45
ans (28,3%).

34
30/11/2022

2. Le choix du nombre de dimensions :

Khi deux (40,887) > Khi deux théorique (24,996) pour 15 ddl. On conclut
donc que l’âge des consommateurs a une influence sur la fréquence d’achat de
la marque. (p_value < 0,05).

Le choix du nombre de dimensions principales est basée sur le taux


d’inertie qui quantifie la part d’information extraite par chaque
dimension. Les deux dimensions contribuent ensemble pour 81,8 %
de l’inertie totale .

Table statistique KHI-DEUX (X²),

35
30/11/2022

3. Interprétation des dimensions:

On distingue entre deux types de tableaux:

3.1. Les contributions des lignes aux dimensions et la qualité de


la représentation des lignes dans les sous-espaces constitués
des dimensions.

3.2. Les contributions des colonnes aux dimensions et la qualité


de la représentation des colonnes dans les sous-espaces
constitués des dimensions.

3.1. Les contributions des lignes aux dimensions et qualité de la


représentation des lignes dans les sous-espaces constitués des
dimensions.

36
30/11/2022

Interprétation:

 Pour la variable âge, la contribution la plus forte à la dimension


1 est celle de la tranche 60 ans et plus (38,6 %). La dimension
2 quant à elle, résulte de la contribution de la tranche moins de
20 ans (53,5 %).

 Les tranches d’âge 45 à moins de 60 ans et 60 ans et plus sont


les mieux représentées sur la dimension 1 (respectivement
66,7% et 65,4%), tandis que la dimension 2 représente mieux la
tranche moins de 20 ans (77,5%).

Les deux composantes principales sont suffisantes pour


synthétiser l’inertie de la majorité des modalités .

3.2. Les contributions des colonnes aux dimensions et qualité de la


représentation des colonnes dans les sous-espaces constitués des
dimensions.

37
30/11/2022

Interprétation :
 Pour la variable fréquence d’achat, la contribution la plus forte à la
dimension 1 est celle de l’achat systématique (84,1%). La dimension
2 quant à elle, résulte de la contribution de la modalité souvent (48
%).

 La modalité achat systématique est la mieux représentée sur la


dimension 1 (95,7%), tandis que la dimension 2 représente mieux la
modalité souvent (74,1%).

A partir des deux tableaux, on peut confirmer que sur la dimension 1, il


y a une certaine correspondance entre la tranche d’âge 60 ans et plus et
la modalité achat systématique, alors que la dimension 2 met en
correspondance la tranche d’âge moins de 20 ans et la modalité d’achat
souvent mais en sens opposé puisque les scores dans la dimension 2 de
ces deux modalités sont de signes opposés.

4. Représentation graphique: Diagramme de dispersion

38
30/11/2022

Synthèse:

De cette analyse factorielle des correspondances (AFC), on


peut affirmer qu’il y a une opposition entre une classe d’âge
âgée (60 ans et plus) à laquelle semble être associé un
comportement d’achat systématique de la marque et une classe
d’âge très jeune (moins de 20 ans) dont le comportement est
opposé à un comportement que l’on pourrait qualifier de
régulier (souvent).

III. ANALYSE DISCRIMINANTE

39
30/11/2022

3.1 Introduction:

 L’analyse discriminante intervient dans les problèmes de


classement d’un ou plusieurs individus dans l’un ou l’autre d’une
série de groupes préalablement définis…

… C’est une méthode statistique permettant d’étudier les


différences entre deux ou plusieurs groupes d’individus ou
d’objets en considérant simultanément plusieurs variables
métriques.

 L'analyse discriminante permet de construire un modèle de


prévision de groupe d'affectation basé sur les caractéristiques
observées de chaque individu.

40
30/11/2022

 On dispose d’individus issus de deux ou plusieurs populations connues,


lesquels individus ont été mesurés par rapport aux variables indépendantes
métriques X1, X2,..., Xp,.

…Le principe de l’analyse discriminante est d’identifier une combinaison


linéaire de variables indépendantes permettant de mieux séparer ou dissocier
les populations. Elle cherche à :

1. Identifier les variables qui expliquent le mieux l’appartenance des individus à


des groupes ;

2. Déterminer l’importance respective des variables explicatives dans


l’affectation des individus.

3. Définir la combinaison linéaire des variables explicatives qui affecte, avec le


plus de précision, les individus à ces groupes (fonction discriminante);

4. Prédire l’appartenance à l’un des groupes d’un nouvel individu que l’on vient
de mesurer par rapport aux mêmes variables indépendantes.

Fonction discriminante:

 La procédure génère une fonction discriminante ou un ensemble de


fonctions discriminantes (pour plus de deux groupes) basée sur les
combinaisons linéaires des variables explicatives qui donnent la
meilleure discrimination entre groupes.

 Les fonctions sont générées à partir d'un échantillon d'observations


pour lesquelles le groupe d'affectation est connu. Les fonctions
peuvent alors être appliquées aux nouvelles observations avec des
mesures de variables explicatives, mais de groupe d'affectation
inconnu.

41
30/11/2022

3.2. Postulats de base (1/2):

L’analyse discriminante repose sur les postulats suivants :

1. Les populations doivent être mutuellement exclusives (distinctes), ce


qui implique l'élimination des individus appartenant à plus d’une
population.

2. Les mêmes variables explicatives X1, X2,..., Xp sont mesurés sur


chacun des individus, dans chacun des groupes. Le niveau de mesure
utilisé doit être métrique, ce qui permettra de calculer des moyennes,
des variances et des covariances.

3. On recommande que la taille minimale de l'échantillon total soit


supérieure ou égale au moins à 20 fois le nombre de variables:
N >= 20p

3.2. Postulats de bases: (2/2)

4. Aucune des variables indépendantes ne peut être une combinaison


linéaire des autres variables (absence de multi-colinéarité entre les
variables explicatives).

5. Les populations doivent être distribuées selon des distributions


normales avec l’égalité des matrices de variances-covariances.

6. L’existence de beaucoup de données manquantes, des variables


fortement corrélées, des tailles d’échantillons très différentes, des
données aberrantes...peuvent fausser l’interprétation d’une
analyse discriminante.

42
30/11/2022

3.3. Cas de deux populations:

 Lorsqu’on considère seulement deux populations, l’analyse


discriminante consiste à définir une combinaison linéaire des Xi :

Yi = β0 + β1 X1 + β2 X2 + ... + βp Xp

 Cette combinaison linéaire s’appelle la fonction discriminante; elle


est calculée sur la base de l’appartenance connue de chaque individu
à l’une des deux populations.

 La fonction discriminante est la combinaison linéaire qui minimise le


risque de classement erroné, c’est à dire le classement d’un individu
appartenant à une population, dans l’autre population.

 Hypothèse: L’analyse discriminante repose sur le fait que les deux


populations sont normales de même variances et covariances. Le test
de M de Box* (sur SPSS) permet de vérifier l’égalité des matrices de
variance-covariance des populations. Avec l’hypothèse nulle Ho c’est
« égalité des matrices variance-covariance ».

 La fonction discriminante permet de calculer des scores qui


permettent d’affecter les individus à l’une ou l’autre population. A
chaque individu, on affecte un score yi, qui représente une moyenne
pondérée des valeurs prises par cet individu sur les variables
indépendantes :
Yi = β0 + β1 X1 + β2 X2 + ... + βp Xp

 Les coefficients discriminants (βi) représentent le poids des


différentes variables dans le calcul des scores.

*Le test de M Box est un test paramétrique qui repose sur la normalité de la population. Si la
probabilité du test est supérieure à 5% ou encore 10% on accepte l’hypothèse nulle
d’égalité des matrices variances covariances.

43
30/11/2022

 Les scores discriminants seront utilisés pour réaffecter les individus


aux deux populations. Ainsi, on affecte à un groupe tout individu
caractérisé par un score supérieur à la frontière d’affectation (Df) et
à l’autre population tout individu caractérisé par un score inférieur
à Df.

 On définit alors une frontière d’affectation Df égale à la moyenne


des scores moyens pondérée par la taille des groupes :

Test de Wilks pour l’utilité de la fonction discriminante:

Le test obéit à une loi de Khi deux. On compare Khi-deux observé


avec Khi deux théorique pour deux degrés de liberté (ddl = p) ou
encore une probabilité inférieure à 5% (p_value < 0,0,5), on accepte
notre hypothèse nulle (Ho).

On conclut donc que la fonction discriminante est utile à


l'explication des différences observées entre les groupes.

*seuil de signification (0,05)

44
30/11/2022

La qualité de l’analyse discriminante: (1/2)

 Pour évaluer la qualité de l’analyse, on compare les deux groupes


de départ aux deux groupes reconstruits. On aura alors un
pourcentage des individus bien classés. Pour savoir si ce
pourcentage est significatif, on utilise le test Q Press.

 Il s’agit de tester:

L’hypothèse nulle (Ho): le nombre d’individus bien classés est


due au hasard et non à la fonction discriminante.

L’hypothèse (H1): le nombre d’individus bien classés est due à


la fonction discriminante.

La qualité de l’analyse discriminante: (2/2)

 La valeur du test de Q press est calculée par la formule suivante:

Avec:
n : nombre d’individus.
nc : nombre d’individus bien classés.
p : nombre de groupes.

On rejette l’hypothèse nulle si la valeur de test Q est supérieure ou égale à la


valeur théorique de Khi deux à un seuil de signification de 5% et avec
(p-1) degré de liberté (ddl = 1 pour le cas de deux populations).

45
30/11/2022

Procédures sur SPSS

La procédure SPSS pour effectuer l’analyse discriminante est la


suivante :
Analyse
Classification
Analyse discriminante

Dans critère de regroupement, sélectionner la variable dépendante


qualitative et dans définir intervalle, saisissez les codes
minimum et maximum.
Dans variables explicatives, sélectionner les variables explicatives
métriques.
Dans statistiques, cocher Moyennes Test de Box et Coefficients de
la fonction non standardisés.
Dans classement, cocher Probabilités à priori égales pour toutes
les classes, Afficher résultats par observation et Afficher
récapitulatif.

46
30/11/2022

Application numérique sur SPSS

Cas de deux populations: Exemple :

 Une banque a conçu un nouveau produit destiné à ses anciens


clients de plus de 5 ans. A cet effet, elle a décidé d’envoyer
une brochure publicitaire très complète. Pour des raisons de
coûts, elle décide de n’envoyer la brochure qu’aux clients
susceptibles d’acheter le produit…

…Elle dispose des informations relatives au virement


mensuel net et au nombre d’opérations effectuées durant les
5 dernières années de chaque client. A titre de test, elle a
envoyé la brochure à un échantillon aléatoire de 12 clients.

47
30/11/2022

Les résultats sont :

 Sur la base de ces résultats obtenus auprès de l’échantillon, on calculera


une fonction discriminante qui nous permettra de classer les autres
clients en deux groupes, celui des acheteurs et celui des non acheteurs.
Ainsi, on saura à qui envoyer la brochure, c’est à dire aux clients classés
au premier groupe (acheteurs).
 Les résultats de l’analyse sont : (1 pour le Oui et 2 pour le Non) codifier.
1. quelques statistiques descriptives :

48
30/11/2022

2. Test d’égalité des variances-covariances :

 La probabilité associée au test de M de Box est supérieure à 0,05


(=1,000 > 5%), ce qui laisse croire que le postulat d’égalité des
matrices de variances-covariances est satisfait (on accepte Ho).

3. Récapitulatif des fonctions discriminantes canonique :

 D’après le tableau, on retient une seul fonction discriminante avec

 une valeur propre de 1,418 qui représente 100 % du pourcentage de la


variance, ce qui signifie que 100% du pouvoir discriminant des deux
variables explicatives est attribuable à la fonction discriminante, ce qui
est normale puisqu’il n’y a qu’une seule.

 Dans le même tableau, on trouve la corrélation canonique (0,766), une


forte corrélation témoignant ainsi de la grande utilité de la fonction
discriminante dans la répartition et le classement des individus.

49
30/11/2022

Pour savoir les quelles des variables sépare le mieux les deux
groupes, on peut faire référence soit aux coefficients de la fonction
discriminante soit à la matrice de structure.

La fonction discriminante standardisée est de:

Y = -0,519 X1 + 1,353 X2

La fonction discriminante est de:

Y = -0,004 X1 + 0,001 X2 – 3,699

On remarque que c’est la variable X2 (virement


mensuel) qui sépare le mieux les deux groupes..

50
30/11/2022

 Matrice de structure:

 Représente la corrélation entre les variables et la fonction


discriminante. Plus la corrélation est forte, plus la variable sépare
le mieux des deux groupes.

 La matrice de corrélation indique une corrélation très forte pour la


variable virement mensuel net (0,946). Ce qui signifie que c’est
(X2) virement mensuel net qui sépare le mieux les deux groupes.

Test de Wilks pour l’utilité de la fonction discriminante:

 Avec une valeur de Khi deux observé (7,947) > Khi deux théorique
(5,99) pour deux degrés de liberté (ddl = p) ou encore une probabilité
inférieure à 5% (p_value = 0,019 < 0,0,5), on accepte notre hypothèse
nulle (Ho). On conclut donc que la fonction discriminante est utile
à l'explication des différences observées entre les groupes.

*seuil de signification (0,05)

51
30/11/2022

Table statistique KHI-DEUX (X²),

 En utilisant la fonction discriminante standardisée Y, on peut obtenir


les scores des 12 clients, ainsi que le score moyen pour chaque
groupe.

Le score moyen des groupes des acheteurs est


de 1,087 alors que celui des non acheteurs est de
–1,087. La frontière d’affectation Df est égale à
la moyenne des scores moyens pondérée par la
taille des groupes : Df = 0

Cela indique que chaque client de score positif


sera donc classé parmi les acheteurs, et tout
client de score négatif sera classé parmi les non
acheteurs.

52
30/11/2022

 Les statistiques de classement, par la fonction discriminante des 12


clients connus sont :

Le SPSS permet de classifier correctement 83,3% d’entre eux,


alors que 16,7% des observations sont mal classées.
(comparaison entre les statistiques originales et prévues).

53
30/11/2022

 les résultats par observation, indiquent que le client 3 et le


client 7 sont incorrectement classifiés. Le logiciel (SPSS)
signalera d’ailleurs cette erreur de classification en plaçant 2
astérisques à côté du groupe prévu d’appartenance.

 Notons enfin que si la classification se faisait


aléatoirement, on s’attendrait à obtenir seulement 50%
de bonne classification. La chose qui peut être également
confirmer par le test de Q-Press.

54
30/11/2022

Test Q press :
 On utilise le test Q press pour tester l’hypothèse nulle : le nombre de
clients bien classés est due au hasard et non à la fonction discriminante.
La valeur du test est calculée par la formule suivante :

Avec :
n : nombre d’individus.
nc : nombre d’individus bien classés.
p : nombre de groupes.

 On rejette l’hypothèse nulle puisque la valeur de test Q est supérieure à la


valeur théorique de Khi deux au seuil de signification de 5% et avec (p-
1) degré de liberté qui est égale à 3,84. la fonction discriminante permet
donc une bonne qualité de classement.

Merci de votre attention !!

55

Vous aimerez peut-être aussi