Académique Documents
Professionnel Documents
Culture Documents
PROFESSEUR:
Mr. HICHAM GOUMRHAR
BIBLIOGRAPHIE:
Plan:
Introduction:
Introduction
Dans une enquête de terrain, une fois les questionnaires sont
Définition et notions de bases remplis, on passe par un ensemble des étapes :
le contrôle de validité.
le contrôle de cohérence.
2
29/12/2020
nominale).
L’analyse en composantes principales créée par (Hotelling en 1933) est une méthode descriptive qui a pour but l’analyse des tableaux de données/observations ne comportant à priori aucune
L’objectif de l’ACP est de résumer l’information contenue dans un tableau, constitué souvent d’un nombre élevé de lignes et de colonnes, en quelques représentations graphiques à deux dim
Illustration:
Soit le cas d’un nuage de points pour deux variables X1 et X2 L’Analyse en composantes principales effectue une simple
normales centrées réduites c-à-dire moyenne=0 et Ecart-type = 1). rotation (rotation rigide) des axes X1 et X2 pour obtenir de
nouveaux axes Y1 et Y2 appelés « composantes » qui sont non
corrélées entre elles et à variance ordonnée comme l’indique la
figure ci-dessous (figure 2).
4
29/12/2020
Figure 1 : nuage de points dans un espace à 2 dimensions
ACP
L’analyse en composantes principales (ACP) permet d’obtenir de nouvelles variables, appelées « composantes », qui seront non corrélées entre elles et à variance o
On dispose de (n) individus caractérisés par (p) variables quantitatives. Les données se représententC1
sous
= laa11X’1
forme +
d’un tableau appelé matrice
a21X’2+…..+ap1X’p telle des
que données de dimensions
la variance de C1 soit(n x p).
maximale parmi toutes les autres combinaisons linéaires (C2,C3…..Cn) .
Les « P » variables sont le plus souvent de nature différente, c’est la raison pour laquelle les variables seront centrées et réduites pour homogénéiser les unités Xp’=. On remplace les variable
C2 = a12X’1 + a22X’2+…..+ap2X’p telle que C2 est non corrélée avec C1
corrélation (C1,C2)=0, et C2 possède la variance maximale parmi toutes les
combinaisons linéaires qui ne sont pas corrélées avec C1.
Remarque: Les composantes sont toujours de moyennes nulles et de variances égales aux valeurs propres ordonnés : λ1 >λ2 >... λp > 0 .
1.3. Les propriétés des composantes: Interprétation des résultats de l’analyse à composantes principales (ACP):
Les composantes calculées, à partir de l’ACP, possèdent un certain nombre de propriétés : L’ACP passe par plusieurs étapes :
Var (Ci) = λi Repérage des observations aberrantes: éliminer les données manquantes ou aberrantes (ou extrêm
Corrélation (Ci ; Cj) = 0
= p ; la somme des valeurs propres correspondent au nombre de variables initiales.
L’analyse de
La valeur propre (ou la variance de la composante) exprimée en pourcentage représente le pourcentage de la
la matrice
variancede corrélation
totale expliquéedes
parvariables initiales:
la composante Ci. l’analyse de la matrice de corrélat
Les variances cumulées exprimées en pourcentage indiquent respectivement le pourcentage de la variance totale expliquée par la première composante, les deux premières composantes, les tro
6
29/12/2020
4. Interprétation des axes factoriels: Exemple: cercle de corrélation : jeu des données des cours:
7
29/12/2020
Les scores des individus (donnés par l’exercice c’est l’ordre des individus) sur les composantes principales, appelés aussi les coordonnées en composantes « factor scores », peuvent être représ
Étant donné que l’étape précédente détermine le positionnement des variables d’origine par rapport aux axes principaux, cette étape permet de savoir le positionnement des individus par rapport
8
29/12/2020
Analyse
Factorisation (ou réduction des dimensions) Analyse factorielle
Dans Variables, sélectionner toutes les variables métriques à factoriser.
Dans Caractéristiques, cocher caractéristiques uni variées et coefficients de corrélation.
Dans Extraction, cocher Graphique des valeurs propres et dans nombre de facteurs saisissez 2.
Dans Facteurs, cocher Enregistrer dans des variables.
Dans Rotation, cocher Carte factorielle.
Dans Option, cocher Classement des variables par taille et Supprimer les valeurs absolues inférieures à 0,10 ; ceci permettra de sélectionner les variables les plus importantes et cacher celle
10
29/12/2020
11
29/12/2020
La qualité de représentation exprime la part de la variance des variables initiales qui est restituée par les composantes principales retenues. Ainsi les deux composantes principales contri
Les variables pourcentage de variation des retraits sur les comptes d’épargne pour les douze derniers mois, nombre d’emprunts divers effectués lors des cinq dernières années, montant cumu
La matrice des
composantes
La matrice des composantes ou le diagramme des composantes, indiquent les corrélations des variables initiales avec les composantes principales. Ainsi la première composante est fortemen
…elle est corrélée négativement avec Nombre de mois avec découvert lors de l’année précédente et Montant cumulé des découverts lors de l’année précédente.
La deuxième composante est fortement corrélée positivement avec Nombre d’emprunts divers effectués lors des cinq dernières années, Montant total des retraits sur les comptes d’épargne e
12
29/12/2020
Synthèse:
On peut donc conclure que la première composante met en opposition deux catégories de clients de comportements totalement opposé, d’un côté, une catégorie de clients qu’on
…Alors que la deuxième composante principale permet de distinguer une troisième catégorie de clients qu’on peut qualifier d’investisseurs.
Diagramme de dispersion
I. Définition :
L’analyse factorielle des correspondances a pour objectif d’étudier la relation de dépendance (ou de
L’AFC permet de répondre à deux questions :
L’AFC s’applique sur des données qui se présentent sous forme d’un tableau de fréquences (tableau de contingence) à deux entrées (deux caractères). Ces fréquences représentent les éléme
Les lignes et les colonnes représentent les modalités des deux variables étudiées. Le principe de l’AFC est identique à celui de l’ACP, c’est identifier un petit nombre de dimensions afin
Pour interpréter une analyse factorielle des correspondances (AFC) on passe par trois étapes :
14
29/12/2020
Exemple : Soit une variable composée de 8 modalités et l’autre variable composée de 5 modalités. Le nombre de dimensions à prendre est donc de 4 dimensions. cinq modalités diminué
Avec H0 : les deux variables sont dépendantes
H1 : les deux variables sont indépendan
aucune relation ent
Dans le tableau « choix du nombre des dimensions », on vérifie la valeur de Khi-deux observée ou encore sa probabilité.
Si la valeur calculée de Khi deux > la valeur théorique (au seuil de signification de (p=5 %) et 28 degré de liberté ddl = 28) ou si la P-value < 0,05
Les contributions des lignes et des colonnes aux dimensions : elles représentent, en pourcentage, les parts de chaque modalité dans l’inertie totale des dimensions. Plus cette part est élevé
Qualité de la représentation des lignes et des colonnes dans les sous-espaces constitués des dimensions : elle indique la capacité des dimensions à restituer l’information contenue dans l
Explication
Dans ce graphique, la proximité de deux points lignes ou de deux points colonnes traduit la similitu
Qualité de la représentation:
En pratique, on repère en premier lieu les points lignes et les points colonnes qui ont une forte cont
Mesure la part de la quantité d’information de chaque modalité extraite par chaque dimension principales. elle indique la capacité des dimensions à restituer l’informa
15
29/12/2020
(AFC)
Procédures sur SPSS
Analyse
Factorisation(ou réduction des dimensions) Analyse des correspondances.
Dans Ligne, glisser la variable correspondant aux lignes du tableau croisé. Cliquer sur définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale (géné
(AFC)
Cliquer sur définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale (généralement le nombre de modalités) puis cliquez sur mettre à jour puis poursui
Application numérique sur SPSS
Dans Modèles, saisissez le nombre de dimensions à retenir dans dimensions de la solution (souvent 2 ou 3).
On cherche à étudier la fréquence d’achat d’une marque d’un produit d’hygiène en fonction de l’âge du consommateur. On voudrait savoir quelle est la tranche d’âge la plus réceptive à
Un échantillon de 420 personnes a été interrogé. On a effectué un tri croisé entre les différentes classes d’âge des répondants et la variable fréquence d’achat comportant 4 modalités. Les clas
….Les modalités de la variable fréquence d’achat sont: Systématiquement ; Souvent ; Occasionnellement ; Jamais.
Les données ont été saisies sur SPSS en définissant deux variables : la variable âge et la variable fréquence d’achat. Les modalités de la variable âge sont codées de 1 à 6, ce
Le but de l’analyse (AFC): l’analyse factorielle des correspondances a été effectuée dans le but de savoir si la fréquence d’achat est liée à l’âge du consommateur, et dans
Ce tableau présente le pourcentage que représente l’effectif du tableau des correspondances par rapport
Chaque case du tableau représente le nombre d’individus présentant les deux modalités considérées. Dans la première case par exemple, 7 individus sont âgés de moins de 20 ans et décla 17
29/12/2020
Khi deux (40,887) > Khi deux théorique (24,996) pour 15 ddl. On conclut
donc que l’âge des consommateurs a une influence sur la fréquence d’achat de
la marque. (p_value < 0,05).
3.1. Les contributions des lignes aux dimensions et qualité de la représentation des lignes dans les sous-espaces constitués des dimensions.
Interprétation:
Pour la variable âge, la contribution la plus forte à la dimension 1 est celle de la tranche 60 ans et plus (38,6 %). La dimension 2 quant à elle, résulte de la contribution de la
Les tranches d’âge 45 à moins de 60 ans et 60 ans et plus sont les mieux représentées sur la dimension 1 (respectivement 66,7% et 65,4%), tandis que la dimension 2 représ
Les deux composantes principales sont suffisantes pour synthétiser les variances de la majorité des modalités .
Interprétation :
Pour
3.2. Les contributions des colonnes aux dimensions et qualité de la représentation des colonnes dans leslasous-espaces
variable fréquence d’achat,
constitués la contribution la plus forte à la dimension 1 est celle de l’ach
des dimensions.
%).
La modalité achat systématique est la mieux représentée sur la dimension 1 (95,7%), tandis que
A partir des deux tableaux, on peut confirmer que sur la dimension 1, il y a une certaine corr
19
29/12/2020
Synthèse:
De cette analyse factorielle des correspondances (AFC), on peut affirmer qu’il y a une opposition entre une classe d’âge âgée (60 ans et plus) à laquelle semble être associé un
20