Vous êtes sur la page 1sur 6

I.

Introduction aux méthodes d’analyses multvariées

A. Notions
En marketing on utilise les statistiques pour prévoir les ventes, faire une étude de
marché, pour comprendre les tendances des clients. En RH : faire les salaires,
mouvement des salariés, charges salariales, productivité, estimer la satisfaction au
travail, motivation. En finance : risque d’un portefeuille d’actions (volatilité). En
logistique : analyser le risque d’être à cour de produit, évaluer le transport des
marchandises. En productivité qualité : % de pièces défectueuses. A la base sert au
recensement de la population : savoir ce qu’ils possèdent pour savoir comment les taxer

5 concepts importants en statistiques :


- population statistique : ensemble d’items, d’individus qui ont au moins une
caractéristique en commun. Elle inclut ce qu’on cherche à mesurer.
- échantillon : -couteux, + rapide. C’est un sous-groupe représentatif de la
population.
- sélection aléatoire : façon dont on va constituer l’échantillon.
Différentes méthodes : probabiliste (aléatoire simple, par grappes, stratifié) et non
probabiliste.
Strates : sous-échantillons
Grappes : on prend tous les éléments de grappes sélectionnées
- unité statistique : unité de mesure de la population
- variable : caractéristique observée ou mesurée qui permet de comprendre le
phénomène que l’on cherche à expliquer. Elle change d’une entité à l’autre.
Elle peut être qualitative ou quantitative.

Binaire : 2 modalités (1 ou 0). Oui/non Homme/Femme


Nominale : > 2 modalités. Yeux, années d’études.
Ordinales : classement
- échelle de Likert : Pas dut out / un peu / beaucoup
- classement / préférences
Intervalle : °C
Relatives = ratio = rapport. Ex : distance
Différence entre rapport et intervalle : dans l’intervalle le 0 a un sens
Corrélation : mesurer la direction et la force du lien entre 2 variables

B. Objectifs de l’analyse multivariée


Avantages : simple, rapide, petits échantillons
Limites : 1 variable dépendante, interaction non possible, pas de prédiction, ni
d’explication

Caractéristiques :
 Extension de l’analyse univariée
 Analyse simultanée de plus de 3 variables
 Contexte d’entreprise + réaliste
 Aide au résumé de l’information
o Classification
o Identification des tendances
o Identification des variables les plus significatives

2 grandes méthodes :
 Etudier les liens entre les variables (cause à effet)
o Régression
o Analyse de la variance et de la covariance
o Analyse discriminante
o Modèles d’équations structurelles
 Etude de l’interdépendance (étude des données)
o Analyse factorielle
o Méthodes de classification

Exemples :
 Expliquer le salaire en fct de l’ancienneté et du diplô me : étude de dépendance
 Décrire les émotions ressenties à l’exposition d’une publicité (joie, surprise,
dégoû t, colère, peur…) : étude interdépendante
 Résumer la motivation au L avec 12 Q : étude interdépendante
 Classer les individus en fct de leur attitude face au challenge et de leur motivation
au L : étude interdépendante (car classification)

II. Les méthodes d’analyse factorielle

Pourquoi utiliser l’ACP (analyse en composante principale) ? Une technique de


réduction des données
 Données quantitatives
 Non directement observables
 Découvrir de nouvelles relations
 Réduire le terme d’erreur

Exemple : on veut définir l’influence des émotions sur une marque. Si on dit qu’il y a 21
émotions, alors il y aura 21 analyses à faire. Avec ACP, on proposera d’un cô té les
émotions positives et de l’autre les émotions négatives  plus que 2 composantes
principales + généraux. Permet de rendre l’info pertinente et + fiable.
Pb : perte de l’info fournie par la base de données.

Objectifs :
 Représentation géométrique du tableau des données (n individus, p variables)
 Limiter la perte d’information
 Etablir une combinaison des variables observées (facteurs)
 Mener des analyses statistiques efficaces

Questions à se poser :
 Comment mesurer la distance entre 2 individus
 Comment trouver le meilleur plan de projection
 … De manière compréhensible et sans perdre trop d’information.
Concept : 2 variables fortement corrélées
 Même phénomène
 Même variance expliquée
 Mesure unique ?

Exemple de l’attitude envers une publicité :


Il ne faut pas faire de graphique Agréable/Individu Agréable/Convaincante

Hypothèses préalables pour ACP :


 Variables quantitatives : intervalle, ratio (ordinale dans quelques cas)
 Normalité des variables : -coefficient d’asymétrie (savoir si courbe bien centrée
sur sa moyenne). Si compris entre -1,5 et 1,5 alors c’est un loi normale. –
coefficient de Kurtosis. Entre -1,5 et 1,5 aussi. Maximum acceptable aussi : /3/.
Les 2 coefficient doivent être respectés
 Mesures dans la « même direction »
 Indépendance des observations
 Echantillon (n>100 ou un ratio 5 :1).

 Caractéristiques de l’ACP :
o Facteurs = composantes des principales
o Combinaison linéaire
o Non corrélées entre elles
o Maximisent la variance expliquée
o Définies séquentiellement
 Nuage de points-variables
 Nuage de points individus

 Qualité de la représentation
o Variance expliquée = valeur propre
o Part d’information expliquée
 Distance entre individus
Age Taille Poids Salaire
A 0,5 -1 0,6 1,5
B 1,5 3 3,4 -0,25

Etape 1 : analyse descriptive


Minimum, maximum, écart-type, médiane, coefficients (asymétrie et Kurtosis).

Etape 2 : analyse des corrélations


Base de l’ACP. Savoir quelle est la tendance générale des items. On considère que la
corrélation est plutô t forte quand p-value>0,3.
Déterminant : niveau de signification globale du tableau.
Le but est d’avoir un déterminant faible mais pas = 0. Si = 0 alors ça veut dire qu’il y a
trop de corrélation  problème de multi-colinéarité.

Etape 3 : ACP/analyse de la solution factorielle


Savoir d’abord si la solution factorielle est acceptable, si les résultats peuvent être
analysés ou pas.
Test KMO (Kaiser Mayer Olkin) : test sur la variance qui peut être expliquée par les
facteurs. Info restituée par les facteurs. Minimum acceptable : 0,6. Ici =0,807  80,7%
de l’info restituée

Test de spécificité de Bartlett  : teste Ho : les données ne sont pas factorisables
H1 : les données sont factorisables
Signification doit être < 0,05
Il est sensible à la taille de l’échantillon.
Permet de savoir si les données sont factorisables.
Plus l’échantillon est grand plus les données seront factorisables.

KMO globale : moyenne des KMO sur la diagonale (valeur des KMO individuels)

Extraire les données : réduire le nombre de variables. Initialement : 11 variables.


Matrice de covariance : méthode utilisée pour même unité de mesure pour chacune des
valeurs. Centrer = soustraire à la moyenne
Matrice de corrélation : différentes unités de mesure.
La corrélation permet d’avoir des données standardisées et d’être sû r des résultats.
Centrer-réduire = soustraire la moyenne + diviser par écart-type.

On analyse les résultats après avoir placé dans le nouveau plan de projection. Combien
d’information je récupère ? Communalité : % de variance expliqué par l’analyse
factorielle. But : avoir une qualité de représentation supérieure à 0,5. Si 1 item à une
variance <0,5 on l’enlève et on recommence tous les calculs
 plus que 10 dimensions car 10 items  on peut extraire jusqu’à 10 composantes
principales. Une composante principale est un groupe de variables.
10 dimensions possibles  1 item = 1 dimension

10 composantes principales  1 item différent dimension

Variance expliquée : on perd de l’info. On fixe un seuil (ex : on veut expliquer environ
60% des données initiales  on cherche à prendre des variables qui explique au moins
60%
Valeur propre initiale : longueur du vecteur. Plus le vecteur est long plus il est explicatif.
Si >1  explique beaucoup d’info. On retient toutes les composantes qui ont une valeur
propre >1
3 composantes extraites. Interprétation de la matrice des composantes.
2 méthodes pour faire une rotation des axes :
Varimax : on change les axes de manière à ce qu’ils soient orthogonaux  pas de
partage d’info entre les composantes
Oblimin : comme varimax mais les axes ne sont pas orthogonaux. Redondance
d’info.

Une fois que la position des axes est changée, on peut leur donner une signification.
Pour chaque variable :
Loading > 0,6
Différence de 0,3 au moins avec les autres loadings
Axe 1 Axe 2 Axe 3
Doux Affectueux Informatif
Réjouissant Efficace Crédible
Attractif Convaincant
= plaisir = mixte = pertinent

 3 axes à interpréter

Etape 4 : Analyse de la fiabilité


Fiabilité : Cohérence interne des échecs : est-ce que les données expliquent la même
chose ? Est-ce que c’est pertinent ? Ça ne nous dit pas quel construi on mesure. On le fait
pour chaque composante principale extraite.
4 analyses de la fiabilité à faire.
Composante 1 : composée de « doux, réjouissant, attractif » Alpha de Cronbach de 0,931.
Indique la corrélation.
Alpha de Cronbach : va de –infini à +1 mais les valeurs positifs sont les seuls à être
interprétées (sinon pas de sens). Considéré comme bon à partir de 0,6  fiable. Mais si
>0,9 on pense redondance de l’info.
Ici : 0,931.
Si proche de 0,6 on pense à retirer un item
En cas de suppression de l’info, on doit recommencer l’analyse en composante
principale depuis le début.
Pour la composante 3 : 0,721. Si on supprime un item on n’a plus assez d’item (minimum
2 items d’échelle pour calculer corrélation).
Problème : quand on a 2 items l’alpha de Cronbach est biaisé. Trop sensible au manque
d’item  on utilise un autre coefficient pour être sû r des résultats : coefficient de
Spearman-Brown.

Etape 5 :
11 items = 11 dimensions

8 items, 3 dimensions Mais 1 échelle possible

B. Analyse des correspondances

Analyse factorielle qui regroupe des données mais différence avec ACP : beaucoup plus
simple car que des variables qualitatives.
AFC : analyse factorielle des correspondances. Quand il y a que 2 variables qualitatives à
étudier
ACM : analyse des correspondances multiples. 3 variables quantitatives ou +.

Conditions : variables binaires et/ou continues. Quand mixe de variables, parfois


variables qualitatives et quantitatives  on transforme les variables quantitatives en
qualitatives.
Inconvénient : grosse perte d’info
Processus en 4 étapes :

Exemple : couleurs du packaging et.


On veut voir s’il y a un lien entre les 2.

Etape 1 : Statistiques descriptives


Tableau de contingence : répertorie le nombre d’observations.
57 produits observés.
Profil lignes : nombre d’observations dans une cellule divisé par le total de la ligne.

Etape 2 : Analyse de la signification


On veut voir si tendance générale statistiquement significative.
On utilise coefficient de corrélation ou Khi-Deux (mesure force du lien entre 2 variables
qualitatives).
Ici : p-value très faible donc on admet H1 (possibilité de se tromper très faible) qui dit
que les variables sont dépendantes.
O peut extraire : L-1 (nombre de lignes moins 1) ou K-1 (nb de colonnes moins 1). Si K et
L différents on prend le plus petit.
 on peut extraire 4 dimensions au maximum.
Exemple : si L=15 et K=4 alors on extrait 3 dimensions.
La dimension 1 explique 44,8% des 64,6%  quasiment la moitié de l’info est expliquée
par la dimension 1.
Valeur singulière = racine carrée de l’inertie (=coefficient de corrélation).
Plus l’écart type est faible par rapport à la valeur singulière plus la dimension est
précise.

Etape 3 : Interprétation des axes


On déduit sur la variable couleur que la dimension 1 (beauté, bio) est principalement
représentée par le vert et le jaune et que la dimension 2 (bio, boissons) est
principalement représentée par le vert et le rose.

Etape 4 : Mapping perceptuel


Modalités couleur et modalité produit.
Interprétation : on prend les valeurs les + extrêmes et on cherche un sens commun entre
les 2 dimensions.
On s’aperçoit ici que parmi l’échantillon de 57 produits, les boissons ont plutô t un
packaging rose, les produits bio sont plutô t verts, les produits jaunes sont plutô t des
produits de beauté

Ne pas confondre classification et prédiction :


 Classification = méthode non supervisée. Automatique (on ne connaît pas le
nombre de groupes ni le nom des groupes avant le début de l’analyse)
o Aide à la segmentation clientèle
o Types de magasins
o Groupes de patients
 Prédiction = méthode supervisée. On a une idée de ce que l’on veut avoir (nombre
de groupes et de leur nom). On sait à l’avance comment on va classer nos
données. Méthode non automatique.
o Détection des fraudes à la CAF
o Etude des risques associés aux crédits
o Potentiel des candidats à un poste
o Cible marketing

Vous aimerez peut-être aussi