Vous êtes sur la page 1sur 9

Analyse de Données : famille de méthodes statistiques dont les

principales caractéristiques sont d'être multidimensionnelles et descriptives,


permet de traiter un nombre très important de données et de dégager les
aspects intéressants de la structure de celles-ci.
Etude Quantitative : consiste à rechercher des infos chiffrées quantifiables et
des données statistiques
Etude Qualitative : consiste à collecter et analyser des infos permettant
d'expliquer des faits, des opinions, des comportements...
Ad-Hoc : Etude quanti ou quali réalisée pour le compte d'un seul client
Omnibus : Etude quanti réalisée à date régulière, le questionnaire utilisé
regroupe l'ensemble des questions de différents souscripteurs
Baromètre : réalisée à date fixe, le questionnaire ne change pas d'une étude à
l'autre et pour le compte d'un seul ou plusieurs clients
Panel : enquête approfondie, réalisée périodiquement sur les mêmes clients,
avec 2.000 à 10.000 individus (pseudo=diff. clients)
Marché-test : étude quanti visant à prévoir les ventes et les parts de marché
des nouveaux produits
Entretien individuel : a pour objet de recueillir le discours individuel : entretien
directif/non directif/semi-directif/associatif ou projectif
Réunion de groupe : étude quali libre et non structurée d'un groupe de 8 à 12
participants, conduite par un animateur ; discours repose sur les phénomènes
de psychologie collective des groupes restreints. (logique exploratoire)
Etudes descriptives : ont pour but de créer des structures décrivant les
caractéristiques d'une ppl cible ou marché
Etudes explicatives : ont pour but de transformer des données brutes en
structures ou en modèles mathématiques expliquant les relations de cause à
effet entre les variables
Etudes prédictives : ont pour but de transformer les données brutes collectées
sur les caractéristiques comportementales des consos, e/ses, marchés etc. pour
prédire certaines variables
Données primaires : sont collectées pour la 1ère fois pour résoudre
le problème propre à l'étude
Données secondaires : sont d'accès facile, peu coûteuses, à faible VA,
abondantes et devraient être examinées et consultées avant d'être
collectées
Variable : expression des différents états ou valeurs observés dans la
population ;
• Variables quali : (Modalité) peuvent être ordinales ou
nominales
• Variables quanti : (Occurrence) peuvent être continues ou
discrètes
Echelle de mesure : transformer les questions en mise en situation, a
pour objet de fournir au répondant un support d'expression de
phénomènes abstraits, subjectifs et complexes à mesurer facilement.
➢ Nominale : chacune des modalités sont équivalentes aux autres,
les modalités sont codifiés
➢ Ordinale : l'ensemble des modalités suivent un ordre sous-
jacent
➢ Métrique : permet de comparer la distance entre les objets et
les modalités par des espaces équidistants
▪ Osgood : mesure la qualité (1-5)
▪ Likert : L'accord du consommateur (1-5)
▪ Intention : intention d'achat
Relation médiatrice : variable intermédiaire qui permet de mesurer
l'effet de la var indép sur la var dép
Relation modératrice : une variable qui peut influencer l'intensité ou
le signe de la relation entre X et Y en décomposant l'éch en sous-éch
Mesurer à l'aide du questionnaire :
Conditions de forme : types de questions, style de rédaction
Conditions de fond : validité/fiabilité
1/échelle de mesure : obtenir une mesure parfaite pour réduire les erreurs
Erreur aléatoire : dépend des circonstances de mesure, due aux aléas tels que
la fatigue du répondant, l'humeur etc.
Erreur systématique : dépend aux instruments de mesure, due au manque de
clarté du questionnaire ou d'échelle, la longueur etc.
2/Mesurer :
Modèle de vraie valeur : consiste à décomposer le résultat d'une mesure en ses
diff éléments : la VV et les termes d'erreur Ea/Es ;
M (Mesure obtenue) = VV + Es + Ea
3/Validation du questionnaire :
Fiabilité : avoir les mêmes résultats si on refait l'analyse dans les mêmes
conditions ; sinon Ea
Validité : mesurer ce qu'on cherche à mesurer
• V. interne :
o V. convergente : Tous les items appartenant au même construit
doivent mesurer la même chose
o V. discriminante : supprimer les vars corrélées à 2 composantes
à la fois
• V.externe : tous les éléments doivent être pris en considération en
répondant aux questionnaires
4/méthodes d'analyse
L’ADD est une clé d'accès à la prise de décision à partir d'infos fiables et valides
déjà existantes.
L’analyse uni-variée : consiste à examiner la distribution des modalités de
réponse pour une variable
L'analyse bi-variée : consiste à étudier les relations entre deux variables
L'analyse multi variée : permet de dépasser les techniques précédentes
Statistique : ensemble des méthodes mathématiques qui à partir du
recueil et de l'analyse des données réelles permettent l'élaboration de
modèles probabilistes autorisant les prévisions.
Stat descriptive : décrire un ou + paramètres d'une population
Stat probabiliste : utilisation des lois usuelles
Stat inférentielles : ensemble de méthodes qui permettent l'extrapolation
des résultats qu'on a trouvé dans la stat descriptive (échan. /Estim.)
• Population : ensemble d'individus sur lesquels porte l'étude stat
• Échantillon : sous ensemble de la population
• Items : ensemble de var qui mesurent la même chose
• Construits : ensemble d'items
• Paramètre : critère utilisé pour décrire une population
Description d'une variable quali : Présenter les effectifs, les fréquences
relatives à chaque modalité + graph
Description d'une var quanti :
Mesures de tendance centrale : résumer la série d'observations par une
valeur considérée comme représentative.
• Moyenne : le centre des observations
∑ 𝑋𝑖
o Arithmétique : permet de trouver le point central 𝑋̅=
𝑛
∑ 𝐿𝑜𝑔(𝑋𝑖)
o Géométrique : calculer le taux moyen log⁡(𝑋̅)=
𝑛
1
1 ∑
𝑋𝑖
o Harmonique : calculer le rapport moyen (plus précise) =
𝐻 𝑛
Σ𝑋𝑖²
o Quadratique : calculer la variance 𝑄 2 = ⁡
𝑁
• Médiane : La valeur qui partage la série en 2 groupes égaux
o réelle : existe dans la série
o artificielle : ne fait pas partie de la série (12, 15, 16, 18)
o sans médiane : ex : (12, 13, 14, 14, 15, 16, 17)
• Mode : la valeur la plus fréquente/redondante
Mesures de dispersion :
• Etendue : Xmax - Xmin
• Variance : mesure de dispersion autour de la moyenne
1
o discrète : 𝑆 2 = Σ⁡𝑥𝑖 2 − 𝑋̅ ²⁡
𝑛
1
o continue : 𝑆 2 = Σ⁡𝑟𝑖(𝑐𝑖 − 𝑋̅)²
𝑛
• Ecart-type : mesure la dispersion en moyenne autour de la
moyenne
• Coefficient de variation : indicateur approprié pour comparer
plusieurs sous-échantillons, en terme de dispersion 𝐶𝑉 =
𝑆
⁡ ̅ × 100
𝑋

(si >= 30% dispersés sinon homogènes)


Mesures de distribution :
• coefficient de symétrie Skewness : mesure l'asymétrie d'une
distribution
• S=0 : Distribution normale
• S>1 : Distribution asymétrique à droite
• S<1 : Distribution asymétrique à gauche
• Coefficient d'aplatissement Kurtosis :
• K=0 : Distribution normale
• K<0 : les queues comptent un plus grand nombre
d'observations que dans une distribution gaussienne
• S<1 & K<1,5 : Suit une loi normale

Corrélation partielle : Consiste à quantifier et étudier la relation entre


X et Y en relevant l'élément médiateur
Corrélation multiple : consiste à mesurer la force de relation entre X
et Y
Régression : méthode statistique qui vise à expliquer et prédire une var dépendante par une ou
plusieurs vars indépendantes.

RLS : expliquer/estimer, prédire la valeur d'une var dépendante par un ensemble de vars
indépendante quantitatives explicatives

Régression Logistique : quand la var est quali. 2 modalités = binaire, sinon multinominale

Régression discriminante : comme la R Logi mais exige la normalité de la distribution des variables

Etapes de la RLS :

1/spécification du modèle : Tracer le nuage de point ou le diagramme de dispersion pour


soupçonner l'existence d'une relation linéaire entre X et Y

2/validation du modèle : Mesures possibles pour quantifier l'intensité de la relation entre X et Y

• 1_Coefficient de corrélation : Mesure la force du lien entre 2 variables. r=1 : varient dans le
même sens, r=-1: sens inverse, r=0 pas de corrélation linéaire, r>=0,7 très forte
(Non linéarité=/=Non Liaison)
• 2_Coefficient de détermination : la part de variance de Y expliquée par la variance de X.
(SCRés/SCTotal)
• 3_Covariance : vise à quantifier l'écart entre les vars
• 4_Analyse de l'ANOVA:
• SigANOVA<=α, on accepte.
• SigANOVA>=50% auto-reject

Fischer : SCReg/SCRés ; Fischer calculé >F Théorique  Lien

Erreur-Type : La dispersion de la moyenne des moyennes

Résidu=Erreur Empirique=Ecart de prévision : Diff entre V.Obs et V.Estim

3/Estimation des paramètres:

• La méthode de la vraisemblance
• La méthode des moindres carrés: méthode qui permet de tracer une droite qui minimise les
écarts et les résidus.
o Droite théorique: droite qui passe par tout les points; impossible donc on trace une
droite empirique
o Droite empirique: Minimise les écarts
▪ B0 et B1; coefficients théoriques de la régression.

4/Test des hypothèses : Vérifier si B1=/=0

Deux tests sont couramment utilisés : t ou z; ou F. Les deux test nécessitent une estimation de Se², la
variance des erreurs "e" du modèle de régression

Etapes d'un test z ou t :

▪ 1/Enoncer les hypothèses H0 et H1 (H0:B1=0 et H1:B1=/=0)


▪ 2/Préciser les conditions du test:
o La population des erreurs est normale
o La variance résiduelle est inconnue
o Le niveau de signification
o si n-2>=30; loi normale, sinon loi student.
▪ 3/Calculer la statistique du test
▪ 4/Trouver la région critique au niveau de signification α

Conditions d'application de la régression :

▪ 1/La linéarité du phénomène mesuré


▪ 2/La variance constante du terme d'erreur ou homoscédasticité
▪ 3/L'indépendance des termes d'erreur
▪ 4/La normalité de la distribution du terme d'erreur

RLM : a pour but d'écrire Y en fonction de plusieurs X.

Etapes de la RLM :

1- La validation du modèle : Est-ce que les X sont significatives pour expliquer la variance de Y.
SigAnova > α Rejeter ; sinon il existe au moins une var significative.

2- Estimation des paramètres : SigAnova>α on rejette

SigAnova<α et SigVars<α on accepte

SigAnova<α et SigVars<α sauf une, on la supprime et on refait


l'analyse.

SigAnova<α et SigVars<α sauf deux, si elles sont corrélées (r>0,5)


eliminer l'une des deux et les remplacer par leur moyenne sinon on refait l'analyse.

3- Vérification des prémisses de la RL :

▪ ANOVA
▪ VIF : Facteur d'inflation de la variance. On cherche B≈1; si B=10 problème de
colinéarité

Si la corrélation entre deux Var indep (X1, X2) se situe à 0,9/-0,9 elle mesurent la même chose.

Ajustement du modèle: La corr entre Y et toutes les X (R≈1 = bien)

Evaluation de la performance: R²: %de variabilité de Y expliqué par toutes les X

R² Ajusté: pour comparer entre 2 modèles qui contiennent un nombre


élevé de variables

L’erreur standard: nous renseigne sur la variabilité du coefficient

dans la population

La signification de t nous permet de savoir si Bêta est différent de 0

Beta: Indique le sens de la relation. (Lorsque X augmente de l'Ecart type, Y augmente de l'Ecart
type*Beta)
Analyse Bi-Variée : La description des variables et leurs relations relève une série de
questions qu'on doit approcher 2 à 2 dans cette analyse.
Tris Croisés: permettent d'examiner les relations entre deux ou plusieurs variables en
rassemblant dans un tableau unique les distributions de fréquences ou d'effectifs de
deux ou plusieurs variables.
Test Khi-deux : cherche à tester l'indépendance des variables qualitatives présentées
dans un tableau croisé ; en comparant la distribution observée Oij à celle Théorique
Tij qui correspond à l'hypothèse selon laquelle les deux variables sont indépendantes.
(𝑂𝑖𝑗 − 𝑇𝑖𝑗)²
𝑋2 = Σ
𝑇𝑖𝑗
Procédure :
1-Emission des Hypothèses : H0/H1
2-Règle de décision : X²c>X²th ==> Rejeter H0/Accepter H1 avec X²th = X²[α;(r-
1)(c-1)]
Condition : Chaque case du tableau devrait avoir un effectif théorique au moins égal
à 5.
Interprétation : Comme l'ANOVA
Indicateurs :
Coefficient phi Ø : Dans le cas des tableaux 2x2, il est recommandé d'appliquer une
𝑋²
correction du X², ou d'utiliser le coefficient Ø = √
𝑛

Coefficient de Contingence : appliqué pour des mesures d'association sans contrainte


𝑿²
de taille de tableau C=√
𝑿𝟐 +𝒏

Coefficient d'association prédictive (lambda): mesurer dans quelle proportion une


variable quali indépendante influence une variable quali dépendante
Indice V de cramer : mesurer la force de la relation entre les deux variables 𝑽⁡ =
𝑋²
⁡√ [L=min. des lignes et des colonnes du tableau]
𝑛(𝐿−1)

Analyse Exploratoire Factorielle : permet de décrire un phénomène de manière


synthétique, les variables sont considérées chacune par rapport aux autres ; utilisée
pour la validation d'un questionnaire ou d'une échelle de mesure et la segmentation
(Regroupement des éléments qui se ressemblent)
Conditions de l’AFE :
1-Taille de l’échantillon :
Il faut un minimum de 5 observations par item (un ratio de 10 pour 1 est préférable),
le nombre total d'observations doit être d'au moins 50 et il est souhaitable
d'interroger au moins 100 individus.
2-L'adéquation des données : il faut s'assurer que les données sont factorisables,
Measure of Sampling Adequacy ou Kaiser-Meyer-Olkin; KMO>0.3; Préferable>0.7
3-Le critère du pourcentage de variance : s'assurer que l'ensemble des facteurs
retenus explique une quantité significative de variance en dépassant un certain seuil
fixé au préalable (V Expliquée>60%)
4-L'extraction des facteurs : ACP [Quanti]/ACM Quali]
Valeur Propre des composantes >1 sinon on la retire.
5-L'épuration d'une échelle de mesure se fait en deux temps :
Communalité>50%, 50% de la variance de l'item est expliquée par les facteurs ;
éliminer<50%
Coeff Structurel>50%, éliminer items avec CS>50% dans plusieurs composantes.
Rotation des facteurs : permet de changer l'angle de vue sans déformer
l'information, et cela en faisant tourner le système d'axe en minimisant la distance
entre les variables et les axes de telle sorte que chaque item initial ne soit fortement
corrélé qu'à un seul facteur.
Méthodes de rotation :
Orthogonale : Aucune rotation (90°)
Varimax : Rotation orthogonale qui minimise le nombre de variables ayant de fortes
corrélations sur chaque facteur
Oblimin direct : Rotation oblique, c'est-à-dire dans laquelle les axes se positionnent
en fonction des items et ne sont donc pas orthogonaux
Quartimax : Méthode qui minimise le nombre de facteurs requis pour expliquer
chaque variable
Equamax : Méthode de rotation qui minimise à la fois le nombre de variables qui
pèsent fortement sur un facteur et le nombre de facteurs requis pour expliquer une
variable

Vous aimerez peut-être aussi