Académique Documents
Professionnel Documents
Culture Documents
1. LA NOTION DE VARIABLE
Le principe de modélisation est entendu ici comme la représentation simplifiée d'un phénomène observé dans la réalité. La variable
est l'expression des différents états ou valeurs observés dans la population pour désigner ce phénomène.
Les variables sont de deux types :
1.1. QUALITATIVES :
Leurs modalités, c'est-à-dire les valeurs qu'elles peuvent prendre, ne peuvent être qualifiées par une quantité mesurable. Nous
pouvons distinguer les variables qualitatives ordinales, celles dont les modalités peuvent être ordonnées (par exemple la mention
obtenue en master), des variables nominales, celles pour lesquelles les modalités ne peuvent être rangées (par exemple la couleur
des cheveux).
1.2. QUANTITATIVES OU METRIQUES :
➢ Mesures de La dispersion
Les mesures de la dispersion reposent sur l'étendu, la variance, l'écart type et le coefficient de variation.
L'étendue (ou intervalle) est la différence entre la plus grande et la plus petite des valeurs observées, soit entre le maximum et le
minimum de la distribution. La variance est une mesure, sans unité de mesure, de la dispersion autour de la moyenne, elle est
égale, pour un échantillon, à la somme des carrés des écarts par rapport à la moyenne divisé par le nombre d'observations moins
un. Lorsque les données sont très dispersées autour de la moyenne la variance est élevée. Il s'agit d'une mesure plus fine de la
dispersion, au sens où toutes les données sont prises en compte. En revanche, elle est, comme la moyenne, sensible valeurs
3
extrêmes. L'écart type est la mesure de la dispersion autour de la moyenne exprimée dans la même unité que la variable. L'écart
➢ Mesures de la distribution
Le coefficient de symétrie (Skewness) mesure l'asymétrie d'une distribution. Une distribution normale est symétrique (voir figure 1), c'est-
à-dire que les valeurs sont les mêmes de part et d'autre du centre de la
distribution, et possède une valeur de Skewness de 0. Une distribution avec un
Skewness positif significatif est une distribution asymétrique à droite (la
distribution prend la forme d'une longue queue à droite) et une distribution avec
un Skewness négatif significatif est une distribution asymétrique à gauche (la
distribution prend la forme d'une longue queue à gauche). Cette asymétrie
s'explique par le fait que les écarts sont plus importants dans une direction que
dans l'autre.
Les coefficients de Kurtosis et de Skewness peuvent être utilisés pour s'assurer que les variables suivent une distribution normale,
condition nécessaire pour de nombreux tests statistiques. Le coefficient d'aplatissement (Kurtosis) permet de mesurer le relief ou la
platitude d'une courbe issue d'une distribution de fréquences. En d'autres termes, le coefficient d'aplatissement permet de mesurer le
degré de concentration des observations dans les queues de la courbe. Le coefficient de Kurtosis est de 0 pour une distribution
normale (gaussienne). Un Kurtosis négatif indique donc que les queues comptent un plus grand nombre d'observations que dans une
Focus : Les fractiles : Les fractiles sont les valeurs d'une variable quantitative qui partitionnent les données triées en classes de
taille égale. Les quartiles, par exemple, divisent les données en quatre classes de même taille. Le premier quartile sépare les observations en deux
parties, l'une contenant les 25 % d'observations de la variable aux valeurs les basses, l'autre contenant les 75 % d'observations présentant les valeurs
les plus élevées de la variable. Le deuxième quartile est la médiane. Le troisième quartile répartie la distribution entre une classe contenant les 75 %
d'observations aux valeurs le plus basses de la variable et une autre contenant les 25 % d'observations aux valeur plus élevées. Il est fréquent d'utiliser
les centiles, chaque centile contenant 1 % d’observations.
4
3. DES DONNEES AUX VARIABLES
Les données secondaires sont des données qui ont été réunies préalablement à l'étude pour répondre à d'autres problèmes, ce
qui peut fortement en limiter la pertinence et la précision. En revanche, d'accès facile et peu coûteux, elles restent prisées par
les entreprises, même si elles sont souvent perçues comme des données à faible valeur ajoutée. Les sources d'information de
cette nature sont aujourd'hui abondantes et méritent d'être considérées avant toute collecte de données primaires. On
distingue les données secondaires internes, issues de l'entreprise (reporting, intranet, données comptables, informations émanant
des salariés ...) et les données secondaires externes, issues de l'environnement de l'entreprise, parmi lesquelles on peut distinguer
:
Les données issues d'Internet: données structurées (fichiers logs, cookies, etc.) et, surtout, données non structurées (blogs,
forums, interactions sociales, etc.) qui commencent aujourd'hui à être analysées.
Les données gouvernementales : données de recensement, données macroéconomiques, etc.
Les données de panels (consommateurs, distributeurs, audience).
Les données primaires sont des données qui ont été collectées dans le but de résoudre le problème managérial propre à
l'étude. Il s'agit de données brutes, qui doivent être préparées, analysées puis interprétées. Dans ce cas, les cinq étapes de la
démarche d'étude doivent être respectées. Ce chapitre est consacré à l'étape de la collecte des données, les chapitres
suivants abordent l'analyse et l'interprétation des résultats pour une série de tests pouvant être mis en œuvre dans une
démarche d'étude ou de recherche marketing.
5
4. L'ECHANTILLONNAGE
1 Voir le chapitre : Construction d’une échelle de mesure en étude de marché ; semestre six. 6
répondant, l'humeur, etc. Ces termes d'erreur ajoutent du « bruit » aux variables observées; la mesure obtenue contient donc à la fois la
➢ La validité: Les instruments de mesure choisis doivent permettre d'appréhender le mieux possible le phénomène à mesurer. Il
s'agit de répondre à la question suivante: « Mesure-t-on bien ce que l'on cherche à mesurer? »
➢ La fiabilité: De façon générale, elle fait référence à la régularité de la mesure. Si l'on mesure un même phénomène plusieurs fois
avec le même instrument, on doit obtenir le même résultat. Ce problème est concerné par l'erreur aléatoire. On parle aussi de
fiabilité de cohérence interne pour des mesures qui comportent plusieurs items. Il s'agit alors de s'assurer, grâce à des indicateurs
comme le coefficient alpha de Cronbach, que les items sont suffisamment homogènes entre eux, c'est-à-dire qu'ils partagent
assez de Variance.
6. STRATEGIES D'ANALYSE
L'analyse des données n'est pas une fin en soi; elle doit aider à prendre des décisions à partir d'informations disponibles, si possible
fiables et valides. C'est la décision à prendre qui guide la stratégie d'analyse et la modélisation.
Ensuite, la stratégie d'analyse est en partie contrainte par le type de variables à disposition, qualitatives ou quantitatives. D'une manière
générale, il est possible de représenter l'ensemble de ces techniques d'analyse en trois phases successives :
• L'analyse univariée consiste à examiner la distribution les modalités ou les occurrences d’une variable. Voir le point plus haut (
2.DESCRIPTION D’UNE VARIABLE) ;
➢ L'analyse bivariée consiste à étudier les relations entre deux variables. Dans le cas de variables qualitatives, il s'agira d'un
tableau croisé dénombrant les nombres d'observations correspondant à chaque combinaison possible des deux variables ou de
7
tests d’association confirmant ou infirmant cette dernière ou encore mesurer la force de l'association entre les deux variables.
D'autres variables peuvent intervenir dans cette relation directe entre la (ou les) variable(s) indépendante(s) et la (ou les)
variable(s) dépendante(s).2
Dans le premier cas, l'effet de la variable indépendante X sur la variable dépendante Y se mesure par l'intermédiaire d'une
troisième variable dite « médiatrice ». L'association ou la causalité observée entre X et Y résulte du fait que X influence Z qui à son
tour influence Y. Cette variable Z -le goût pour les aliments sucrés par exemple - peut intervenir dans la relation entre la
gourmandise et le montant d'achat annuel de friandises. Dans le second cas, l'intensité et/ou le signe de la relation entre la
variable indépendante et la variable dépendante peut être influencé par une variable modératrice. Si cette variable
modératrice est le sexe, on peut par exemple chercher à vérifier que l'effet de la gourmandise sur le montant d'achat annuel de
friandises est plus fort chez les femmes que chez les hommes. Dans ce cas, cet effet peut être mis en évidence en décomposant
la population en sous-populations (les hommes d'un côté, les femmes de l'autre) et en testant la relation dans les sous-groupes.
X Y X Y
La fameuse stratégie des équations structurelles est née dans certaines branches de la sociologie, en particulier de la sociologie
américaine, et rapidement diffusées dans de nombreuses autres disciplines, dont les sciences de gestion, les méthodes d’équations
structurelles (MES), ou Structural Equation Modeling en anglais (SEM), sont considérées par certains comme une méthode « magique »,
qui « marchent » quand les modèles de régression traditionnels ne marchent pas.
L’objectif des MES, est de proposer une modélisation des relations causales entre de nombreuses variables explicatives et plusieurs
variables expliquées avec des échelles multi-items, et des variables latentes… De façon très classique, les MES servent à calculer la
force des relations entre des items et les variables latentes qu’ils mesurent, et entre ces variables latentes, comme dans le graphique ci-
dessous. Dans cet exemple classique, le sociologue Kenneth Bollen, pionnier des MES, modélise ainsi les relations entre une mesure du
développement en 1960 (ind60), et de la démocratie en 1960 et 1965 (dem60 et dem65), ces trois variables latentes étant estimées
chacune par des échelles de trois indicateurs différents.
1. LA CORRELATION
Le coefficient de corrélation de Pearson est une mesure d'association qui permet d'établir si deux variables mesurées sur le même
ensemble d'observations varient de façon analogue ou non. C’est une mesure de la force et du sens du lien entre deux variables
métriques.
Une corrélation proche de 1 en valeur absolue signifie que deux variables sont linéairement liées entre elles et peuvent s'expliquer
mutuellement. Lorsque r est proche de + 1, cela veut dire que les deux variables varient dans le même sens. Lorsque r est proche de -
1, cela signifie que les deux variables varient en sens inverse l'une de l'autre. Et quand r est proche de 0, il y a une faible corrélation.
1. SPÉCIFICATION DU MODÈLE
L'approche linéaire est inadéquate lorsque la variable dépendante est de nature qualitative. Nous
préférerons alors un modèle de régression logistique binaire ou multinomiale lorsque la variable
dépendante en comprend plus de deux modalités. A noter aussi que deux variables peuvent
être parfaitement liées mais, si leur rapport n'est pas linéaire, le coefficient de corrélation n'est pas une
10
statistique adaptée pour mesurer leur association. Alors il est recommandé de tracer le diagramme de dispersion pour soupçonner le
type de relation existante entre nos deux variables.
Dans notre cas de régression simple, normalement les valeurs de la variable dépendante (Y) sont calculées à partir des valeurs de la
2. VALIDATION DU MODÈLE
La deuxième étape consiste à vérifier le modèle dans sa globalité.
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y:
– Le coefficient de détermination de Y en fonction de X
– Le coefficient de corrélation entre X et Y
– La covariance entre X et Y
Le coefficient de détermination théorique de Y en fonction de X, noté ρ2 mesure la
proportion de la variance de Y qui est expliquée par la variable X au niveau de toute
la population. A noter que 0≤ ρ2 ≤1.
En pratique ρ2 est inconnu, car nous ne possédons pas d’information sur toute la
Nous appelons résidu ou erreur empirique ou écart de prévision ( ei ) la différence (l’écart vertical) entre la valeur observée yi de y et
la valeur estimée de y obtenue à partir de la droite de régression, lorsque x= xi.
11
Autrement nous allons opter pour une estimation par intervalle de confiance, au seuil de signification choisit lors de la détermination
de la taille de l’échantillon, et si la valeur 0 appartient à l’intervalle de confiance, nous acceptons l’hypothèse nulle: β1=0 au niveau
La linéarité est importante car le concept de corrélation est fondé sur une relation
linéaire. La linéarité d'une relation bivariée est vérifiée par l'examen des résidus.
L'homoscédasticité est vérifiée par l'examen des résidus ou par des tests statistiques. Son
utilisation est souvent recommandée.
12
L'indépendance des termes d'erreur est une autre condition de l'analyse de régression multiple. Outre l'examen du graphique des
résidus peut aussi être validée par le test de Durbin-Watson, notamment dans le cas de données temporelles.
1- La spécification du modèle consistant à tracer le nuage de point - dit encore diagramme de dispersion - et à soupçonner
l’existence et le type de la relation entre les deux variables.
Procédure sous SPSS : Analyse – Régression – Estimation de courbe ou Ajustement de fonction selon version.
13
contient la valeur zéro (0) ceci n’influence en aucun cas l’existence de relation entre la variable explicative et expliquée,
autrement la fonction y = β0+ β1x deviendrait y = β1x .
Par contre si l’intervalle de la β1 contient la valeur zéro, la fonction s’écrirait : y= β0 ce qui veut dire qu’il n’existe pas de lien entre