Vous êtes sur la page 1sur 14

Chapitre 0 : Décrire les données

Pr. BOULAHOUAL Adil


La description des données est une étape importante de la démarche d'analyse. Beaucoup d'enquêtes se limitent à cette étape, qui
donne un premier niveau de lecture des résultats ou l'identification de certaines relations entre des variables de l'étude. Cette étape
peut servir de fondement, d'une part, à des analyses plus poussées, dont l'objectif est de simplifier les données (analyses factorielles par
exemple), de les classer (typologies), d'autre part, à des méthodes plus sophistiquées, de nature explicative (régressions, analyses de
variance, analyse conjointe, etc.). Ce chapitre a pour objectif de présenter les principales méthodes de description des données afin
de produire une première analyse de ces données collectées lors d'une enquête.

1. LA NOTION DE VARIABLE
Le principe de modélisation est entendu ici comme la représentation simplifiée d'un phénomène observé dans la réalité. La variable
est l'expression des différents états ou valeurs observés dans la population pour désigner ce phénomène.
Les variables sont de deux types :
1.1. QUALITATIVES :
Leurs modalités, c'est-à-dire les valeurs qu'elles peuvent prendre, ne peuvent être qualifiées par une quantité mesurable. Nous
pouvons distinguer les variables qualitatives ordinales, celles dont les modalités peuvent être ordonnées (par exemple la mention
obtenue en master), des variables nominales, celles pour lesquelles les modalités ne peuvent être rangées (par exemple la couleur
des cheveux).
1.2. QUANTITATIVES OU METRIQUES :

Chapitre Zéro : Décrire les données


Les occurrences qu'elles prennent sont des quantités mesurables. Elles peuvent être continues si elles peuvent prendre n'importe
quelle valeur à l'intérieur d'un ensemble (par exemple, la surface de l'appartement) ou discrètes si seules certaines valeurs sont
possibles (par exemple, le nombre de pièces de l'appartement est forcément un nombre entier).
Le marketing et plus largement les sciences sociales s'intéressent également à la mesure de phénomènes mentaux, telles les
opinions, les attitudes ou encore les préférences, au travers d’indicateurs : Les échelles de mesure. Ces dernières ont pour objet de
fournir au répondant un support d'expression de ces phénomènes abstraits, complexes à observer, le plus souvent sous la forme
d'échelles de notation :
• L'échelle nominale a pour principe d'utiliser les nombres comme des étiquettes pour coder les modalités d'une variable
qualitative nominale. Dans l'échelle nominale, par définition, chacune des modalités de la variable est équivalente aux autres.
Exemple : Êtes-vous 1. Un homme 2. Une femme ?
1
• L'échelle ordinale est une échelle de classement. Elle a pour principe d'affecter des nombres aux modalités dans le but de

Pr. BOULAHOUAL Adil


refléter un ordre sous-jacent. Nous pouvons, par exemple, utiliser une échelle ordinale pour classer des préférences de marques.
Exemple: Notez de 1 à 5 la qualité gustative du chocolat X ( l : Très mauvais; 2 : Mauvais; 3 : Moyen; 4: Bon; 5: Très bon).
• L'échelle métrique possède les propriétés des échelles nominale et ordinale, mais elle permet également de comparer les
distances entre les objets, les modalités étant séparées par des espaces équidistants. L'exemple le plus courant est celui du
thermomètre, la différence entre 0 °C et 1 °C étant la même qu'entre 1 °C et 2 °C, etc. L'échelle métrique est la plus couramment
utilisée en marketing. Pour les mesures d'attitudes, nous supposons que les intervalles sont équidistants.
Exemples d’échelles :

Échelle d'Osgood Avez-vous trouvé que le goût Mauvais 1 2 3 4 5 Bon


du produit X était ?
Échelle de Likert Pas tout d’accord 1 2 3 4 5 Tout à fait d’accord
Le chocolat X a bon goût
Échelle d'intention Si la marque M lançait ce
Je n’achèterai certainement 1 2 3 4 5 J’achèterai certainement
type de produit :
pas ce produit ce produit

2. DESCRIPTION D'UNE VARIABLE


Nous appelons « variable » l'ensemble des valeurs observées sur les différents individus pour une caractéristique donnée ( Tenenhaus,

Chapitre Zéro : Décrire les données


1996). Dans le chapitre l, nous avons vu qu'une variable est qualitative dès lors qu'elle a pour valeur des modalités ; elle peut être
nominale (lorsque l'ensemble des modalités ne possède pas de structure particulière) ou ordinale (lorsque l'ensemble des modalités est
ordonné). Une variable est considérée comme quantitative ou métrique lorsque ses occurrences peuvent être mesurées (par exemple,
l'âge, la valeur d'une action, etc.).
2.1. DECRIRE UNE VARIABLE QUALITATIVE
La description d'une variable qualitative consiste à présenter les effectifs, c'est-à-dire le nombre d'individus de l'échantillon pour
chaque modalité de la variable, et les fréquences, c'est-à-dire la proportion des réponses associées à chaque modalité de la variable
étudiée. Dans le langage des études de marché, nous parlons de tri à plat.
L'intérêt du tri à plat est de fournir une description rapide de la variable étudiée.
Ces descriptions peuvent également être visualisées sous forme de graphiques (diagrammes en bâtons, en secteurs, etc.), dans
lesquels les surfaces associées aux différentes modalités sont proportionnelles à leur fréquence, exprimée en valeur ou en pourcentage. 2
Pr. BOULAHOUAL Adil
2.2. DECRIRE UNE VARIABLE QUANTITATIVE
Plusieurs indicateurs permettent de décrire une variable quantitative :
• Les indicateurs de tendance centrale : moyenne, médiane, mode.
• Les indicateurs de dispersion : étendue, variance, écart type, coefficient de variation.
• Les indicateurs de forme de la distribution : asymétrie, aplatissement.
• Des représentations graphiques : histogrammes ou boîtes à moustaches, par exemple, qui permettent une description simple des
variables quantitatives.

➢ Mesures de la tendance centrale


Les mesures de la tendance centrale ont pour objet de résumer la série d'observations par une valeur considérée comme
représentative. La plus fréquemment employée est la moyenne, ou somme des valeurs de toutes les observations divisées par l'effectif;
celle que l'on utilise le plus souvent est la moyenne arithmétique. La moyenne révèle la tendance centrale en ce sens que les réponses
se trouvent réparties de part et d'autre de la moyenne. Mais la moyenne est sensible aux valeurs extrêmes ou atypiques, et ce d'autant
plus que le nombre d'observations est petit. Exemple : Considérons le service marketing d’une entreprise A, composé de 5 personnes
de 34, 35, 37, 39 et 57 ans. On observe que ce service est composé essentiellement de trentenaires. Or la moyenne d'âge, de 40,4 ans,
en donne une image trompeuse car elle est lourdement influencée par le salarié âge 57 ans. Il est alors utile de compléter l'analyse par
le calcul de la médiane, qui n'est pas sensible aux valeurs aberrantes ou extrêmes. La médiane représente la valeur de la variable qui
partage les observations en deux groupes de taille égale, 50 % au-dessus de la médiane, 50 % au-dessus. La médiane n'est qu'un cas

Chapitre Zéro : Décrire les données


particulier de frac. Le mode représente la valeur présentant la plus grande fréquence d’apparition. Si plusieurs valeurs à la fois
présentent la plus grande fréquence d'apparition chacune d'entre elles est un mode. Nous disons que la distribution est plurimodale ou
multimodale.

➢ Mesures de La dispersion
Les mesures de la dispersion reposent sur l'étendu, la variance, l'écart type et le coefficient de variation.
L'étendue (ou intervalle) est la différence entre la plus grande et la plus petite des valeurs observées, soit entre le maximum et le
minimum de la distribution. La variance est une mesure, sans unité de mesure, de la dispersion autour de la moyenne, elle est
égale, pour un échantillon, à la somme des carrés des écarts par rapport à la moyenne divisé par le nombre d'observations moins
un. Lorsque les données sont très dispersées autour de la moyenne la variance est élevée. Il s'agit d'une mesure plus fine de la
dispersion, au sens où toutes les données sont prises en compte. En revanche, elle est, comme la moyenne, sensible valeurs
3
extrêmes. L'écart type est la mesure de la dispersion autour de la moyenne exprimée dans la même unité que la variable. L'écart

Pr. BOULAHOUAL Adil


type de la variable x est la racine carrée de la variance. Le coefficient de variation est le rapport de l'écart type à la moyenne de
la distribution, exprimé en pourcentage. C'est donc un indicateur approprié pour comparer plusieurs sous-échantillons.

➢ Mesures de la distribution
Le coefficient de symétrie (Skewness) mesure l'asymétrie d'une distribution. Une distribution normale est symétrique (voir figure 1), c'est-
à-dire que les valeurs sont les mêmes de part et d'autre du centre de la
distribution, et possède une valeur de Skewness de 0. Une distribution avec un
Skewness positif significatif est une distribution asymétrique à droite (la
distribution prend la forme d'une longue queue à droite) et une distribution avec
un Skewness négatif significatif est une distribution asymétrique à gauche (la
distribution prend la forme d'une longue queue à gauche). Cette asymétrie
s'explique par le fait que les écarts sont plus importants dans une direction que
dans l'autre.

Les coefficients de Kurtosis et de Skewness peuvent être utilisés pour s'assurer que les variables suivent une distribution normale,
condition nécessaire pour de nombreux tests statistiques. Le coefficient d'aplatissement (Kurtosis) permet de mesurer le relief ou la
platitude d'une courbe issue d'une distribution de fréquences. En d'autres termes, le coefficient d'aplatissement permet de mesurer le
degré de concentration des observations dans les queues de la courbe. Le coefficient de Kurtosis est de 0 pour une distribution
normale (gaussienne). Un Kurtosis négatif indique donc que les queues comptent un plus grand nombre d'observations que dans une

Chapitre Zéro : Décrire les données


distribution gaussienne. Nous estimons que le coefficient de symétrie ou Skewness doit être inférieur à 1 et le coefficient
d'aplatissement ou Kurtosis doit être inférieur à 1,5 pour considérer que la variable suit bien une loi normale.

Focus : Les fractiles : Les fractiles sont les valeurs d'une variable quantitative qui partitionnent les données triées en classes de
taille égale. Les quartiles, par exemple, divisent les données en quatre classes de même taille. Le premier quartile sépare les observations en deux
parties, l'une contenant les 25 % d'observations de la variable aux valeurs les basses, l'autre contenant les 75 % d'observations présentant les valeurs
les plus élevées de la variable. Le deuxième quartile est la médiane. Le troisième quartile répartie la distribution entre une classe contenant les 75 %
d'observations aux valeurs le plus basses de la variable et une autre contenant les 25 % d'observations aux valeur plus élevées. Il est fréquent d'utiliser
les centiles, chaque centile contenant 1 % d’observations.
4
3. DES DONNEES AUX VARIABLES

Pr. BOULAHOUAL Adil


La plupart des entreprises sont aujourd'hui noyées sous l'information mais elles ont soif de connaissance. C'est la capacité de l'analyste
à mettre en œuvre une démarche analytique qui permet de créer, de gérer et de diffuser cette connaissance dans l'organisation. Ce
processus repose sur trois concepts : Les données, l'échantillon et les variables.

3.1 TYPES DE DONNEES


Les types de données sont en général identifiés en fonction de leur source. Ainsi, on distingue les données secondaires et les données
primaires.

 Les données secondaires sont des données qui ont été réunies préalablement à l'étude pour répondre à d'autres problèmes, ce
qui peut fortement en limiter la pertinence et la précision. En revanche, d'accès facile et peu coûteux, elles restent prisées par
les entreprises, même si elles sont souvent perçues comme des données à faible valeur ajoutée. Les sources d'information de
cette nature sont aujourd'hui abondantes et méritent d'être considérées avant toute collecte de données primaires. On
distingue les données secondaires internes, issues de l'entreprise (reporting, intranet, données comptables, informations émanant
des salariés ...) et les données secondaires externes, issues de l'environnement de l'entreprise, parmi lesquelles on peut distinguer
:
 Les données issues d'Internet: données structurées (fichiers logs, cookies, etc.) et, surtout, données non structurées (blogs,
forums, interactions sociales, etc.) qui commencent aujourd'hui à être analysées.
 Les données gouvernementales : données de recensement, données macroéconomiques, etc.
 Les données de panels (consommateurs, distributeurs, audience).

Chapitre Zéro : Décrire les données


 Les études de marchés publiées de nature commerciale ou les études sectorielles.
 Les interactions avec les consommateurs ou points de contacts : lettres de réclamations, call-centres, e-mails reçus, etc.

 Les données primaires sont des données qui ont été collectées dans le but de résoudre le problème managérial propre à
l'étude. Il s'agit de données brutes, qui doivent être préparées, analysées puis interprétées. Dans ce cas, les cinq étapes de la
démarche d'étude doivent être respectées. Ce chapitre est consacré à l'étape de la collecte des données, les chapitres
suivants abordent l'analyse et l'interprétation des résultats pour une série de tests pouvant être mis en œuvre dans une
démarche d'étude ou de recherche marketing.

5
4. L'ECHANTILLONNAGE

Pr. BOULAHOUAL Adil


Se référer au cours de statistique inférentielle.
A mentionner que la précision statistique d'un test s'exprime en calculant l'intervalle de confiance, qui indique la marge d'erreur
lorsqu'on généralise une estimation obtenue sur un échantillon à l'ensemble de la population représentée. La longueur de l'intervalle
diminue lorsque la taille de l'échantillon augmente.

5. MESURER A L'AIDE D'UN QUESTIONNAIRE


Construire un questionnaire amène à s'interroger sur la mesure des concepts. Comment mesurer, par exemple, la qualité du service ?
Même en cas d'études se fondant sur une seule question pour mesurer un concept, il est recommandé d'avoir recours à des échelles
de mesure. L'objectif d'une échelle est d'éviter d'avoir à représenter un phénomène abstrait - un construit - par le biais d'une seule et
unique variable, en privilégiant l'utilisation d'indicateurs qui permettent de représenter les différentes facettes de ce construit et se
rapprocher de la vraie valeur en éliminant l’effet humeur au moins.

5.1. LE DEVELOPPEMENT DES OUTILS DE MESURE 1


Churchill, souvent pris comme référence dans la construction d'échelles de mesure, précise que, pour remplir son véritable rôle, « le
questionnaire doit susciter et maintenir l'intérêt du répondant ». Pour ce faire, le chargé d'étude doit se poser un certain nombre de
questions afin de limiter divers biais.
➢ Le concept de mesure
L'acte de mesurer un phénomène est l'opération par laquelle on fait correspondre à une donnée collectée une grandeur censée

Chapitre Zéro : Décrire les données


représenter le phénomène. Cette opération est perturbée par des éléments qui éloignent la mesure idéale, qui représenterait
exactement le phénomène, de la mesure obtenue. Le modèle de la vraie valeur (Evrard et al. 2009) consiste à décomposer le résultat
d'une mesure en ses différents éléments : la vraie valeur (censée représenter la mesure parfaite) et les termes d'erreur (erreur aléatoire
et erreur systématique), comme le montre l'équation suivante :
M (mesure obtenue) = V (vraie valeur) + Es (erreur systématique) + Ea (erreur aléatoire).
La vraie valeur est la mesure « idéale », c'est-à-dire celle qui correspondrait parfaitement au phénomène étudié. Elle est le plus souvent
impossible à atteindre. L'erreur systématique (ou biais) provient du fait que l'instrument de mesure peut présenter un écart systématique
avec le phénomène étudié (par exemple, un biais lié au manque de clarté de l'échelle, à la longueur excessive du questionnaire,
etc.). L'erreur aléatoire provient du fait que le phénomène mesuré par l'instrument peut être affecté par des aléas tels que la fatigue du

1 Voir le chapitre : Construction d’une échelle de mesure en étude de marché ; semestre six. 6
répondant, l'humeur, etc. Ces termes d'erreur ajoutent du « bruit » aux variables observées; la mesure obtenue contient donc à la fois la

Pr. BOULAHOUAL Adil


« vraie valeur » de la mesure et le « bruit ». Par exemple, une corrélation ou une moyenne peuvent être artificiellement renforcées ou
diminuées par l'erreur de mesure.
L'analyste doit donc s'interroger sur la qualité de l'instrument de mesure qu'il construit et met en œuvre. La validation d'un
questionnaire, par exemple, consistera donc à tester les instruments de mesure utilisés. Ces outils de mesure doivent répondre à deux
critères principaux: la fiabilité et la validité. La fiabilité renvoie à la cohérence entre les indicateurs censés mesurer le même concept,
alors que la validité désigne la capacité d'un instrument de mesure à appréhender un phénomène.

➢ La validité: Les instruments de mesure choisis doivent permettre d'appréhender le mieux possible le phénomène à mesurer. Il
s'agit de répondre à la question suivante: « Mesure-t-on bien ce que l'on cherche à mesurer? »
➢ La fiabilité: De façon générale, elle fait référence à la régularité de la mesure. Si l'on mesure un même phénomène plusieurs fois
avec le même instrument, on doit obtenir le même résultat. Ce problème est concerné par l'erreur aléatoire. On parle aussi de
fiabilité de cohérence interne pour des mesures qui comportent plusieurs items. Il s'agit alors de s'assurer, grâce à des indicateurs
comme le coefficient alpha de Cronbach, que les items sont suffisamment homogènes entre eux, c'est-à-dire qu'ils partagent
assez de Variance.

6. STRATEGIES D'ANALYSE
L'analyse des données n'est pas une fin en soi; elle doit aider à prendre des décisions à partir d'informations disponibles, si possible
fiables et valides. C'est la décision à prendre qui guide la stratégie d'analyse et la modélisation.

Chapitre Zéro : Décrire les données


La stratégie d'analyse peut ainsi amener à l'utilisation de techniques variées. Certaines techniques sont utiles pour étudier les
différences entre variables, d'autres pour mettre en évidence leur dépendance, d'autres encore visent à classer les individus, etc. La
plupart de ces analyses reposent sur des hypothèses qu'il convient de tester. Nous y reviendrons en détail dans les chapitres suivants.

Ensuite, la stratégie d'analyse est en partie contrainte par le type de variables à disposition, qualitatives ou quantitatives. D'une manière
générale, il est possible de représenter l'ensemble de ces techniques d'analyse en trois phases successives :

• L'analyse univariée consiste à examiner la distribution les modalités ou les occurrences d’une variable. Voir le point plus haut (
2.DESCRIPTION D’UNE VARIABLE) ;
➢ L'analyse bivariée consiste à étudier les relations entre deux variables. Dans le cas de variables qualitatives, il s'agira d'un
tableau croisé dénombrant les nombres d'observations correspondant à chaque combinaison possible des deux variables ou de
7
tests d’association confirmant ou infirmant cette dernière ou encore mesurer la force de l'association entre les deux variables.

Pr. BOULAHOUAL Adil


Pour les variables à caractère quantitatif nous parlons d’analyse de régression (Chapitre 1 : analyse de le régression simple).
En général, les variables sont utilisées dans la formulation de modèles. Dans sa forme la plus simple, un modèle vise à définir une
relation de cause à effet entre une variable indépendante et une autre dépendante.
Relation causale simple :
X Y

D'autres variables peuvent intervenir dans cette relation directe entre la (ou les) variable(s) indépendante(s) et la (ou les)
variable(s) dépendante(s).2
Dans le premier cas, l'effet de la variable indépendante X sur la variable dépendante Y se mesure par l'intermédiaire d'une
troisième variable dite « médiatrice ». L'association ou la causalité observée entre X et Y résulte du fait que X influence Z qui à son
tour influence Y. Cette variable Z -le goût pour les aliments sucrés par exemple - peut intervenir dans la relation entre la
gourmandise et le montant d'achat annuel de friandises. Dans le second cas, l'intensité et/ou le signe de la relation entre la
variable indépendante et la variable dépendante peut être influencé par une variable modératrice. Si cette variable
modératrice est le sexe, on peut par exemple chercher à vérifier que l'effet de la gourmandise sur le montant d'achat annuel de
friandises est plus fort chez les femmes que chez les hommes. Dans ce cas, cet effet peut être mis en évidence en décomposant
la population en sous-populations (les hommes d'un côté, les femmes de l'autre) et en testant la relation dans les sous-groupes.

X Y X Y

Chapitre Zéro : Décrire les données


Z à un effet médiateur z à un effet modérateur
Z
Z

➢ L'analyse multivariée laisse notamment de côté la parcellisation de l'information induite par


l'analyse bivariée. En effet, en se focalisant sur la relation entre deux variables, on néglige le fait
que cette relation peut être influencée par la présence d'autres variables. En outre, lorsque le
nombre de variables est important, il est difficile de prendre en compte l'ensemble des
combinaisons possibles deux à deux. L'analyse multivariée permet donc le traitement simultané
de plus de deux variables à la fois. L'ambition du chargé d'étude qui utilise des analyses
multivariées peut se situer à deux niveaux: décrire les données à sa disposition ou expliquer des

2 Théâtre et al. 1999, p. 339. 8


phénomènes grâce aux données à sa disposition. On peut chercher à expliquer soit des différences (par exemple, entre les

Pr. BOULAHOUAL Adil


hommes et les femmes, les clients et les non-clients d'un magasin), soit des relations entre variables.

La fameuse stratégie des équations structurelles est née dans certaines branches de la sociologie, en particulier de la sociologie
américaine, et rapidement diffusées dans de nombreuses autres disciplines, dont les sciences de gestion, les méthodes d’équations
structurelles (MES), ou Structural Equation Modeling en anglais (SEM), sont considérées par certains comme une méthode « magique »,
qui « marchent » quand les modèles de régression traditionnels ne marchent pas.

L’objectif des MES, est de proposer une modélisation des relations causales entre de nombreuses variables explicatives et plusieurs
variables expliquées avec des échelles multi-items, et des variables latentes… De façon très classique, les MES servent à calculer la
force des relations entre des items et les variables latentes qu’ils mesurent, et entre ces variables latentes, comme dans le graphique ci-
dessous. Dans cet exemple classique, le sociologue Kenneth Bollen, pionnier des MES, modélise ainsi les relations entre une mesure du
développement en 1960 (ind60), et de la démocratie en 1960 et 1965 (dem60 et dem65), ces trois variables latentes étant estimées
chacune par des échelles de trois indicateurs différents.

Chapitre Zéro : Décrire les données


5.3 896, 325, 125,
Million 546 679 659
United
s Rus Austr Sp
States sia alia ain
5.3 896, 325, 125,
Million 546 679 659
United
s Rus Austr Sp
States
5.3 sia
896, alia
325, ain
125,
9
Million 546 679 659
United
s Rus Austr Sp
States sia alia ain
Chapitre I : la régression linéaire simple

Pr. BOULAHOUAL Adil


Les modèles de régression ont pour objectif d'expliquer la variation d'un phénomène par celle d'une ou de plusieurs autres variables
dites explicatives. Dans la vie de l'entreprise, nous essayons fréquemment de détecter et d'analyser les causes de certains
phénomènes, comme la variation des ventes par exemple ou encore la détérioration du niveau de performance du staff.
La régression linéaire (le type de régression le plus simple) estime les paramètres de l'équation théorique permettant de calculer le
niveau de la variable dépendante en fonction des niveaux des variables indépendantes.

1. LA CORRELATION
Le coefficient de corrélation de Pearson est une mesure d'association qui permet d'établir si deux variables mesurées sur le même
ensemble d'observations varient de façon analogue ou non. C’est une mesure de la force et du sens du lien entre deux variables
métriques.
Une corrélation proche de 1 en valeur absolue signifie que deux variables sont linéairement liées entre elles et peuvent s'expliquer
mutuellement. Lorsque r est proche de + 1, cela veut dire que les deux variables varient dans le même sens. Lorsque r est proche de -
1, cela signifie que les deux variables varient en sens inverse l'une de l'autre. Et quand r est proche de 0, il y a une faible corrélation.

Chapitre I : La régression linéaire simple


2. LA REGRESSION LINEAIRE SIMPLE
La régression linéaire vise à expliquer et à prédire une variable dépendante par une ou un ensemble de variables indépendantes
quantitatives.
La régression vise à expliquer, à estimer ou à prédire la valeur d'une variable à partir des valeurs d’une autre variable explicative. Par
exemple, on peut expliquer le nombre d’SMS envoyé par l'âge du client.
Les différentes étapes d’une régression linéaire sont au nombre de quatre :

1. SPÉCIFICATION DU MODÈLE
L'approche linéaire est inadéquate lorsque la variable dépendante est de nature qualitative. Nous
préférerons alors un modèle de régression logistique binaire ou multinomiale lorsque la variable
dépendante en comprend plus de deux modalités. A noter aussi que deux variables peuvent
être parfaitement liées mais, si leur rapport n'est pas linéaire, le coefficient de corrélation n'est pas une
10
statistique adaptée pour mesurer leur association. Alors il est recommandé de tracer le diagramme de dispersion pour soupçonner le
type de relation existante entre nos deux variables.
Dans notre cas de régression simple, normalement les valeurs de la variable dépendante (Y) sont calculées à partir des valeurs de la

Pr. BOULAHOUAL Adil


variable indépendante (X) par l’équation linéaire théorique y = β0 + β 1x + ε, et si jamais nous n’avons pas accès à l’information nous
estimons cette dernière par une droite dite empirique, ou b0 et b1 sont
respectivement des estimations ponctuelles de β0 et β1.

2. VALIDATION DU MODÈLE
La deuxième étape consiste à vérifier le modèle dans sa globalité.
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y:
– Le coefficient de détermination de Y en fonction de X
– Le coefficient de corrélation entre X et Y
– La covariance entre X et Y
Le coefficient de détermination théorique de Y en fonction de X, noté ρ2 mesure la
proportion de la variance de Y qui est expliquée par la variable X au niveau de toute
la population. A noter que 0≤ ρ2 ≤1.
En pratique ρ2 est inconnu, car nous ne possédons pas d’information sur toute la

Chapitre I : La régression linéaire simple


population mais seulement sur un échantillon de taille n, alors nous l’estimerons par la statistique r2.

Nous appelons résidu ou erreur empirique ou écart de prévision ( ei ) la différence (l’écart vertical) entre la valeur observée yi de y et
la valeur estimée de y obtenue à partir de la droite de régression, lorsque x= xi.

3. ESTIMATION DES PARAMÈTRES


Plusieurs méthodes permettent d’estimer notre droite théorique, nous citons à titre d’exemple : La méthode des moindres carrés et la
méthode de la vraisemblance. L’idée de base de la première méthode, qui est la plus précise, est de trouver la fonction de la droite
qui minimise la somme des carrés des résidus.
4- TEST DES HYPOTHÈSES
Pour vérifier si l’influence de la variable indépendante est significative, on procède à un test d’hypothèses sur β 1. Parce que si la β1 = 0
x n’aura pas d’impact sur y. ( Y= β0 + β1 X).

11
Autrement nous allons opter pour une estimation par intervalle de confiance, au seuil de signification choisit lors de la détermination
de la taille de l’échantillon, et si la valeur 0 appartient à l’intervalle de confiance, nous acceptons l’hypothèse nulle: β1=0 au niveau

Pr. BOULAHOUAL Adil


de signification α et on conclut qu’il n’existe pas de relation linéaire significative entre x et y.
Deux tests sont couramment utilisés :
◦ Test t ou z (selon la taille de l'échantillon)
◦ Test F
Notons que les deux tests nécessitent une estimation de se2 (la variance des erreurs e du modèle de régression.).
➢ Les étapes d’un test z ou t d’hypothèses sur β1
1. Énoncer les hypothèses H0 et H1.
2. Préciser les conditions du test
a. La population des erreurs est normale
b. La variance résiduelle est inconnue
c. Le niveau de signification
d. Loi de distribution : normale si le degré de liberté est supérieur à 30 , et une loi
de Student si le degré de liberté est inférieur à 30 .
3. Calculer la statistique du test.
4. Trouver la région critique au niveau de signification α.

Chapitre I : La régression linéaire simple


➢ Les conditions d'application de la régression
Le modèle de la régression pose un certain nombre d'hypothèses lors de l'estimation des paramètres et des tests d'hypothèses. Ces
conditions d'application de la régression sont :
1. La linéarité du phénomène mesuré;
2. La variance constante du terme d'erreur ou homoscédasticité,
3. L'indépendance des termes d'erreur,

4. La normalité de la distribution du terme d'erreur.

La linéarité est importante car le concept de corrélation est fondé sur une relation
linéaire. La linéarité d'une relation bivariée est vérifiée par l'examen des résidus.
L'homoscédasticité est vérifiée par l'examen des résidus ou par des tests statistiques. Son
utilisation est souvent recommandée.
12
L'indépendance des termes d'erreur est une autre condition de l'analyse de régression multiple. Outre l'examen du graphique des
résidus peut aussi être validée par le test de Durbin-Watson, notamment dans le cas de données temporelles.

Pr. BOULAHOUAL Adil


3. REGRESSION LINEAIRE SIMPLE SOUS SPSS
RAPPEL :
R : Le coefficient de corrélation mesure la force de la relation entre deux variables.
R2 ou R-Deux : Mesure la part expliquée de la variable dépendante par la variance de la variable indépendante.
Exemple : Variable dépendante : Rendement
Variable indépendante : Motivation.
Si R est égale à 0,76 veut dire que 76% de la variance du rendement est expliquée par la variance de la motivation.
2

ETAPE DE LA REGRESSION LINEAIRE SIMPLE

1- La spécification du modèle consistant à tracer le nuage de point - dit encore diagramme de dispersion - et à soupçonner
l’existence et le type de la relation entre les deux variables.
Procédure sous SPSS : Analyse – Régression – Estimation de courbe ou Ajustement de fonction selon version.

Chapitre I : La régression linéaire simple


2- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance (ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle, autrement nous
confirmons l’existence de relation entre la variable à expliquer et la variable explicative.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement – ok.
N.B : Dans le cas de la régression linéaire simple, la signification de la variable explicative et la signification de l’ANOVA sont
égales.

3- L’estimation des paramètres β0 et β1 : Autrement calculer la b0 et la b1.


Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire simple, lorsqu’il est validé par l’analyse de la variance nous n’avons pas à tester les hypothèses car
d’office la signification de la variable indépendante serait inférieure au seuil choisi. De plus, si l’intervalle de confiance de la β0

13
contient la valeur zéro (0) ceci n’influence en aucun cas l’existence de relation entre la variable explicative et expliquée,
autrement la fonction y = β0+ β1x deviendrait y = β1x .
Par contre si l’intervalle de la β1 contient la valeur zéro, la fonction s’écrirait : y= β0 ce qui veut dire qu’il n’existe pas de lien entre

Pr. BOULAHOUAL Adil


la variable x et la y.

Chapitre I : La régression linéaire simple


14

Vous aimerez peut-être aussi