Vous êtes sur la page 1sur 234

Table des matières

AVANT PROPOS.................................................................................................................................. 5
INTRODUCTION ................................................................................................................................. 7
Structure du livre .................................................................................................................................. 9
POURQUOI RECOURIR AUX OUTILS STATISTIQUES ? ....................................................... 11
CHAPITRE 1 : PRODUIRE ET PREPARER LES VARIABLES ................................................ 12
Les différentes sources de données du praticien de l’économétrie. ............................................ 13
I- Population, échantillon et individus ........................................................................................... 15
Les variables nécessaires à l’analyse.............................................................................................. 20
2.1 Variables quantitatives ............................................................................................................. 21
2.2 Variables qualitatives ................................................................................................................ 22
3. De la nécessité de recoder les variables ..................................................................................... 24
3.1 Techniques de recodage 1 : regrouper des modalités ............................................................. 24
3.2 Techniques de recodage 2 : simplifier les variables quantitatives ........................................ 25
3.3 Techniques de recodage 3 : combiner les variables ................................................................ 27
Exercice pratique............................................................................................................................. 28
CHAPITRE 2 : ANALYSE DES RELATIONS ENTRE DEUX VARIABLES ............................ 35
I-Description d’une variable............................................................................................................... 36
1.1 Décrire une variable qualitative ............................................................................................... 36
Mesures de la tendance centrale .................................................................................................... 39
Mesures de la dispersion ................................................................................................................. 40
Représentations graphiques ........................................................................................................... 41
II-Techniques d’analyse des variables qualitatives .......................................................................... 42
2.1- Tableau croisé........................................................................................................................... 42
2.2- Test du Khi-deux ...................................................................................................................... 44
Intérêts et limites ............................................................................................................................. 46
III-Techniques d’analyse des variables quantitatives ...................................................................... 47
3.1- Coefficient de corrélation ........................................................................................................ 47
La notion de relation linéaire ......................................................................................................... 48
La notion de covariation ................................................................................................................. 49
La définition du coefficient de corrélation linéaire ...................................................................... 50
Intérêts, usages et limites ................................................................................................................ 51
IV-Techniques d’analyse d’une variable qualitative et quantitative. ............................................. 53
Test t ................................................................................................................................................. 55
Test Z ................................................................................................................................................ 57
Test de Kolmogorov-Smirov (K-S) ................................................................................................ 58
Test U de Mann-Whitney................................................................................................................ 59

1
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test de la médiane ........................................................................................................................... 60
Test de Wilcoxon ............................................................................................................................. 60
Test du signe .................................................................................................................................... 61
Test de McNemar ............................................................................................................................ 62
Résumé ............................................................................................................................................. 62
Exercice 1 ......................................................................................................................................... 63
CHAPITRE 3 : ANALYSE DE LA VARIANCE ET REGRESSION LINEAIRE ....................... 69
I-ANALYSE DE VARIANCE ............................................................................................................ 70
1.1- LES PRINCIPES DE L’ANALYSE DE VARIANCE .......................................................... 71
1.2- L’ANALYSE UNIVARIÉE DE LA VARIANCE : ANOVA À UN FACTEUR ................ 71
1.3- L’ANALYSE DE VARIANCE Á X FACTEURS ................................................................. 76
1.4- L’ANALYSE DE COVARIANCE : ANCOVA ET MANCOVA ........................................ 84
II-REGRESSION LINEAIRE............................................................................................................ 89
2.1- La corrélation linéaire ............................................................................................................. 90
2.2- Les principes de la corrélation linéaire .................................................................................. 90
2.3- Réalisation d’une corrélation linéaire .................................................................................... 91
2.4- La régression linéaire simple................................................................................................... 93
2.5- L’EXAMEN DES RESIDUS ................................................................................................... 98
2.6- LA RÉGRESSION LINÉAIRE MULTIPLE ...................................................................... 101
Résumé ........................................................................................................................................... 107
EXERCICE SUR L’ANALYSE DE LA VARIANCE ............................................................... 108
EXERCICE SUR LA REGRESSION LINEAIRE .................................................................... 113
CHAPITRE 4 : LES MODELES NON LINEAIRES .................................................................... 117
I- LES MODÈLES NON LINÉAIRES ............................................................................................ 118
1.1- Les fonctions de type exponentiel ......................................................................................... 118
1.2- Les modèles de diffusion ........................................................................................................ 121
1.3 - Méthode d’estimation des modèles non linéaires ............................................................... 123
Exemple d’application .................................................................................................................. 124
II- LA COINTÉGRATION ET LE MODÈLE Á CORRECTION D’ERREUR......................... 127
2.1- Exemples introductifs ............................................................................................................ 127
2.2- Le concept de cointégration................................................................................................... 129
2.3 Propriétés de l’ordre d’intégration d’une série .................................................................... 129
2.4 - Conditions de cointégration ................................................................................................. 131
2.5 - Le modèle à correction d’erreur (ECM) ............................................................................. 132
2.6 - Cointégration entre deux variables ......................................................................................... 133
2.7 - Généralisation à k variables ................................................................................................. 138
CHAPITRE 5 : ÉLEMENTS D’ANALYSE DES SERIES TEMPORELLES ............................ 141

2
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- Stationnarité................................................................................................................................... 142
A. Définition et propriétés ............................................................................................................ 142
B. Fonctions d’autocorrélation simple et partielle ..................................................................... 143
C. Tests de « bruit blanc » et de stationnarité ............................................................................ 145
1- Analyse des fonctions d’autocorrélation ................................................................................. 145
2- Statistiques de Box-Pierce et Ljung-Box ................................................................................. 146
3- Tests de normalité ..................................................................................................................... 147
4- Tests d’homoscédasticité .......................................................................................................... 148
II. La non-stationnarité et les tests de racine unitaire ................................................................... 149
A. La non-stationnarité : les processus TS et DS ........................................................................ 149
B. Les tests de racine unitaire et la stratégie séquentielle de test .............................................. 153
CHAPITRE 6 : GUIDE PRATIQUE D’UTILISATION DES LOGICIELS EVIEWS ET STATA
............................................................................................................................................................. 164
I- CREATION DE L’ESPACE DE TRAVAIL SOUS EVIEWS .................................................. 165
II- IMPORTATION DES DONNEES ............................................................................................. 165
III- CREATION DES SERIES Log(IMPORT), Log(PIB), Log(TRANSPORT)… .................... 165
IV- SAUVEGARDER ET DONNER UN NOM AU FICHIER .................................................... 166
V- REPRESENTATIONS GRAPHIQUES ..................................................................................... 166
VI- TEST DE NORMALITE DE JARQUE BERA ....................................................................... 167
VII- ECRITURE DU MODELE ...................................................................................................... 168
VIII- INTERPRETATION DU COEFFICIENT DEDETERMINATION .................................. 170
IX- TEST DE COINTEGRATION DE JOHNANSEN.................................................................. 174
EXERCICE .................................................................................................................................... 180
STATA................................................................................................................................................ 182
I- EXTRACTION DES DONNEES ............................................................................................. 182
II- LE TRAITEMENT DES DONNEES ..................................................................................... 184
2.1. Rappel de notions théoriques d’économétrie ....................................................................... 184
2.1.1 Qu’est-ce que l’économétrie ? ............................................................................................. 184
2.1.2 La différence entre un estimateur non-biaisé et efficace, et une variable significative .. 184
2.1.3 Les tests d’hypothèses .......................................................................................................... 185
2.1.4 Homoscédasticité vs Hétéroscédasticité .............................................................................. 187
2.2.2 Création de nouvelles variables. .......................................................................................... 189
2.2.3 Divers ..................................................................................................................................... 191
2.3 Statistiques de l’échantillon .................................................................................................... 191
2.4 Graphiques et tableaux ........................................................................................................... 193
2.5 Régressions ............................................................................................................................... 194
2.5.1 Régression par les moindres carrés ordinaires (MCO) .................................................... 194
2.5.2 Probit/Dprobit ...................................................................................................................... 195

3
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.6 L’interprétation des résultats ................................................................................................. 197
2.6.3 Interprétation économique .................................................................................................. 200
III- Manipulations plus poussées ................................................................................................. 201
3.1 Hétéroscédasticité .................................................................................................................... 201
3.2 Séries chronologiques .............................................................................................................. 202
3.2.1 Test d’autocorrélation .......................................................................................................... 204
3.2.2 Stationnarité.......................................................................................................................... 204
4.2.3 Co-intégration ....................................................................................................................... 210
3.3 Données en panel ..................................................................................................................... 210
3.3.1 Effets fixes vs. Effets aléatoires ........................................................................................... 211
3.4.1 Estimateur Variables Instrumentales ................................................................................. 218
3.4.2 DMCO ................................................................................................................................... 219
3.4.3 Test d’endogénéité ................................................................................................................ 220
3.5 Estimateurs du maximum de vraissemblance (EMV).......................................................... 221
3.6 Moindres carrés généralisés ................................................................................................... 222
3.7 Le logit et le tobit ..................................................................................................................... 223
3.8 Biais de sélection ...................................................................................................................... 224
CHAPITRE 7 : COMMUNIQUER LES RESULTATS ................................................................ 225
1.1 LA STRUCTURE D’UN RAPPORT D’ANALYSE ............................................................ 226
1.2 LES POINTS CLÉS DU RAPPORT ..................................................................................... 229
2.1 MAÎTRISER LES TABLEAUX ............................................................................................ 230
2.2 AMÉLIORER LES GRAPHIQUES...................................................................................... 230
Résumé ........................................................................................................................................... 231
POUR EN SAVOIR PLUS ........................................................................................................... 232

4
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
AVANT PROPOS

En 2019, lorsqu’on faisait le cours sur l’économétrie appliquée en troisième année


de licence, le docteur a exigé la maitrise parfaite des logiciels économétriques
pour mener à bien le mémoire de soutenance et que la composition se fera faite
sur les PC, seulement le rapport de l’épreuve sera par écrire, chose à laquelle
personne ne s’attendait. Plusieurs étudiants n’avaient pas des ordinateurs et pour
la majorité de ceux qui avaient, grande a été notre surprise de constater qu’ils
n’étaient pas à l’aise avec l’outil informatique à plus forte raison comprendre ces
outils complexes.
La non-maitrise de ces logiciels par une grande majorité a conduit à des résultats
décevants lors de l’examen. Le docteur exigeant et intransigeant, a pris la décision
difficile d’attribuer de faire reprendre l’année aux étudiants qui n’avaient pas une
note requise puisque l’économétrie était la matière principale.
C’était vraiment pathétique et écœurant. Ça pouvait être vous, votre enfant, vos
amis…Afin que cela ne se reproduise plus jamais, nous avons écrire ce livre pour
permettre aux autres de ne passer par cette étape douloureuse.
Ce livre est enrichi d’exercices et des développements les plus récents de
l’économétrie. Il couvre plusieurs champs de l’économétrie : régression simple et
multiple, corrélation de Pearson/Spearman, test du khi-2, tableaux croisés,
hétéroscédasticité, autocorrélation des erreurs, variables explicatives aléatoires,
création de variable d’intervalle, statistique descriptive des variables qualitatives
et quantitatives, analyse des séries temporelles, économétrie des variables
qualitatives…
Sur l’ensemble de ces thèmes, ce livre vous propose un cours, des exercices
corrigés, et une présentation des logiciels d’économétrie les plus répandus.
Souhaitons qu’il corresponde à votre attente.

5
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
En effet, nous avons voulu, par une alternance systématique de cours et
d’exercices, répondre à un besoin pédagogique qui est de mettre rapidement en
pratique les connaissances théoriques et ainsi, d’utiliser de manière opérationnelle
les acquis du cours.
Le recours à ces logiciels, lors de la résolution des exercices, permet une
découverte de ces outils et donne une dimension pratique que recherchent
l’étudiant et le praticien.

6
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
INTRODUCTION

La plupart des décisions sur l’échiquier national et international reposent sur des
données collectées sur des faits sociaux, le marché, les clients, les concurrents.
Mais le plus souvent, ces analyses sont simplistes, limitées, voire biaisées : d’une
part, parce qu’elles se limitent à des analyses descriptives (tableaux croisés,
analyses factorielles…) et non pas explicatives des phénomènes observés ; d’autre
part, parce qu’elles ne s’assurent pas toujours des conditions de validité et de
fiabilité des résultats.
Dans le même temps, l’analyse des données s’est considérablement transformée
ces dernières années : le volume de données disponible est plus important, et les
outils d’analyse plus sophistiqués. Ces solutions analytiques, telles les suites de
logiciels développées par SPSS, EVIEWS et STATA visent à tirer parti de cette
profusion de données afin d’aider les dirigeants à prendre des décisions fondées,
optimales.
« Ces logiciels économétriques jouent un rôle crucial dans la transformation des
données brutes en connaissances exploitables. Ils fournissent aux chercheurs et
aux économistes les outils nécessaires pour modéliser, analyser et interpréter les
complexités des phénomènes économiques, permettant ainsi une compréhension
approfondie et éclairée du comportement économique ou sociale. »
La diffusion de ces nouvelles approches passe par la mise sur le marché de jeunes
diplômés éclairés et sensibilisés à une démarche analytique dépassant l’intuition
et fondée sur des modèles afin de prendre des décisions optimales. L’idée
maitresse qui nous a guidés tout au long de la rédaction de cet ouvrage est de
démontrer la valeur ajoutée de l’analyse de données dans l’optimisation de
décisions courantes. L’économie, notre domaine de spécialisation, nous a semblé
tout indiqué pour mettre en œuvre une telle approche fonctionnelle. Loin d’un
inventaire de techniques statistiques, nous avons souhaité définir une série de

7
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
questions simples faisant le lien entre les outils d’analyse de données et les
décisions économiques, parmi lesquelles :
Analyse de données avec SPSS, EVIEWS et STATA
• Comment produire et préparer les variables nécessaires à l’analyse ?
• Comment choisir le type de variable (qualitative ou quantitative) en
fonction des besoins de l’étude ?
• Quelle approche mobiliser pour analyser les relations entre deux ou
plusieurs variables ?
• Comment utiliser intelligemment les outils statistiques ?
• Comment communiquer ou rédiger un rapport à partir des résultats issus de
l’analyse des données ?
Cet ouvrage s’adressant principalement aux étudiants et s’inspirant fortement des
remarques de nos enseignants, nous avons également cherché à présenter les
informations de manière simple, passant rapidement le relais à une mise en
application des concepts statistiques par le biais d’une manipulation du logiciel
SPSS. Apprendre en faisant permettra au lecteur d’acquérir des compétences en
analyse de données de manière progressive, et sur l’ensemble de la démarche.
Cette forme d’apprentissage par l’expérience, de pédagogie active, s’étant révélée
payante pour nous, nous espérons qu’elle le sera également pour les enseignants
et les étudiants. Afin de faciliter l’utilisation de ce livre et fait un pont entre la
théorie et la pratique dans le cadre d’un cours (en licence ou master), nous l’avons
émaillée des images et vidéos réalisées par toute l’équipe du groupe SOS
INFORMATIQUE.

8
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Structure du livre
Le domaine de l’analyse de données étant vaste et complexe, nous avons souhaité
organiser ce livre en deux grandes parties distinctes. Une première partie
(chapitres 1 à 4) présente les méthodes descriptives en analyse de données
(analyses univariées et bivariées, tris croisés, analyses factorielles).
La seconde partie de l’ouvrage (chapitres 5 à 7) présente un panorama de
techniques plus avancées (analyse de variance, régressions, analyse conjointe)
afin de guider l’analyste dans ces procédures plus sophistiquées. Enfin, le dernier
chapitre traite de la rédaction du rapport, la valeur ajoutée d’une démarche
analytique passant aussi par la capacité à communiquer les résultats de manière
précise et intelligible.
Remerciements
Nous voudrions remercier vivement ceux qui nous ont aidés à réaliser cet ouvrage,
en particulier, Camille GUIDIME, docteur à l'université de Parakou pour la
qualité de son enseignement qu’il nous a transmis, Elie ADEDODJA docteur à la
FASEG-UP pour ses remarques et sa confiance, Rachidou YOROU, docteur à
l'université de Parakou professeur pour ses encouragements constants et son aide
précieuse.
Merci aussi à Calixte AHIKPON et à toute l’équipe du groupe SOS
INFORMATIQUE pour leur travail éditorial constructif et enrichissant.
Ensuite, nos plus vifs remerciements vont à nos proches, pour les longs instants
volés, le temps étant le plus précieux des cadeaux. Comme le dit Paul Claudel : «
Le temps, tout le consume, et l’amour seul l’emploie. »

Dans le terme « économétrie » figure la racine du mot « économie » car son


utilisation est surtout destinée à des fins de traitement de données économiques ;
cependant, d’autres domaines tels que la sociologie, la finance, la recherche
agronomique, la médecine, etc., font maintenant le plus souvent appel à ces
techniques.

9
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Ce livre s’adresse en premier lieu aux étudiants dont la formation requiert une
connaissance de l’économétrie. Gageons qu’il sera un support de cours
indispensable et un allié précieux pour tous.
N’oublions pas cependant le praticien de l’économétrie (économiste d’entreprise,
chercheur, etc.) qui, confronté à des problèmes d’estimation statistique, trouvera
dans ce livre les réponses pratiques aux différentes questions qu’il peut se poser.
Enfin, j’exprime toute ma gratitude à tous les étudiants et docteurs qui ont eu la
gentillesse de me faire des commentaires et dont les conseils et suggestions
contribuent à la qualité pédagogique de ce livre. Je reste, bien entendu, le seul
responsable des erreurs qui subsisteraient.

10
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
POURQUOI RECOURIR AUX OUTILS STATISTIQUES ?

Les sciences sociales peuvent être vues comme celles étudiant les principes de
variation sociale des caractéristiques individuelles, des comportements, des
attitudes, des pratiques ou des opinions. Lorsqu’elles recourent aux données
quantitatives, par exemple issues d’un questionnaire, elles font appel à la
statistique puisque celle-ci fournit des outils destinés à analyser de grands
ensembles de données. Face à de tels ensembles, la science statistique dispose
d’outils théoriques et pratiques permettant d’identifier ces variations, de comparer
ces variations entre divers groupes (les hommes et les femmes ont-ils les mêmes
pratiques ?), de saisir les liens pouvant unir ces variations (relation entre le salaire
des employés et leur niveau d’éducation), d’identifier les groupes « typiques »
ayant des pratiques plutôt homogènes, c’est-à-dire présentant peu de variations
(les adolescents aiment plus les jeux ?), ou encore d’expliquer les principes de
variations (la diversité des jeux s’explique-elle par les différences d’âge ou de
milieu social ?).
Ces notions de variation, de liens, de corrélation, d’explication, de typologie ou
encore de comparaison, dont les exemples montrent bien toute l’importance en
économie (comme dans toutes les sciences empiriques d’ailleurs), trouvent en
statistique des expressions et des formalisations pratiques.
Ainsi, à titre d’illustration, l’idée de relation ou de lien s’exprime dans les notions
statistiques de corrélation, de tableau croisé, de comparaison de pourcentages ou
de test du khi2 ; l’idée d’explication trouve une expression pratique dans la notion
de régression ; l’idée de variation est bien incarnée dans la notion de variance ou
dans le tri à plat... En somme, la statistique offre aux sciences sociales des
instruments permettant d’opérationnaliser, c’est-à- dire de mettre en pratique, des
questions que cette dernière se pose sur des faits sociaux.

11
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Chapitre 1 : Produire et préparer les variables

CHAPITRE 1 : PRODUIRE ET PREPARER


LES VARIABLES

12
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les différentes sources de données du praticien de l’économétrie.

Pour étudier l’économie et toutes les sciences par ailleurs, le statisticien doit
élaborer des outils (méthodes d’enquête, concepts, catégories, données) lui
permettant de s’abstraire des cas particuliers, de se détacher des représentations
individuelles (à commencer par la sienne). Ce travail d’objectivation est essentiel.
Nous nous attachons ici à préciser les aspects pratiques d’élaboration des données
: les origines possibles de ces données, la construction des échantillons et enfin
l’estimation de la fiabilité des résultats.
Il est commun de dire que les économistes, et plus généralement tous les
scientifiques, travaillent sur des « données ». Le terme utilisé est très mal choisi
car d’une part ces « données » sont construites et d’autre part elles sont coûteuses.
Elles sont construites au sens où elles résultent d’un travail d’élaboration du
statisticien : celui-ci doit définir les dimensions qui semblent pertinentes (sa
problématique), les concepts permettant de se représenter la réalité étudiée, les
catégories servant à coder les faits observés, ainsi que les modalités des protocoles
d’interview ou d’observation... Les données ne s’offrent pas à lui : il doit les «
conquérir ». Dire que les données sont construites ne signifie toutefois pas qu’elles
sont inventées : affirmer que la conception d’un dispositif d’observation et
d’enregistrement du réel est indispensable à l’étude de ce réel ne signifie pas que
ce réel soit une invention, un artifice.

Elles sont coûteuses puisque la conception d’une enquête et sa réalisation


nécessitent beaucoup de travail et donc de temps. Elles sont coûteuses parce
qu’elles supposent la reproduction de questionnaires, leur diffusion puis leur
saisie et parfois la rémunération des enquêteurs ou des personnes qui vont saisir
les réponses. Le coût financier des enquêtes constitue parfois un frein pour le
l’économiste dont les moyens peuvent être modestes, notamment dans l’espace
universitaire. L’économiste utilise une variété de sources de données
économiques, telles que les rapports gouvernementaux, les statistiques officielles

13
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
comme l’INSAE (Institut National des Statistiques et de l’Analyse Economique)
pour le Bénin, le Bureau of Economic Analysis (BEA) aux Etats-Unis, l’INSEE
en France ou encore le National Bureau of Statistic (NBS) en Chine. Il utilise
également des données provenant des enquêtes et d’organisations internationales
comme le FMI ou la Banque Mondiale.
Voici le lien d’une vidéo expliquant explicitement les étapes de collecte des
données sur différents sites.
https://bit.ly/3TPLFss

La netnographie
On constate, depuis quelques années, un intérêt grandissant pour l’information
collectée à partir de l’observation de communautés virtuelles, nouvelles formes
de communautés dont Internet a permis l’émergence. Ainsi, de nombreux
sociologues réalisent des études sur la base d’informations issues des formulaires
d’enquête en ligne et n’ont pas tardé à saisir les opportunités offertes par ces
nouveaux types d’interactions sociales. Kozinets a développé récemment une
approche nouvelle, l’ethnographie sur Internet ou netnographie qu’il définit
comme « une nouvelle méthode de recherche qualitative qui adapte la méthode de
l’ethnographie à l’étude des cultures et des communautés qui émergent grâce aux
communications informatisées » (Kozinets, 2002, p. 62). En tant que technique
de recherche d’information, la netnographie utilise l’information publique
disponible sur les forums en ligne. Le canal Internet permet par exemple aux
marques de participer à de véritables conversations et de s’appuyer sur un puissant
levier du marketing : le bouche à oreille selon Laurent Florès, CEO de la société
d’étude crmmetrix, spécialiste de l’écoute client. Il est désormais possible de
quantifier le volume de ces conversations, d’analyser leur contenu et le profil des
intervenants, avec un avantage important sur les techniques traditionnelles,
puisque cette approche n’altère pas le contexte étudié par l’intervention d’un
analyste mais collecte plutôt une information en langage naturel.

14
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Vous trouverez sur cette adresse une vidéo explicative des différentes étapes de
la création d’un formulaire d’enquête en ligne (Google Forms)
https://bit.ly/48HrktC

Il y a également la technique de data mining qui est un ensemble de méthodes et


techniques destinées à l’analyse de bases de données (souvent de grande taille),
elle restitue l’essentiel de l’information utile tout en réduisant la quantité de
données. En bref, le data mining est l’art d’extraire des informations, voire des
connaissances à partir de données.
I- Population, échantillon et individus
1- Population et individus
L’ensemble des situations qui intéressent l’enquêteur constitue la population. Les
situations sur lesquelles il travaille réellement et qu’il va soumettre à son
questionnaire ou à son protocole d’observation constituent son échantillon (qui
est très souvent un petit sous-ensemble de la population, nous y reviendrons).
Enfin, chacune des situations étudiées est, selon une terminologie héritée des
sciences statistiques, un individu.
Ce terme possède en statistique et dans les logiciels d’analyse un sens qui dépasse
le sens habituel : un individu n’est pas nécessairement une personne, un homme
ou une femme. C’est l’unité statistique élémentaire sur laquelle portent l’enquête
et l’analyse. Ainsi, si on étudie les pratiques culturelles des Béninois, ses individus
seront effectivement des individus au sens habituel, c’est-à-dire des personnes
(béninoises en l’occurrence). Si c’est sur les usages des équipements
électroménagers de ménages, ses individus sont des ménages. Dans le cas d’étude
des systèmes de scolarisation des enfants entre différents pays, ses individus
seront les divers systèmes identifiés ou les différents pays. La notion d’individu
est parfois remplacée par celle, moins ambiguë, d'unité statistique.

15
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2- Echantillon

Afin de bien illustrer les étapes d’un plan de sondage, un petit détour historique
peut s’avérer intéressant. Tout commence aux États-Unis, lorsque Franklin D.
Roosevelt se représente contre Alf Landon aux élections de 1936. Derrière les
candidats, deux hommes s’affrontent pour pronostiquer le résultat de ces
élections. D’une part Codely, rédacteur en chef du Literary Digest, utilise la
technique du vote de paille (straw vote) : quelques jours avant les élections, il fait
paraître des bulletins de vote dans son journal et demande à ses lecteurs de
mentionner leur choix. Il reçoit 2,4 millions de réponses et donne Landon gagnant.
D’autre part, Gallup, créateur de l’institut éponyme, n’interroge que 4 000
personnes et joue Roosevelt gagnant. La victoire de ce dernier marque la
naissance des instituts de sondage. Gallup est le père de l’échantillon représentatif,
le premier à avoir eu l’idée de reconstituer une population en miniature. Cette
jeune pratique est construite autour de deux étapes principales : la définition de la
population à étudier et la sélection de l’échantillon.

Population mère Échantillon


Echantillonnage

Étudier toute une population ou un échantillon ?

Même lorsque c’est possible, il est souvent fastidieux et très coûteux de réaliser
une étude exhaustive. Il ne faudrait d’ailleurs pas croire qu’une enquête
exhaustive apporte une meilleure connaissance de la population : parce qu’une
enquête exhaustive auprès d’une grande population suppose l’emploi d’un grand
nombre d’enquêteurs, dont la formation doit être assurée, dont le travail doit
souvent être contrôlé a posteriori et dont le coût est donc très élevé ; parce qu’un
recensement nécessite d’opérer un maillage précis et systématique du territoire ou
de l’espace à recenser ; enfin parce que la gestion de très grands ensembles de

16
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
données présente de sérieuses difficultés (recoupement des informations, contrôle
de la qualité des questionnaires, vérification du caractère réellement exhaustif...).
Les erreurs s’accumulant et les difficultés se multipliant avec la taille de la
population à enquêter, une enquête exhaustive présente toujours des défauts : les
erreurs, omissions ou doubles comptes, réponses inexactes ou omises, sont
inévitables.

Mieux vaut une enquête auprès d’un échantillon dont on connaît bien les
conditions de recrutement et de passation qu’une enquête aspirant à être
exhaustive ou très large. Le cas de cette élection parlée ci-dessus illustre bien ce
principe. George Gallup a utilisé un échantillon de 4 000 personnes pour prévoir
le vote tandis qu’un journal a sollicité 2,4 millions de personnes mais sans
contrôler leur représentativité en espérant que la très grande taille de l’échantillon
serait le garant de la qualité des résultats. La prédiction de Gallup (victoire de
Roosevelt) s’est avérée exacte alors que le journal s’est trompé.

Travailler sur un échantillon bien conçu permet de mieux contrôler le choix des
individus et les erreurs de mesures. À l’exception des situations où les populations
étudiées sont de petite taille (par exemple la population des élèves inscrits en
terminale dans un lycée particulier, ou la population d’un immeuble). Interroger
un nombre restreint d’individus apporte autant d’informations, et des informations
de meilleure qualité, qu’une enquête exhaustive. La condition est que ce nombre
restreint d’individus, cet échantillon soit « bien conçu » et respecte un certain
nombre de principes.

Deux méthodes principales sont utilisées, dont l’objectif est de sélectionner un


échantillon assurant la meilleure précision possible des résultats au moindre coût.
Les échantillons aléatoires ou « probabilistes » (les individus enquêtés sont choisis
au hasard) ; et les échantillons empiriques ou « non probabilistes » (les individus
enquêtés sont choisis selon des principes non aléatoires).

17
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Tirage au hasard

Échantillons probabilistes

Échantillonnage stratifié

Méthode des quotas

Méthode des itinéraires

Échantillons non probabilistes


Échantillonnage de
convenance

Échantillonnage « boule
de neige

• Tirage au hasard : l’échantillon aléatoire consiste à tirer au hasard un individu


de la population avec une probabilité connue et différente de zéro d’appartenir à
l’échantillon. On parlera de tirage aléatoire simple si les individus qui composent
la population ne font l’objet d’aucun regroupement avant tirage.

• Échantillonnage stratifié : La stratification sera d’autant plus efficace pour


améliorer la précision que les strates seront homogènes par rapport aux variables
étudiées. Dans le cas d’une étude sur des points de vente, cette variable pourra
être le fait d’être client ou non.

• Méthode des quotas : cette méthode est moins coûteuse que les méthodes
aléatoires. Elle présente l’avantage de la simplicité : on choisit quelques
caractéristiques dont on connaît la distribution statistique dans la population
étudiée (par exemple, sexe, âge, catégorie socioprofessionnelle du chef de

18
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
famille), puis on donne à chaque enquêteur un plan de travail qui lui impose le
respect de certaines proportions au sein des interviewés. Par contre, elle ne permet
théoriquement pas de calculer les marges d’erreur associées aux résultats trouvés,
comme une méthode aléatoire permet de le faire.

• Méthode des itinéraires : dans une commune, par exemple, on impose à


l’enquêteur un point de départ et un itinéraire à suivre, avec tirage systématique
des logements dans lesquels il doit effectuer des interviews (par exemple,
interroger les foyers toutes les trois portes dans un immeuble).

• Échantillonnage de convenance : il est conçu par l’enquêteur pour des raisons


de praticité. Il fait généralement appel à des personnes interceptées dans la rue, à
la sortie des caisses en magasin, etc. C’est la moins coûteuse et la plus rapide de
toutes les techniques d’échantillonnage mais elle présente de fortes limites : biais
de sélection, non-représentativité. Il n’est donc théoriquement pas significatif de
généraliser les résultats.

• Échantillonnage « boule de neige » : on choisit un premier groupe de


répondants, au hasard généralement, puis on leur demande d’indiquer d’autres
répondants potentiels appartenant à la population ciblée. Cette méthode peut être
utile pour des enquêtes sur les leaders d’opinion par exemple.

La détermination de la taille de l’échantillon est une étape cruciale en analyse de


données. Un échantillon trop petit peut induire une perte d’informations
importante ou empêcher la réalisation de nombreux tests soumis à des contraintes
en termes de nombre d’observations. À l’inverse, un échantillon trop important
constitue une perte de temps et de budget dommageable pour la réussite de l’étude.
Il est important de noter que la précision de l’information recueillie dépend
principalement de la taille de l’échantillon et non du taux de sondage (défini par
le rapport n/N, où n est la taille de l’échantillon et N celle de la population).

19
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les variables nécessaires à l’analyse
1- Mesurer à l’aide d’un questionnaire

La construction d’un questionnaire amène à s’interroger sur la mesure des


concepts. Ainsi, un chargé d’étude qui chercherait à mesurer la satisfaction vis-à-
vis d’une marque pourrait poser une question unique : « Êtes-vous satisfait ? » et
fonder son analyse sur cette seule réponse. De manière évidente, le fait de
développer une mesure de la satisfaction à partir d’un ensemble d’items (de
libellés) dont on sait (par des études préalables ou par le biais de la théorie) qu’ils
mesurent correctement la satisfaction, permet de collecter des réponses mieux
orientées et d’estimer la fiabilité de la mesure effectuée, non plus à partir d’une
réponse mais plutôt à partir d’une forme de réponse « moyenne » à une série de
questions associées. On mesurera donc la satisfaction en interrogeant des clients
sur la satisfaction globale, la propension à recommander le produit et la
probabilité de réachat par exemple.

2- Variables qualitatives et quantitatives

Deux grands types de variables peuvent être distingués : les variables


quantitatives, qui expriment des grandeurs quantifiables, et les variables
qualitatives, qui reflètent des grandeurs non quantitatives, des « qualités ». En
économie, les premières sont plus fréquentes que les secondes car l’essentiel de
l’information est de nature quantitative. Ceci résulte de la nature des phénomènes
analysés par l’économiste : le PIB, le revenu, l’investissement ou encore
l’inflation s’expriment rarement à l’aide de variables qualitatives. Et il n’est pas
rare que les quelques variables qualitatives soient recodées en variables
quantitatives afin d’harmoniser leurs status.

La distinction entre variables quantitatives et qualitatives n’est pas anodine. Elle


ne résulte pas d’un raffinement conceptuel inutile mais d’une contrainte technique
forte : la nature des variables conditionne le type de méthodes d’analyse

20
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
utilisables. Il est par exemple impossible de calculer un statut matrimonial moyen
ou un diplôme moyen.

2.1 Variables quantitatives


Une variable quantitative permet d’exprimer une grandeur quantifiable c’est-à-
dire une grandeur mesurable à l’aide d’une unité. C’est par exemple le cas de l’âge
(exprimables en « années » ou en « mois »), du revenu (en euros ou en fcfa) ou
encore du nombre d’enfants. Une variable quantitative s’exprime à l’aide de
nombres et ses diverses valeurs peuvent être numériquement comparées.

Les sociologues par exemple utilisent des variables quantitatives dans deux
grands types de situations. Premièrement, lorsqu’ils veulent exprimer des durées
(âge, ancienneté d’une pratique, durée d’une expérience professionnelle, temps
consacré à une activité, nombre d’années d’études, durée entre deux
événements...), des valeurs monétaires (revenus, patrimoine, salaires, montant de
l’argent de poche, dépenses, consommation, épargne...), des indicateurs de
«volume» (nombre de livres lus, nombre d’enfants, taille du réseau amical...) ou
des indicateurs d’« intensité » (fréquence d’une pratique culturelle...). Les
variables synthétiques, que nous définirons plus loin et qui jouent un rôle central,
relèvent également de cette catégorie : elles expriment grâce à un indicateur
quantitatif la position d’un individu selon une grandeur sociologique, par
exemple, son niveau de participation aux tâches ménagères, son niveau
d’investissement sociale, son degré de « religiosité »...

Le second cas d’utilisation de variables quantitatives en sociologie est relatif aux


situations où les sociologues ne travaillent pas sur des personnes, mais sur des
entités collectives (par exemple des familles, ménages, associations, communes,
entreprises...). Dans ce cas, ces collectifs peuvent être caractérisés par des
variables quantitatives exprimant des parts ou des taux : part des individus de sexe
masculin ; taux de redoublement ; part des plus de 65 ans ; part de ceux déclarant

21
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
aimer la musique Rap ou coupé-décalé ; probabilité des enfants des différents
groupes sociaux d’accéder à une grande école...

Nous disposons de deux types de variables quantitatives : les variables


quantitatives discrètes et continues. Une variable quantitative continue est celle
qui peut prendre des décimales (nombre à virgule). Par exemple l’âge (25ans,
13,5ans…). Par contre, une variable quantitative discrète ne prendre que des
valeurs discrètes c’est-à-dire des valeurs entières. Par exemple, le nombre de
personne qui visite un site touristique (1, 4, 9, 20..)

2.2 Variables qualitatives


Les grandeurs non quantifiables sont celles qui ne peuvent pas s’exprimer en
unités : ces modalités marquent des différences qui ne sont pas des différences
numériques mais des différences de nature. Le diplôme, le sexe, la catégorie
sociale, les sympathies politiques, le titre du dernier ouvrage lu, le statut
matrimonial ou encore la couleur des yeux sont non quantifiables : elles
s’expriment grâce à des variables qualitatives. Les modalités de ces variables ne
sont pas comparables quantitativement : il n’existe aucune mesure commune de
la modalité « marié » et de la modalité « divorcé » de la variable « statut
matrimonial ».

Sont également considérées comme qualitatives les variables qui sont


fondamentalement quantitatives mais que le sociologue utilise sous une forme
recodée, avec des modalités qui correspondent à des classes. L’âge biologique est
une variable quantitative mais elle est presque exclusivement utilisée sous la
forme d’une variable qualitative définie à partir de classes d’âge : par exemple
[18-25 ans] ; [26-30 ans] ; [31-40 ans] ; [41-55 ans] ; [56 ans et plus]. Parmi les
variables qualitatives, il est possible de distinguer les variables à modalités
ordinales et celles à modalités nominales. Comme leur nom l’indique, les
modalités ordinales peuvent être classées, hiérarchisées : c’est notamment le cas
de toutes les variables dont les modalités sont semblables à « Tout à fait, assez,

22
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
peu, pas du tout » ou « Très souvent, assez souvent, de temps en temps, rarement,
jamais ». C’est aussi le cas de toutes les variables fondamentalement quantitatives
mais qui sont codées selon une échelle comme dans l’exemple suivant :

« Au cours de la dernière année, combien de livres avez-vous acheté ?

1. Aucun

2. Un ou deux livres

3. Entre 3 et 10 livres

4. Entre 11 et 30 livres

5. Plus de 30 livres »

Il est également possible de considérer que les variables « diplôme » voire «


opinion politique » sont ordinales : les diplômes peuvent être classés selon un
principe de hiérarchie scolaire et de nombre d’années d’études ; les opinions
politiques peuvent être classées en fonction de l’axe gauche-droite (à condition
d’ignorer les difficultés concernant les apolitiques ou les écologistes). La
catégorie sociale donne également lieu à un classement dans beaucoup de travaux
sociologiques : catégories sociales supérieures, intermédiaires ou populaires...

Une variable qualitative peut être simple (lorsqu’elle reflète une seule
information), multiple (lorsqu’elle reflète plusieurs informations en même temps)
ou ordonnées (lorsqu’elle reflète plusieurs informations classées par ordre). La
question « Quelles sont vos trois stations de radio préférées ? » constitue une
variable multiple. S’il est, en plus, demandé de classer ces trois stations de radio
préférées, elle devient une variable multiple ordonnée. Comme exemple de
variable qualitative nominale, nous pouvons citer le genre (homme, femme), la
religion (l’islam, le christianisme, le bouddhisme…) car on peut créer un ordre
pour ces modalités mais plutôt les noms.

23
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
3. De la nécessité de recoder les variables
Le travail de recodage résulte de deux nécessités. L’une d’entre elles correspond
à des contraintes statistiques et techniques :
1) certaines réponses, notamment les réponses aux questions ouvertes, doivent
être recodées de manière à être exploitables dans une perspective quantitative ;
2) certaines modalités de réponses sont rarement choisies et doivent donc être
regroupées car les effectifs ne permettent pas de les analyser en tant que telles ;
3) enfin, il est parfois nécessaire, pour pouvoir utiliser certaines méthodes
statistiques, de diminuer le nombre de modalités des variables (c’est le cas dans
les analyses factorielles).
La seconde nécessité correspond aux exigences et choix théoriques : elle résulte
de la problématique choisie. Recoder une variable, c’est préparer les données de
façon à les rendre adéquates à la problématique. Cette dernière affirmation est
essentielle : en dehors des contraintes techniques signalées ci-dessus, le recodage
d’une variable doit être réalisé en fonction d’un questionnement et non de
présupposés extérieurs à la problématique.

Il est donc faux de croire que le recodage est une simple opération technique. Il
s’agit d’une opération théorique, visant à rendre les variables les plus adéquates
possibles à la problématique et aux notions en œuvre dans celle-ci. Bien recoder
les variables est un impératif pour conduire une bonne analyse sociologique.

3.1 Techniques de recodage 1 : regrouper des modalités


Considérons la question suivante, adressée à des titulaires du baccalauréat :
Quelles études avez-vous poursuivies après votre baccalauréat ?
a) Aucune, arrêt des études
b) Classes préparatoires
c) IUT
d) BTS

24
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
e) Faculté de médecine ou de pharmacie
f) Faculté de droit
g) Autre filière universitaire
h) École d'infirmières
i) École d'architecture
Il y a au moins trois manières de recoder cette variable, selon qu’on s’intéresse à
l’opposition entre ceux qui ont poursuivi des études post-bac et ceux qui ont arrêté
; à l’opposition entre ceux qui ont engagé des études courtes (IUT, BTS...) et ceux
ayant débuté des cursus longs (médecine, classes préparatoires) ; ou à l’opposition
entre les filières sélectives (classes préparatoires, IUT, médecine, pharmacie...) et
filières moins sélectives (filière universitaire hors médecine, pharmacie et
droit...). C’est la problématique et la question théorique posée au traitement
statistique (par exemple un tableau croisé) utilisant la variable qui vont déterminer
la nature du recodage, en l’occurrence du regroupement de modalités.

3.2 Techniques de recodage 2 : simplifier les variables quantitatives


Le recodage des variables quantitatives est souvent indispensable. Il y a au moins
deux raisons à cela. Il est, d’une part, commode voire impératif de disposer de
variables ayant toutes un statut identique : la plupart des variables manipulées par
les sociologues étant des variables qualitatives, il est commode de recoder les
quelques variables quantitatives en variables qualitatives. Cette remarque ne
s’applique évidemment pas aux quelques situations où l’essentiel des variables
sont quantitatives, notamment dans les travaux de socio-démographie, de socio-
économie.
Recoder une variable quantitative revient à définir les bornes (ou frontières) des
diverses catégories (appelées « classes »). Il existe trois principes généraux de
recodage d’une variable quantitative.
Le premier principe est un principe « esthétique » ou « mathématique » : les
diverses valeurs de la variable sont regroupées en tranches d’égale amplitude et
25
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
dont les bornes sont « naturelles ». Selon ce principe, la variable « âge » sera
recodée en tranches de 5 ou 10 ans, avec des frontières « rondes » : [10- 20 ans] ;
[21-30 ans] ; [31-40 ans]... Ce principe semble être le plus naturel et est d’usage
très fréquent (notamment en démographie et dans les enquêtes très générales)
mais il n’est pas nécessairement le plus pertinent ni toujours le plus adéquat aux
données dont dispose le sociologue.
Le deuxième principe de codage est de nature « statistique » et vise à assurer que
les catégories créées regroupent un nombre suffisant d’individus. Une solution «
optimale » consiste à créer des classes équilibrées, c’est-à-dire regroupant un
nombre d’individus proche d’une classe à l’autre. Certains logiciels permettent de
déterminer automatiquement les classes statistiquement équilibrées. Sinon, il faut
procéder par tâtonnement, en essayant plusieurs configurations.

Le troisième principe de recodage est de nature plus sociologique et vise à assurer


que les catégories créées correspondent à des situations sociologiques homogènes,
similaires. Ainsi, un sociologue travaillant sur les transformations induites par
l’arrivée d’un premier enfant dans une famille devrait concevoir les différentes
classes de la variable « âge » en fonction de son objet : si la taille de l’échantillon
le permet, il devra concevoir des classes d’âge fines autour de l’âge moyen
d’arrivée du premier enfant (entre 28 et 30 ans), quitte à concevoir des classes
plus vastes pour les âges éloignés de cet âge moyen.
En pratique, c’est au sociologue de trouver un compromis raisonnable et
acceptable du point de vue statistique et sociologique : le recodage d’une variable
quantitative doit respecter le principe statistique, sans pour autant sacrifier
l’exigence du sens sociologique de la variable. Le critère esthétique ou
mathématique est plus superflu mais peut malgré tout entrer en ligne de compte
pour rendre les résultats plus pédagogiques (puisque plus familiers et plus simples
en apparence).

26
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
3.3 Techniques de recodage 3 : combiner les variables
Afin de simplifier le travail d’analyse et de croisement, il est souvent utile de
concevoir des variables combinant deux variables primaires. Les modalités de la
nouvelle variable sont obtenues par combinaison des modalités des deux variables
primaires. Cette technique est particulièrement utile lorsque l’analyse conduit à
tenir compte de deux variables contextuelles ou explicatives en même temps. Il
est par exemple fréquent de recourir à une variable combinant à la fois une
information sur le sexe et une information sur l’âge1 :
Variable âge x sexe
1. Homme de 18 à 34 ans
2. Homme de 35 à 59 ans
3. Homme de plus de 60 ans
4. Femme de 18 à 34 ans
5. Femme de 35 à 59 ans
6. Femme de plus de 60 ans
Cette technique est également utile pour rassembler deux informations qui vont
naturellement ensemble mais qui font l’objet de deux questions différentes dans
le questionnaire. Les questions « Quelle est votre religion ? » et « Êtes-vous
pratiquant(e) ? » peuvent être assemblées de la manière suivante :
1. Sans religion
2. Catholique non pratiquant
3. Catholique pratiquant
4. Protestant non pratiquant
5. Protestant pratiquant
6. Musulman non pratiquant

27
1 On pourra prendre soin de réfléchir à l’ordre avec lequel on croise les variables : dans
l’exemple, le sexe vient avant l’âge et la variable reflète des groupes de sexe découpés selon
l’âge. L’inversion des rôles fournit une variable davantage structurée par l’âge.

SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS


7. Musulman pratiquant
8. etc.
Le nombre de modalités de la nouvelle variable est égal au produit du nombre de
modalités de chacune des questions : il peut donc être élevé et rendre nécessaire
un nouveau recodage pour regrouper des modalités (notamment celles qui sont
rares).

Résumé

L’analyse de données doit être au service de la prise de décision. Ce qui implique


de respecter une démarche rigoureuse faisant le lien entre le problème qui se pose
au décideur et la méthode à mettre en œuvre. Cette démarche de recherche, de
collecte, d’analyse et d’interprétation de l’information est orientée vers une
logique d’optimisation. Aujourd’hui, l’analyste dispose d’un vaste éventail de
méthodes, Internet ayant fait évoluer la place traditionnellement dévolue aux
approches quantitative et qualitative, approches qui semblent désormais
converger grâce, notamment, à l’importance nouvelle accordée aux données
secondaires. Une fois les données collectées, l’analyste doit prendre en compte
les éléments liés à la précision de la mesure qu’il souhaite développer, afin de
construire un instrument fiable et valide. Il mettra ensuite en place une stratégie
d’analyse reposant sur la mise en lumière progressive des résultats et la
complémentarité des techniques utilisées, dues à la nature des données et aux
propriétés des tests envisagés.

Exercice pratique
Exercice 1 : Créer un formulaire d’enquête en ligne sur l’impact du Covid-19 sur
les ménages de la ville de Parakou. Vous avez la latitude de choisir vos questions
en fonction de la problématique que vous définirez au préalable. Exemple de
problématique : Est-ce que le Covid a un impact significatif sur le revenu des
ménages de la ville de Parakou ou encore est-ce que le Covid a un impact sur la
qualité nutritionnelle des ménages de la ville de Parakou ?

28
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution : Cliquez sur ce lien et découvrez une vidéo instructive sur la création
d’un formulaire d’enquête en ligne avec Google Forms.

https://bit.ly/48HrktC

Exercice 2 : Précisez le type de variable (qualitative/quantitative) et la mesure


(échelle, nominale, ordinale) de chaque question à travers un tableau.

• Fréquentez-vous ce point de vente au moins toutes les deux semaines ?

• Quel montant moyen dépensez-vous par mois dans ce type de point de vente ?

• Seriez-vous prêt à faire vos achats dans ce (nouveau) point de vente ?

• À combien estimez-vous le prix moyen d’une paire de chaussures dans ce point


de vente ?

• Lisez-vous la presse quotidienne ?

• Vous pratiquez quelle religion ?

• Êtes-vous abonné à un titre de presse magazine ?

• Je préfère un point de vente situé à moins de 30 minutes de chez moi.

• Quelle est votre année de naissance ?

• Quel est votre niveau d’étude ?

• Quel est votre statut marital ?

• En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer ?

• Quels sont approximativement les revenus de votre foyer ?

• Quel est votre sexe ?

• Quelle est votre niveau de satisfaction après avoir lu ce livre

29
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution :

Questions Variable Mesure


Fréquentez-vous ce point de vente au moins toutes
les deux semaines ? Qualitative Nominale

Quel montant moyen dépensez-vous par mois


dans ce type de point de vente ? Quantitative Continue

Seriez-vous prêt à faire vos achats dans ce


(nouveau) point de vente ? Qualitative Nominale

À combien estimez-vous le prix moyen d’une


paire de chaussures dans ce point de vente ? Quantitative Continue

Lisez-vous la presse quotidienne ?


Qualitative Nominale

Vous pratiquez quelle religion ? Qualitative Nominale


Êtes-vous abonné à un titre de presse magazine ?
Qualitative Nominale
Je préfère un point de vente à moins de 30 minutes
de chez moi. Quantitative Discrète

Quelle est votre année de naissance ?


Quantitative Discrète
Quel est votre niveau d’étude ?
Qualitative Nominale
Quel est votre statut marital ?
Qualitative Nominale
En incluant les enfants de moins de 18 ans, quelle
est la taille de votre foyer ? Quantitative Discrète

Quels sont approximativement les revenus de


votre foyer ? Quantitative Continue

Quel est votre sexe ?


Qualitative Nominale
Quelle est votre niveau de satisfaction après avoir
Qualitative Ordinale
lu ce livre

30
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Exercice 3 : Recoder les variables niveau de satisfaction et âge de cette base de
données relative à l’achat du livre le plus vendu du groupe SOS
INFORMATIQUE « APPRENDRE EXCEL Á PARTIR DE ZÉRO ». Elle
recapitule les informations des clients dont le niveau de satisfaction, le sexe et le
prix. La variable niveau de satisfaction comportera trois modalités à savoir : peu
satisfait, satisfait, très satisfait. Vous allez recoder ces modalités en leur affectant
les codes 1, 2 et 3. Pareil pour la variable sexe qui comporte deux modalités,
masculin, féminin.

31
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution : Pour recoder la variable niveau de satisfaction, cliquez sur l’onglet
‘’Transformer’’ Création de variable

Dans ce panneau, téléverser la variable à recoder la case de la variable de chaine


grâce à la flèche indicatrice et donnez ensuite le nom de la variable de destination
et au besoin le libellé c’est-à-dire la description de la variable. Cliquez sur
changer et sur Anciennes et nouvelles valeurs

32
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Veuillez sur cette fenêtre renseigner le nom de la modalité et le code puis cliquer
sur Ajouter. Faites la même chose avec les autres modalités et suivez la même
procédure pour recoder la variable Sexe.

Voici le résultat final

Les deux dernières colonnes représentent les variables recodées avec les
modalités 1, 2 et 3 pour la variable niveau de satisfaction et 1, 2 pour la variable
sexe.

33
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour en savoir plus sur le recodage des variables qualitatives et quantitatives avec
le logiciel SPSS d’une part et avoir une maitrise parfaite de ce dernier, écrivez au
(+229) 94270028 pour bénéficier d’une réduction exceptionnelle parce que vous
avez déjà le livre.

34
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Chapitre 2 : Analyse des relations entre deux variables

CHAPITRE 2 : ANALYSE DES


RELATIONS ENTRE DEUX VARIABLES

35
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I. Description d’une variable
Retenez encore une fois pour la route qu’une variable est qualitative dès lors
qu’elle a pour valeur des modalités ; elle peut être nominale (lorsque l’ensemble
des modalités ne possède pas de structure particulière) ou ordinale (lorsque
l’ensemble des modalités est ordonné). Une variable est considérée comme
quantitative ou métrique lorsque ses modalités peuvent être mesurées (par
exemple l’âge, la valeur d’une action, etc.).

1.1 Décrire une variable qualitative


La description d’une variable qualitative consiste à présenter les effectifs, c’est-
à-dire le nombre d’individus de l’échantillon pour chaque modalité de la variable,
et les fréquences, c’est-à-dire le nombre de réponses associées aux modalités de
la variable étudiée. En effet, dans de nombreux cas, le chargé d’étude cherche à
répondre à une série de questions ne concernant qu’une seule et même variable.

Il existe plusieurs possibilités dans SPSS pour décrire les données collectées. On
peut par
Exemple, dans un premier temps, générer un rapport sur les observations pour
s’assurer qu’elles ne comportent pas d’erreurs de saisie, de valeurs aberrantes
(Analyse > Rapport > Récapitulatif des observations…) ou plus simplement
pour prendre connaissance des variables dans un tableau synthétique, ce qui
s’avère souvent utile en début d’analyse (Outils > variables…).

36
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La procédure Fréquence permet d’obtenir les affichages statistiques et graphiques
qui servent à décrire des variables quantitatives et qualitatives. Pour obtenir un
tableau d’effectifs et de fréquences pour une ou plusieurs variables dans SPSS,
ouvrez le fichier de données « Employee data.sav », sélectionnez dans le menu
Analyse > Statistiques descriptives > Fréquences…, puis procédez à la
description de la variable de type ordinale catégorie d’employé correspondant à
la question : « Vous appartenez à quelle catégorie d’employé ? ». La boîte de
dialogue de la figure 1 apparaît.

37
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Tableau 1 : Description de la variable « Catégorie d’employé »

Le tableau 1 correspond à un tri à plat de la variable qualitative catégorie


d’employé ; en d’autres termes, il reprend les fréquences et les pourcentages pour
une variable. L’intérêt du tri à plat est de fournir une description rapide de la
variable étudiée. Le tableau montre immédiatement que 76,6 % des individus de
l’échantillon interrogé sont les Secrétaires ; 5,7% sont les Cadres et que 17,7%
sont Responsables.
Ces résultats peuvent également être visualisés sous forme de graphiques
(diagrammes en bâtons, en secteurs), dans lesquels les surfaces associées aux
différentes modalités sont proportionnelles à leur fréquence, exprimée en valeur
ou en pourcentage, comme le montre la figure 1.

38
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 1 : Diagramme en secteurs des effectifs de la variable catégorie
d’employé.

1.2 Décrire une variable quantitative

Plusieurs critères permettent de décrire une variable quantitative :

• les mesures de la tendance centrale : moyenne, médiane, mode ;


• les mesures de la dispersion : étendue, variance, écart type, coefficient
de variation ;
• les représentations graphiques : histogrammes ou boîtes à moustaches,
par exemple.

Mesures de la tendance centrale


Les mesures de la tendance centrale ont pour objet de résumer la série
d’observations par une valeur considérée comme représentative. La plus
fréquemment employée est la moyenne, ou somme des valeurs de toutes les
observations divisées par l’effectif ; celle que l’on utilise le plus souvent est la

39
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
moyenne arithmétique. La moyenne révèle la tendance centrale en ce sens que les
réponses se trouvent réparties de part et d’autre de la moyenne. Si certaines
valeurs sont très éloignées les unes des autres, elles peuvent avoir une influence
importante sur la moyenne. Dans ce cas, il vaut mieux utiliser la médiane, qui
n’est pas sensible aux valeurs aberrantes ou extrêmes.

La médiane représente la valeur au-dessus et au-dessous de laquelle se situent la


moitié des observations, c’est-à-dire le 50e centile.

Le mode représente la valeur présentant la plus grande fréquence d’occurrence.


Si plusieurs valeurs à la fois présentent la plus grande fréquence d’occurrence,
chacune d’entre elles est un mode.

Mesures de la dispersion
Les mesures de la dispersion reposent sur les indicateurs suivants : l’étendue, la
variance, l’écart type et le coefficient de variation. L’étendue (ou intervalle) est la
différence entre la plus grande et la plus petite des valeurs observées.

La variance est la mesure de la dispersion autour de la moyenne, égale à la somme


des carrés des écarts par rapport à la moyenne, divisée par le nombre
d’observations moins un. Lorsque les données se concentrent autour de la
moyenne, la variance est faible. Si les données sont dispersées autour de la
moyenne, la variance est élevée. Il s’agit d’une mesure plus fine de la dispersion,
au sens où toutes les données sont prises en compte. En revanche, elle est sensible
aux valeurs extrêmes.

L’écart type est la mesure de la dispersion autour de la moyenne, exprimée dans


la même unité que la variance. L’écart type est la racine carrée de la variance.
𝑠
Le coefficient de variation est le rapport de l’écart type à la moyenne (𝑐𝑣 = ),
𝑥

exprimé en pourcentage. Son objet est de mesurer le degré de variation de la


moyenne d’un échantillon à l’autre, lorsque ceux-ci sont issus de la même
distribution.
40
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Représentations graphiques
En ce qui concerne les représentations graphiques, les fréquences peuvent être
représentées par des histogrammes et des graphiques en secteurs, comme nous
l’avons vu précédemment. Pour visualiser la répartition des fréquences, les
diagrammes en bâtons sont souvent pertinents.
La réalisation des graphiques dans SPSS s’effectue soit à partir des boîtes de
dialogue des différents tests (dans notre cas, le menu Fréquences), soit
directement dans le menu Graphiques. Parmi les options qui vous sont proposées,
sélectionnez Boite à moustache dans l’option Graphiques, choisissez la variable
étudiée puis cliquer sur poursuivre puis sur OK.

Figure 2 : Représentation de la variable salaire actuel sous forme de boîte à


moustaches.

L’intérêt de cette représentation est qu’elle permet de visualiser de manière


compacte la dispersion des données. La figure 2 montre des valeurs extrêmes qui
apparaissent isolées du graphique. On peut donc observer que le salaire actuel
varie entre 500 $ et 0 $ (moustache inférieure), avec une médiane qui partage la
boîte centrale et qui est de 50 $. Il est possible d’aller plus loin dans la description

41
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
des variables en sélectionnant les observations sur lesquelles on souhaite faire
porter l’analyse. On peut notamment chercher à savoir si les hommes perçoivent
en moyenne plus ou moins que l’ensemble de la population. Pour ce faire, il faudra
filtrer les observations en fonction du sexe des répondants.

Pour en savoir plus sur ce type de graphique avec le logiciel SPSS d’une part et
avoir une maitrise parfaite de ce dernier, écrivez au (+229) 94270028 pour
bénéficier d’une réduction exceptionnelle parce que vous avez déjà le livre.

I- Techniques d’analyse des variables qualitatives


L’analyste ne se contente pas de saisir les comportements majoritaires, ni même
d’étudier la diversité des situations. Son ambition est d’étudier les « variations
concomitantes », c’est-à-dire les relations, les dépendances ou les corrélations
entre variables.

2.1- Tableau croisé


L’outil principal pour étudier les relations entre variables qualitatives est le
tableau croisé (parfois appelé tri-croisé). Il s’agit d’un tableau indiquant la
distribution des individus selon deux variables simultanément. De tels tableaux
ont vocation à mettre en évidence l’influence d’une variable sur une autre (afin
d’identifier les déterminants sociaux) ou, plus simplement, la dépendance d’une
variable vis-à-vis d’une autre (afin de montrer l’existence d’interdépendances
entre des phénomènes).
La question à laquelle ce type de tableau répond est : « Dans quelle mesure tel
phénomène ou telle caractéristique sociale dépend-t-elle de tel autre phénomène
ou caractéristique ? » En termes plus techniques, la question s’exprime ainsi : «
Dans quelle mesure une variable dépend-t-elle d’une autre ? » Notons que la
notion de dépendance en jeu dans ces questions ne renvoie pas nécessairement à
une idée déterministe ou causale. Notons également, de manière fondamentale,
que les deux variables croisées jouent des rôles distincts, dissymétriques : on
s’interroge sur la dépendance de l’une vis- à-vis de l’autre. L’une est la variable
42
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
dépendante ou « à expliquer » ; l’autre est la variable indépendante ou «
explicative ».

Le tableau 2 croise la variable « Réponse » avec la variable « Catégorie de revenu


en millier ($) » sur un échantillon de 6400 personnes. La question soulevée par ce
tableau est « la réponse à l’offre d’une entreprise par les clients dépent-elle de leur
catégorie de revenu en millier ($) ? ». Pour répondre à cette question, il est
possible de comparer la réponse selon les catégories de revenus en colonne.
Concrètement, cela revient à calculer les pourcentages en ligne (figurant dans ce
même tableau). En d’autres termes, selon une présentation plus technique, la
variable « expliquée » étant en ligne et la variable « explicative » en colonne,
l’étude de ce tableau suppose le calcul de pourcentages en ligne.

L’intérêt de tels tableaux est de mettre en évidence les différentes catégories de


revenus représentées en colonne et la réponse à l’offre représentés par les
modalités « Oui » et « Non » en ligne. En l’occurrence, le tableau 2 permet de
constater que la plupart des clients de cette entreprise appartiennent à la catégorie
de revenue $25 - $49. 27,5 % soit exactement 187 ont répondus favorablement à
l’offre avec un revenu inférieur à $25. Il est en effet incontestable que parmi les
6400 individus de notre échantillon, ceux appartenant à la catégorie de revenue
$25 - $49 ont le plus répondus à l’offre de l’entreprise. La catégorie de revenue
n'a donc pas une influence significative sur le fait qu’un client réponde ou non à
l’offre proposée par cette entreprise.

43
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.2- Test du Khi-deux
Les tableaux croisés présentent la distribution des fréquences de réponse pour
deux ou plusieurs variables mises en relation mais ils ne permettent pas de
démontrer l’existence de cette association du point de vue statistique. Pour
mesurer véritablement la relation entre les variables, il est nécessaire de mettre en
place des tests de signification statistique de l’association.

Le test le plus couramment utilisé est celui du khi-deux (khi-2), car il consiste à
tester la signification statistique d’une association de deux variables qualitatives
(nominales ou ordinales). Plus précisément, il a pour objet de tester
l’indépendance des variables dans un tableau croisé en comparant la distribution
observée sur l’échantillon à une distribution théorique qui correspond à
l’hypothèse que l’on veut tester.

La loi du khi-deux suit une distribution asymétrique dont la forme dépend du


nombre de degrés de liberté (DDL). Le nombre de degrés de liberté varie en
fonction du nombre de modalités des variables comparées et se calcule de la
manière suivante : n – 1 × p – 1 (avec n : modalités de la 1re variable et p :
modalités de la 2e variable). On rejettera l’hypothèse nulle (pas d’association
entre les variables) si le χ2 calculé est supérieur à la valeur de référence du χ2 se
trouvant dans la table de khi-deux pour n degrés de liberté (lignes) et pour un α
(niveau de précision donné en colonnes). Pour interpréter la valeur du χ2, il est
préférable de se référer au seuil de signification statistique (> 0,05 par exemple)
plutôt qu’à la valeur du χ2 qui varie selon le nombre de degrés de liberté.

44
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le test du khi-deux s’obtient par la procédure des tableaux croisés vue plus haut
(Analyse > Statistiques descriptives > Tableaux croisés…) et peut être sélectionné
dans le menu Statistiques, comme l’indique la figure 3.

Figure 3 : Boîte de dialogue du tableau croisé et test du khi-deux.


Si l’on cherche à savoir si la catégorie influence-t-elle le salaire d’un employé en
croisant la catégorie et le salaire, par exemple, le test du khi-deux permettra de
définir si ces deux variables sont indépendantes. Il est important de noter que ce
test est assez sensible à la taille de l’échantillon.

Figure 4 : Test du khi-deux des variables salaire/catégorie d’employé.

45
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus
haut et sélectionné le test du khi-deux dans le menu Statistiques de la boîte de
dialogue Tableaux croisés. Conformément à ce que nous pouvions penser a priori,
la valeur du khi-2 (χ2) est inférieure à la valeur critique correspondant au seuil de
signification statistique de 0,05 (nous obtenons 0,001). Ce résultat nous permet
de rejeter Ho (« il n’existe pas de lien entre les variables ») et de conclure qu’il
existe bien une relation entre le salaire et la catégorie d’employé dans la
population observée.

Intérêts et limites
Le test du khi-2 est très utile pour indiquer l’existence d’une relation de
dépendance entre deux variables. Mais il ne constitue pas un indicateur de
l’intensité de cette dépendance. La probabilité associée à l’hypothèse
d’indépendance ne permet pas de hiérarchiser les relations entre variables en
identifiant celles qui sont fortement liées et celles qui le sont un peu moins : la
probabilité indique la confiance qu’il est possible d’accorder à l’hypothèse
d’indépendance et non l’intensité de leur éventuelle dépendance.

Le test du khi-2 ne constitue pas non plus un indicateur du sens de la relation : la


conclusion issue de notre exemple précédent est qu’il existe un lien entre le salaire
et la catégorie d’employé. Mais nous ne savons rien de ce lien : est-ce un lien
positif ? Ou bien est-ce le contraire ? Ce n’est pas le test du khi2 qui permet de
répondre à cette question, mais la lecture du tableau des pourcentages ou du
tableau des écarts à l’indépendance.

Enfin, quatre limites théoriques et pratiques à l’utilisation du test du khi2 méritent


d’être signalées. Premièrement, le tableau croisé doit être un tableau de
contingence : un individu doit être présent dans une et une seule cellule du tableau.
Cela interdit d’avoir recours au test du khi-2 sur des tableaux croisant une ou deux
variables multiples.

46
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Deuxièmement, les effectifs doivent être suffisants pour que nous puissions juger
des effets du hasard et, donc, distinguer ce qui relève du hasard et ce qui n’en
relève pas. Imaginons que l’effectif théorique d’une cellule du tableau soit
seulement de 4 personnes. Si l’effectif observé de cette même cellule est de 2 ou
de 6 personnes, l’écart relatif est important mais peut-on juger sur de si petits
effectifs ? De toutes petites fluctuations dans l’échantillonnage vont
considérablement changer la distance du khi-2 et donc les conclusions du test.
Pour cette raison, il est préférable de ne pas utiliser le test du khi-2 dès que le
tableau est trop « creux ». Les recettes pour déterminer si un tableau est trop creux
sont nombreuses, presque aussi nombreuses que les manuels ou les statisticiens.
La plus prudente est certainement de suivre le principe proposé par Philippe
Cibois 1 : examiner les contributions des diverses cases du tableau à la distance
totale du khi-2 afin d’identifier les cases qui, à elles seules, expliqueraient
l’essentiel de la distance du khi-2 ; et si seules une ou deux cases expliquent la
valeur de la distance, s’interroger sur la nature de la relation unissant les modalités
correspondantes.

Troisièmement, comme tout test statistique, le test du khi-2 n’est pas une preuve
absolue de la présence ou de l’absence d’une dépendance entre deux variables. Il
ne fournit que des présomptions de relations... qui devront être étayées par
d’autres analyses, d’autres croisements...

Enfin, quatrièmement, l’existence d’une relation statistique entre deux variables


ne signifie pas que cette relation ait un sens empirique ou sociologique. Son
interprétation reste à faire.

II- Techniques d’analyse des variables quantitatives


3.1- Coefficient de corrélation
Lorsque deux variables sont de nature quantitative, il est possible de les recoder
en créant des classes de valeur afin de se situer dans le cas précédent : celui de
deux variables qualitatives, de leur tableau croisé et du test du khi2 associé. Mais
47
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
il est également possible de conserver le statut quantitatif des variables en
recourant au coefficient de corrélation : ne pas recoder permet de conserver toute
l’information (et toute sa précision, si on la juge utile). Le coefficient de
corrélation (dit de Bravais-Pearson) est un indicateur tellement classique en
statistique que le terme de « corrélation », initialement forgé pour désigner la
corrélation de deux variables quantitatives telle qu’elle est exprimée par ce seul
coefficient, est régulièrement utilisé pour désigner l’idée que deux phénomènes
(ou deux variables) sont reliés l’un à l’autre : il est fréquent de rencontrer des
expressions telles que « la corrélation entre le développement économique et
l’épanouissement personnel » ou « la corrélation entre la création artistique et les
structures matérielles et culturelles de la société », sans que ces expressions
fassent réellement référence au calcul du coefficient de corrélation. Ce coefficient
est particulièrement utile lorsque les variables analysées expriment des quantités
de temps (âge, durée entre deux événements...), des quantités monétaires
(revenus, patrimoine, dépenses, consommation...), des fréquences ou des
indicateurs synthétiques construits pour les besoins de l’enquête.
Il importe de bien comprendre quel est le type de relation que le coefficient de
corrélation permet de mettre en évidence car, à la différence du test du khi-2 qui
permet de savoir si deux variables sont indépendantes ou pas sans faire
d’hypothèse sur la nature de leur relation (dépendance), le coefficient de
corrélation cherche à identifier un type tout à fait précis de relation : la relation
linéaire. En toute rigueur, il serait préférable de parler du coefficient de corrélation
linéaire et non, simplement, du coefficient de corrélation puisque cette dernière
expression laisse entendre que la relation mesurée par le coefficient peut être de
nature quelconque alors qu’elle est exclusivement de nature linéaire.

La notion de relation linéaire


Deux variables entretiennent une relation linéaire entre elles si la variation relative
de l’une d’entre-elles entraîne immanquablement une variation relative constante

48
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
de l’autre. Autrement dit, les variables X et F sont linéairement liées si une
variation de p % de X entraîne toujours une variation constante de q % de Y. Par
exemple la consommation de livres (estimée par le nombre de livres achetés par
an) est liée linéairement à leur prix si une variation de 10 % du prix des livres
entraîne immanquablement une variation de q % de leur consommation : la valeur
de q peut être négative (dans ce cas, la consommation baisse si le prix augmente)
ou positive (dans ce cas, la consommation croît si le prix augmente) ; q peut valoir
- 15 %, - 9 %, - 3 %, 5 %, 11 %, 17 % ... L ’important est ici que cette variation
soit toujours identique si le prix des livres augmente de 10 % pour passer de 10 à
11 € , ou de 20 à 22 € , ou de 50 à 55 € ... Mathématiquement, la propriété de
liaison linéaire entre deux variables s’écrit : Y = a x X + b (où a et b sont des
nombres constants). Notons que cette relation n’a pas de symétrique (X et Y
jouent des rôles identiques) : si X et Y sont liées linéairement, Y et X le sont
également. Ainsi si Y = a x X + b alors : X = Y/a - b/a : c’est une autre relation
linéaire (X = a ’ x Y + b ’ avec a ’ = 1/a et b’ = b/a).

La notion de covariation
Pour exprimer la variation (variabilité) d’une variable, nous avons vu qu’il était
possible de recourir à l’indicateur de variance ou d’écart-type. Il est possible de
concevoir un indicateur comparable pour exprimer la covariation de deux
variables c’est-à-dire pour rendre compte de leurs variations simultanées. Si ces
variations simultanées sont élevées, les variables sont probablement liées
(puisqu’une variation de l’une est associée, presque systématiquement, à une
variation de l’autre - comme par exemple dans le cas du poids et de la taille des
individus). Si ces variations simultanées sont faibles, les variables sont
probablement indépendantes (puisque l’une peut varier sans que l’autre le fasse).
L’indicateur de covariation est appelé covariance et est défini comme la moyenne
des produits des écarts à la moyenne de chaque variable.

49
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La covariance prend des valeurs positives d’autant plus élevées que les deux
variables varient simultanément dans le même sens (une hausse de l’une est
associée à une hausse de l’autre ; une baisse de l’une est associée à une baisse de
l’autre). Elle prend des valeurs négatives d’autant plus petites (c’est-à-dire
éloignées de zéro) que les variables varient simultanément dans des sens
contraires (une baisse de l’une est associée à une hausse de l’autre).

La définition du coefficient de corrélation linéaire


Le coefficient de corrélation (noté rxy) est défini comme le rapport entre la
covariance des deux variables et les écarts-types de ces mêmes variables. En
somme, le coefficient de corrélation est une mesure de la covariation mutuelle de
X et de Y, compte tenu de la variation propre de X et de la variation propre de Y.

covariance de X et de Y
rxy =
(écart-type de X) x (écart-type de F)

En tenant compte des définitions présentées précédemment, la définition rxy peut


être exprimée de la manière suivante (à condition de simplifier par n en haut et en
bas) :

Le coefficient de corrélation linéaire rxy permet de mesurer jusqu’à quel point


deux variables entretiennent une telle relation linéaire entre elles. Ses valeurs sont
toujours comprises entre -1 et 1.

50
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
✓ Le coefficient calculé entre deux variables X et Y vaut -1 si X et Y sont
liées par une relation linéaire parfaite mais qu’une croissance de X est
associée à une décroissance de Y (et inversement : une décroissance de X
est associée à une croissance de Y) ;
✓ Le coefficient vaut 1 si X et Y entretiennent une relation linéaire parfaite et
une croissance de X est associée à une croissance de Y. Il est possible de
parler de relation linéaire croissante ou positive ;
✓ Le coefficient vaut 0 si X et Y n’entretiennent pas de relation linéaire : X
et Y sont dites linéairement indépendantes.

En dehors de ces situations idéales-typiques, le coefficient de corrélation exprime


une plus ou moins grande proximité avec chacune de ces situations. Si, par
exemple, le coefficient vaut 0,9, il est aisé de considérer que les deux variables
entretiennent une relation presque parfaitement linéaire ; si le coefficient vaut 0,1
ou - 0,1, les deux variables ne sont quasiment pas liées de manière linéaire ; si le
coefficient vaut - 0,9, les deux variables sont liées par une relation presque
parfaitement linéaire mais décroissante.

Il est également possible d’interpréter rxy, ou plus exactement son carré r2xy,
comme une mesure de la variabilité de Y expliquée par X (et réciproquement),
c’est-à-dire la part des variations de Y qui peut être expliquée par les variations
de X (et réciproquement). Plus cette part est élevée, plus Y est expliquée par X (et
réciproquement). Ce coefficient r2xy est appelé « coefficient de détermination
» : il est toujours compris entre 0 et 1 : plus il est proche de 1, plus X permet
d’expliquer les variations de Y ; plus il est proche de 0, moins X permet
d’expliquer Y (et réciproquement).
Intérêts, usages et limites
Le principal intérêt du coefficient de corrélation est de fournir une indication de
l’intensité de la relation (linéaire) qu’entretiennent deux variables. À la différence
du khi-2, qui livre simplement une indication sur la plausibilité de l’hypothèse
51
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
d’indépendance entre deux variables sans apporter de renseignement sur la force
de leur éventuelle dépendance, les valeurs des coefficients de corrélation peuvent
être interprétées comme des intensités : elles permettent donc de hiérarchiser les
relations entre variables.
Le coefficient de corrélation est très fréquemment utilisé dès que les variables
sont de nature quantitative : d’une part, parce qu’il est simple à calculer et à
interpréter ; d’autre part, parce que dans le cas de petites variations, il est toujours
possible de considérer, par approximation, que les variations sont linéaires, car, à
l’échelle des faibles variations de valeur, toute courbe reliant deux variables X et
Y peut être considérée comme un morceau de droite. Une autre raison de son
succès est qu’il est connu par tous : il fait partie des tout premiers outils
statistiques présentés dans tous les cours de statistiques. Cette familiarité n’a
toutefois pas que des avantages : elle conduit à oublier les conditions d’utilisation
et le sens réel de ce coefficient pour ne voir en lui que « la » méthode de mesure
des corrélations entre variables quantitatives.
La principale limite du coefficient de corrélation a déjà été signalée, elle est
contenue dans sa définition : il ne permet d’identifier que les relations de nature
linéaire entre deux variables et signale la présence ou l’absence d’une telle
relation, sans fournir la moindre indication sur la présence d’une relation d’un tout
autre type entre deux variables. Par exemple, le coefficient de corrélation linéaire
entre l’âge des enquêtés et le nombre de fois où ils se sont rendus au cinéma au
cours des douze derniers mois peut être nul sans pour autant signifier qu’il n’existe
aucun lien entre l’âge et la fréquentation des cinémas : le nombre de films vus au
cinéma au cours d’une année peut croître progressivement de 12 à 25 ans pour
baisser de 25 à 45 ans et croître à nouveau au-delà de 45 ans... Le coefficient de
corrélation linéaire sera incapable de restituer une telle relation.
Dans tous les cas, il est bon voire indispensable de se faire une idée de la relation
qu’entretiennent deux variables en construisant une représentation graphique des

52
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
valeurs de ces deux variables. Un graphique permet d’identifier les éventuelles
relations entre deux variables, même si ces relations ne sont pas linéaires.
Une autre limite classiquement attribuée au coefficient de corrélation est que s’il
permet de renseigner sur l’éventuelle présence d’une relation linéaire entre deux
variables, il ne dit rien sur la nature causale ou non de cette relation. Cette limite
n’est pas propre à ce coefficient : la critique vaut également pour le test du khi2.
De manière générale, la recherche de relation causale est hors de portée des seuls
outils statistiques simples.

Notons enfin que le coefficient de corrélation peut, comme tout indicateur


statistique, faire l’objet d’un test destiné à déterminer si la valeur de ce coefficient
calculé sur un échantillon fournit une information fiable, c’est-à-dire valant, de
manière probable, pour l’ensemble de la population.

III- Techniques d’analyse d’une variable qualitative et quantitative.


Après le cas où les deux variables sont qualitatives puis celui où elles sont
quantitatives, un dernier cas de figure peut survenir : une des deux variables est
quantitative et l’autre est qualitative. Comment apprécier la relation qu’une
variable quantitative et une variable qualitative entretiennent ? En d’autres termes,
et en considérant que les diverses modalités de la variable qualitative
correspondent à des groupes d’individus, comment comparer les valeurs prises
par une variable quantitative au sein de différents groupes ?
Ce cas de figure se rencontre lorsqu’on cherche à identifier le lien entre le niveau
de diplôme (variable qualitative) et le revenu mensuel (variable quantitative), le
milieu social (qualitatif) et la consommation d’alcool (quantitatif), le type de lycée
(public ou privé) et la note moyenne obtenue au baccalauréat... Pour les besoins
de notre présentation, nous allons étudier la relation que peuvent entretenir, chez
les adolescents, le sexe et le nombre d’activités sportives pratiquées de manière
régulière1. Cela revient à comparer le groupe des garçons avec celui des filles.

53
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La méthode habituellement utilisée pour estimer la présence ou l’absence d’un tel
lien est appelée l’analyse de la variance, souvent abrégée en ANOVA (Analysis
of Variance). Il s’agit d’un test, permettant d’aboutir à l’acception ou au rejet
d’une hypothèse, en l’occurrence l’hypothèse qu’il n’y a pas de lien entre la
variable qualitative et la variable quantitative. On parle parfois du « test ANOVA
».

Le principe de l’ANOVA
Nous savons que la variance est une mesure de la variabilité : elle permet
d’estimer l’hétérogénéité ou, au contraire, l’homogénéité d’une série de valeurs.
Supposons que le nombre de sports pratiqués soit parfaitement déterminé par le
sexe, par exemple que les adolescentes (féminin) pratiquent un seul sport tandis
que les adolescents (masculins) pratiquent deux sports. Dans ce cas,
l’homogénéité de comportement des filles (comme celle des garçons) est totale :
la variance du nombre de sports pratiqués est nulle parmi les filles (comme parmi
les garçons). En revanche, entre le groupe des garçons et celui des filles, il existe
une hétérogénéité : la variabilité entre les deux groupes n’est pas nulle. Ainsi la
variabilité entre le comportement des garçons et celui des filles est plus importante
que la variance des comportements au sein du groupe des filles et au sein du
groupe des garçons. Et ceci est associé à une situation où la variable qualitative
est liée à la variable quantitative.
Imaginons maintenant que le sexe et la pratique sportive n’aient aucun lien entre
eux. Dans ce cas, les comportements des garçons diffèrent peu ou pas du tout de
ceux des filles : les garçons peuvent avoir des pratiques très différentes ; les filles
peuvent également avoir des pratiques sportives très variables ; mais ce qui
importe ici est que les garçons et les filles aient des attitudes proches voire
identiques. En termes techniques, cela signifie que la variabilité entre les garçons
et les filles est faible ou nulle comparativement à la variabilité des comportements
masculins d’une part et féminins d’autre part.

54
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Cet exemple suggère que pour se faire une idée de l’existence d’un lien éventuel
entre la pratique sportive et le sexe des adolescents, il suffit de comparer les
variabilités au sein des groupes et la variabilité entre les groupes. Le principe
général de l’ANOVA réside dans cette comparaison des variabilités.

Complément

Test paramétriques : Les deux principaux tests paramétriques sont le test t et le


test Z, qui ont pour objet de tester des différences de moyenne. Ces tests sont
souvent mis en œuvre en marketing, car ils permettent, par exemple, de comparer
la moyenne d’une variable dépendante métrique en fonction des modalités d’une
variable nominale. On formule alors une hypothèse nulle qui sera vérifiée par le
test t ou le test Z. Pour plus de simplicité, ces deux tests sont présentés ici pour
des échantillons uniques.

Test t
Le test t est directement lié à la statistique t de Student, qui suppose que la variable
adopte une distribution normale, que la moyenne soit connue et que la variance,
lorsqu’elle est inconnue, soit estimée sur l’échantillon. On le calcule de la manière
suivante :

𝒕 = (𝒙
̅ − 𝝁) ∕ 𝑺𝒙̅ ̅ ∶ 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒅𝒆 𝒍′ é𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 ; 𝝁 ∶
Où 𝒙
𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 ; 𝑺𝒙̅ ∶ 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒅𝒆 𝒍′é𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏

Dans SPSS, ce test paramétrique peut être estimé avec la procédure suivante :
menu Analyse > Comparer les moyennes > Test T pour échantillon unique…,

55
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour comparer les moyennes de deux échantillons indépendants (comparaison des
clients et des non-clients par exemple), on utilisera une analyse de variance
(ANOVA) à 1 facteur. Pour comparer les moyennes de deux échantillons appariés
(comparaison de relevés de prix à deux périodes distinctes par exemple), on suivra
une extension du test t pour échantillons appariés qui est disponible dans la même
boîte de dialogue.

56
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test Z
Le test Z peut être mis en place lorsque la variance de l’échantillon est connue. La
valeur de Z s’obtient par la formule suivante :

𝒛 = (𝒙
̅ − 𝝁) ∕ 𝝈𝒙̅ Où 𝜎𝑥̅ est l’écart type de la population
Z = où : est l’écart type de la population Ce test peut également être étendu pour
tester des proportions.
Test non paramétriques : Les tests non paramétriques sont souvent mis en œuvre
dans la pratique en marketing et autres : ils s’appliquent aux variables qualitatives
et s’avèrent relativement performants sur de petits échantillons, même s’ils sont
moins puissants que les tests paramétriques. Voici les principaux tests
paramétriques présentés ici : un test d’ajustement (le test de Kolmogorov-
Smirov), des tests de comparaison d’échantillons indépendants (le test U de
57
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Mann-Whitney et le test de la médiane), ainsi que des tests de comparaison
d’échantillons appariés (le test de Wilcoxon, le test du signe et le test de
McNemar).

Test de Kolmogorov-Smirov (K-S)


Le test de Kolmogorov-Smirov est un test dit d’ajustement, car il permet d’établir
si une population donnée suit une distribution particulière (normale, uniforme ou
poisson par exemple), condition exigée par de nombreux tests. Le K-S est calculé
à partir de la plus grande différence (en valeur absolue) entre les fonctions de
distribution théorique et observée cumulées :
K = Max |Ai-Oi|
Le K-S pour un échantillon s’obtient dans SPSS à partir du menu Analyse > Tests
non paramétriques > K-S à 1 échantillon…

58
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test U de Mann-Whitney
Le test de Mann-Whitney permet de vérifier que deux échantillons (ou groupes)
proviennent bien de la même population. On peut l’utiliser, par exemple, pour
comparer les réponses dans un département par rapport aux réponses nationales.
La statistique du test U réunit les deux échantillons et ordonne les observations
par ordre croissant de taille. Le test calcule le nombre de fois où un résultat du
groupe 1 précède un résultat du groupe 2, ainsi que le nombre de fois où un résultat
du groupe 2 précède un résultat du groupe 1. U est d’autant plus petit que les
groupes sont différents.
Pour calculer le U de Mann-Whitney dans SPSS, il faut d’abord définir la variable
qui servira à scinder les données en deux échantillons : Analyse > Test non
paramétrique > 2 échantillons indépendants…, puis sélectionner une variable
de regroupement (Facteur) et cliquer sur Définir les niveaux. Pour définir les
groupes, vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe
2. Sélectionnez ensuite le test U de Mann-Whitney dans la boîte de dialogue.

59
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test de la médiane
Ce test, moins puissant que le U de Mann-Whitney, permet de déterminer si deux
groupes sont issus de populations ayant la même médiane, en estimant la position
de chaque observation par rapport à la médiane globale des deux échantillons.
Pour calculer le test de la médiane dans SPSS, vous devez suivre la procédure
suivante : Analyse > Test non paramétrique > échantillons indépendants…,
puis sélectionner le test de la médiane dans le menu du type de test envisagé.

Test de Wilcoxon
Le test de Wilcoxon est utilisé dans le cas de la comparaison de deux échantillons
appariés, c’est-à-dire lorsque l’on souhaite, par exemple, comparer deux types de
réponses : avant/après l’exposition à un message publicitaire, attitude par rapport
à une marque A et une marque B, etc. La statistique z du test de Wilcoxon s’obtient
en calculant la différence entre les scores des deux observations par paires
d’observations, puis en calculant le rang de toutes les différences, et enfin la

60
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
somme des rangs positifs et des rangs négatifs. On rejette l’hypothèse nulle
(absence de différence entre les deux groupes) s’il y a une différence entre la
somme des rangs positifs et la somme des rangs négatifs. Le sens de la statistique
indique le sens de la différence de la paire examinée.
Dans SPSS, ouvrez le menu Analyse > Test non paramétrique > 2 échantillons
liés…, puis sélectionnez le test que vous souhaitez mettre en œuvre (Wilcoxon,
Signe, McNemar), comme le montre l’image ci-dessous.

Test du signe
Le test du signe est relativement proche du test de Wilcoxon, mais il est plus limité
et par suite moins puissant. Il ne s’attache en effet qu’à une comparaison des
signes des différences, sans procéder à un classement comme le fait le test de
Wilcoxon.

61
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test de McNemar
Le test de McNemar peut également être mis en œuvre dans le cas d’échantillons
appariés, pour comparer les valeurs de deux variables dichotomiques (à deux
dimensions).

Résumé
Première étape de l’analyse à proprement parler, la description des données
permet de représenter les valeurs observées sur les différents individus de
l’échantillon. L’analyse univariée, qui examine une seule variable à la fois,
repose sur la description (fréquences, tendance centrale, dispersion, distribution)
et la visualisation graphique des variables, ainsi que sur l’inférence, c’est-à-dire
la comparaison à des valeurs déterminées. L’analyse bivariée permet d’aller plus
loin par l’étude des relations entre deux variables, grâce aux tris croisés et aux
principaux tests d’analyse bivariée : tests d’association (khi-deux) et tests de
comparaison (test t, test K-S, test U de Mann-Whitney, etc.). Pour aller encore
plus loin dans l’analyse, le chargé d’étude devra mettre en place des analyses
multivariées, lesquelles seront abordées dans le chapitre suivant.

62
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Exercice 1 : Les tests

Répondez aux questions suivantes.


1. Quel(s) test(s) recommanderiez-vous à un chargé d’étude souhaitant comparer
l’intention d’achat d’un produit avant et après son exposition dans un film
publicitaire ?
2. Une compagnie de téléphonie mobile cherche à déterminer les principaux
facteurs explicatifs de l’attrition, c’est-à-dire de la résiliation de l’abonnement en
faveur d’un concurrent. En complément des données dont l’entreprise disposait
dans sa base de données, une étude par téléphone a été commandée auprès d’un
institut pour interroger les clients et les anciens clients. Interprétez les résultats
mentionnés dans le tableau suivant.

Anciens
……Item Clients Signification
clients
Âge moyen 47,6 ans 22,1 ans ,000

Durée de l’abonnement 7,1 ans 1,3 ans ,000

Possession d’un abonnement fixe 87 % 85 % ,372

Possession d’un abonnement Internet 72 % 79 % ,540

Possession d’un deuxième téléphone


13 % 23 % ,025
portable
Degré de satisfaction*exprimé : –
5,5 4,9 ,459
qualité globale du service
– couverture du réseau 6,1 5,8 ,248
– qualité des communications 5,5 2,3 ,031
– qualité du centre d’appel 6,3 5,9 ,462
– options de l’abonnement 5,7 3,2 ,001

63
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
– nombre de SMS dans l’abonnement 5,8 5,2 ,659

– prix de l’abonnement 6,1 4,0 ,001

– coût total mensuel de l’abonnement 5,2 4,8 ,001

* Mesuré sur une échelle de Likert en 7 points.


3. Quel test pourriez-vous mettre en place pour en apprendre davantage sur les
deux derniers items du tableau ci-dessus : « prix de l’abonnement » et « coût total
mensuel de l’abonnement » ?

Solution :
1. Dans ce cas de figure, le chargé d’étude doit comparer la moyenne des
réponses de deux échantillons à deux périodes distinctes, en d’autres termes
avant et après l’exposition du produit dans un message publicitaire. Il s’agit
donc d’une mesure sur échantillons appariés. Il pourra, par exemple, mettre
en œuvre une extension du test t.
2. Les résultats de l’enquête comportent 7 résultats significatifs à un degré de
confiance de 95 %. On peut donc conclure que les abonnés ayant préféré la
concurrence sont en général plus jeunes et que leur abonnement était plus
récent que celui des abonnés interrogés. En outre, ils sont plus nombreux à
posséder un second téléphone portable et sont relativement moins satisfaits
de la qualité des communications, des options de leur abonnement ainsi que
du prix et du coût global mensuel de l’abonnement que les abonnés
interrogés.
3. On peut réaliser un tri croisé des deux variables qualitatives et procéder à
un test de khi-deux pour savoir si les deux variables sont liées. Comme nous
n’avons aucune information sur le nombre d’observations, nous ne sommes
pas certains de pouvoir respecter la condition de 5 observations par case du
tableau. En outre, il est possible de procéder à un test sur échantillons
64
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
appariés pour comparer les réponses aux deux questions : un test de
Wilcoxon serait alors approprié.

Exercice 2

Reprenons l’enquête sur les employés d’une entreprise abordée précédemment.


Notre chargé d’étude cherche à en savoir davantage sur les données dont il
dispose. Afin de progresser dans la maîtrise de l’outil SPSS, ouvrez le fichier «
Employee data.sav » disponible sur les fichiers échantillons du logiciel SPSS, et
accompagnez le chargé d’étude dans sa réflexion en répondant aux questions
suivantes.
1. Nous souhaitons en savoir un peu plus sur les répondants à l’enquête. Vous
devez par conséquent poursuivre la description des variables de l’enquête que
nous avons amorcée. Que pouvez-vous dire à propos des variables suivantes :
a. sexe ?
b. catégorie d’employé ?
c. minorite ?
2. Quelle est la part des employés qui appartiennent à la catégorie « Cadre » sur
l’ensemble des employés ? Que pouvez-vous conclure de la catégorie d’employé
et du niveau d’éducation ?

Solution 2

1. Ces trois variables sont des variables qualitatives (nominales) et nous


souhaitons les décrire. Il faut donc appeler la boîte de dialogue Fréquences
dans le menu Analyse, puis le sous-menu Statistiques descriptives…
Nous représenterons ici le sexe, la catégorie d’employée ainsi que la
minorité qui peuvent être décrite de la manière suivante (voir figure 5).

65
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Nous avons choisi de représenter ces variables d’une façon relativement simple,
en ne demandant que les effectifs, les pourcentages ainsi que le mode. Le mode
représentant la catégorie ayant l’effectif le plus élevé. Le résultat est confirmé
dans le tableau ci-dessus où les employés de cette entreprise sont majoritairement
du sexe (54,4 %) avec un niveau d’éducation de 12 années.
2. Pour voir graphiquement la part des employés de cette entreprise qui
appartiennent à la catégorie « cadre », il faut dans cette boite de dialogue

66
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
cliquer sur Statistiques et choisir le type de graphiques qui représentera au
mieux notre variable (diagramme en secteur) dans le cas d’espèce).

De l’analyse de ce graphe, nous pouvons aisément affirmer que 5,70% des


employés de cette entreprise appartiennent à la catégorie « Cadre », 17,72% à la
catégorie « Responsable » et 76,58% à la catégorie « Secrétariat ».

Pour tirer une conclusion relative aux variables « catégorie d’employé » et


« niveau d’éducation », calculons les coefficients de corrélations entre ces deux
variables. Faites pour cela Analyse > Corrélation > Bivariée.

67
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Sélectionnez vos deux variables pour les téléverser dans le rectangle à l’aide de la
flèche indicatrice. Par défaut, la case de Pearson est cochée et le test de
signification est sur Bilatéral.

Le tableau qui apparait nous montre que le coefficient de corrélation entre la


catégorie d’employé et le niveau d’éducation est de 0,66. Il existe alors une forte
corrélation entre ces variables. Pour savoir si cette valeur est significative, il faut
regarder la P-value. Au seuil de 5%, la valeur est significative puisque 0,001 <
5%. Donc, on rejette l’hypothèse nulle qu’il n’y a pas d’association linéaire et on
accepte l’alternative qu’il existe bel et bien une association linéaire significative
entre la catégorie d’emploi qu’appartient un employé et son niveau d’éducation.
Sur la diagonale principale, vous avez des coefficients de corrélations tous égaux
à 1, ceci s’explique par le fait qu’il existe une parfaite corrélation entre une
variable et elle-même.
Exemple : Le niveau d’éducation est parfaitement corrélé au niveau d’éducation
(1).

68
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 3 : ANALYSE DE LA VARIANCE ET
REGRESSION LINEAIRE

CHAPITRE 3 : ANALYSE DE LA
VARIANCE ET REGRESSION LINEAIRE

69
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- ANALYSE DE VARIANCE
L’analyse de variance désigne une famille de méthodes destinées à examiner et à
interpréter les différences de moyennes observées entre plusieurs groupes pour
une même variable (ANOVA pour ANalysis Of VAriance) ou pour plusieurs
variables (MANOVA pour Multivariate ANalysis Of VAriance). Ces méthodes
sont souvent utilisées pour analyser des données issues d’une expérimentation où
des caractéristiques d’un objet sont manipulées afin d’optimiser l’objet au
moindre coût. Nous verrons dans un premier temps les techniques d’analyse de
variance et de covariance avant de découvrir un terrain d’application privilégié de
l’ANOVA : la méthode du plan d’expérience.

Les différentes analyses de variance


Différents types d’analyses de variance existent. La figure 5.1 présente le type
d’analyse selon la nature des variables dépendantes et indépendantes. Nous
commençons par détailler les principes de l’analyse univariée de la variance avant
de passer à l’analyse multivariée puis à l’analyse de covariance.

Figure 6 : Type d’analyse de variance selon la nature des variables.

70
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
1.1- LES PRINCIPES DE L’ANALYSE DE VARIANCE
L’analyse de variance entre dans le cadre général du modèle linéaire, où une
variable quantitative (ou plusieurs) est expliquée par une variable qualitative (ou
plusieurs). L’objectif essentiel est de comparer les moyennes empiriques de la
variable quantitative observées pour les variables qualitatives (facteurs) ou
quantitatives découpées en classes (niveaux). À titre d’exemple, on étudiera la
satisfaction du client à l’égard d’un produit selon les différentes caractéristiques
de ce produit (parfum, texture, etc.). Il s’agit de savoir si un facteur, ou une
combinaison de facteurs (interaction), a un effet sur la variable quantitative
expliquée. Par exemple, il s’agira de déterminer les caractéristiques optimales
d’un paquet de céréales pour un petit déjeuner destiné aux enfants. Des indicateurs
statistiques permettent de tester la significativité de cette combinaison linéaire.

1.2- L’ANALYSE UNIVARIÉE DE LA VARIANCE : ANOVA À UN


FACTEUR
L’analyse de variance sert à tester l’hypothèse d’égalité des moyennes. Cette
technique est une extension du test t pour deux échantillons indépendants. Elle
permet de traiter les différences de moyennes d’une variable dépendante
quantitative Y lorsque la variable indépendante a plus de deux modalités. Ce type
d’ANOVA permet de savoir si au moins une des moyennes diffère des autres.
Ainsi, le salaire (variable quantitative) peut-il être expliqué par le diplôme
(variable qualitative)

L’hypothèse nulle est vérifiée par le test F sous SPSS. Afin d’identifier les
moyennes qui diffèrent, on peut comparer les moyennes avec les contrastes ou
avec les tests post hoc.
Deux conditions sont nécessaires pour que les conclusions d’une ANOVA soient
valides : l’homogénéité de la variance intragroupe et la normalité des données.
Le test de Levene (> 0,05) est utilisé pour accepter l’hypothèse d’homogénéité
de la variance intragroupe. Il faut, par ailleurs, vérifier la présence éventuelle de

71
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
mesures aberrantes par le contrôle de la distribution des résidus à l’aide d’un
graphique, les erreurs de saisie pouvant générer des hétérogénéités.
Si les données ne sont pas appropriées à une ANOVA (hétérogénéité des
variances ou données fortement asymétriques), on doit alors utiliser des tests non
paramétriques qui ne supposent ni homogénéité de la variance, ni une
distribution normale, par exemple le test de Kruskall-Wallis.

Etude de la satisfaction avec une ANOVA à un facteur

De plus en plus d’entreprises organisent des sondages pour tester l’acceptation ou


le niveau de satisfaction que les consommateurs tirent de leurs produits ou
services. C’est le cas du groupe SOS INFORMATIQUE avec son livre
« APPRENDRE EXCEL Á PARTIR DE ZÉRO ». Nous cherchons à connaître le
niveau de satisfaction des clients après usage du livre.
Ouvrez le fichier « challenge » 1, allez dans le menu Analyse > Comparer les
moyennes > Anova à 1 facteur.

Figure 7 : Commande d’une ANOVA à 1 facteur.

La boîte de dialogue apparaît (voir figure 7), transférez les variables en les
sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante à

72
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
tester est l’avis à l’égard du prix et la variable indépendante est placée dans le
champ Facteur.
Avant de lancer l’ANOVA à un facteur, nous vérifions l’homogénéité des
moyennes. Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure
8), cliquez sur Test d’homogénéité.
Cliquez sur Poursuivre pour revenir à la précédente boîte de dialogue puis sur
OK.

Figure 8 : Test d’homogénéité pour ANOVA à 1 facteur.


Le test de Levene (voir figure 9) est significatif (0,248 > 0,05), l’hypothèse
d’homogénéité des échantillons est donc acceptée. Nous pouvons procéder à
l’analyse des résultats de l’ANOVA.

73
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 9 : Interprétation du test d’homogénéité.
Plus la valeur de p est petite, plus la preuve est forte contre l’hypothèse nulle. Ici,
les moyennes sont très différentes (F = 0,91 ; p = 0,41). L’hypothèse nulle est

rejetée, le prix a un effet sur l’avis des clients après usage du livre mais, à ce stade,
nous ne savons pas quel est le prix préféré. Pour cela, il faut réaliser un test de
comparaisons multiples, aussi appelé test post hoc.

Cliquez sur Post Hoc. Dans la boîte de dialogue qui apparaît (voir figure 10),
cliquez sur le test de votre choix. Nous sélectionnons ici le test de Duncan,
souvent employé pour des tests de comparaisons de plusieurs moyennes. Dans
notre cas, il s’agira des prix 5000, 4500 ou 4000.

74
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 10 : Demande de test de comparaisons multiples a posteriori pour
ANOVA à 1 facteur.

Cliquez sur Poursuivre pour revenir à la boîte de dialogue ANOVA à un facteur


puis sur OK.

Le test de Duncan montre (voir figure 11) que le prix « 4000 » est supérieur aux
autres. Le prix moyen à son égard est de 2,63, significativement plus élevée que
celui des prix 5000 (2,21) ou 4500 (2,25).

En d’autres termes, les clients préfèrent acheter le livre à plutôt qu’à 5000 ou
4500).

75
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 10 : Test Post Hoc

1.3- L’ANALYSE DE VARIANCE Á X FACTEURS


L’ANOVA à plusieurs facteurs consiste à tester l’hypothèse d’égalité des
moyennes d’une variable quantitative selon plusieurs variables qualitatives. Par
exemple, on pourra tester les variations de salaire selon le diplôme et le sexe de
l’employé. Le test de significativité est un test F. Il s’appuie sur la décomposition
de la variance qui comprend : les effets principaux, les effets d’interaction et
un terme résiduel. La notion d’interaction correspond au fait que l’effet d’une
variable explicative sur la variable à expliquer n’est pas identique selon le niveau
de l’autre variable explicative. L’interaction peut être ordinale, l’ordre des effets

76
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
liés au premier facteur respecte alors celui des niveaux du second facteur. Dans le
cas d’une interaction non ordinale, nous avons en revanche une modification dans
l’ordre des effets. Une interaction non ordinale peut être non croisée ou croisée.
Cette dernière interaction est la plus forte de toutes.
L’existence d’une interaction se détecte par l’observation des courbes : leur
parallélisme indique une absence d’interaction (l’effet conjoint des facteurs
combinés est égal à la somme de leurs effets principaux individuels) alors que leur
croisement montre que l’effet relatif des niveaux du premier facteur varie en
fonction des niveaux de l’autre.

Etude de l’impact du sexe et du niveau d’éducation sur le salaire avec une


ANOVA

Nous cherchons à savoir l’influence du sexe et du niveau d’éducation sur le salaire


des employés d’une entreprise. Ouvrez le fichier exemple « challenge »,
disponible sur le site de l’ouvrage2.

Allez dans le menu Analyse > Modèle linéaire général > Univarié. Dans la boîte
de dialogue qui apparaît (voir figure 11), transférez les variables en les
sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante
est le salaire actuel et les variables indépendantes ou explicatives le sexe de
l’employé et son niveau d’éducation sont placées dans le champ Facteur(s)
fixe(s). Quelques remarques sur les boutons de cette boîte de dialogue :
Modèle. Ce bouton permet de préciser le type de modèle à analyser et le type
d’erreur. Par défaut, sont cochées l’option factoriel complet, où tous les effets sont
calculés, et somme des carrés de type III, qui permet de tester des modèles
équilibrés ou non (un modèle est déséquilibré lorsque les cellules ne contiennent
pas le même nombre d’observations). Il faut cliquer sur le bouton Termes

2
Vous trouverez ce fichier les fichiers d’échantillons du logiciel 77

SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS


construits, faire passer les variables dans la partie Modèle et choisir les effets
(principaux, d’interaction, d’ordre 2, etc.) pour en analyser seulement certains.
Contrastes. Sert à tester les différences entre les niveaux des facteurs.
Tracés. Ce bouton permet de comparer avec des graphiques les moyennes des
variables indépendantes selon le niveau de chaque facteur.
Post Hoc. Permet d’identifier, parmi plusieurs moyennes, celles qui diffèrent et
d’effectuer les différents tests d’hypothèses de variances.

Enregistrer. Permet de sauvegarder les valeurs prédites avec le modèle, les


résidus et les autres mesures comme nouvelles variables dans l’éditeur de
données.

Options. Pour obtenir diverses statistiques, par exemple, le test d’homogénéité


des variances. Il permet aussi de spécifier le seuil de significativité (fixé par défaut
à 0,05) pour l’étude des comparaisons de moyennes et le calcul d’intervalles de
confiance.

Figure 11 : Commande d’une ANOVA à 2 facteurs.

78
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Avant de lancer l’ANOVA, nous devons vérifier l’homogénéité des moyennes.
Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure 12),
cliquez sur Tests d’homogénéité.

Figure 12 : Tests d’homogénéité pour ANOVA.

Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis
sur OK. Le test de Levene (voir figure 13) n’est pas significatif (0,01 < 0,05),
l’hypothèse d’homogénéité des échantillons est donc rejetée.

79
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 13 : Interprétation du test d’homogénéité.
Nous pouvons procéder à l’analyse des résultats de l’ANOVA (voir figure 14).
Le modèle explique 68,9 % le salaire, c’est-à-dire que le salaire d’un employé
dépend à 68,9 % de son sexe et de son niveau d’éducation. Le coefficient du sexe
(F = 35,05; p < ,001) et le niveau d’éducation (F = 57,68; p < ,001) ont un impact
significatif sur le salaire.

Figure 14 : Résultats de l’ANOVA à 2 facteurs.


Cependant, à ce stade, nous ne savons pas lequel des deux variables affecte le
moins le salaire d’un employé.
80
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Dans la
boîte de dialogue qui apparaît, cliquez sur le bouton Diagrammes. Faites passer
le sexe dans Axe horizontal et educ dans Courbes distinctes puis cliquez sur
Ajouter (voir figure 15).

Figure 15 : Obtention de graphique afin de visualiser les effets des facteurs


significatifs.
Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis
sur OK. Le graphique (voir figure 16) atteste que lorsqu’on passe du sexe Féminin
au sexe Masculin, le salaire d’un employé augmente. Le sexe est donc un facteur
déterminant du salaire.

81
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 16 : Graphique du salaire en fonction du sexe.

Nous constatons également que le niveau d’éducation maximise le salaire d’un


employé.

Figure 17 : Graphique du salaire en fonction du niveau d’éducation.

1.1- L’ANALYSE MULTIVARIÉE DE LA VARIANCE : MANOVA

82
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’analyse multivariée de la variance est une extension de l’ANOVA pour mesurer
les différences de moyenne de deux variables dépendantes quantitatives (ou plus)
en fonction de plusieurs variables qualitatives. Ce que la MANOVA apporte en
plus de l’analyse de variance simple concerne la corrélation des variables à
expliquer, décomposée en intra et intergroupe. Ces interactions apparaissent
lorsque les effets d’un facteur donné sur les variables expliquées dépendent des
modalités des autres facteurs.

Un des apports majeurs de l’analyse multivariée de la variance est la mise en


évidence, parmi un ensemble de variables quantitatives, de celles dont la valeur
est la plus affectée par les variations d’un ensemble de variables quantitatives ou
qualitatives. Cela tient compte des intercorrélations entre variables à expliquer ;
nous pouvons ainsi déceler les variables qui contribuent le plus à la formation de
la combinaison linéaire pour les soumettre ensuite à une analyse de variance
univariée.
En règle générale, les modalités de la variable indépendante sont présumées fixes
(modèle à effet fixe).
Plusieurs conditions sont à valider lors de l’utilisation d’une MANOVA :
• Seuil d’observations par cellule de 20 ou au minimum supérieur au nombre de
variables dépendantes.
• Indépendance des observations.
• Égalité des matrices de variance-covariance entre les groupes. La violation
de cette hypothèse, vérifiée par le test de Box, n’a toutefois qu’un impact limité
si les groupes sont de taille à peu près identique. Il est généralement recommandé
d’avoir un rapport, entre la taille du groupe le plus important et celle du plus grand
groupe, inférieur à 1,5.
• Multinormalité des distributions des moyennes pour chaque variable
dépendante. La MANOVA est cependant robuste en cas de violation de cette
hypothèse si la taille des groupes est importante.

83
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
• Linéarité des variables dépendantes.
• La significativité des différences de moyennes s’appuie sur le test F,
complété d’autres statistiques : la trace de Hotelling, la plus grande racine de Roy,
le lambda de Wilks et le critère de Pillai-Bartlett pour chaque variable explicative.
Si le critère de Pillai est le plus robuste à la violation de certaines conditions
d’utilisation de la MANOVA, il est conseillé de comparer cette statistique aux
autres indicateurs.
L’interprétation d’une MANOVA se fait en deux temps. À la première étape,
l’examen du critère de Pillai indique la significativité des variables explicatives.
À la seconde, il faut déceler, parmi les variables expliquées, celles qui sont
affectées par la variable indépendante. Les résultats se lisent alors, comme pour
une ANOVA, sur les courbes des diagrammes.

1.4- L’ANALYSE DE COVARIANCE : ANCOVA ET MANCOVA


L’analyse de covariance (ANCOVA) combine les techniques de l’analyse de
variance et de la régression. La MANCOVA est une extension des principes de
l’ANCOVA à l’analyse multivariée, c’est-à-dire sur plusieurs variables
dépendantes.
Ces méthodes sont recommandées pour éliminer des erreurs systématiques hors
du contrôle du chercheur et pouvant biaiser les résultats. L’ajout d’une covariable
peut éliminer une source potentielle de variance qui aurait appartenu à l’erreur
expérimentale si elle avait été. Cependant, trop de covariables réduit l’efficience
statistique des procédures. Une règle de base est d’avoir un nombre de covariables
inférieur à : (0,1 × la taille de l’échantillon), (nombre de groupes1).
Afin d’améliorer l’analyse de covariance, il faut essayer de minimiser le nombre
de covariables tout en s’assurant que les plus importantes ne sont pas éliminées.
Une covariable est pertinente si elle est corrélée à la variable dépendante et non
corrélée à la (ou aux) variable(s) indépendante(s). Une autre fonction de

84
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’ANCOVA réside aussi dans la prise en compte des différences de réponses dues
aux caractéristiques des répondants.

L’interprétation d’une ANCOVA et d’une MANCOVA se fait en deux étapes. En


premier lieu, il faut considérer l’effet de la (ou des) covariable(s). Ce résultat se
lit comme celui d’une régression. Ensuite, il faut interpréter les résultats des
facteurs explicatifs (variables qualitatives).

Réalisation d’une ANCOVA


Nous cherchons à expliquer le salaire des employés d’une entreprise. Pour cela,
nous avons réalisé une ANOVA ayant pour facteurs le sexe et niveau d’éducation.
Pour améliorer la précision de ces résultats, nous ajoutons des variables qui
pourraient expliquer le salaire. À ce titre, deux nouveaux éléments sont pris en
compte : la catégorie d’employé et le salaire d’embauche dont nous pouvons
supposer qu’il influe sur le salaire des employés.
En effet, l’échantillon étant composé des employés d’une entreprises avec des
fonctions différentes, il est possible que ces variables catégorie d’employé et
salaire d’embauche soit à l’origine de variations des salaires. L’intégration de ces
covariables améliore la précision de l’analyse et permet de redresser les biais dus
au fait que les répondants appartiennent à des catégories différentes. En
conséquence, la catégorie d’employé et le salaire d’embauche sont ajoutées aux
variables explicatives pour la variable expliquée.
Ouvrez le fichier exemple « Employee data.sav », disponible sur les fichiers
échantillons du logiciel SPSS.
Allez dans le menu Analyse > Modèle Linéaire Général > Univarié. Dans la
boîte de dialogue qui apparaît, transférez les variables en les sélectionnant une à
une puis en cliquant sur les flèches. La variable dépendante est le salaire actuel.
Les variables indépendantes sont placées dans les champs Facteur(s) fixe(s) et
Covariable(s). Les facteurs fixes sont : le sexe et niveau d’éducation ; les
covariables sont : la catégorie d’employé et le salaire d’embauche.

85
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 18 : Commande d’une ANCOVA.

Le test de Levene (voir figure 20) n’est pas significatif (< ,001), l’hypothèse
d’homogénéité des échantillons est donc rejetée.

Figure 19 : Interprétation du test d’homogénéité.

Nous pouvons procéder à l’analyse des résultats de l’ANCOVA (voir figure 20).
Le sexe et le niveau d’éducation challenges ainsi que les covariables expliquent
82,9 % le salaire.

86
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 20 : Résultats de l’ANCOVA à cinq variables explicatives.

Les résultats de l’ANCOVA montrent que les covariables catégorie d’employé et


salaire d’embauche ont un effet significatif sur le salaire. Comme nous l’avions
postulé, le salaire d’embauche a un effet significatif, cependant, à ce stade, nous
ne savons pas s’il est positif.

87
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour le découvrir, retournez dans la boîte de dialogue : Analyse > Modèle
Linéaire Général > Univarié et cliquez sur Options puis sur Estimations des
paramètres (voir figure 21).

Figure 21 : Commande des résultats des covariables.


Les résultats apparaissent alors pour l’ensemble des variables et des covariables.
Les résultats de cette commande se lisent à la figure 22.
Le tableau d’estimations des paramètres montre que, conformément à ce qui
apparaît à la figure 20, la catégorie d’employé et le salaire d’embauche ont un
effet significatif sur le salaire. Le salaire d’embauche a un effet positif sur le
salaire (β = 1,174; p < ,001).

88
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Comme pour une ANOVA, la lecture des effets des variables qualitatives se fait
à l’aide d’un graphique.

Cet exemple dévoile comment une ANCOVA prend en compte des variables
explicatives à la fois qualitatives et quantitatives dans un même traitement. La
MANCOVA va plus loin puisqu’elle traite en même temps plusieurs variables
explicatives de différentes natures ainsi que plusieurs variables dépendantes
quantitatives.

Concernant les covariables, les résultats de la MANCOVA et ceux de l’ANCOVA


se lisent de façon similaire. D’autres statistiques, telles que la trace de Hotelling,
la plus grande racine de Roy, le lambda de Wilks et le critère de Pillai-Bartlett,
servent à interpréter, pour chaque variable explicative, leurs effets sur les
variables dépendantes.

II- REGRESSION LINEAIRE


Il est fréquent d’observer des phénomènes où l’on peut penser qu’il existe une
liaison entre deux variables. Par exemple, l’âge d’une voiture et son kilométrage
varient généralement dans le même sens. Ce lien n’est cependant pas absolu :
comment mesurer l’intensité de la relation entre ces deux variables ? Le modèle
de régression linéaire a pour objectif d’expliquer la variation d’un phénomène
mesurable (variable dépendante quantitative) par celle d’un ou de plusieurs autres
(variables quantitatives). La régression linéaire simple ou multiple estime les
coefficients de l’équation linaire impliquant cette ou ces variables indépendantes,
qui évaluent le mieux la valeur de la variable dépendante. Cette méthode est
largement utilisée en marketing, par exemple pour expliquer les variations des
ventes, de préférence de marques, produits ou services. Avant de présenter
l’analyse de régression, nous abordons le coefficient de corrélation qui constitue
la base conceptuelle de la régression.

89
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.1- La corrélation linéaire
La corrélation linéaire est une statistique largement utilisée car elle synthétise
l’importance de la relation entre deux variables métriques. Le tableau 3 montre
bien que le coefficient de corrélation est le test statistique pour mesurer le lien
entre deux variables quantitatives.

Nature des variables Type d’analyse Test statistique

Qualitatives Tri croisé Khi-deux


Qualitatives et
ANOVA Test F
quantitatives

Quantitatives Régression Coefficient de corrélation

Tableau 3 : Rappel sur la nature des variables et le type d’analyse

Après avoir présenté les principes de la corrélation, nous procédons à une


démonstration avec la réalisation d’une corrélation multiple avec le logiciel SPSS.

2.2- Les principes de la corrélation linéaire


Le coefficient de corrélation de Pearson est une mesure d’association qui
permet d’établir si deux variables mesurées sur le même ensemble d’observations
varient de façon analogue ou non.
La corrélation « r » est égale à la covariance divisée par le produit des écarts types
de x et y :
r = covXY/Sx Sy
Cette corrélation correspond également au coefficient de régression (b) divisé par
l’écart type de la variable dépendante :
r = b/Sy

90
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Une corrélation proche de 1 ou de –1 en valeur absolue signifie que deux variables
sont liées entre elles et peuvent s’expliquer mutuellement. Lorsque r est proche
de 0, il y a une faible corrélation. Si r est proche de +1, cela veut dire que les deux
variables varient dans le même sens. Si r est proche de –1, cela signifie que les
deux variables varient en sens inverse l’une de l’autre.

2.3- Réalisation d’une corrélation linéaire


Avant de réaliser une corrélation linéaire, il faut s’assurer que les variables à tester
sont bien quantitatives. En effet, comme nous l’avons vu au tableau 3, le
coefficient de corrélation ne fonctionne que pour des variables métriques.

Étude des liens entre diverses caractéristiques physiologiques du corps


humain (quantité de gras, la circonférence de l’épaisseur du triceps et la
circonférence de la cuisse).
Nous cherchons à savoir s’il existe une relation entre ces caractéristiques
physiologiques. Nous réalisons donc une corrélation linéaire sur toutes ces
variables quantitatives. Ouvrez le fichier « Pearson3 ». Allez dans le menu
Analyse > Corrélation > Bivariée. La boîte de dialogue de la figure 22 apparaît.

Figure 22 : Commande d’une corrélation.

91
3
Vous trouverez ce fichier à l’adresse

SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS


Gardez le coefficient de Pearson coché. Transférez les variables en les
sélectionnant chacune à leur tour et en cliquant sur les flèches. Faites OK. Les
résultats apparaissent (voir figure 22).

Figure 23 : Interprétation d’une corrélation.

Les résultats indiquent le coefficient de corrélation et la signification (Sig.). Si


Sig. < 0,05, on peut dire qu’il existe une corrélation entre les deux variables au
seuil de 0,05. Le signe ** indique que la corrélation est significative au seuil de
0,01.
Dans cet exemple, nous observons que la quantité de gras et l’épaisseur de la
circonférence des triceps sont fortement liés (0,92; p < 0,01).
À ce stade, nous ne pouvons cependant pas dire si c’est la quantité de gras qui a
un impact sur l’épaisseur de la circonférence des triceps ou bien l’inverse. C’est
grâce à la régression linéaire que nous pouvons expliquer le sens de la relation
entre ces deux variables.

92
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.4- La régression linéaire simple
La régression linéaire vise à expliquer une variable dépendante par une ou un
ensemble de variables indépendantes quantitatives. Lorsque le problème implique
une seule variable indépendante, la technique statistique est appelée régression
simple. Lorsque le problème implique plusieurs variables indépendantes, il s’agit
d’une régression multiple. La régression est utilisée pour l’explication et la
prédiction.
Les principes et conditions d’application de la régression simple sont exposés
avant d’aborder ceux de la régression multiple. Ces deux techniques sont chacune
illustrées par des exemples d’applications.

La régression vise à estimer ou prédire la valeur d’une variable à partir d’une seule
autre. Par exemple, on peut expliquer la consommation de SMS par l’âge du
consommateur.
Dans une régression simple, les valeurs de la variable dépendante (Y) sont
estimées à partir de la variable indépendante (X) par équation linéaire :
Yi = aC+ bXi + e
Où Yi est la valeur estimée de Y, b est la pente (coefficient de régression) et a la
constante.
Les conditions d’application de la régression
Le modèle de la régression pose un certain nombre d’hypothèses lors de
l’estimation des paramètres et des tests d’hypothèses. Ces conditions
d’application de la régression sont :
• la linéarité du phénomène mesuré ;
• la variance constante du terme d’erreur ou homoscédasticité ;
• l’indépendance des termes d’erreur ;
• la normalité de la distribution du terme d’erreur.
La linéarité est importante car le concept de corrélation est fondé sur une relation
linéaire. La linéarité d’une relation bivariée est vérifiée par l’examen des résidus.

93
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’homoscédasticité est vérifiée par l’examen des résidus ou par un simple test
statistique. Le logiciel SPSS fournit le test d’homogénéité de Levene, qui mesure
l’égalité des variances pour une seule paire de variables. Son utilisation est
souvent recommandée.
L’indépendance des termes d’erreur est une autre condition de l’analyse de
régression multiple. Outre l’examen du graphique des résidus, cette hypothèse
peut aussi être validée par le test de Durbin-Watson.

L’interprétation des résultats de la régression


Les résultats de la régression se lisent grâce aux indices suivants :
• R : le coefficient de corrélation multiple est un indice standardisé variant
de –1 à +1, indiquant la force de la relation entre l’ensemble des variables
indépendantes et la variable dépendante. Plus la corrélation est élevée, plus
la relation linéaire entre les variables indépendantes et la variable
dépendante est élevée.
• R2 : la corrélation multiple au carré, appelée coefficient de détermination,
est un indice de la part de variance de la variable dépendante expliquée par
les variables indépendantes qui sont dans l’équation. Il donne ainsi la part
de variance de la variable expliquée par la variable indépendante.
• Le Bêta : ce coefficient standardisé permet de comparer la contribution
de chaque variable puisqu’il s’agit du coefficient de régression ramené sur
une échelle standard (entre –1 et +1).
• Le test F : sa valeur indique si la variance ou l’ajout de variance expliquée
est significative, c’est-à-dire si, quelle que soit la force de la relation entre
les variables indépendantes et la variable dépendante, cette relation est
susceptible d’exister dans la population et n’est pas due simplement au
hasard de l’échantillonnage.

94
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
• Le test t : sa valeur doit être plus grande que 2 (1,96) pour être significative
(notée** à p < 0,05). Elle indique si chacun des coefficients des variables
présentes dans l’équation est significatif.

Étude de la relation entre la quantité de gras et l’épaisseur de la


circonférence des cuisses.
Nous cherchons à savoir si l’épaisseur de la circonférence des cuisses a une
influence sue la quantité de gras dans le corps humain.
Pour obtenir une régression linéaire simple, allez dans le menu Analyse >
Régression > Linéaire. La boîte de dialogue de la figure 24 apparaît. Transférez
les variables en les sélectionnant chacune à leur tour et en cliquant sur les flèches.
Mettez la variable à expliquer dans Variable dépendante, la variable explicative
dans Variables explicatives.

Figure 24 : Commande d’une régression simple.

95
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le premier tableau récapitule les variables explicatives prises en compte dans le
modèle. Ici, il n’y a qu’une seule variable puisque nous travaillons sur une
régression simple. Le troisième tableau indique si le modèle est significatif ou
non. Dans ce cas-ci, le modèle obtenu est significatif (p < 0,05), le lien entre la
quantité de gras et l’épaisseur de la circonférence des cuisses est significatif (t =
2,18) et positif (R2 ou coefficient standardisé de 0,21) (voir le tableau de la figure
25).
NB : Tout travail de type recherche de corrélation et de modélisation commence
par une séance approfondie de statistique descriptive. Avant de faire des calculs
de régression, regardons attentivement les données. Il faut en particulier se méfier
des points aberrants, susceptibles de « tirer » les coefficients de régression, ou
d’un nuage de points organisé en deux paquets orientés suivant deux directions,
ou d’autres cas de ce type.

Ce travail se fait par l’examen des résidus comme nous allons maintenant le
découvrir.

96
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 25 : Interprétation d’une régression simple.

97
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.5- L’EXAMEN DES RESIDUS
L’estimation réalisée par l’équation de régression n’atteint habituellement pas
l’exactitude complète. D’un point de vue géométrique, les points des données ne
se retrouvent pas sur la ligne droite spécifiée par l’équation de régression. Les
résidus représentent les différences sur les variables prédites ; ils constituent un
indicateur de performance de la droite de régression.
L’examen de ces résidus sert à estimer l’exactitude des estimations. Il est donc
recommandé de demander une analyse des résidus avec des graphiques qui
fournissent des aperçus utiles pour s’assurer que les hypothèses fondamentales et
la qualité du modèle de régression ont bien été respectées.
L’hypothèse de distribution normale du terme d’erreur est vérifiée par
l’observation du graphique des résidus. L’hypothèse d’une valeur constante de
la variance du terme d’erreur (homoscédasticité) est validée à l’aide du
graphique des résidus en fonction des valeurs estimées de la variable dépendante.
Si la configuration n’est pas aléatoire, la variance du terme d’erreur n’est pas
constante. La variation des variances des termes d’erreur doit être comprise entre
–3 et +3. Ce graphique sert aussi à vérifier une autre condition importante :
l’absence de corrélation ou indépendance entre les termes d’erreur.
L’exemple suivant montre comment demander un examen des résidus avec le
logiciel SPSS et comment interpréter les résultats de ce diagnostic.
Pour obtenir l’examen des résidus, retournez à la boîte de dialogue (Analyse >
Régression > Linéaire), cliquez sur Statistiques et, dans l’encadré Résiduels,
cochez Diagnostic des observations (voir figure 26).

98
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 26 : Demande d’un tableau des résidus.
Cliquez ensuite sur Poursuivre et, pour avoir un graphique des résidus, cliquez
sur le bouton Tracés. La boîte de dialogue de la figure 27 apparaît.

Figure 27 : Demande d’un diagramme des résidus (suite).

99
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour commander un diagramme de résidus standardisés (*ZRESID) contre les
valeurs prédites standardisées (ZPRED), il faut transférer avec les flèches
*ZRESID dans la case face à Y et *ZPRED dans la case face à X. Cochez Tracé
de probabilités gaussien afin d’avoir la droite de régression. Cliquez ensuite sur
Poursuivre pour revenir à la boîte de dialogue précédente et enfin sur OK.

Figure 27 : Diagnostic des résidus.


Le graphique de répartition des résidus par rapport à une répartition normale
montre que la majorité des résidus est alignée.

100
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 27 : Nuage de points des résidus standardisés.
Le nuage de points édité des résidus standardisés en rapport avec les valeurs
prédites standardisées ne fait apparaître aucun modèle particulier, ce qui confirme
l’hypothèse de valeur constante de la variance du terme d’erreur
(homoscédasticité) et d’indépendance des termes d’erreur.
D’autres diagrammes, comme l’histogramme des résidus standardisés, sont aussi
à examiner. Idéalement, la distribution doit être normale.

2.6- LA RÉGRESSION LINÉAIRE MULTIPLE


La régression multiple est une extension de la régression simple où la variable
dépendante est régressée sur un ensemble de variables. Elle sert à analyser la
relation entre une variable dépendante qualitative et plusieurs variables
indépendantes quantitatives. Chaque variable indépendante est évaluée par la
procédure de régression de façon à maximiser la prédiction de la variable
expliquée.
Cette technique multivariée est la plus utilisée pour prédire et expliquer. Dans le
cas de la prédiction, l’objectif est de maximiser le pouvoir prédictif des variables
indépendantes. Il est aussi possible de comparer des variables indépendantes dans

101
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
leur pouvoir explicatif. Dans le cas de l’explication, la régression sert à déterminer
l’importance relative de chaque variable indépendante par sa magnitude et sa
direction. Par exemple, la quantité de gras peut dépendre de la circonférence de
l’épaisseur des triceps et de la circonférence des cuisses.
La régression cherche la combinaison de poids (b) pour les variables
indépendantes (Xi) qui amènerait les valeurs de Y prédites par l’équation aussi
près que possible des valeurs de Y mesurées :
Yi = a + b1X1 + b2X2 + … + bnXn
C’est un indice de la relation entre les valeurs prédites et les valeurs mesurées.

Les méthodes de sélection des variables de régression


La sélection d’une méthode permet de spécifier la manière dont les variables
indépendantes sont entrées dans l’analyse. Voici ces différentes méthodes :
• entrée (par défaut) : toutes les variables d’un bloc sont introduites en une
seule opération;
• pas à pas : les variables indépendantes sont ajoutées à l’équation une par
une et peuvent être enlevées subséquemment si elles ne contribuent plus
significativement à la régression. Le processus s’arrête lorsqu’aucune
variable ne peut plus être introduite ou éliminée ;
• éliminer bloc : toutes les variables dans un bloc sont supprimées en une
seule étape ;
• descendante : toutes les variables sont entrées initialement dans l’équation
et sont ensuite éliminées une à une. La variable ayant la plus petite
corrélation avec la variable dépendante est d’abord étudiée pour
l’élimination. Si elle est éliminée par le modèle, la prochaine variable avec
le plus petit coefficient de corrélation est étudiée, jusqu’à ce qu’aucune
variable ne satisfasse plus au critère d’élimination ;
• ascendante : les variables sont introduites séquentiellement une par une. Si
la première variable est introduite dans l’équation, la variable explicative

102
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
ne figurant pas dans l’équation et présentant la plus forte corrélation
partielle est considérée ensuite. La procédure s’arrête lorsqu’il ne reste plus
de variables satisfaisant le critère d’introduction.
La méthode pas à pas est une combinaison des méthodes descendantes et
ascendantes, elle est généralement recommandée comme étant la meilleure
méthode.
Toutes les variables doivent respecter le critère de tolérance pour être entrées dans
l’équation, quelle que soit la méthode d’entrée spécifiée. Le niveau de tolérance
par défaut est 0,0001. Une variable n’est pas entrée si elle fait passer la tolérance
d’une autre variable déjà entrée dans le modèle en dessous du seuil de tolérance.
Les conditions de la régression multiple
La régression multiple est complexifiée par la présence de multicolinéarité. En
effet, la majorité des études mettent en jeu des variables explicatives qui sont
corrélées. Une méthode simple pour détecter une trop grande corrélation entre
variables indépendantes consiste à demander des tests de colinéarité : tolérance
et facteur d’inflation de la variance (VIF).
La tolérance est définie comme la part de variabilité de la variable indépendante
qui n’est pas expliquée par une ou d’autres variables indépendantes. Une tolérance
élevée correspond à un faible degré de colinéarité. Le seuil de 0,3 est
recommandé. À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit
être faible : < 3.

Étude de la relation entre la quantité de gras, la circonférence des cuisses et


l’épaisseur de la circonférence des triceps.
Nous cherchons à savoir si la circonférence des cuisses et l’épaisseur de la
circonférence des triceps influencent la quantité de gras. Nous souhaitons
déterminer, parmi ces variables explicatives, celle qui explique le mieux la
quantité de gras dans le corps humain. Pour obtenir une régression linéaire

103
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
multiple, allez dans le menu Analyse > Régression > Linéaire. La boîte de
dialogue de la figure 28 apparaît.
Transférez les variables en les sélectionnant chacune à leur tour et en cliquant sur
les flèches. La variable à expliquer dans Variable dépendante, les variables
explicatives dans Variables explicatives.
La méthode de sélection des variables pas à pas est choisie eu égard à notre choix
de recherche.

Figure 27 : Commande d’une régression multiple.


Cliquez ensuite sur Statistiques et demandez les Tests de colinéarité. Cliquez
ensuite sur Poursuivre et OK (voir figure 28).

104
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 27 : Commande de tests de colinéarité.
Les résultats de la régression multiple apparaissent dans la figure 28.
Ce premier tableau présente les variables introduites : la circonférence des cuisses
et l’épaisseur des triceps.
Les deux variables prises en compte expliquent 99 % la quantité de gras (R2
ajusté). Le tableau ANOVA atteste que les deux variables sont significatives
(Signification <,001).
Nous lisons ensuite les résultats du test de colinéarité (voir tableau 4). Tolérances
et facteurs d’inflation de la variance (VIF) sont proches de 1, largement dans les
limites recommandées (tolérance > 0,3 et VIF < 3,3). Les variables explicatives
sont donc peu corrélées entre elles, ce qui est un indice de qualité du modèle.

105
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 27 : Interprétation des résultats d’une régression multiple.
Nous pouvons conclure que le modèle est très satisfaisant, car il explique 99,9 %
la quantité de gras (R2 ajusté). Il est significatif (voir tableau ANOVA), les
coefficients de la pente de régression sont significatifs et il n’y a pas de problème
de colinéarité (voir tableau coefficients).
L’épaisseur des triceps et la circonférence des cuisses sont deux déterminants très
importants de la quantité de gras dans le corps humain.

106
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Résumé
L’analyse de variance et de covariance sert à évaluer les écarts des valeurs
moyennes d’une variable dépendante sous l’effet de variables indépendantes
contrôlées et, cela, en tenant compte de l’influence de variables indépendantes
non contrôlées. L’ANOVA permet d’effectuer un test sur les moyennes de deux
populations ou plus. Le test F permet de vérifier l’hypothèse nulle qui suppose
l’égalité des moyennes.
L’analyse multivariée de la variance implique l’examen simultané de plusieurs
variables indépendantes qualitatives. Elle permet l’évaluation de l’interaction de
ces variables. Le test F sert à vérifier la signification de l’effet global, des effets
principaux et des interactions. Il y a interaction lorsque l’effet d’une variable
indépendante sur une variable dépendante diffère en fonction des modalités ou
niveaux d’une autre variable indépendante.
L’analyse de covariable fait référence, en plus de variable(s) indépendante(s)
qualitative(s), au test de variable(s) indépendante(s) quantitative(s). Cette
dernière, appelée covariable, est souvent utilisée pour éliminer la variation externe
de la variable dépendante.

La corrélation sert à mesurer la force de l’association de deux variables


quantitatives. Le coefficient de corrélation linéaire mesure la relation linéaire
entre les deux variables quantitatives.

La régression utilise la présence de cette relation pour prédire les valeurs de la


variable dépendante à partir d’une variable indépendante. L’objectif est donc
d’estimer ou de prédire une variable à partir d’une autre grâce à une équation de
régression.

La régression simple sert à tester l’effet d’une seule variable indépendante sur une
variable dépendante. La force de la relation est mesurée par le coefficient de
détermination R2. La régression multiple implique au moins deux variables
indépendantes et une variable dépendante. La signification de l’équation de

107
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
régression globale est testée grâce au test t. Les graphiques des résidus servent à
vérifier la pertinence des hypothèses sous-jacentes et l’ajustement du modèle de
régression.

EXERCICE SUR L’ANALYSE DE LA VARIANCE


EXERCICE 1 : QUESTIONS DE RECHERCHE ET TYPE D’ANALYSE DE
VARIANCE.

Pour chacune des questions de recherche suivantes, trouvez le type d’analyse de


variance approprié en spécifiant le nombre de facteurs avec leurs niveaux.
1. L’intention d’achat des consommateurs varie-t-elle en fonction de la couleur
du packaging (rouge, vert ou bleu) ?
2. La CSP (5 catégories) a-t-elle un effet sur la qualité du service perçu ?
3. L’attitude vis-à-vis de la marque d’un produit de luxe varie-t-elle en fonction
du pays d’origine de la marque (France, Espagne, Italie, États-Unis) et de son
réseau de distribution (très sélectif ou non sélectif) ?
4. L’interaction entre le prix (élevé, moyen ou faible), la notoriété de la marque
(forte ou faible) et la fréquence des contacts (forte ou faible) affecte-t-elle
l’attitude vis-à-vis de la marque et l’intention d’achat de cette marque ?
5. Le niveau de prix (élevé ou faible), le conditionnement (familial, standard,
mini) et l’attitude vis-à-vis des marques de lessive affectent-ils l’achat de lessive
par les personnes âgées ?
6. Le style de la publicité (informative, humoristique, sexy) et l’attitude vis-à-vis
de la marque ont-ils un impact sur l’intention d’achat d’un produit solaire de cette
même marque ?
7. L’âge des clients (5 catégories) et la qualité du service perçue affectent-ils la
satisfaction et la fidélisation des clients dans le secteur bancaire ?

108
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
SOLUTION 1

1. ANOVA à un facteur, la couleur du packaging ayant trois niveaux (rouge, vert,


bleu).
2. ANOVA à un facteur, la CSP ayant cinq niveaux.
3. ANOVA à deux facteurs, le pays d’origine de la marque et le réseau de
distribution, lesquels ayant respectivement quatre niveaux (France, Espagne,
Italie, États-Unis) et deux niveaux (très sélectif, non sélectif).
4. MANOVA à trois facteurs et deux variables expliquées. Les trois facteurs sont
le prix, la notoriété de la marque et la fréquence des contacts, qui ont
respectivement trois niveaux (élevé, moyen et faible), deux (forte ou faible) et
deux (forte ou faible). Les deux variables expliquées sont l’attitude vis-à-vis de la
marque et l’intention d’achat de la marque par les consommateurs.
5. ANCOVA à trois variables explicatives : deux variables qualitatives (prix et
conditionnement) et une variable quantitative, covariable (attitude vis-à vis des
marques de lessive). Le prix et le conditionnement ont respectivement deux
niveaux (élevé, faible) et trois (familial, standard, mini).
6. ANCOVA à deux variables explicatives : le style de la publicité (qui a trois
niveaux, informative, humoristique, sexy) et la covariable attitude vis-à-vis de la
marque.
7. MANCOVA à deux variables explicatives (l’âge [qui a 5 niveaux] et la qualité
du service perçue [covariable]) et deux variables expliquées (la satisfaction et la
fidélisation des clients).
EXERCICE 2 QUEL RÉGIME EST LE PLUS EFFICACE ?
Un nutritionniste veut tester l’effet de différents régimes sur la perte de poids. Il
souhaite évaluer l’effet de trois régimes sur des groupes d’individus. Le tableau
suivant donne les résultats de ces régimes en nombre de kilogrammes perdus après
un mois pour trois groupes d’individus ayant suivi les régimes.
Les groupes sont composés comme suit :

109
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Groupe A : individus ayant suivi un régime hyperprotéiné ;
Groupe B : individus ayant suivi un régime d’association d’aliments ;
Groupe C : individus ayant suivi un régime hypocalorique.
Tableau : Expérience sur les régimes
Groupe A Groupe B Groupe C
3 1 11
4 1 9
6 5 10
8 6 5
3 1 10
3 2 6
4 1 9
6 5 10

Après avoir saisi ces données, faites une analyse de variance pour vérifier si les
moyennes des trois groupes sont différentes.
SOLUTION 2

Pour saisir les données, allez dans Fichier > Nouveau > Données (voir figure
28). Ensuite, dans Vue des variables, rentrez le Nom des variables et leur
Étiquette. Nous avons des données qualitatives (régime) et des données
quantitatives (kilos perdus) : la colonne Mesure affiche Nominales et Échelle.
Il faut ensuite entrer les données dans la partie Vu de données.

Figure 28 : Expérience sur les régimes : l’enregistrement des données.

110
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il faut ensuite commander une ANOVA à un facteur (voir figure 29). Allez dans
le menu Analyse > Comparer les moyennes > ANOVA à un facteur. Choisissez
comme variable dépendante le nombre de kilos perdus et comme variable
indépendante le type de régime.

Figure 29 : Expérience sur les régimes : commande de l’ANOVA.


Demandez ensuite un test d’homogénéité des variances. Cliquez sur Options,
Test d’homogénéité puis sur OK.

111
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 30 : Expérience sur les régimes : interprétation des résultats de
l’ANOVA.
Le test de Levene est significatif (0,50), l’hypothèse d’homogénéité des
échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats
de l’ANOVA.
Le type de régime a un effet significatif sur la perte de poids. Cependant, à ce
stade, nous ne connaissons pas le type de régime le plus efficace. Il faut demander
un test de différence de moyenne (test post hoc) [voir figure 31].
Allez dans le menu Analyse > Comparer les moyennes > ANOVA à un facteur,
cliquez sur le bouton Post Hoc puis choisissez un test (ici, le test de Duncan).

Figure 30 : Expérience sur les régimes : interprétation des résultats de


l’ANOVA (suite).

Les résultats de l’ANOVA montrent que le régime hyperprotéiné est le plus


efficace. En effet, la moyenne des kilos perdus par les personnes qui ont suivi ce
régime est significativement plus importante que les autres (4,44).

112
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
EXERCICE SUR LA REGRESSION LINEAIRE
EXERCICE 1 : ÉTUDE DU POINT DE VENTE

Une étude sur la clientèle d’un magasin vise à mieux comprendre les clients et
notamment les variables liées à l’intention d’achat. Voici les résultats de la
corrélation multiple entre le montant moyen dépensé par mois, l’intention d’achat,
le niveau d’études, la taille du foyer et le niveau de revenus du foyer (voir figure
31).
1. Quelles variables sont le plus reliées au montant moyen dépensé par mois ?
2. Ces variables sont-elles différentes de celles qui sont reliées à l’intention
d’achat dans le point de vente ?

Figure 30 : Interprétation des résultats d’une corrélation multiple.


SOLUTION 1
1. Les variables les plus reliées au montant moyen dépensé par mois sont le
niveau d’études (0,66) et le revenu du foyer (0,83). L’intention d’achat est
plus faiblement corrélée au montant moyen dépensé par mois. Le signe **
indique que la corrélation est significative au seuil de 0,01.

113
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La taille du foyer n’est pas reliée au montant moyen dépensé par mois. En effet,
la corrélation de 0,03 n’est pas significative, il n’y a pas de signe ** à
l’intersection de « Taille du foyer » et de « Montant moyen dépensé par mois ».
1. Comme pour le montant moyen dépensé par mois, l’intention d’achat est aussi
liée au niveau d’études et n’est pas liée à la taille du foyer. Toutefois, à la
différence du montant moyen dépensé par mois, l’intention d’achat et le
niveau de revenus du foyer ne sont pas fortement corrélés (0,28).

EXERCICE 2 LES DÉTERMINANTS DE LA MOYENNE DES ÉTUDIANTS


On a demandé à des étudiants d’une classe d’évaluer la qualité de l’enseignement
en utilisant une échelle de notation en 5 points (1 = médiocre, 5 = excellent). Nous
avons aussi relevé la moyenne et le jour d’absence du trimestre des étudiants de
la classe.
1. Enregistrez les données récoltées dans le tableau sous SPSS au tableau 6.2.
2. Ces variables sont-elles corrélées ?
3. Effectuez une analyse par régression multiple de la qualité perçue de
l’enseignement et de l’absentéisme durant le trimestre sur la moyenne du
trimestre. Interprétez les coefficients de régression. La régression est-elle
significative ? Que concluez-vous ?
Tableau : Données récoltées

114
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Moyenne du Qualité perçue de Absentéisme en jours
Étudiant
trimestre l’enseignement par trimestre

1 5 4 10

2 7 4 2

3 15 3 0

4 11 2 0

5 16 3 0

6 12 2 1

7 11 3 0

8 14 4 0

9 10 4 0

10 14 4 0

11 11 3 0

12 9 4 1

13 9 2 2

14 11 4 0

15 10 4 0

16 7 2 1

17 14 4 0

18 15 4 0

19 11 3 0

20 14 4 0

21 12 3 0

22 11 4 0

23 9 3 0

24 8 2 2

25 11 4 0

26 10 3 0

27 14 4 0

28 12 4 0

115
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
SOLUTION 2
La solution de cet exercice en vidéo explicative avec toutes les analyses et
interprétations est disponible à l’adresse (+229) 94270028.
Vous pouvez également bénéficier d’une formation complète sur l’analyse des
données avec le logiciel de votre choix (SPSS, STATA et EVIEWS) sur cette
même adresse et vous aurez droit à une réduction exceptionnelle parce que vous
avez déjà le document. Ecrivez vite au (+229) 94270028 pour bénéficier de votre
réduction.

116
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 4 : LES MODELES NON LINEAIRES

CHAPITRE 4 : LES MODÈLES NON


LINÉAIRES

117
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- LES MODÈLES NON LINÉAIRES
Nous avons examiné le cas du modèle linéaire, cependant, très souvent, la théorie
économique doit être formalisée à l’aide de relations non linéaires.
Dans cette section, la part consacrée au cours est très réduite. En effet, l’étude des
modèles non linéaires se prête bien à l’exercice pratique. Nous examinons tout
d’abord en 1, les différents types de modèles non linéaires : ceux qui sont linéaires
sur leurs paramètres et des modèles un peu plus complexes (modèle de diffusion,
par exemple) qui font l’objet d’une étude particulière. Puis, les méthodes
d’estimation des paramètres des modèles non linéarisables sont présentées en 2.
1- Les différents types de modèles non linéaires
1.1- Les fonctions de type exponentiel
Nous allons examiner le cas de modèles dont la spécification n’est pas linéaire,
mais qui sont linéaires par rapport à leurs paramètres.

Estimation d’une fonction de production de type Cobb-Douglas


Nous avons relevé pour 25 entreprises : la production Q, le facteur capital K et le
facteur travail L ; ces variables sont exprimées en millions d’euros.

Une fonction de production de type Cobb-Douglas est de la forme :


Q = α0 K α1 Lα2
On demande :
1) de donner une interprétation économique des coefficients α1 et α2 ;
2) d’estimer les paramètres du modèle et de commenter les résultats ;
3) de calculer le risque α de première espèce concernant l’hypothèse des
rendements d’échelle constants.
Les données collectées sont présentées dans le tableau suivant :

118
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
K L Q
8 23 106,00
9 14 81,08
… … …
3 10 43,21
6 71 121,24

Tableau 1 : Données de production pour 25 entreprises (extrait des données)


Solution
1) Les coefficients α1 et α2 représentent respectivement l’élasticité de la
production au facteur capital et l’élasticité de la production au facteur travail.
• Démonstration :
Nous avons une relation du type : Q = α0Kα1Lα2. Une transformation logarithmique
conduit à :
Log(Q) = Log(α0) + α1 Log(K) + α2 Log(L)
Or l’élasticité de y à x se définit comme étant un rapport de variation relative :

𝜟𝒚 ∕𝒚 𝝏 𝒍𝒐𝒈(𝒚)
𝒆= = = rapport de dérivées logarithmiques.
𝜟𝒙 ∕𝒙 𝝏 𝒍𝒐𝒈(𝒙)

Les coefficients α1 et α2 sont donc des élasticités.


Dans tout modèle spécifié sous forme Log-Log, les coefficients s’interprètent
directement en termes d’élasticités.
2) Estimation des coefficients du modèle Log-linéaire
Le modèle à estimer est donc le suivant :

Log(Q) = Log(α0) + α1 Log(K) + α2 Log(L) +ε


L Q = a0 + α1 L K + α2 L L +ε où les variables L Q, L K et L L (tableau 2) sont les
variables Q, K et L transformées. Les résultats de l’estimation sont les suivants :

119
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les t∗ de Student calculés sont tous supérieurs au t lu (t220,05 = 2,07), les
coefficients sont donc significativement différents de 0 au seuil de 5 %.
Attention, la statistique de Durbin et Watson ne s’interprète pas puisque le modèle
est spécifié en coupe instantanée.
L’estimation statistique est donc satisfaisante.
L’élasticité de la production au capital est égale à : α1 = 0,64.
L’élasticité de la production au travail est égale à : α2 = 0,25.
(Si le facteur capital augmente de 10 %, la production augmente de 6,4 % et si le
facteur travail augmente de 10 %, la production augmente de 2,5 %.)
Le coefficient α0 est égal à : α0 = 101,084 = 12,13.
̂ = 12,13 K 0,64 L0,25.
La fonction de production estimée s’écrit : 𝑸

3) Les rendements d’échelle sont-ils constants ?


Les rendements d’échelle sont :
– décroissants si α1 + α2 < 1 (la production augmente dans une proportion moindre
que les facteurs de production) ;
– constants si α1 + α2 = 1 (la production augmente dans une proportion identique
aux facteurs de production) ;
– croissants si α1 + α2 > 1 (la production augmente plus vite que les facteurs de
production).

120
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Or nous avons 𝛼̂1 + 𝛼̂2 = 0,89, pour quelle probabilité critique cette valeur est-elle
significativement inférieure à 1 ? On teste donc les hypothèses suivantes :
H0 : α1 + α2 = 1
H1 : α1 + α2 < 1
Le t calculé de Student est donc égal, sous H0, à :
̂ 𝟏 +𝜶
𝜶 ̂ 𝟐 −𝟏
t∗ = ̂𝜶
𝝈 ̂ 𝟏 +𝜶̂𝟐

Or la matrice des variances et covariances des coefficients est fournie par Eviews :

̂ 𝟐𝜶̂𝟏+𝜶̂𝟐 = 𝝈
Soit 𝝈 ̂ 𝟐𝒂̂𝟏 + 𝝈
̂ 𝟐𝜶̂𝟐 + 𝟐 𝒄𝒐𝒗( α1, α2)
= 0,000749 + 0,001261 + 2 × 0,000314 = 0,002638
̂ 1 +𝛼
𝛼 ̂ 2 −1 0,64+0,25−1
t∗ = ̂𝛼
= = −2,14 ≃ t22 0,020
𝜎 ̂ 1 +𝛼
̂2 0,05136

Nous avons 2 % de risques de rejeter l’hypothèse H0 à tort, nous pouvons donc


considérer les rendements d’échelle comme significativement décroissants.

1.2- Les modèles de diffusion


La courbe de vie du produit est une notion utilisée en marketing : les ventes
évoluent en fonction du temps ; le démarrage est relativement lent lorsque le
produit est nouveau, puis elles connaissent une croissance rapide. La courbe passe
ensuite par un point d’inflexion à partir duquel le rythme de croissance des ventes
diminue. Nous allons examiner deux modèles classiquement utilisés.

1) Le modèle logistique (ou courbe de Verhulst ou courbe de Pearl)


Ce modèle est défini par la formulation suivante :
𝑦𝑚𝑎𝑥
𝑦𝑡 =
1 + 𝑏𝑟𝑡
121
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
où b et r sont les deux paramètres du modèle (0 < r < 1), r définit la vitesse de
diffusion (plus r est proche de 0, plus vite nous atteindrons l’asymptote) ; b est
une caractéristique d’ordonnée à l’origine ; ymax = seuil de saturation.
Si t → ∞ alors yt → ymax, et si t → -∞ alors yt → 0. Le point d’inflexion est fixe et
est atteint pour yt = ymax/2. Le graphique 1 illustre l’allure générale de la courbe
logistique.

Graphique 1 : La courbe logistique (ymax = 148,31, b = 10, r = 0,7)

2) Le modèle de Gompertz
𝒕+𝒂
Ce modèle est défini par la formulation suivante : yt = 𝒆𝒃𝒓 → Ln(yt) = br t + a
(e = base du logarithme népérien).
Avec ymax = ea = seuil de saturation, b et r sont les deux paramètres du modèle (b
< 0 et 0 < r < 1).
Si t → ∞ alors yt → ymax, et si t → -∞ alors yt → 0.

122
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
3) Les méthodes d’estimation
La difficulté d’estimation de ce type de modèles1 vient du fait qu’ils ne sont pas
linéaires. L’emploi du modèle de régression est donc impossible tel quel.
L’estimation des paramètres d’un tel modèle doit être effectuée par des méthodes
de régression non linéaire qui nécessitent des procédures numériques itératives
assez complexes, objet du paragraphe suivant.

1.3 - Méthode d’estimation des modèles non linéaires


Nous avons jusqu’à maintenant procédé à des artifices de calcul afin de se ramener
à des modèles linéaires. Cependant, pour certaines spécifications de modèle il
s’avère impossible, même sous certaines hypothèses, d’utiliser les MCO. Nous
allons présenter, très succinctement2, les méthodes d’estimation non linéaires en
essayant d’en montrer l’inspiration générale et les limites. Des exemples
d’utilisation sont présentés, ensuite, à partir des logiciels Stata et Eviews.

L’inspiration générale des techniques d’estimation non linéaires sont les mêmes
quel que soit le type d’algorithme. Il s’agit de méthodes itératives dans lesquelles
l’équation non linéaire est linéarisée à l’aide d’un développement limité de Taylor
(à partir d’un jeu de valeurs de coefficients initiaux). Les MCO sont alors utilisés
sur cette équation linéaire afin d’estimer des nouveaux coefficients. Ces nouveaux
coefficients permettent, à l’aide d’un nouveau développement limité, de procéder
à une nouvelle linéarisation. La procédure est arrêtée lorsque les coefficients sont
relativement stables d’une itération à l’autre.
Pour ce type de méthode soit efficiente, il convient que les valeurs initiales ne
soient pas trop éloignées des valeurs optimales. Dans le cas contraire, il n’y a pas
convergence et la procédure est défaillante.

123
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Exemple d’application
Estimation des paramètres d’un modèle de diffusion Logistique et de
Gompertz
Le tableau 3 présente les ventes cumulées (en milliers d’unités) d’un CD audio
d’un artiste à succès sur 19 semaines.
Tableau 3 : Extrait des ventes cumulées sur 19 semaines (milliers d’unités)

Semaines Ventes

1 44,7

2 61,0

… …

18 607,0

19 633,9

On demande :
1) D’estimer les paramètres d’un modèle de diffusion de type Logistique.
2) D’estimer les paramètres d’un modèle de diffusion de type Gompertz.
Solution
Le graphique 2 présente l’évolution des ventes cumulées en fonction des
semaines. Ce graphique peut suggérer une évolution selon un modèle de diffusion,
nous serions alors à proximité du point d’inflexion.

124
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Graphique 2 : Ventes cumulés

1) Estimation d’un modèle de diffusion de type Logistique (Eviews). Valeurs


initiales compatibles.
Equation NLS ventes=C(1)/(1+c(2)*c(3)^@trend)
Résultats (Eviews) :

Dependent Variable: VENTES


Sample: 1 19
Included observations: 19
Convergence achieved after 8 iterations
VENTES=C(1)/(1+C(2)*C(3)^TEND)
Coefficient Std. Error t–Statistic Prob
C(1) 718.0033 11.87762 60.45008 0,0000
C(2) 14.77212 0.536144 27.55254 0,0000
C(3) 0.784909 0.004580 171.3614 0,0000

R-squared 0.999009
𝒚
𝒎𝒂𝒙 𝟕𝟏𝟖
Le modèle estimé s’écrit : 𝒚𝒕 = 𝟏+𝒃𝒓 𝒕 = 𝟏+𝟏𝟒,𝟕𝟕×𝟎,𝟕𝟖𝟓𝒕

2) Estimation d’un modèle de diffusion de type Gompertz (RATS).

125
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
* Régression non linéaire
nonlin b r a Définition des paramètres à estimer

frml gompertz = exp(b*r**(t)+a) Formulation du modèle

*Initialisation des paramètres

eval a = 5.

eval b = -3.5

eval r = 0.5

nlls(frml=gompertz,trace) taux ← Estimation des coefficients

Résultats

𝒕+𝒂
Soit le modèle : yt = 𝒆𝒃𝒓 = e(-3,46×0,88t+6,83) ; le seuil de saturation, selon un
modèle de Gompertz, est donc de e6,83 = 927.

126
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
II- LA COINTÉGRATION ET LE MODÈLE Á CORRECTION
D’ERREUR
L’analyse de la cointégration, présentée par Granger (1983) et Engle (1987), est
considérée par beaucoup d’économistes comme un des concepts nouveaux les
plus importants dans le domaine de l’économétrie et de l’analyse de séries
temporelles. Dans cette section, nous abordons en premier, des exemples
permettant une introduction au problème de la cointégration. La seconde partie
sera consacrée à la présentation de la cointégration en termes de définition et de
spécification. Les tests de cointégration ainsi que les méthodologies d’estimation
sont ensuite développés dans le cas à deux variables (3ème partie) et enfin (4ème
partie) dans les cas à k variables.
2.1- Exemples introductifs
– Premier exemple
Soit les variables yt et xt définies de la manière suivante :
y1 = 1 avec comme variable explicative : x1 = 1
y2 = 2 avec comme variable explicative : x2 = 22

yn = n avec comme variable explicative : xn = n2
La tendance de yt est de type linéaire et celle de xt est quadratique. Le résultat de
la régression de yt sur xt(n = 30) conduit à l’estimation suivante :
yt = 5,92 + 0,03xt
R2 = 0,94 - DW = 0,057

Les coefficients de régression sont significatifs, la valeur du R2 est élevée,


cependant il apparaît évident que ce modèle a un pouvoir prédictif très mauvais.
En effet, sur le plan statistique, la statistique de Durbin et Watson (proche de 0)
présage d’une autocorrélation forte des erreurs. Ce premier exemple illustre le
danger d’interpréter et d’utiliser une régression entre deux variables affectées de

127
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
tendances déterministes de degré différent. Le graphique 1 présente la série brute
(tendance linéaire) et la série ajustée par une tendance quadratique.

Graphique 1 : Régression d’une tendance linéaire sur une tendance


quadratique
– Deuxième exemple
On génère deux processus aléatoires :
yt = yt-1 + ε1t avec εt → N(0; σ2ε1)
xt = xt-1 + ε2t avec εt → N(0; σ2ε2)
Sur 1 000 régressions, nous obtenons les résultats suivants : 670 sont significatives
d’après la statistique du t de Student, cependant la statistique de DW est toujours
faible (la moyenne sur les 1 000 régressions est : DW = 0,33). Donc apparemment,
ces régressions donnent de bons résultats (hormis la statistique DW). Mais ces
résultats sont purement fortuits : ils découlent de la corrélation entre les séries qui

128
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
sont affectées d’une tendance stochastique. En effet, si on passe en différences
premières (𝛥𝑦𝑡 = 𝑓(𝛥𝑥𝑡 )), plus aucune régression n’est significative.
𝛥𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1 = 𝜀1 t

𝛥𝑥𝑡 = 𝑥𝑡 − 𝑥𝑡−1 = 𝜀2 t

En régressant une série non stationnaire (de type DS) sur une autre série du même
type, on obtient des coefficients significatifs mais avec une statistique DW proche
de 0. Ce deuxième exemple illustre le risque de régresser entre elles deux séries
affectées d’une tendance stochastique. Il faut donc toujours, au préalable,
stationnariser des séries non stationnaires ; dans le cas contraire, il existe un risque
de « régression fallacieuse » (« spurious regression »).

2.2- Le concept de cointégration


L’analyse de la cointégration permet d’identifier clairement la relation véritable
entre deux variables en recherchant l’existence d’un vecteur de cointégration et
en éliminant son effet, le cas échéant.
2.3 Propriétés de l’ordre d’intégration d’une série
Une série est intégrée d’ordre d (notée xt → I(d)), s’il convient de la différencier
d fois afin de la stationnariser.
Soit une série x1t stationnaire et une série x2t intégrée d’ordre 1 :
x1t → I(0)
x2t → I(1) ⇒ x1t + x2t → I(1)
La série yt = x1t + x2t est non stationnaire puisque l’on somme une série affectée
d’une tendance et une série stationnaire.
Soit deux séries x1t et x2t intégrées d’ordre d :
x1t → I(d)
x2t → I(d) ⇒ x1t + x2t → I(?)

129
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La combinaison linéaire α x1t + β x2t → I(?). En effet, le résultat dépend des signes
des coefficients α, β et de l’existence d’une dynamique non stationnaire
commune. Examinons un autre cas de figure :
x1t → I(d)
x2t → I(d′) d′≠d ⇒ x1t + x2t → I(?)
Il s’avère impossible de conclure car on somme deux séries d’ordre d’intégration
différent.

Soit deux séries affectées d’une tendance :


– dans un premier cas, les deux séries ont une tendance d’évolution constante sur
une première période et puis une tendance d’évolution divergente en une
deuxième période, les séries ne sont pas cointégrées (cf. graphique 2) ;
– dans un deuxième cas, les deux séries ont une évolution constante sur toute la
période, les séries sont cointégrées (cf. graphique 3), il existe une évolution de
long terme constante entre les chroniques.

Graphique 2 : Les variables xt et zt ne sont pas cointégrées

130
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Graphique 3 : Les variables xt et yt sont cointégrées.

2.4 - Conditions de cointégration


Deux séries xt et yt sont dites cointégrées si les deux conditions sont vérifiées :
• elles sont affectées d’une tendance stochastique de même ordre
d’intégration d,
• une combinaison linéaire de ces séries permet de se ramener à une série
d’ordre d’intégration inférieur.
Soit :
xt → I(d)
yt → I(d)
tel que α1 xt + α2 yt → I(d - b), avec d ≥ b > 0.
On note : xt, yt → C I(d,b) où [α1 α2] est le vecteur de cointégration. Dans le cas
général à k variables, on a :
x1,t → I(d)

131
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
x2,t → I(d)
...
xk,t → I(d) on note Xt = [x1,t x2,t ... xk,t] s’il existe un vecteur de cointégration α =
[α1 α2 ...αk] de dimension (k,1)tel que αXt → I(d - b), alors les k variables sont
cointégrées et le vecteur de cointégration est α. On note que Xt → C I(d,b) avec b
>0.
2.5 - Le modèle à correction d’erreur (ECM)
Examinons le cas particulier suivant : xt, yt → C I(1,1) et [β,-1] (on normalise en
posant β = - α1/α2. Soit β xt - yt → I(0)) le vecteur de cointégration.
Dans ce type de spécification, le fait que les séries soient cointégrées et non
stationnaires soulève un problème d’estimation. La bonne qualité statistique du
modèle (R2 élevé et coefficients significatifs) est due au fait que les séries sont
non stationnaires (puisque cointégrées). En régression directe de yt sur xt – lorsque
yt, xt → C I(1,1). L’utilisation de ce modèle à des fins prévisionnelles s’avère
désastreuse ; en effet, la relation mise en évidence par cette régression n’est pas
réelle, elle découle simplement d’une relation entre deux tendances.
Le problème est donc, d’une part de retirer la relation commune de cointégration
(la tendance commune), d’autre part, de rechercher la liaison réelle entre les
variables : c’est l’objectif du Modèle à Correction d’Erreur (ECM). Cette
représentation est à la fois un modèle statique (β1 𝛥xt) et un modèle dynamique
(β2(yt-1 - β xt-1)).

Nous pouvons spécifier la relation : 𝛥yt = β1 𝛥xt + β2(yt-1 - β xt-1)


Autour de la relation de long terme, le modèle à correction d’erreur permet
d’intégrer les fluctuations de court terme. Le coefficient β2 qui doit être négatif
rend compte d’une force de rappel vers l’équilibre de long terme.
Le graphique 4 illustre la relation de long terme entre xt et yt(yt - βxt = 0), cette
ligne représente l’équilibre de long terme du système ; la zone d’évolution du

132
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
système en dehors de l’équilibre (dynamique de court terme) est définie par
l’erreur constatée entre yt-1 et xt-1 .

Graphique 4 : Représentation du modèle à correction d’erreur

2.6 - Cointégration entre deux variables


Le traitement de séries chronologiques longues impose de tester une éventuelle
cointégration entre les variables. En effet, le risque d’estimer des relations «
fallacieuses » et d’interpréter les résultats de manière erronée est très élevé. Nous
allons tout d’abord examiner le cas à deux variables : test de cointégration et
estimation du modèle à correction d’erreur.

2.6.1. Test de cointégration entre deux variables


Nous reprenons ici l’algorithme en deux étapes de Engle et Granger.
✓ Étape 1 : tester l’ordre d’intégration des variables
Une condition nécessaire de cointégration est que les séries doivent être
intégrées de même ordre. Si les séries ne sont pas intégrées de même ordre,
elles ne peuvent pas être cointégrées.

133
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il convient donc (tests de Dickey-Fuller et Dickey-Fuller Augmenté) de
déterminer très soigneusement le type de tendance déterministe ou stochastique
de chacune des variables, puis l’ordre d’intégration d des chroniques étudiées. Si
les séries statistiques étudiées ne sont pas intégrées de même ordre, la procédure
est arrêtée, il n’y a pas de risque de cointégration.
Soit : xt → I(d) et yt → I(d)
✓ Étape 2 : estimation de la relation de long terme
Si la condition nécessaire est vérifiée, on estime par les MCO la relation de
long terme entre les variables : yt = a0 + a1 xt + εt.
Pour que la relation de cointégration soit acceptée, le résidu εt issu de cette
régression doit être stationnaire : εt = yt -𝑎̂1 xt -𝑎̂0.
La stationnarité du résidu est testée à l’aide des tests de Dickey-Fuller et Dickey-
Fuller Augmenté (DF ou DFA).
Dans ce cas, nous ne pouvons plus utiliser les tables de Dickey et Fuller. En effet,
le test porte sur les résidus estimés à partir de la relation statique et non pas sur
les « vrais » résidus de la relation de cointégration. MacKinnon (1991) a donc
simulé des tables qui dépendent du nombre d’observations et du nombre de
variables explicatives figurant dans la relation statistique.
Si le résidu est stationnaire nous pouvons alors estimer le modèle à correction
d’erreur.
2.6.2. Estimation du modèle à correction d’erreur
Lorsque des séries sont non stationnaires et cointégrées, il convient d’estimer
leurs relations au travers d’un modèle à correction d’erreur (ECM, « Error
Correction Model »). Engle et Granger (1987) ont démontré que toutes les séries
cointégrées peuvent être représentées par un ECM (théorème de la représentation
de Granger).
Nous allons présenter la méthode la plus répandue d’estimation d’un ECM. Nous
nous bornons, ici, au cas d’une seule variable explicative. La généralisation à k
variables est abordée dans la partie suivante. Soit les séries yt et xt → I(1),

134
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’estimation par les MCO (Moindres Carrés Ordinaires) de la relation de long
terme indique une stationnarité du résidu. Les séries yt et xt sont donc notées :
CI(1, 1).

Nous pouvons, dès lors, estimer le modèle à correction d’erreur.


Estimation du modèle à correction d’erreur (ECM) en deux étapes
✓ Étape 1 : estimation par les MCO de la relation de long terme :
yt = 𝒂 ̂ xt + εt
̂+𝜷 (ECM)
✓ Étape 2 : estimation par les MCO de la relation du modèle dynamique.

𝜟𝒚𝒕 = 𝜶𝟏 𝜟𝒙𝒕 + 𝜶𝟐 𝜺𝒕−𝟏 + 𝒖𝒕 𝜶𝟐 < 0

Le coefficient α2 (force de rappel vers l’équilibre) doit être significativement


négatif ; dans le cas contraire, il convient de rejeter une spécification de type
ECM. En effet, le mécanisme de correction d’erreur (rattrapage qui permet de
tendre vers la relation de long terme) irait alors en sens contraire et s’éloignerait
de la cible de long terme. La procédure en deux étapes conduit à une estimation
convergente des coefficients du modèle et les écarts types des coefficients peuvent
s’interpréter de manière classique. L’estimation d’un modèle à correction d’erreur
ne pose donc pas de problème particulier et nécessite simplement le recours à une
technique de moindres carrées ordinaires. En cas de variables explicatives
supplémentaires dont l’hypothèse de cointégration ne peut pas être retenue
(comme des variables indicatrices par exemple), la procédure d’estimation est la
même sauf pour l’estimation du modèle [1] (équation de long terme) dans lequel
figurent ces variables explicatives.

Exercice

Test de cointégration et estimation d’un modèle à correction d’erreur


Soit deux séries statistiques yt et xt dont les observations sont présentées au tableau
1. On demande d’estimer la relation entre ces deux variables

135
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
̂ 1xt + εt) en testant une éventuelle cointégration (dans ce cas estimer
̂ 0+𝒂
(yt = 𝒂
le modèle à correction d’erreur).

Tableau 1 : Valeurs observées de xt et yt (extrait des données)


Obs xt yt

1 0,000 10,890

2 2,851 12,188

… … …

29 6,744 12,347

30 7,270 15,194

Solution
La première étape consiste à étudier les propriétés des deux séries en termes de
stationnarité. Le tableau 2 présente les résultats des tests :
– de Dickey-Fuller (aucun retard n’est significatif dans l’éventualité d’un test de
Dickey-Fuller Augmenté),
– de Phillips-Perron (troncature = 2),
– et de KPSS (troncature = 2).

Type de xt en niveau – t yt en niveau – t


Test
Modèle statistique statistique
Test DF [1] 0,81 0,17
Test DF [2] –0,05 –2,67
Test DF [3] –0,82 –3,05
Test PP [1] 0,88 0,62
Test PP [2] –0,11 –2,60
Test PP [3] –0,80 –2,96

136
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
xt en niveau – LM yt en niveau –
statistique LM
Test KPSS [2] 0,53 0,39
Test KPSS [3] 0,22 0,20

Tableau 2 : Résultats des tests de Dickey-Fuller, Phillips-Perron et KPSS


La comparaison des t𝜙̂1 calculés aux t lus (Tables de MacKinnon) ou des LM
statistiques aux valeurs critiques indique que les deux séries xt et yt sont non
stationnaires en niveau. Des tests similaires sur les différentes premières de xt et
yt indiquent qu’elles sont stationnaires, les deux séries étudiées sont I(1), il existe
donc un risque de cointégration.
Le test de cointégration est effectué à partir du résidu d’estimation du modèle :
yt = a0 + a1 xt + εt.
Soit : yt = 10,38 + 0,55xt + εt
N = 30 R2 = 0,58 (.) = t de Student

Nous pouvons vérifier que le résidu est bien stationnaire, il existe donc un risque
de cointégration entre les deux variables.

Test DF Test PP (l = 2)
εt Modèle (1) Modèle (2) Modèle (1) Modèle (2)

t𝜙̂1 -5,39 -5,30 -5,42 -5,31

Nous procédons donc maintenant à l’estimation du modèle à correction d’erreur.


Nous calculons, d’abord, le résidu (provenant du modèle précédent) décalé d’une
période, soit : εt-1 = yt-1 - 0,55xt-1 - 10,38
Puis nous estimons (par les MCO) le modèle :
𝛥𝑦𝑡 = 𝛼1 𝛥𝑥𝑡 + 𝛼2 𝜀𝑡−1 + 𝑢𝑡
𝛥𝑦𝑡 = 0,610𝛥𝑥𝑡 − 1,02𝜀𝑡−1 + 𝑢𝑡
n = 29 ; R2 = 0,60 ; (.) = t de Student.

137
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le coefficient (terme de rappel) de 𝜀𝑡−1 est bien significativement négatif, la
représentation à correction d’erreur est validée.
2.7 - Généralisation à k variables
La littérature économique récente concernant la théorie de l’équilibre démontre
qu’une série macroéconomique stationnaire peut être le résultat d’une
combinaison de variables non stationnaires, d’où l’importance actuelle de
l’analyse de la cointégration à k variables. La généralisation de deux à k variables
s’avère assez complexe du fait du nombre de possibilités de vecteurs de
cointégration possibles.
2.7.1 La cointégration entre k variables
Dans un modèle économétrique à k variables explicatives :
yt = β0 + β1 x1t + β2 x2t + ... + βk xkt + εt
Si les variables (yt et xkt) sont non stationnaires, I(1) par exemple, il existe alors
un risque de cointégration. En effet, l’existence d’une éventuelle cointégration
implique que les variables doivent être non stationnaires. Comme dans le cas à
deux variables, si une combinaison linéaire de ces variables est stationnaire, elles
sont alors cointégrées. L’estimation par les MCO du modèle permet de calculer le
résidu :
̂0 - 𝜷
εt = yt - 𝜷 ̂ 1 x1t - ... - 𝜷
̂ k xkt
Si ce résidu est stationnaire, nous acceptons l’hypothèse d’une cointégration entre
les variables. Les tests de Dickey-Fuller de stationnarité sur le résidu doivent
s’effectuer à partir des valeurs critiques tabulées par MacKinnon (1991) en
fonction du nombre de variables total du modèle. Le vecteur de cointégration est
donné par : [1, -𝛽̂0,-𝛽̂1,...,-𝛽̂k] . Cependant, le cas multivarié est plus complexe que
le cas à deux variables du fait des possibilités combinatoires de cointégration. En
effet si, par exemple, les variables yt, x1t, x2t et x3t sont cointégrées par paires yt, x1t
→ C I(1,1) et x2t , x3 → C I(1,1), leur combinaison linéaire est I(0).

138
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Nous avons : e1t = yt -𝛼̂0 -𝛼̂1x1t et e2t = x2t - 𝛾̂0 - 𝛾̂1x3t et par conséquent : et = e1t +
e2t = yt -𝛼̂0 -𝛼̂1x1t + x2t - 𝛾̂0 - 𝛾̂1x3t → I(0)
Nous obtenons, dans ce cas de figure, un autre vecteur de cointégration possible :
[1,- 𝛼̂0 - 𝛾̂0, -𝛼̂1,1,- 𝛾̂1]. D’une manière générale, dans un modèle à une variable à
expliquer et k variables explicatives (soit k + 1 variables au total), il peut exister
k vecteurs de cointégration linéairement indépendants. Le nombre de vecteurs de
cointégration linéairement indépendants est appelé le rang de la cointégration. Si
les variables sont de même ordre d’intégration, I(1) par exemple, l’existence d’un
seul vecteur de cointégration est possible ; en revanche, si les séries ne sont pas
toutes intégrées du même ordre, nous pouvons être certains que le vecteur de
cointégration n’est pas unique. De manière pratique, pour tester une éventuelle
cointégration entre plusieurs variables, il convient tout d’abord de la tester sur
l’ensemble des k + 1 variables, puis en cas de cointégration de la tester par
combinatoire entre les variables.
2.7.2. Estimation du modèle à correction d’erreur
La cointégration ayant été révélée par les tests précédents, deux cas de figure sont
à envisager :
• il existe un vecteur unique de cointégration,
• plusieurs vecteurs de cointégration existent.
Si le vecteur de cointégration est unique, nous pouvons employer les méthodes
d’estimation envisagées à la section précédente, par exemple, celle en deux étapes
de Engle et Granger.

– Étape 1 : estimation par les MCO de la relation de long terme et calcul du résidu
:
̂0 - 𝜷
εt = yt - 𝜷 ̂ 1 x1t - ... - 𝜷
̂ k xkt
– Étape 2 : estimation par les MCO de la relation du modèle dynamique (court
terme) :

𝜟𝒚𝒕 = 𝜶𝟏 𝜟𝒙𝟏𝒕 + 𝜶𝟐 𝜟𝒙𝟐𝒕 + ⋯ +𝜶𝒌 𝜟𝒙𝒌𝒕 + 𝜸̂ 𝟏 𝜺𝒕−𝟏 + 𝒖𝒕


139
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le coefficient γ1 (force de rappel vers l’équilibre) doit être, comme dans le cas à
une variable explicative, significativement négatif. Cependant, le plus souvent, le
vecteur de cointégration n’est pas unique et la méthode de Engle-Granger n’est
plus valide. En effet, les estimateurs des MCO ne sont plus consistants quels que
soient les vecteurs de cointégration.

140
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 5 : ÉLEMENTS D’ANALYSE DES SERIES TEMPORELLES

CHAPITRE 5 : ÉLEMENTS D’ANALYSE


DES SERIES TEMPORELLES

141
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Ce chapitre est consacré à une présentation sommaire des techniques d’analyse
des séries chronologiques. Ce thème, à lui seul, peut faire l’objet de longs
développements et de nombreux ouvrages4 y sont intégralement consacrés. Nous
étudions en I. les caractéristiques statistiques en termes de stationnarité des séries
temporelles en présentant les différents tests (Dickey-Fuller, corrélogramme, etc.)
s’y rapportant. Puis en II., nous présentons différentes classes de modèles (AR,
MA, ARMA) en étudiant leurs propriétés.

I- Stationnarité
A. Définition et propriétés
Avant le traitement d’une série chronologique, il convient d’en étudier les
caractéristiques stochastiques. Si ces caractéristiques c’est-à-dire son espérance et
sa variance se trouvent modifiées dans le temps, la série chronologique est
considérée comme non stationnaire ; dans le cas d’un processus stochastique
invariant, la série temporelle est alors stationnaire. De manière formalisée, le
processus stochastique yt est stationnaire si :

E(yt) = E(yt+m) = µ ∀t et ∀m, la moyenne est constante et indépendante du temps ;


var(yt) < ∞ ∀t, la variance est finie et indépendante du temps ; cov(yt,yt+k) = E[(yt
- µ)(yt+k - µ)] = γk , la covariance est indépendante du temps. Il apparaît, à partir
de ces propriétés, qu’un processus de bruit blanc εt dans lequel les εt sont
indépendants et de même loi N(0,σε2) est stationnaire. Une série chronologique est
donc stationnaire si elle est la réalisation d’un processus stationnaire. Ceci
implique que la série ne comporte ni tendance, ni saisonnalité et plus
généralement aucun facteur n’évoluant avec le temps.

4 142
Pour un approndissement de ce chapitre, se référer au livre de Bourbonnais R. et Terraza M.,

Dunod, 2010.

SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS


B. Fonctions d’autocorrélation simple et partielle
La fonction d’autocorrélation (FAC) est la fonction notée ρk qui mesure la
corrélation de la série avec elle-même décalée de k périodes, comme l’illustre le
tableau 1. Sa formulation est la suivante :

Avec 𝑦̅ moyenne de la série calculée sur n-k périodes, n = nombre d’observations.


Nous pouvons en déduire que : ρ0 = 1 et ρk = ρ-k.
Cette formule [1] est malaisée à manier puisqu’elle exige de recalculer pour
chaque terme ρk les moyennes et les variances, c’est pourquoi on lui préfère la
fonction d’autocorrélation d’échantillonnage :

avec 𝑦̅ moyenne de la série calculée sur n périodes.


1. Un processus de bruit blanc est une suite de variables aléatoires de même
distribution et mutuellement indépendantes. Ce terme est emprunté à la physique
faisant référence au spectre de la lumière blanche.
2. Si les conditions énoncées ci-dessous sont vérifiées, on dit que la série est
stationnaire de second ordre, ou encore faiblement stationnaire. Dans le cas où,
aux conditions définies, s’ajoute la constante de la distribution de probabilité, on
parle de série strictement stationnaire.

143
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Tableau 1 : Exemple de calcul d’une fonction d’autocorrélation

k 0 1 2 3 4
t yt yt-1 yt-2 yt-3 yt-4
1 123
2 130 123
3 125 130 123
4 138 125 130 123
5 145 138 125 130 123
6 142 145 138 125 130
7 141 142 145 138 125
8 146 141 142 145 138
9 147 146 141 142 145
10 157 147 146 141 142
11 150 157 147 146 141
12 145 150 157 147 146

Moyenne yt 140,75 142,36 143,60 145,67 146,63


Moyenne yt-k 140,75 140,36 139,40 137,44 136,25
Variance yt 95,02 72,41 62,84 24,11 22,23
Variance yt-k 95,02 101,87 101,84 74,91 71,44
ρk 1 0,77 0,62 0,59 0,55

Lorsque le nombre d’observations n est suffisamment grand, les deux formules


[1] et [2] donnent des résultats très proches.
La fonction d’autocorrélation partielle (FAP) s’apparente à la notion de
corrélation partielle. Nous avons défini le coefficient de corrélation partielle
comme étant le calcul de l’influence de x1 sur x2 en éliminant les influences des
autres variables x3, x4, ..., xk.
Par analogie, nous pouvons définir l’autocorrélation partielle de retard k comme
le coefficient de corrélation partielle entre yt et yt-k, c’est-à-dire comme étant la
corrélation entre yt et yt-k l’influence des autres variables décalées de k périodes
(yt-1, yt-2, ..., yt-k+1) ayant été retirée.

144
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Afin d’éviter par la suite toutes ambiguïtés entre les deux fonctions
d’autocorrélation, nous appelons fonction d’autocorrélation simple, la fonction
d’autocorrélation.
C. Tests de « bruit blanc » et de stationnarité
Nous ne pouvons identifier clairement les caractéristiques stochastiques d’une
série chronologique que si elle est stationnaire. Cette étude de stationnarité
s’effectue essentiellement à partir de l’étude des fonctions d’autocorrélation (ou
de leur représentation graphique appelée « corrélogramme »). Une série
chronologique est stationnaire si elle ne comporte ni tendance ni saisonnalité.
Nous allons donc, à partir de l’étude du corrélogramme d’une série, essayer de
montrer de quelle manière nous pouvons mettre en évidence ces deux
composantes. Nous pouvons distinguer différents types de séries stationnaires :

• à mémoire, c’est-à-dire dont on peut modéliser, par une loi de reproduction,


le processus ;
• identiquement et indépendamment distribuée notée i.i.d. ou appelée Bruit
Blanc (« White Noise ») ;
• normalement (selon une loi normale) et indépendamment distribuée notée
n.i.d. ou appelée Bruit Blanc gaussien.

1- Analyse des fonctions d’autocorrélation


Lorsque nous étudions la fonction d’autocorrélation d’une série chronologique, la
question qui se pose est de savoir quels sont les termes ρk qui sont
significativement différents de 0.
En effet, par exemple, si aucun terme n’est significativement différent de 0, on
peut en conclure que le processus étudié est sans mémoire et donc qu’à ce titre il
n’est affecté ni de tendance ni de saisonnalité. Ou encore si une série mensuelle
présente une valeur élevée pour ρ12 (corrélation entre yt et yt-12), la série étudiée
est certainement affectée d’un mouvement saisonnier. Nous verrons à partir
d’exemples différents cas de figures.

145
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le test d’hypothèses pour un terme ρk est le suivant :
H0 : ρk = 0
H1 : ρk =/ 0
Nous pouvons utiliser le test d’hypothèses d’un coefficient de corrélation,
présenté au chapitre 3, fondé sur la comparaison d’un t de Student empirique et
théorique. Toutefois, Quenouille a démontré que pour un échantillon de taille
importante (n > 30), le coefficient ρk tend de manière asymptotique vers une loi
normale de moyenne 0 et d’écart type 1/√n.
L’intervalle de confiance du coefficient ρk est alors donné par :
ρk = 0 ± tα/2 (1/√n)
n = nombre d’observations.

Si le coefficient calculé 𝜌̂k est à l’extérieur de cet intervalle de confiance, il est


significativement différent de 0 au seuil α (en général α = 0,05 et tα/2 = 1,96). La
plupart des logiciels fournissent, avec le corrélogramme, l’intervalle de confiance,
ce qui autorise une interprétation instantanée.
Nous devons souligner une limite des tests à 5 %. En effet, lorsqu’une fonction
d’autocorrélation est calculée pour un nombre important de retards, nous pouvons
nous attendre à ce que quelques-uns soient, de manière fortuite, significativement
différents de 0. Si h est le nombre de retards, le nombre possible de faux rejets est
alors de 0,05 × h, pour un seuil de confiance de 5 %.
Dans le cas où le corrélogramme ne laisse apparaître aucune décroissance de ses
termes (absence de « cut off »), nous pouvons en conclure que la série n’est pas
stationnaire en tendance.
2- Statistiques de Box-Pierce et Ljung-Box
Le test de Box-Pierce permet d’identifier les processus sans mémoire (suite de
variables aléatoires indépendantes entre elles). Nous devons donc identifier
cov(yt,yt-k) = 0 ou encore ρk = 0 ∀k.

146
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Un processus de bruit blanc implique que ρ1 = ρ2 = ... = ρh = 0, soit les hypothèses
:
H0 : ρ1 = ρ2 = ... = ρh = 0
H1 : il existe au moins un ρi significativement différent de 0.
Pour effectuer ce test, on recourt à la statistique Q (due à Box-Pierce) qui est
donnée par :

𝑄 = 𝑛 ∑ 𝑝̂𝑘2
𝑘=1

h = nombre de retards, 𝜌̂𝑘 = autocorrélation empirique d’ordre k, n = nombre


d’observations.
La statistique Q est distribuée de manière asymptotique comme un χ2 (chi-deux)
à h degrés de liberté. Nous rejetons donc l’hypothèse de bruit blanc, au seuil α, si
la statistique Q est supérieure au χ2 lu dans la table au seuil (1 - α) et h degrés de
liberté.
Nous pouvons utiliser aussi une autre statistique, dont les propriétés
asymptotiques sont meilleures, dérivée de la première qui est le Q′ de Ljung et
Box :


𝜌̂𝑘2
𝑄 = 𝑛(𝑛 + 2) ∑
𝑛−𝑘
𝑘=1

qui est aussi distribuée selon un χ2 à h degrés de liberté et dont les règles de
décisions sont identiques au précédent. Ces tests sont appelés par les anglo-saxons
: « portmanteau test » soit littéralement test « fourre-tout ».

3- Tests de normalité
Pour calculer des intervalles de confiance prévisionnels et aussi pour effectuer les
tests de Student sur les paramètres, il convient de vérifier la normalité des erreurs.
Le test de Jarque et Bera (1984), fondé sur la notion de Skewness (asymétrie) et

147
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
de Kurtosis (aplatissement), permet de vérifier la normalité d’une distribution
statistique.
a) Les tests du Skewness et du Kurtosis
𝟏 𝒏
Soit ̅)𝒌 le moment centré d’ordre k, le coefficient de
𝝁𝒌 = ∑𝒊=𝟏(𝒙𝒊 − 𝒙
𝒏
𝜇3 𝜇4
Skewness (β11/2) est égal à : β11/2 = 3∕2 et le coefficient de Kurtosis : β2 = .
𝜇2 𝜇22

Si la distribution est normale et le nombre d’observations grand (n > 30) :


6 24
β11/2 → N (0;√ ) et β2 → N (3;√ )
𝑛 𝑛

On construit alors les statistiques :


1∕2
|𝛽1 −0| |𝛽3 −0|
ν1 = 6
et v2 = 24
que l’on compare à 1,96 (valeur de la loi normale au
√ √
𝑛 𝑛

seuil de 5 %).
Si les hypothèses H0 : ν1 = 0 (symétrie) et ν2 = 0 (aplatissement normal) sont
vérifiées, alors ν1 ≤ 1,96 et ν2 ≤ 1,96 ; dans le cas contraire, l’hypothèse de
normalité est rejetée.
b) Le test de Jarque et Bera
Il s’agit d’un test qui synthétise les résultats précédents ; si β11/2 et β2 obéissent à
𝑛 𝑛
des lois normales alors la quantité s : s = 𝛽1 + (𝛽2 − 3)2 suit un χ2 à deux
6 24

degrés de liberté.
Donc si s > χ21-α (2), on rejette l’hypothèse H0 de normalité des résidus au seuil
α. Ces tests de normalité servent également dans le cas où il y a hétéroscédacité.
En effet, l’hétéroscédacité se manifeste sur le graphe de la distribution par des
queues de probabilité plus épaisses (distribution leptokurtique) que les queues de
la loi normale.
4- Tests d’homoscédasticité
Un processus de bruit blanc doit être homoscédastique, les tests
d’hétéroscédasticité peuvent être utilisés.

148
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
✓ Le test de Goldfeld-Quandt a pour but de comparer la somme des carrés
des résidus d’estimation après avoir scindé les résidus en deux sous-
échantillons.
✓ Un autre test consiste à étudier la distribution des carrés des résidus.
L’analyse des termes du corrélogramme des résidus au carré permet de
tester l’existence d’une hétéroscédacité. Si certaines valeurs de la FAC
(tests de Box-Pierce ou Ljung-Box) sont significativement différentes de 0,
nous pouvons conclure à la présence d’une hétéroscédacité.

II. La non-stationnarité et les tests de racine unitaire


A. La non-stationnarité : les processus TS et DS
Les chroniques économiques sont rarement des réalisations de processus
aléatoires stationnaires. Pour analyser la non-stationnarité, deux types de
processus sont distingués :
✓ les processus TS (Trend Stationary) qui représentent une non-stationnarité
de type déterministe1 ;
✓ les processus DS (Differency Stationary) pour les processus non
stationnaires aléatoires.
a) Les processus TS
Un processus TS s’écrit : xt = ft + εt où ft est une fonction polynômiale du temps,
linéaire ou non linéaire, et εt un processus stationnaire. Le processus TS le plus
simple (et le plus répandu) est représenté par une fonction polynômiale de degré
1. Le processus TS porte alors le nom de linéaire et s’écrit :
xt = a0 + a1t + εt .
Si εt est un bruit blanc (gaussien ou non), les caractéristiques de ce processus sont
alors :
E[xt] = a0 + a1t + E[εt] = a0 + a1t
V [xt] = 0 + V [εt] = σε2
cov[xt,xt′] = 0 pour t ≠ t′

149
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Ce processus TS est non stationnaire car E[xt] dépend du temps. Connaissant 𝛼̂0
et 𝛼̂1 , le processus xt peut être stationnarisé en retranchant, de la valeur de xt en t,
la valeur estimée 𝛼̂0 +𝛼̂1𝑡 . Dans ce type de modélisation, l’effet produit par un
choc (ou par plusieurs chocs aléatoires) à un instant t est transitoire. Le modèle
étant déterministe, la chronique retrouve son mouvement de long terme qui est ici
la droite de tendance. Il est possible de généraliser cet exemple à des fonctions
polynômiales de degré quelconque.

b) Les processus DS
Les processus DS sont des processus que l’on peut rendre stationnaires par
l’utilisation d’un filtre aux différences : (1 - D)dxt = β + εt où εt est un processus
stationnaire, β une constante réelle, D l’opérateur décalage et d l’ordre du filtre
aux différences.
Ces processus sont souvent représentés en utilisant le filtre aux différences
premières (d = 1). Le processus est dit alors processus du premier ordre. Il s’écrit
: (1 - D)xt = β + εt ⇔ xt = xt-1 + β + εt
L’introduction de la constante β dans le processus DS permet de définir deux
processus différents :
• β = 0 : le processus DS est dit sans dérive.
Il s’écrit : xt = xt-1 + εt.
Comme εt est un bruit blanc, ce processus DS porte le nom de modèle de marche
au hasard ou de marche aléatoire (Random Walk Model). Il est très fréquemment
utilisé pour analyser l’efficience des marchés financiers. Pour étudier les
caractéristiques de ce modèle, écrivons-le sous sa forme développée :
xt = xt-1 + εt
xt-1 = xt-2 + εt-1 ⇒ xt = xt-2 + εt-1 + εt
xt-2 = xt-3 + εt-2 ⇒ xt = xt-3 + εt-2 + εt-1 + εt
etc.
Si le premier terme de la chronique est x0, le modèle s’écrit alors :

150
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
xt = x0 + ∑𝑡𝑖=1 𝜀𝑖
Les caractéristiques de ce processus sont (en supposant x0 certain) :
E[xt] = x0
V [xt] = tσε2
cov[xt,xt′] = σε2 × Min(t,t′) si t ≠ t′
Par exemple : cov(x4,x2) = E[(x0 + ε1 + ε2 + ε3 + ε4)(x0 + ε1 + ε2)]
= E(ε1 × ε1) + E(ε2 × ε2) = 2σε2.
En effet tous les produits E(εt × εt′) = 0 si t ≠ t′.
Éléments d’analyse des séries temporelles Á 247
Ce processus est non stationnaire en variance puisqu’elle dépend du temps. Cette
non stationnarité est dite aléatoire ou stochastique.
Pour stationnariser la marche aléatoire, il suffit d’appliquer au processus le filtre
aux différences premières : xt = xt-1 + εt ⇔ (1 - D)xt = εt .
• β ∕= 0 : le processus porte alors le nom de processus DS avec dérive.
Il s’écrit : xt = xt-1 + β + εt .
Comme précédemment, on peut rechercher sa forme équivalente développée :
xt = xt-1 + β + εt
xt-1 = xt-2 + β + εt-1 ⇒ xt = xt-2 + 2β + εt-1 + εt
xt-2 = xt-3 + β + εt-2 ⇒ xt = xt-3 + 3β + εt-2 + εt-1 + εt
etc.
Si on suppose la valeur d’origine x0 connue et déterministe, on a alors :
xt = x0 + βt + ∑𝑡𝑖=1 𝜀𝑖
On peut analyser les caractéristiques de ce processus :
E[xt] = x0 + βt V [xt] = tσε2
cov[xt,xt′] = σε2 × Min(t,t′) si t ≠ t′
Le processus est non stationnaire de par son espérance et sa variance. L’espérance
étant de la même forme que celle d’un processus TS, on reconnaît dans ce
processus une non stationnarité déterministe et aléatoire à la fois.

151
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La stationnarisation de ce processus est réalisée en utilisant le filtre aux
différences premières : xt = xt-1 + β + εt ⇔ (1 - B)xt = β + εt
Soit en employant la forme développée :
xt = x0 + βt + ∑𝑡𝑖=1 𝜀𝑖 et en calculant : xt-1 = x0 + β(t - 1) + ∑𝑡−1
𝑖=1 𝜀𝑖

On a : xt - xt-1 = (1 - B)xt = β + εt.


Dans les processus de type DS, un choc à un instant donné se répercute à l’infini
sur les valeurs futures de la série ; l’effet du choc est donc permanent et va en
décroissant. En résumé, pour stationnariser un processus TS, la bonne méthode
est celle des moindres carrés ordinaires ; pour un processus DS, il faut employer
le filtre aux différences. Le choix d’un processus DS ou TS comme structure de
la chronique n’est donc pas neutre.
c) Conséquences d’une mauvaise stationnarisation du processus
Pour un processus TS, la bonne méthode de stationnarisation est celle des
moindres carrés ordinaires. Supposons que l'on applique au processus TS du
premier ordre un filtre aux différences premières. A priori, comme le degré du
polynôme est 1, ce filtre peut être considéré comme correct puisqu'un filtre aux
différences d'ordre d élimine un polynôme de même degré. Cependant, on
démontre que l'application du filtre aux différences a créé une perturbation
artificielle.
Pour un processus DS, la bonne méthode de stationnarisation est le filtre aux
différences premières. Supposons que l'on applique la méthode des moindres
carrés ordinaires (régression sur le temps) sur les observations d'un échantillon du
processus, les paramètres de la tendance sont estimés et par conséquent le résidu
de la régression doit être un bruit blanc. Nelson et Kang montrent à partir de
simulations, que l'élimination d'une tendance linéaire sur un processus de marche
aléatoire crée artificiellement une forte autocorrélation des résidus pour les
premiers retards.

152
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Sur le plan économétrique, il est donc primordial d'identifier clairement le
processus sous-jacent et d'employer la méthode adéquate de stationnarisation.
Sinon le risque de créer des « bruits parasites » artificiels est très élevé.
Les conséquences sont également importantes sur le plan économique.
Considérons, par exemple, le PIB d'un pays comme la France en valeur réelle. Si
ce PIB est DS plutôt que TS, il est alors nécessaire de remettre en cause la
décomposition traditionnelle (tendance et cycle) et sa justification théorique :
l'indépendance des schémas explicatifs. Si le PIB est en effet DS, la croissance et
le cycle sont liés et ne peuvent être en conséquence étudiés de façon séparés. Or,
d'après les travaux de Nelson et Plosser (1982) sur des chroniques macro-
économiques, la variabilité constatée de la composante conjoncturelle serait due
à une structure DS. Comme jusqu'à présent, l'analyse de cette composante
s'effectue à partir du résidu d'une régression entre le PIB et une tendance
déterministe, cette analyse surestime l'amplitude du cycle et sous-estime
l'importance de la tendance.
B. Les tests de racine unitaire et la stratégie séquentielle de test
Les tests de racine unitaire « Unit Root Test » permettent non seulement de
détecter l’existence d’une non-stationnarité mais aussi de déterminer de quelle
non-stationnarité il s’agit (processus TS ou DS) et donc la bonne méthode pour
stationnariser la série.
a) Tests de racines unitaires : tests de Dickey-Fuller (1979)
Les tests de Dickey-Fuller (DF) permettent de mettre en évidence le caractère
stationnaire ou non d’une chronique par la détermination d’une tendance
déterministe ou stochastique. Les modèles servant de base à la construction de ces
tests sont au nombre de trois. Le principe des tests est simple : si l’hypothèse H0
: φ1 = 1 est retenue dans l’un de ces trois modèles, le processus est alors non
stationnaire.
[1] xt = φ1xt-1 + εt Modèle autorégressif d’ordre d’ordre 1.
[2] xt = φ1xt-1 + εt Modèle autorégressif avec constante.
153
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
[3] xt = φ1xt-1 + bt + c + εt Modèle autorégressif avec tendance.
Si l’hypothèse H0 est vérifiée, la chronique xt n’est pas stationnaire quel que soit
le modèle retenu.
Dans le dernier modèle [3], si on accepte H1 : φ1 < 1 et si le coefficient b est
significativement différent de 0, alors le processus est un processus TS ; on peut
le rendre stationnaire en calculant les résidus par rapport à la tendance estimée par
les moindres carrés ordinaires.
Sous H0, les règles habituelles de l’inférence statistique ne peuvent pas être
appliquées pour tester cette hypothèse, en particulier la distribution de Student du
paramètre φ1 ; Dickey et Fuller ont donc étudié la distribution asymptotique de
l’estimateur φ1 sous l’hypothèse H0. À l’aide de simulations de Monte-Carlo, ils
ont tabulé les valeurs critiques pour des échantillons de tailles différentes. Ces
tables sont des tables1 analogues aux tables du t de Student.
Les auteurs ont choisi de tester la valeur (𝜙̂1 - 1) au lieu de 𝜙̂1 pour des raisons
purement statistiques. Cela n’est pas gênant pour le test. En effet, xt = φ1xt-1 + εt
s’écrit aussi :
xt - xt-1 = φ1xt-1 - xt-1 + εt
𝛥xt = (φ1 - 1)xt-1 + εt
Il est donc équivalent de tester comme hypothèse H0 : φ1 = 1 ou φ1 - 1 = 0. Les
principes généraux du test sont les suivants.
On estime par les moindres carrés ordinaires le paramètre φ1 noté 𝜙̂1 pour les
modèles [1], [2] et [3]. L’estimation des coefficients et des écarts types du modèle
par les moindres carrés ordinaires fournit tφˆ1 qui est analogue à la statistique de
Student (rapport du coefficient sur son écart type). Si tφˆ1 ≥ ttabulé, alors on accepte
l’hypothèse H0 ; il existe une racine unité, le processus n’est donc pas stationnaire.
Remarque : les principaux logiciels d’analyse de séries temporelles calculent
automatiquement les valeurs critiques tφˆ1.
b) Les tests de Dickey et Fuller Augmentés

154
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Dans les modèles précédents, utilisés pour les tests de Dickey-Fuller simples, le
processus εt est, par hypothèse, un bruit blanc. Or il n’y a aucune raison pour que,
a priori, l’erreur soit non corrélée ; on appelle tests de Dickey-Fuller Augmentés
(ADF, 1981) la prise en compte de cette hypothèse.

Les tests ADF sont fondés, sous l’hypothèse alternative |φ1| < 1, sur l’estimation
par les MCO des trois modèles :
𝜌
Modèle [4] : 𝛥𝑥𝑡 = 𝜌𝑥𝑡−1 − ∑ 𝜙𝑗 𝛥𝑡−𝑗+1 + 𝜀𝑡
𝑗=2
𝜌
Modèle [5] : 𝛥𝑥𝑡 = 𝜌𝑥𝑡−1 − ∑ 𝜙𝑗 𝛥𝑡−𝑗+1 + 𝑐 + 𝜀𝑡
𝑗=2
𝜌
Modèle [6] : 𝛥𝑥𝑡 = 𝜌𝑥𝑡−1 − ∑ 𝜙𝑗 𝛥𝑡−𝑗+1 + 𝑐 + 𝑏𝑡 + 𝜀𝑡 avec εt → i.i.d.
𝑗=2

Le test se déroule de manière similaire aux tests DF simples, seules les tables
statistiques diffèrent. La valeur de p peut être déterminée selon les critères de
Akaike ou de Schwarz, ou encore, en partant d’une valeur suffisamment
importante de p, on estime un modèle à p – 1 retards, puis à p – 2 retards, jusqu’à
ce que le coefficient du pième retard soit significatif.
c) Le test de Phillips et Perron (1988)
Ce test est construit sur une correction non paramétrique des statistiques de
Dickey-Fuller pour prendre en compte des erreurs hétéroscédastiques. Il se
déroule en quatre étapes :
1) Estimation par les moindres carrés ordinaires des trois modèles de base des
tests de Dickey-Fuller et calcul des statistiques associées, soit et le résidu estimé.
1 𝑛
2) Estimation de la variance dite de court terme 𝜎̂ 2 = ∑𝑡=2 𝑒𝑡2
2

3) Estimation d'un facteur correctif 𝑠𝑡2 (appelé variance de long terme) établi à
partir de la structure des covariances des résidus des modèles précédemment
estimés de telle sorte que les transformations réalisées conduisent à des
distributions identiques à celles du Dickey-Fuller standard :

155
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
𝑙
1 𝑛 𝑖 1
𝑠𝑡2 = ∑𝑡=2 𝑒𝑡2 + 2∑ (1 − 𝑙+1) 𝑛 ∑𝑡=𝑖+1 𝑒𝑡 𝑒𝑡−𝑖
2 𝑖=1

Pour estimer cette variance de long terme, il est nécessaire de définir un nombre
de retards l (troncature de Newey-West) estimé en fonction du nombre
d'observations n, l ≈ 4(n/100)2/9.
̂ 1 −1)
(𝜙 ̂𝜙
𝑛(𝑘−1)𝜎 ̂ ̂2
𝜎
4) Calcul de la statistique de PP : 𝑡𝜙̂∗ = √𝑘 × ̂∅′ 1
+ 1
avec k = (qui
𝜎 √𝑘 𝑆𝑡2

est égal à 1, de manière asymptotique si et est un bruit blanc). Cette statistique est
à comparer aux valeurs critiques de la table de MacKinnon.
d) Stratégie de tests
Nous constatons que pour réaliser un test de racine unitaire, le résultat n’est pas
identique selon l’utilisation de l’un des trois modèles comme processus générateur
de la chronique de départ. Les conclusions auxquelles on parvient sont donc
différentes et peuvent entraîner des transformations erronées. C’est la raison pour
laquelle Dickey et Fuller, et à leur suite d’autres auteurs, ont élaboré des stratégies
de tests. Nous présentons un exemple simplifié (schéma 1) d’une stratégie de tests.
Les valeurs critiques des 𝑡𝑐̂ et 𝑡𝑏̂ permettant de tester la nullité des coefficients c
et b des modèles.
e) Le test KPSS (1992)
Kwiatkowski (1992) propose d’utiliser un test du multiplicateur de Lagrange (L
M) fondé sur l’hypothèse nulle de stationnarité. Après estimation des modèles, on
calcule la somme partielle des résidus : St = ∑𝑡𝑖=1 𝜀𝑖 et on estime la variance de
long terme (st2) comme pour le test de Phillips et Perron.

156
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Schéma 1 : Stratégie simplifiée des tests de racine unitaire

𝑛
∑ 𝑠𝑡2
𝑡=1
La statistique est alors L M = 2 On rejette l’hypothèse de stationnarité si
𝑠𝑡 𝑛2

cette statistique est supérieure aux valeurs critiques lues dans une table élaborée
par les auteurs.
Il est à noter que les logiciels Stata et Eviews permettent directement l'utilisation
de ces tests.

Exemple d’application des tests de racine unitaire au CAC40


On demande d’appliquer les tests de non-stationnarité à l’indice CAC40 (indice
représentatif de l’évolution des cours de bourse) sur une période de 1160 jours.

157
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution
Nous allons étudier le CAC40 sur 1 160 observations quotidiennes. Le graphique
1 illustre l’évolution de l’indice CAC40.
Les fonctions d’autocorrélation simple et partielle, pour h = 15 retards, sont
obtenues directement par une fonction :

158
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Graphique 1 : Évolution de l’indice boursier CAC40

Eviews fournit les résultats des fonctions d’autocorrélation simple (colonne AC)
et partielle (colonne PAC), avec les corrélogrammes respectifs. Les bornes de
l’intervalle de confiance sont stylisées par des traits pointillés horizontaux ;
chaque terme qui sort de cet intervalle est donc significativement différent de 0
au seuil de 5 %. Nous nous apercevons que tous les termes du corrélogramme
simple sont extérieurs à l'intervalle de confiance. Le processus n'est pas un bruit
blanc (il semble même caractéristique d'un processus non stationnaire. La
statistique Q de Ljung-Box (la seule calculée par Eviews) confirme ce fait :
Q-Stat = 14483 (au retard k = 15) > χ20,05;15 = 25, on refuse l'hypothèse de nullité
des coefficients ρk (la probabilité critique de ce test est indiquée αc = 0,000 < 0,05,
donc on refuse H0. Le processus CAC40 n'est pas un bruit blanc. A partir des tests
de Dickey-Fuller nous allons examiner si le processus est non stationnaire.
Le test de Dickey-Fuller simple consiste à estimer1 les trois modèles :
[1] : CACt - CACt-1 = DCACt = (φ1 - 1)
[2] : CACt-1 CACt - CACt-1 = DCACt = (φ1 - 1) CACt-1 + c
[3] : CACt - CACt-1 = DCACt = (φ1 - 1) CACt-1 + c + bt
L’estimation par les MCO des paramètres du modèle [3] donne :
DCACt = -0,008447 CACt-1 + 14,94 + 0,002103 t
(–2,053) (2,0) (1,11)
n = 1 159 - (·) = t empirique.
Le coefficient de la droite de tendance n’est pas significativement différent de 0
(t∗ = 1,11), on rejette l’hypothèse d’un processus TS et t𝜙̂1 = -2,053 > ttabulé = -
3,41 (ou n(𝜙̂1 - 1) = 1 159 × -0,008447 = -9,79 > -21,8) ; on accepte l’hypothèse
H0 (valeurs critiques au seuil de 5 %) ; le processus n’est pas stationnaire.

L’estimation par les MCO des paramètres du modèle [2] donne :

159
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
DCACt = -0,00709 CACt-1 + 13,63
(–1,805) (1,85)
n = 1 159 - (·) = t empirique.
Le terme constant n’est pas significativement différent de 0 (t∗ = 1,85), on rejette
l’hypothèse d’un processus DS avec dérive et t𝜙̂1 = -1,805 > ttabulé = -2,86 ; on
accepte l’hypothèse H0 ; le processus n’est pas stationnaire.
Enfin l’estimation par les MCO des paramètres du modèle [1] donne :
DCACt = 0,000174 CACt-1
(0,536)
n = 1 159 - (·) = t empirique.
t𝜙̂1 = 0,536 > ttabulé = -1,95 , on accepte l’hypothèse H0 ; le processus n’est pas
stationnaire.
Le test DFA (avec quatre retards) conduit à des résultats similaires :

Hypothèse H0 : CAC possède une racine unitaire


Nombre de retards (minimum du critère de Akaike) = 4

Test de Dickey-Fuller Augmenté t Statistique Probabilité critique

Modèle [4] 0,46 0,81


Modèle [5] –2,03 0,27
Modèle [6] –2,28 0,44

Les probabilités critiques sont toutes supérieures à 0,05, nous ne rejetons pas
l’hypothèse H0 ; nous pouvons donc conclure que le processus CAC40 possède
une racine unitaire et n’est donc pas stationnaire.
Nous procédons ensuite au test de Phillips-Perron avec une troncature l = 6.

160
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Hypothèse H0 : CAC possède une racine unitaire
Troncature l = 6

Test de Phillips-Perron t Statistique ajusté Probabilité critique

Modèle [1] 0,50 0,82


Modèle [2] –1,94 0,31
Modèle [3] –2,20 0,49

Les probabilités critiques sont toutes supérieures à 0,05, nous ne rejetons pas
l’hypothèse H0 ; le processus CAC40 possède une racine unitaire.
Enfin, nous procédons aux tests KPSS.
Hypothèse H0 : CAC ne possède pas une racine unitaire
Troncature l = 6

Test de Kwiatkowski-Phillips-Schmidt-Shin LM Statistique Valeur critique à 5%

Modèle [2] 2,58 0,46


Modèle [3] 1,31 0,14

La statistique LM est supérieur à la valeur critique (pour un seuil de 5%) pour les
deux spécifications, nous rejetons l’hypothèse H0, le processus CAC40 possède
donc une racine unitaire.
Tous les résultats sont convergents, nous pouvons donc conclure que le processus
CAC40 n’est pas stationnaire.
S’agit-il d’un processus de marche au hasard sans dérive ? Nous allons le vérifier
en calculant le corrélogramme de la série filtrée par les différences premières ceci
afin de stationnariser le processus :

DCACt = CACt – CACt–1

161
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La statistique Q a une probabilité critique de 0,182 (pour k = 15) largement
supérieure à 0,05 ; nous acceptons l’hypothèse H0 de nullité des coefficients du
corrélogramme. Le corrélogramme de la série CAC40 filtrée par les différences
premières est caractéristique d’un bruit blanc. La série CAC40 est donc bien un
processus DS sans dérive.

S’agit-il d’un bruit blanc gaussien ?


L’histogramme de la distribution et les valeurs empiriques des Skewness, Kurtosis
et de la statistique de Jarque-Bera sont donnés par :

162
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les tests sont effectués par valeurs :
1∕2
|𝛽1 −0| |−0,39−0| |𝛽3 −0| |6,83 − 3|
ν1 = 6
= 6
= 5,42 > 1,96 et v2 = 24
= 24
= 26,61 > 1,96 .
√ √ √ √
𝑛 1159 𝑛 1159

Nous rejetons l’hypothèse de normalité en ce qui concerne la symétrie et


l’aplatissement de la distribution, ce qui est confirmé par la statistique de Jarque-
Bera :
JB = 741,3 > χ20,05(2) = 5,99. Le processus CAC40 en différences est donc un
bruit blanc non gaussien.

163
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 6 : GUIDE PRATIQUE D’UTILISATION DES LOGICIELS EVIEWS
ET STATA

CHAPITRE 6 : GUIDE PRATIQUE


D’UTILISATION DES LOGICIELS
EVIEWS ET STATA

164
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- PRESENTATION DU LOGICIEL EVIEWS
Le logiciel Eviews est spécialisé en économétrie. Il peut être utilisé de manière
simple grâce à une ergonie de type « Windows ». Il aide aussi bien en économétrie
approfondie que dans l’analyse des séries temporelles ; il possède aussi des outils
de programmation qui permettent de développer soi-même des algorithmes de
calcul.

I- CREATION DE L’ESPACE DE TRAVAIL SOUS EVIEWS


La première consiste à créer un espace de travail (Workfile) par :

• Cliquer sur File New Workfile

C’est-à-dire un espace pour les séries statistiques (journalières,


hebdomadaires, mensuelles, trimestrielles, semestrielles, annuelles, sans
dates) et les résultats de calcul.

II- IMPORTATION DES DONNEES


Pour importer les données vous devez tout d’abord saisir et enregistrer votre base
de données sur un support (Excel par exemple).

• Cliquer sur File Import Import from file, sélectionner le


fichier contenant la base de données et finaliser.

III- CREATION DES SERIES Log(IMPORT), Log(PIB),


Log(TRANSPORT)…
• Cliquer sur Quick Generates series puis taper dans la fenêtre
« Entrer equation » :
lnpib = log(pib)

lnimport = log(import)

165
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
lnfbcf = log(fbcf)
lnautres_services = log(autres_services)

Répéter le processus pour toutes les variables de l’étude.

IV- SAUVEGARDER ET DONNER UN NOM AU FICHIER


• Cliquer sur File Save as et donner un nom au fichier.
• Cliquer sur Quick Graph ; dans la fenêtre List of Series, taper les
noms des séries.

V- REPRESENTATIONS GRAPHIQUES
Pour faire le graphe d’une variable, double cliquez sur cette dernière et faites :

View Graph

PIB
12,000

10,000

8,000

6,000

4,000

2,000

0
1980 1985 1990 1995 2000 2005 2010 2015

Graphique 1 : Courbe du PIB


CTRL+C pour le copier et CTRL+V pour le coller dans un autre emplacement
ou logiciel tel que Word pour des fins d’interprétation.

166
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
VI- TEST DE NORMALITE DE JARQUE BERA
Pour tester la distribution normale des variables, il faut impérativement effectuer
le test de normalité de Jarque Bera. Pour cela, sélectionner dans notre cas d’espèce
les variables générées en commençant par lnpib.

• Cliquer sur Quick Groups statistics Descriptive statistics

Common Sample. Dans la fenêtre qui apparaitra, vous avez dans un rectangle,
vos différentes variables sélectionnées précédemment. Cliquez sur OK.

REGLE DE DECISION
- Au seuil de 5% on accepte l’hypothèse de normalité dès que la valeur de
Probability est supérieure à 0,05 soit 5%.
- Au seuil de 5% on rejette l’hypothèse de normalité dès que la valeur de
Probability est supérieure ou égale à 0,05 soit 5%.

LNPOPULA
LNIMPORT LNAUTRES TION_ACTI LNTRANSP LNVOYAG
LNPIB ATION LNFBCF _SERVICES VE ORTS ES
Mean 8.383207 7.668115 6.922924 3.831137 15.02125 3.665938 4.136854
Median 8.386461 7.649707 6.921007 3.923971 14.99948 3.541162 4.400535
Maximum 9.214443 7.759696 7.891002 5.210546 15.61469 5.189395 5.462382
Minimum 7.603175 7.605523 5.990203 2.384718 14.45434 2.534728 2.173536
Std. Dev. 0.477731 0.048143 0.490604 0.751385 0.358971 0.789103 0.982232
Skewness 0.060269 0.622960 0.177536 -0.219164 0.041766 0.532456 -0.825837
Kurtosis 1.751789 1.960876 2.259967 2.512807 1.723761 2.235757 2.508314

Jarque-Bera 2.489888 4.167486 1.066730 0.680023 2.589961 2.720329 4.702156


Probability 0.287957 0.124463 0.586628 0.711762 0.273903 0.256619 0.095266

Sum 318.5619 291.3884 263.0711 145.5832 570.8076 139.3057 157.2004


Sum Sq. Dev. 8.444403 0.085755 8.905601 20.88943 4.767825 23.03930 35.69684

Observations 38 38 38 38 38 38 38

Un tableau sort vous renseignant sur les statistiques descriptives de chaque


variable, la moyenne, la médiane, l’écart-type, le minimum et le maximum. Vous
avez également la probabilité de Jarque Bera.
167
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
RESULTATS OBTENUS
Dans le cas d’espèce, on constate que la probabilité critique associée à chaque
variable est supérieure à 5% (>0,05). Alors elles suivent toutes une loi normale.
Remarque : La probabilité associée à lnpib vaut 0,28. Autrement dit, si on rejette
l’hypothèse de normalité de la variable lnpib, il y a 28% de chances de prendre
une mauvaise décision. Le même raisonnement peut être tenu avec les autres
variables.

VII- ECRITURE DU MODELE


Log(PIBt) = c + 𝜶𝟏 log(importationt) + 𝜶𝟐 log(fbcft) + ….𝜶𝒏 log(voyagest)

c = le terme constant

𝜶𝟏 , 𝜶𝟐 ….𝜶𝒏 = élasticité des variables par rapport au PIB réel.

ESTIMATION PAR LES MCO DES COEFFICIENTS DU MODELE


• Cliquer sur Quick Estimate Equation. Rentrer dans l’ordre les
variables avec une constante c après la variable endogène c’est-à-dire la
variable expliquée ou encore la variable dépendante.

Retenez que c’est bien de savoir faire les différents tests mais c’est encore plus
mieux quand on sait les interpréter.

168
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Estimation par les MCO
Dependent Variable: LNPIB
Method: Least Squares
Date: 22/01/24 Time: 22:54
Sample: 1980 2017
Included observations: 38
Variable Coefficient Std. Error t-Statistic Prob.
C -13.06911 5.676306 -2.302398 0.0282
LNIMPORTATION 0.288533 0.831854 0.346855 0.7310
LNFBCF 0.075745 0.044798 1.690826 0.1009
LNAUTRES_SERVICE
S -0.050854 0.033460 -1.519851 0.1387
LNPOPULATION_ACT
IVE 1.258361 0.113826 11.05511 0.0000
LNTRANSPORTS -0.020803 0.022248 -0.935042 0.3570
LNVOYAGES 0.020395 0.037200 0.548261 0.5874
R-squared 0.988417 Mean dependent var 8.383207
Adjusted R-squared 0.986175 S.D. dependent var 0.477731
S.E. of regression 0.056171 Akaike info criterion -2.756018
Sum squared resid 0.097810 Schwarz criterion -2.454357
Log likelihood 59.36434 Hannan-Quinn criter. -2.648689
F-statistic 440.8969 Durbin-Watson stat 1.825559
Prob(F-statistic) 0.000000

Interprétation :
❖ Si les importations augmentent de 10% alors le PIB augmente de
28,85%
❖ Si la FBCF augmente de 10% alors le PIB augmente de 7,57%
❖ Si les autres_services augmentent de 10% alors le PIB diminue de
5,08% puisque l’élasticité associée à cette variable est négative.
❖ Si la population_active augmente de 10% alors le PIB augmente de
125%

169
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
❖ Si les transports augmentent de 10% alors le PIB diminue de 2,08%
puisque l’élasticité associée à cette variable est négative.
❖ Si les voyages augmentent de 10% alors le PIB augmente de 2,03%.

VIII- INTERPRETATION DU COEFFICIENT DEDETERMINATION


R2= 98,84% ceci implique que les fluctuations du PIB sont expliquées à 98,84%
par le modèle.

TEST CLASSIQUES

a- Test de significativité
❖ La variable Lpopulation_active a une influence significative sur la variable
LPIB car la probabilité critique associée est inférieur à 5%.
❖ Les variables Ltransports, Lautres_services, Limportation, Lfbcf,
Lvoyages n’ont pas une influence significative sur la variable LPIB car les
probabilités associées sont supérieures à 5%.
b- Test de significativité global du modèle : Le modèle est globalement
significatif car la valeur de Prob(F-statistic) est inférieure à 5% soit
0,0000000,05.
c- Test d’hétéroscédasticité des erreurs ou test de White

Règle de décision

H0 : Modèle homoscédastique (si les deux prob-chi-square (2) > 5%.

H1 : Modèle hétéroscédastique (si les deux prob-chi-square (2) < 5%.

Test d’hétéroscédasticité (Test de White)

A partir des estimations obtenues par les MCO,

Cliquer sur View Residual Diagnostics Heteroskedasticity tests

Cliquee sur White puis sur OK. On obtient les résultats ci-dessous

170
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
F-statistic 5.158264 Prob. F(24,13) 0.0018
Obs*R-squared 34.38885 Prob. Chi-Square(24) 0.0780
Scaled explained SS 209.8296 Prob. Chi-Square(24) 0.0000

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 22/01/24 Time: 23:15
Sample: 1980 2017
Included observations: 38
Collinear test regressors dropped from specification

Variable Coefficient Std. Error t-Statistic Prob.

C 6.884250 54.35727 0.126648 0.9012


LNIMPORTATION 12.79327 8.985707 1.423736 0.1781
LNIMPORTATION*LNFBCF 3.909759 1.349852 2.896435 0.0125
LNIMPORTATION*LNAUTRES_SERVICES -1.836173 0.731647 -2.509642 0.0261
LNIMPORTATION*LNPOPULATION_ACTI
VE -2.319288 0.687682 -3.372615 0.0050
LNIMPORTATION*LNTRANSPORTS 0.274147 0.304888 0.899174 0.3849
LNIMPORTATION*LNVOYAGES 0.591993 0.253118 2.338799 0.0360
LNFBCF -21.95706 8.528559 -2.574533 0.0231
LNFBCF^2 0.002096 0.025598 0.081885 0.9360
LNFBCF*LNAUTRES_SERVICES -0.020092 0.068729 -0.292336 0.7746
LNFBCF*LNPOPULATION_ACTIVE -0.511733 0.148026 -3.457043 0.0043
LNFBCF*LNTRANSPORTS -0.168966 0.054846 -3.080760 0.0088
LNFBCF*LNVOYAGES 0.089094 0.045048 1.977762 0.0696
LNAUTRES_SERVICES 11.07912 5.251924 2.109535 0.0549
LNAUTRES_SERVICES^2 0.008376 0.014853 0.563948 0.5824
LNAUTRES_SERVICES*LNPOPULATION_
ACTIVE 0.202393 0.189410 1.068542 0.3047
LNAUTRES_SERVICES*LNTRANSPORTS 0.053601 0.029161 1.838102 0.0890
LNAUTRES_SERVICES*LNVOYAGES -0.038649 0.044336 -0.871722 0.3992
LNPOPULATION_ACTIVE^2 0.709980 0.209890 3.382633 0.0049
LNPOPULATION_ACTIVE*LNTRANSPOR
TS 0.165447 0.078101 2.118359 0.0540
LNPOPULATION_ACTIVE*LNVOYAGES -0.350742 0.150787 -2.326072 0.0368
LNTRANSPORTS -3.335645 1.945942 -1.714155 0.1102
LNTRANSPORTS^2 -0.032069 0.021413 -1.497661 0.1581
LNTRANSPORTS*LNVOYAGES -0.023922 0.017696 -1.351837 0.1995
LNVOYAGES^2 0.036907 0.037611 0.981287 0.3444

R-squared 0.904970 Mean dependent var 0.002574


Adjusted R-squared 0.729529 S.D. dependent var 0.011170
S.E. of regression 0.005809 Akaike info criterion -7.215616
Sum squared resid 0.000439 Schwarz criterion -6.138256
Log likelihood 162.0967 Hannan-Quinn criter. -6.832299
F-statistic 5.158264 Durbin-Watson stat 2.871885
Prob(F-statistic) 0.001785

171
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Dans notre cas, la F-statistic est inférieure à 5%, autrement 0,001785  0,05 alors
accepte l’hypothèse d’hétéroscédasticité des erreurs du modèle.

d- Test de stabilité des paramètres : Test CUSUM (Brown, Durbin, Ewans)

Rège de décision

Si la courbe sort du corridor, les coefficients du modèle sont instables. Ce test


permet de détecter les instabilités structurelles. Après avoir estimé les paramètres
par la méthode des MCO,

Cliquer Stability Diagnostics Recursive Estimate CUSUM


Test puis OK.

Testons la stabilité des coefficients du modèle (Test de CUSUM)

20

15

10

-5

-10

-15

-20
88 90 92 94 96 98 00 02 04 06 08 10 12 14 16

CUSUM 5% Significance

Conclusion : On constate que la courbe ne sort pas du corridor, alors les


coefficients du modèle sont stables par conséquent le modèle est structurellement
stable.

e- Test de stationnarité de Dickey Fuller Augmenté

172
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
H0 : Racine Unitaire (non stationnaire)
H1 : Non Racine Unitaire (Stationnaire)
CV : Critical Value (Valeur Critique)
Règle de décision

- Si ADF < CV on accepte H1 (la série est stationnaire)


- Si ADF > CV on accepte H0 (la série est non stationnaire)

Commande
Cliquer sur Quick Series statistics Unit Root Tests Ecrire
le nom de la variable.
Ensuite, sélectionner ADF test, choisir le modèle (Trent and intercept), choisir 1
pour le nombre de décalages, choisir Level (le test est fait sur la variable en
niveau).

Test de stationnarité de Dickey Fuller Augmenté


Null Hypothesis: LNPIB has a unit root

Exogenous: Constant, Linear Trend


Lag Length: 0 (Automatic - based on SIC, maxlag=1)

t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -2.455881 0.3468


Test critical values: 1% level -4.226815
5% level -3.536601
10% level -3.200320

*MacKinnon (1996) one-sided p-values.

Augmented Dickey-Fuller Test Equation


Dependent Variable: D(LNPIB)
Method: Least Squares
Date: 23/01/24 Time: 07:38
Sample (adjusted): 1981 2017
Included observations: 37 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

LNPIB(-1) -0.316727 0.128967 -2.455881 0.0193


C 2.430277 0.973669 2.495999 0.0176
@TREND(1980) 0.013755 0.005523 2.490647 0.0178

173
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
R-squared 0.157120 Mean dependent var 0.043548
Adjusted R-squared 0.107538 S.D. dependent var 0.028640
S.E. of regression 0.027057 Akaike info criterion -4.304174
Sum squared resid 0.024890 Schwarz criterion -4.173559
Log likelihood 82.62722 Hannan-Quinn criter. -4.258126
F-statistic 3.168934 Durbin-Watson stat 2.085356
Prob(F-statistic) 0.054704

RESULTAT OBTENU
- ADF = -2,45 > -4,22 on accepte H0 donc lnpib est non stationnaire à
niveau.
En suivant la même procédure, vous pouvez effectuer le test de stationnarité pour
toutes les variables du modèle et interpréter.

IX- TEST DE COINTEGRATION DE JOHNANSEN


H0 : Non cointégration (rang de cointégration vaut zéro)
H1 : Cointégration (rang de cointégration supérieur ou égal à 1).
LR : Likelihood Ratio (rapport de vraisemblance) = Trace statistic
CV : Critical Value (Valeur Critique).
Règle de décision

- Si LR > CV cointégration
- Si LR < CV pas de cointégration
Commande
Cliquer sur Quick Group statistics cointegration taper dans
l’ordre toutes les variables précéder par ln puis choisissez No deterministic trend ;
No intercept trend.

Date: 23/01/24 Time: 07:59


Sample (adjusted): 1982 2017
Included observations: 36 after adjustments
Trend assumption: Linear deterministic trend
Series: LNPIB LNAUTRES_SERVICES LNFBCF LNIMPORTATION LNPOPULATION_ACTIVE
LNTRANSPORTS LNVOYAGES
Lags interval (in first differences): 1 to 1

Unrestricted Cointegration Rank Test (Trace)

174
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Hypothesized Trace 0.05
No. of CE(s) Eigenvalue Statistic Critical Value Prob.**

None * 0.699243 125.9136 125.6154 0.0479


At most 1 0.524752 82.66132 95.75366 0.2812
At most 2 0.440661 55.88024 69.81889 0.3828
At most 3 0.355602 34.96425 47.85613 0.4499
At most 4 0.285868 19.14444 29.79707 0.4826
At most 5 0.172848 7.023707 15.49471 0.5749
At most 6 0.005321 0.192085 3.841466 0.6612

Trace test indicates 1 cointegrating eqn(s) at the 0.05 level


* denotes rejection of the hypothesis at the 0.05 level
**MacKinnon-Haug-Michelis (1999) p-values

Unrestricted Cointegration Rank Test (Maximum Eigenvalue)

Hypothesized Max-Eigen 0.05


No. of CE(s) Eigenvalue Statistic Critical Value Prob.**

None 0.699243 43.25225 46.23142 0.1009


At most 1 0.524752 26.78108 40.07757 0.6484
At most 2 0.440661 20.91600 33.87687 0.6904
At most 3 0.355602 15.81981 27.58434 0.6810
At most 4 0.285868 12.12074 21.13162 0.5358
At most 5 0.172848 6.831622 14.26460 0.5092
At most 6 0.005321 0.192085 3.841466 0.6612

Max-eigenvalue test indicates no cointegration at the 0.05 level


* denotes rejection of the hypothesis at the 0.05 level
**MacKinnon-Haug-Michelis (1999) p-values

Unrestricted Cointegrating Coefficients (normalized by b'*S11*b=I):

LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO


LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
6.849489 -0.270535 2.176425 -84.98776 -9.501624 3.317610 1.917210
-5.023445 -2.075805 -3.483486 -13.73560 17.17477 0.317953 -0.890344
-19.06087 2.230264 1.357869 -34.79115 33.63012 -0.990410 -3.170252
0.277544 3.705312 -4.194721 -8.796403 4.328238 -0.063344 -1.979363
-12.23104 -5.945440 2.696735 -18.03450 9.973983 1.971935 6.072956
-13.70199 0.058047 0.656008 47.30594 10.80983 -0.692587 -0.284217
-2.460046 2.539638 1.093198 -37.08160 2.221050 -1.002710 -0.385212

Unrestricted Adjustment Coefficients (alpha):

D(LNPIB) 0.004528 -0.008358 0.005579 0.007156 0.002548 0.000141 0.001180


D(LNAUTRES
_SERVICES) -0.023333 0.164353 -0.075255 -0.006107 0.079972 0.004154 0.006602
D(LNFBCF) -0.021264 0.003964 0.004185 0.084931 -0.018781 -0.017045 0.002972
D(LNIMPORT
ATION) -0.004238 0.002258 0.001026 -0.000928 -0.000563 -0.002151 0.000299
D(LNPOPULA
TION_ACTIV
E) 0.001758 -0.006604 -0.021630 -0.003114 -0.000743 -0.008829 0.001024
D(LNTRANSP
ORTS) -0.399177 -0.032755 -0.042066 -0.038791 -0.069924 0.058373 0.002250
D(LNVOYAG
ES) 0.117763 0.088050 0.003776 -0.025383 -0.034971 -0.024870 0.005095

175
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
1 Cointegrating Equation(s): Log likelihood 296.0684

Normalized cointegrating coefficients (standard error in parentheses)


LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 -0.039497 0.317750 -12.40790 -1.387202 0.484359 0.279906
(0.14685) (0.12115) (2.06775) (0.31668) (0.07479) (0.13723)

Adjustment coefficients (standard error in parentheses)


D(LNPIB) 0.031013
(0.03338)
D(LNAUTRES
_SERVICES) -0.159816
(0.40700)
D(LNFBCF) -0.145648
(0.20894)
D(LNIMPORT
ATION) -0.029026
(0.01078)
D(LNPOPULA
TION_ACTIV
E) 0.012041
(0.05629)
D(LNTRANSP
ORTS) -2.734157
(0.45011)
D(LNVOYAG
ES) 0.806617
(0.24773)

2 Cointegrating Equation(s): Log likelihood 309.4590

Normalized cointegrating coefficients (standard error in parentheses)


LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 0.000000 0.350527 -11.08683 -1.564457 0.436579 0.270948
(0.10613) (1.91934) (0.27403) (0.05546) (0.06692)
0.000000 1.000000 0.829862 33.44712 -4.487801 -1.209692 -0.226780
(0.55943) (10.1177) (1.44453) (0.29233) (0.35277)

Adjustment coefficients (standard error in parentheses)


D(LNPIB) 0.073000 0.016125
(0.03907) (0.00963)
D(LNAUTRES
_SERVICES) -0.985435 -0.334853
(0.42727) (0.10530)
D(LNFBCF) -0.165559 -0.002475
(0.25902) (0.06384)
D(LNIMPORT
ATION) -0.040368 -0.003540
(0.01285) (0.00317)
D(LNPOPULA
TION_ACTIV
E) 0.045218 0.013234
(0.06896) (0.01700)
D(LNTRANSP
ORTS) -2.569615 0.175984

176
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
(0.55561) (0.13693)
D(LNVOYAG
ES) 0.364300 -0.214635
(0.27140) (0.06689)

3 Cointegrating Equation(s): Log likelihood 319.9170

Normalized cointegrating coefficients (standard error in parentheses)


LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 0.000000 0.000000 7.079090 -2.347211 -0.131494 0.129340
(1.81083) (0.22418) (0.05365) (0.05527)
0.000000 1.000000 0.000000 76.45438 -6.340947 -2.554589 -0.562034
(14.7583) (1.82707) (0.43724) (0.45044)
0.000000 0.000000 1.000000 -51.82458 2.233077 1.620627 0.403987
(8.22999) (1.01887) (0.24383) (0.25119)

Adjustment coefficients (standard error in parentheses)


D(LNPIB) -0.033348 0.028569 0.046546
(0.09334) (0.01368) (0.01935)
D(LNAUTRES
_SERVICES) 0.448984 -0.502691 -0.725489
(1.00524) (0.14735) (0.20840)
D(LNFBCF) -0.245320 0.006857 -0.054405
(0.63613) (0.09324) (0.13188)
D(LNIMPORT
ATION) -0.059926 -0.001252 -0.015695
(0.03130) (0.00459) (0.00649)
D(LNPOPULA
TION_ACTIV
E) 0.457507 -0.035007 -0.002539
(0.14546) (0.02132) (0.03016)
D(LNTRANSP
ORTS) -1.767797 0.082165 -0.811798
(1.35450) (0.19854) (0.28080)
D(LNVOYAG
ES) 0.292326 -0.206213 -0.045293
(0.66659) (0.09771) (0.13819)

4 Cointegrating Equation(s): Log likelihood 327.8269

Normalized cointegrating coefficients (standard error in parentheses)


LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 0.000000 0.000000 0.000000 -1.823420 0.093248 0.153727
(0.10018) (0.02076) (0.03287)
0.000000 1.000000 0.000000 0.000000 -0.683982 -0.127369 -0.298654
(0.48300) (0.10011) (0.15849)
0.000000 0.000000 1.000000 0.000000 -1.601495 -0.024663 0.225456
(0.36216) (0.07507) (0.11884)
0.000000 0.000000 0.000000 1.000000 -0.073991 -0.031747 -0.003445
(0.01608) (0.00333) (0.00528)

Adjustment coefficients (standard error in parentheses)


D(LNPIB) -0.031362 0.055082 0.016530 -0.527056
(0.08881) (0.02045) (0.02564) (0.39692)
D(LNAUTRES
_SERVICES) 0.447289 -0.525320 -0.699871 2.397415

177
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
(1.00503) (0.23138) (0.29019) (4.49167)
D(LNFBCF) -0.221748 0.321553 -0.410667 0.860068
(0.53700) (0.12363) (0.15505) (2.39997)
D(LNIMPORT
ATION) -0.060184 -0.004690 -0.011802 0.301604
(0.03108) (0.00715) (0.00897) (0.13889)
D(LNPOPULA
TION_ACTIV
E) 0.456642 -0.046547 0.010526 0.721241
(0.14494) (0.03337) (0.04185) (0.64775)
D(LNTRANSP
ORTS) -1.778563 -0.061566 -0.649082 36.17980
(1.34563) (0.30980) (0.38853) (6.01386)
D(LNVOYAG
ES) 0.285281 -0.300263 0.061180 -11.12595
(0.65881) (0.15168) (0.19022) (2.94435)

5 Cointegrating Equation(s): Log likelihood 333.8872

Normalized cointegrating coefficients (standard error in parentheses)


LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 0.000000 0.000000 0.000000 0.000000 -0.158180 -0.595117
(0.10216) (0.07583)
0.000000 1.000000 0.000000 0.000000 0.000000 -0.221682 -0.579553
(0.06045) (0.04487)
0.000000 0.000000 1.000000 0.000000 0.000000 -0.245491 -0.432248
(0.12784) (0.09490)
0.000000 0.000000 0.000000 1.000000 0.000000 -0.041950 -0.033832
(0.00514) (0.00382)
0.000000 0.000000 0.000000 0.000000 1.000000 -0.137888 -0.410681
(0.06015) (0.04465)

Adjustment coefficients (standard error in parentheses)


D(LNPIB) -0.062532 0.039931 0.023403 -0.573015 0.057453
(0.10226) (0.03231) (0.02791) (0.40158) (0.17090)
D(LNAUTRES
_SERVICES) -0.530851 -1.000788 -0.484208 0.955161 1.284804
(1.10382) (0.34882) (0.30125) (4.33494) (1.84482)
D(LNFBCF) 0.007958 0.433212 -0.461313 1.198766 0.591129
(0.61626) (0.19475) (0.16819) (2.42019) (1.02996)
D(LNIMPORT
ATION) -0.053299 -0.001344 -0.013320 0.311755 0.103920
(0.03592) (0.01135) (0.00980) (0.14108) (0.06004)
D(LNPOPULA
TION_ACTIV
E) 0.465725 -0.042132 0.008523 0.734634 -0.878442
(0.16796) (0.05308) (0.04584) (0.65961) (0.28071)
D(LNTRANSP
ORTS) -0.923318 0.354164 -0.837649 37.44085 0.950264
(1.52535) (0.48203) (0.41629) (5.99036) (2.54932)
D(LNVOYAG
ES) 0.713018 -0.092343 -0.033129 -10.49526 0.061629
(0.74606) (0.23576) (0.20361) (2.92993) (1.24689)

6 Cointegrating Equation(s): Log likelihood 337.3031

Normalized cointegrating coefficients (standard error in parentheses)

178
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 0.000000 0.000000 0.000000 0.000000 0.000000 -1.012434
(0.16984)
0.000000 1.000000 0.000000 0.000000 0.000000 0.000000 -1.164402
(0.16572)
0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 -1.079909
(0.23669)
0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 -0.144505
(0.03329)
0.000000 0.000000 0.000000 0.000000 1.000000 0.000000 -0.774462
(0.13147)
0.000000 0.000000 0.000000 0.000000 0.000000 1.000000 -2.638233
(0.75720)

Adjustment coefficients (standard error in parentheses)


D(LNPIB) -0.064464 0.039939 0.023495 -0.566345 0.058977 0.011312
(0.11752) (0.03231) (0.02804) (0.44860) (0.17690) (0.01715)
D(LNAUTRES
_SERVICES) -0.587773 -1.000547 -0.481483 1.151684 1.329711 0.204590
(1.26841) (0.34878) (0.30269) (4.84193) (1.90934) (0.18511)
D(LNFBCF) 0.241506 0.432223 -0.472495 0.392447 0.406878 -0.104039
(0.70237) (0.19313) (0.16761) (2.68115) (1.05727) (0.10250)
D(LNIMPORT
ATION) -0.023828 -0.001468 -0.014731 0.210006 0.080669 -0.013919
(0.03965) (0.01090) (0.00946) (0.15136) (0.05969) (0.00579)
D(LNPOPULA
TION_ACTIV
E) 0.586695 -0.042645 0.002731 0.316987 -0.973878 0.030003
(0.18716) (0.05146) (0.04466) (0.71446) (0.28174) (0.02731)
D(LNTRANSP
ORTS) -1.723140 0.357552 -0.799356 40.20222 1.581263 -1.468922
(1.72501) (0.47433) (0.41165) (6.58493) (2.59666) (0.25174)
D(LNVOYAG
ES) 1.053787 -0.093786 -0.049444 -11.67176 -0.207212 0.364819
(0.84705) (0.23291) (0.20214) (3.23345) (1.27506) (0.12362)

RESULTAT OBTENU
125,97 > 125,61 cointégrations de lnpib et des autres variables du modèle au seuil
de 5%. Le log du PIB et celui des autres variables suivent des évolutions parallèles
entre 1980 et 2017.

179
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
EXERCICE

Solution : La solution de cet exercice en vidéo explicative et en PDF avec toutes


les analyses et interprétations est disponible à l’adresse (+229) 94270028.
Vous pouvez également bénéficier d’une formation complète sur l’analyse des
données avec le logiciel de votre choix (SPSS, STATA et EVIEWS) sur cette

180
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
même adresse et vous aurez droit à une réduction exceptionnelle parce que vous
avez déjà le document. Ecrivez vite au (+229) 94270028 pour bénéficier de votre
réduction.

181
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
STATA
Ce guide vous servira d’outil de référence tout au long de votre analyse des
données avec le logiciel Stata. Nous avons tenté de rassembler toute la matière
essentielle à la maitrise parfaite de ce logiciel. Cela dit, il se peut que pour
certains, des sections de cette partie contiennent des notions triviales ou trop
avancées en fonction de vos objectifs de recherche. Il vous suffira donc de sauter
à la prochaine section plus rapidement.
Chaque section présente le but de l’opération qui y est traitée. Les commandes
appropriées sont ensuite présentées, d’abord individuellement, puis dans le cadre
d’un exemple concret. Prenez note que ce texte décrit seulement les fonctions
ainsi que leurs options les plus souvent utilisées, il n’est donc pas du tout
exhaustif.
Un conseil : apprenez à utiliser l’aide de Stata. Il s’agit d’un outil fort utile pour
découvrir de nouvelles fonctions ou pour connaître l’ensemble des options
disponibles pour les fonctions décrites dans ce guide.
La première partie vous indiquera comment trouver les données d’enquête dont
vous aurez besoin pour réaliser votre recherche. La deuxième décrivant la base
des manipulations économétriques et la dernière partie exposant des
manipulations plus poussées. Il abordera des sujets spécifiques de l’économétrie.
Il introduit peu de nouvelles fonctions, se concentrant plutôt sur la démarche à
adopter pour effectuer l’opération en question.

I- EXTRACTION DES DONNEES


Il existe deux types de fichiers de données (d’enquête et agrégées) à partir
desquels sont faites les manipulations économétriques qui permettront d’estimer
la valeur du lien entre deux variables. Les données d’enquête sont des données
brutes et les données agrégées sont des données qui ont subit un traitement
statistique. En examinant ce type de fichier, on comprend ce que les données
signifient parce qu’elles ont été manipulées (ex. : Les PIB communal). Ces deux

182
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
types de fichier de données peuvent être structurés de façons différentes, et
permettent de réaliser différents types d’analyses économétriques.

On associe souvent les données structurées en coupe transversale à l’analyse


statique dans les domaines de la microéconomie (économie du travail, finance
publiques municipales, organisation industrielle, etc.). Les données sur les
individus, ménages, compagnies, villes, etc.

Les autres types de structures de données privilégient les données agrégées (séries
chronologiques) ou nécessitent des connaissances plus poussées en économétrie
(pooling et panel).

Les séries chronologiques sont généralement utilisées lors d’études relevant du


domaine de la macroéconomie (indice des prix à la consommation, produit
intérieur brut, vente annuelle de voiture dans l’industrie automobile, etc.). Ce type
de bases de données est donc composé de données agrégées et est privilégiée pour
faire des études macroéconométriques (généralement des prévisions).
Finalement, les structures appelées pooling et panel, comportent les
caractéristiques des structures de données précédentes. Le pooling a pour but de
comparer l’évolution de la relation entre un échantillon et une caractéristique clé
à travers le temps (ce type de base de données est très fréquemment utilisé pour
évaluer l’impact d’une politique publique sur un échantillon). Le panel est très
semblable au pooling, mais la différence réside dans le fait que les unités de
l’échantillon restent les mêmes à travers le temps.

Note : Il arrive qu’il y ait des données manquantes dans les fichiers de données.
Dans le cadre de données d’enquête, un répondant peut refuser de répondre à une
question. Dans ce cas, on retrouve un espace vide dans la base de données, ce qui
peut fausser les résultats de manipulations. Il faut remplacer ces espaces par des
points, Stata ne pouvant pas lire les espaces vides. Allez dans le bloc note et faites
Ctrl+H. Et sur les fichiers de données agrégées, deux options s’offrent à vous
pour combler les espaces vides. Vous pouvez soit faire des moyennes mobiles, en
183
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
utilisant la valeur avant et la valeur après la donnée manquante (par exemple, s’il
manque le PIB pour l’année 2020, additionnez celui de 2019 à celui de 2021, et
divisez-les en deux. Cela donne la moyenne mobile pour 2020.) Une idée de la
valeur manquante peut aussi vous être donnée en faisant un graphique. Or,
puisqu’il manque des données, Stata ne pourra produire le graphique, vous devrez
donc aller dans Excel…

II- LE TRAITEMENT DES DONNEES


2.1. Rappel de notions théoriques d’économétrie
2.1.1 Qu’est-ce que l’économétrie ?
Les régressions sont des outils qui permettent, entre autres, d’estimer l’effet
marginal de la variation d’une unité de la variable indépendante sur la variable
dépendante. On peut, par exemple, tester des théories économiques, évaluer
l’impact d’une politique publique sur un échantillon de population ou même de
faire des prévisions…
Pour faire une régression, il faut que tous les autres facteurs (d’autres variables
indépendantes) pouvant influencer la variable dépendante soient maintenus
constants. Leur effet potentiel sur la variable dépendante pourrait être capté par la
variable indépendante d’intérêt et ainsi être à la source d’une augmentation (ou
diminution) marginale sur la variable dépendante. Même si cela est quasi-
impossible, il faut tenter de contrôler pour le maximum de variables
indépendantes pertinentes (l’ajout de variables réduit le nombre de degrés de
liberté) afin d’être certain de la validité du lien de causalité prédit entre la variable
dépendante et la variable indépendante d’intérêt.
2.1.2 La différence entre un estimateur non-biaisé et efficace, et une
variable significative
Pour pouvoir assumer que les coefficients de la MCO sont non-biaisés, c’est-à-
dire que la valeur prédite par l’estimateur converge vers la valeur dans la

184
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
population, on doit faire l’hypothèse que les 4 conditions suivantes sont respectées
dans notre échantillon.

1. Les paramètres suivent une fonction linéaire : y = β0 + β1x + u


2. L’échantillon est identiquement et indépendamment distribué.
3. L’espérance du terme d’erreur sachant x est égale à zéro. E (u/x) = 0
4. Pas de multicolinéarité exacte.
Si l’échantillon est homoscédastique et qu’il n’y a pas d’autocorrélation, on peut
aussi assumer qu’on a des estimateurs efficace ou BLUE (Best linear Unbiased
Estimators).
Maintenant, on peut déterminer si une variable est significative ou non en utilisant
un test d’hypothèse. Une variable est significative lorsque la statistique du test (t,
f, etc.) calculée par Stata se trouve dans la zone de rejet de l’hypothèse nulle, on
suppose donc que β>0 ou β<0 ou β≠0. On peut aussi utiliser la « p-value » pour
déterminer si le coefficient passe le test de signification. La partie ci-dessous fait
un rappel de ce que sont les tests d’hypothèses.
Pour pouvoir assumer que les coefficients du modèle probit sont non-biaisés, le
principe reste le même que celui de la MCO à cause de la variable latente (y*i =
β0 + β’xi + ui). Pour déterminer si la variable indépendante du probit est
significative, on doit faire comme pour la MCO, c’est-à-dire, faire passer un test
de signification.

2.1.3 Les tests d’hypothèses


Faire un test d’hypothèse consiste vérifier si l’effet marginal de β sur la variable
dépendante est nul ou non nul en comparant une statistique de test calculée à l’aide
de paramètres estimés (β et σ) à une statistique critique. Dans cette partie, nous
vous parlerons des quatre statistiques de test les plus souvent utilisées dans le
cadre de votre cours, soit la t de Student, la f de Fisher, la z de la distribution
normal standard et la « p-value ». Avant de parler plus précisément des quatre

185
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
statistiques de test, nous ferons un bref rappel des principes fondamentaux du test
d’hypothèse.
La première chose à faire est de formuler l’hypothèse que l’on veut tester. On doit
donc définir notre hypothèse nulle (H0) et l’hypothèse alternative. Dans le cadre
de régression, H0 consiste, la plupart du temps, en un coefficient égal à zéro (H0 :
β=0). En termes économiques, cela veut dire que l’effet marginal des coefficients
sur la variable dépendante est nul. L’hypothèse alternative peut aussi prendre
diverses formes selon le cas : H1 : β≠0, H1 : β>0 ou H1 : β<0. La formulation de
l’hypothèse alternative est très importante puisqu’elle vient influencer la zone de
rejet du test. Cette zone est déterminée en fonction du niveau de confiance choisi
(α) et si on fait un test à une ou deux queues. Plus le niveau de confiance est élevé,
plus le test est précis. En sciences humaines, on choisi généralement un niveau de
5%. Dans ce cas, il y a 5% des chances que l’on rejette l’hypothèse nulle alors
qu’elle est vrai. De plus, quand la situation le permet, il est préférable de
privilégier un test bilatéral pour avoir un test plus précis.

̂−𝜷∕𝝈
La statistique t se calcule ainsi : 𝜷 ̂ 𝜷 . Stata donne cette statistique dans le
tableau des résultats d’un régression par MCO. Alors, avec un niveau de confiance
de 95% et un nombre infini de degrés de libertés, si H0 : β=0 et H1 : β≠0, la zone
de non-rejet sera de -1.96 à 1.96. Ceci est un test bilatéral. Si H0 : β=0 et H1 : β>0,
la zone de non-rejet sera de 0 à 1.64. Si H0 : β=0 et H1 : β<0, la zone de non-rejet
sera de -1.64 à 0. Ceux-ci sont des tests unilatéraux. Donc, on rejette H0 : β=0 si
la statistique t donnée se trouve à l’extérieure de l’intervalle de confiance. Si t est
rejeté, cela veut dire que notre coefficient a un impact sur notre variable
indépendante, donc qu’elle est statistiquement significative.
En ce qui concerne la statistique z, avec un niveau de confiance de 95%, si H 0 :
β=0 et H1 : β≠0, la zone de non-rejet sera aussi de -1.96 à 1.96. Si H0 : β=0 et H1
: β>0, la zone de non-rejet sera de 0 à 1.645. Si H0 : β=0 et H1 : β<0, la zone de
non-rejet sera de - 1.645 à 0. Donc, on rejette H0 : β=0 si la statistique z donnée

186
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
se trouve à l’extérieure de la zone de non-rejet. Si z est rejeté, cela veut dire que
notre coefficient a un impact sur notre variable indépendante, donc qu’elle est
statistiquement significative.
La statistique f (test de signification conjointe de Fisher) est caractérisée par deux
valeurs : q, le nombre de contraintes, i.e. le nombre de degrés de libertés du
numérateur et k, le nombre de coefficients du modèle non-contraint, (n – k) est le
nombre de degrés de libertés du dénominateur.
f = (R2/ k) / (1- R2 ) (n-k-1)
Dans le cas où on a deux contraintes et où (n – k) peut être considéré infini (>100),
la valeur critique de la statistique f à 95% est 3.00, i.e. Prob [q,n k F . . f] = 0.95.
Ainsi, si la valeur de la statistique f obtenue est supérieure à la valeur critique, on
rejette l’hypothèse nulle. Dans le cas contraire, on ne peut rejeter l’hypothèse
nulle.

La « p-value » est une probabilité (entre 0 et 1) qui indique la probabilité sous H0


: β=0 d’obtenir la valeur trouvée. Ainsi, si le « p-value » est sous le α désiré (5%),
on rejette l’hypothèse nulle. Une « p-value » de 0.0000 rejette très fortement
l’hypothèse nulle.
2.1.4 Homoscédasticité vs Hétéroscédasticité
Si, par hypothèse, on assume que le terme d’erreur de notre modèle est
homoscédastique, on peut dire que l’on a des coefficients efficaces.
L’homoscédasticité qualifie une variance constante des résidus de données
composant l’échantillon. À l’inverse, on dit qu’il y a hétéroscédasticité lorsque la
variance des résidus du modèle n’est pas constante. L’hétéroscédasticité ne biaise
pas l’estimation par MCO des coefficients, mais révèle l’inefficacité des
coefficients. En effet, puisque les écarts-types trouvés sont surestimés ou sous-
estimés, on ne peut se référer à une table afin de comparer la valeur obtenue aux
valeurs critiques de la statistique concernée puisque la valeur obtenue n’est pas la

187
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
bonne. L’hétéroscédasticité est une situation rencontrée fréquemment dans les
données, il est donc important de savoir la détecter5 et la corriger6.
2.2 Commandes de base sur Stata
Le texte qui se trouve en italique désigne le texte tel qu’il serait entré à
l’ordinateur, dans Stata, pour obtenir les manipulations souhaitées.

2.2.1 Pour débuter l’analyse


Lorsqu’on utilise Stata, il est préférable d’utiliser un fichier Do-file. Ce faisant, il
est plus facile de sauver les commandes de programmation. Pour ne pas perdre
ses commandes après une séance de TP, la façon la plus simple est de copier-
coller son Do.file dans un document Word, de sauver ce fichier Word sur le bureau
de l’ordinateur, et de se l’envoyer, en attachement, sur son compte de courriel
(umontreal.ca, hotmail,
etc.). Pour travailler avec le Do.file, on clique sur l’icône se trouvant sur la barre
d’outils de Stata.
Importation de données. Avant d’aller chercher votre fichier de données pour le
lire sur Stata, assurez vous que le format de celles-ci est compatible avec Stata.
Outre les séparateurs de données qui doivent correspondre à la commande choisie,
il faut aussi s’assurer que le séparateur de décimales soit un point (.) et que les
milliers ne soient pas séparés par un espace.
Il existe deux façons d’aller chercher votre fichier. L’utilisation de l’une ou l’autre
dépend de la manière dont vos données sont disposées dans votre fichier. Rapide
et efficace, insheet permet d’importer les données d’un fichier texte possédant une
observation par ligne et dont les données sont séparées par des tabulations ou des
virgules. Si le nom des variables est sur la première ligne :
insheet using "nomdefichier"
Si le fichier ne contient pas le nom des variables : insheet [nom des variables]
using "nomdefichier"

188
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Infile permet plus de flexibilité que insheet en permettant que les observations
soient sur plusieurs lignes ou que les données soient séparées par des espaces.

Données pondérées. Il est fortement possible que les données votre base de
données soient pondérées. Par exemple, dans un recensement, les répondants
n’ont pas tous le même poids dans le sondage. En effet, un répondant de la ville
de Cotonou n’a pas le même poids qu’un répondant provenant de Parakou, la
population de Cotonou représentant 14% de la population béninoise alors que la
population de Parakou est dans les environs 1/3 de celle de Cotonou. Si vos
données sont pondérées, cela sera généralement indiqué sur à la fin de la base de
données ou dans le cliché d’enregistrement. Si tel est le cas, vous devrez l’indiquer
à Stata à l’aide de la fonction suivante : svyset [pweight =
nomdevariabledepondération]. Lorsque Stata est avisé que vos données sont
pondérées, il suffit d’ajouter svy avant chaque fonction (exemple : svymean,
svyregress, svyprobit…). Ce faisant, vous n’avez pas à toujours ajouter [pweight
= fweight] comme option à la fin de vos fonctions. Une exception à cette règle
existe toutefois. En faisant une régression par MCO, vous ne pouvez corriger pour
l’hétéroscédasticité en utilisant l’option robust si vous utilisez la fonction
svyregress. Donc, il faut utiliser regress et ajouter [pweight = fweight] en option
à la fonction.
Voici un exemple de ce à quoi devrait ressembler un début de fichier Do-file :
clear
set memory 800m
log using nouveaunom.log, replace
insheet using "C:\Documents and Settings\p0678264\Bureau\EXTRACT.TAB"
svyset [pweight = fweight]

2.2.2 Création de nouvelles variables.


C’est la commande generate ou g qui permet de créer de nouvelles variables. g
nomnouvellevariable = nomvariable. Le nom de la variable indiqué du côté

189
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
gauche du signe d’égalité est le nom de la variable que l’on veut créer par
l’entremise de l’opération, et le nom du côté droit est le nom de la variable tel
qu’attribué ou correspondant à une variable dans le fichier de données. On peut
désirer créer des nouvelles variables parce que celles que l’on retrouve dans notre
base de données ne nous satisfait pas. Par exemple, si on veut estimer l’impact
d’être une femme sur le niveau d’éducation, la variable « sex » qui englobe les
hommes et les femmes n’est pas assez précise. On créera donc une variable binaire
ou dummy. Par exemple : g femme = (sex==2) et g homme = (sex==1). En terme
littéraire cela veut dire : générer la nouvelle variable appelée femme lorsque la
variable d’origine appelé sex prend la valeur 2 (lorsque le répondant est une
femme, 2 est inscrit dans la base de donnée). Créer une nouvelle variable voudra
probablement dire la modifier mathématiquement. Par exemple : g salaire1 =
log(salaire) ou g salaire2 = salaire^2.
Dans le tableau suivant, vous trouverez les opérateurs logiques et de comparaisons
les plus fréquemment utilisés.

Soustraction - Addition +
Division / Multiplication *
Non (¬) ~ Puissance ^
Ou | Et &
Renvoie l’argument possédant
Renvoie l’argument Min Max
la
possédant la valeur la
(x1…xn) valeur la plus élevée (x1…xn)
moins élevée
Différent ~= Égal ==
Racine carrée de x Sqrt(x) ex Exp(x)
Plus petit < Plus grand >
Logarithme de x Log(x) Σx Sum(x)
Plus petit ou égal <= Plus grand ou égal >=

190
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.2.3 Divers
Il est possible d’insérer des commentaires dans son programme en prenant soin
de débuter la ligne de commentaire par le symbole ‘*’. Par exemple: * Ceci est un
commentaire.
La majorité des fonctions peuvent être suivies de if qui permet de spécifier une
condition pour que la commande soit exécutée. if est placé après la fonction, mais
avant les options. Par exemple : regress y x1 x2 x3 if sex==1
La majorité des fonctions peuvent être suivies de in qui permet de spécifier
l’étendue des données affectées par la fonction. in est placé après la fonction, mais
avant les options. L’étendue peut prendre la forme # ou #/#, et # peut-être un
nombre positif, l (dernière observation), f (première observation) ou un nombre
négatif (distance par rapport à la dernière observation). Par exemple : regress y x1
x2 x3 in f/60 (les 60 premières observations) ou regress y x1 x2 x3 in -10/1 (les 10
dernières observations).
Si vous voulez afficher à l’écran la valeur de certaines variables, faite list
nomsdesvariables. Par exemple : list sex in -10/1 (Stata affichera la valeur des 10
dernières observations de la variable sexe).

Si vous ne voulez pas retenir certaines catégories d’une variable binaire, vous
pouvez utiliser la fonction drop. Par exemple : drop if sex==2
2.3 Statistiques de l’échantillon
Il est toujours recommandé d’examiner le portrait de notre échantillon avant de
commencer à faire des manipulations. En effet, cela permet de vérifier s’il y a des
anomalies dans l’échantillon qui pourraient venir biaiser les estimateurs. Un
exemple d’anomalie pourrait être de retrouver quelques données très éloignées de
la moyenne (le revenu de Dangote dans un échantillon du revenu d’infirmières).
Pour ce faire, deux options s’offrent à vous. Si vous êtes plus visuel, faire un
graphique des données s’avère la meilleure option. Sinon, il suffit d’utiliser

191
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’option summarize (ou mean). Vous n’avez qu’à inscrire la fonction suivit du
nom de vos variables. Par exemple :
svymean homme femme age1519 age2024 age2529 age3034 age3539 age4044
age4549 age5054 age5559 age6069 celibataire marieunionlibre veufs
separedivorce eduprimaire educsecondpartielles diplomesecondaire
etudespostsec diplomepostsec bacc diplomedeuxiemecycle salaire lnsalaire Un
tableau comme celui-ci apparaît.

On retrouve le nom des variables dans la première colonne. La proportion de


l’échantillon qui se retrouve dans les catégories de chaque variable (en bref, la
moyenne) se trouve dans la seconde colonne. On ne doit pas oublier que la somme

192
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
doit être égale à 1 pour chaque groupe de variables dichotomiques. Nous ne nous
attarderons pas aux autres colonnes, car elles sont moins utiles pour l’analyse.
Finalement, en utilisant ces données, vous pourrez faire des tableaux croisés qui
vous donneront une intuition des résultats de votre régression (i.e. les moyennes
donnent une bonne idée du signe (+/-) du coefficient. Voici un exemple de tableau
croisé.
Origine du vote, élection présidentielle, USA, 2004, %

Bloc Républicain Union Progressiste

Catholique 1 40
Protestants 54 5

Source : Résultats fictifs


La fonction table ou tabulate dans Stata s’avère une autre façon de créer un
tableau croisé. Il suffit d’inscrire la fonction suivit des variables que l’on désire
voir dans le tableau, en prenant soins de toujours inscrire le nom de la variable
dépendante en premier.

2.4 Graphiques et tableaux


Pour tracer des graphiques, il suffit d’inscrire graph suivit du type de graphique
ainsi que le nom des variables que l’on veut sur le graphique. Le type de graphique
peut prendre les valeurs suivantes :
• twoway (t) : nuage de points à deux axes ; valeur par défaut si plusieurs variables
sont affichées. La première variable spécifiée est toujours la variable dépendante.
• bar (b) : graphique à barres
• pie (p) : graphique en pointe de tartes
Par exemple : graph bar education femme homme
Si on souhaite donner un titre au graphique :
graph bar education femme homme, title(inscrire le titre souhaiter)

193
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.5 Régressions
2.5.1 Régression par les moindres carrés ordinaires (MCO)
La régression par les MCO est une méthode qui permet d’estimer les coefficients
d’une régression linéaire multivariée en minimisant la somme des carrés des
résidus. La régression par MCO permet d’obtenir des estimateurs BLUE.
ŷ = β0 + β1x1 + β2x 2+ β3x+3…βnxn

En faisant une régression à l’aide de Stata, vous obtiendrez donc une liste de
coefficients (β1, β2, β3, …βn). Ici, il est préférable de ne pas inscrire les coefficients
sous la forme d’une équation (par exemple : ŷ = 0.33 + 0.25x1 + 0.25x2 + 0.25x3).
Si vous décidez de le faire, il est important d’inscrire la valeur de la statistique t
en dessous de chaque coefficient afin que le lecteur sache si les variables sont
significatives ou non. Une façon plus élégante de présenter les résultats est
d’inscrire le nom des variables ainsi que leur coefficient et leur statistique t dans
un tableau, et souligner les variables qui passent le test de « signification » en
gras.
Pour programmer une régression sur Stata, il suffit d’inscrire regress suivit de la
variable dépendante et des variables indépendantes. Dans notre programmation,
on doit laisser tomber une catégorie pour chaque variable binaire (pour éviter le
problème de multicolinéarité parfaite). L’exemple suivant inclus aussi une
condition (if prive==1), la pondération et la correction de l’hétéroscédasticité.
regress lnsalaire homme age1519 age2529 age3034 age3539 age4044 age4549
age5054 age5559 age6069 marieunionlibre veufs separedivorce
educsecondpartielles diplomesecondaire etudespostsec diplomepostsec bacc
diplomedeuxiemecycle dmois pans dans tans tempsplein couverturesyndicale
professionel personneldebureau sante education hotellerierestauration
protection saisonnier temporairecontractuel occasionnelautre
entre20et99employes entre100et500employes plusde500employes if prive==1
[pweight = fweight] , robust

194
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Correction de l’hétéroscédasticité. Effectuer une régression par MCO et
calculer les variances robustes d’Eicker-White. Dans Stata, il suffit d’ajouter
l’option robust (exemple : regress y x1 x2 x3, robust) à sa régression pour corriger
les écarts-types. Toutes les interprétations et les tests s’effectuent comme
auparavant avec les nouveaux écarts-types. Il peut être tentant d’utiliser
systématiquement les écarts-types robustes, mais il faut savoir que cette méthode
gonfle les écarts-types inutilement et réduit la puissance des tests lorsque ceci
n’est pas nécessaire. Il faut donc s’abstenir de l’utiliser lorsqu’elle ne s’avère pas
nécessaire.

2.5.2 Probit/Dprobit
Le probit fait partie de la famille des modèles de régression pour variables
dépendantes prenant des valeurs dichotomiques. On parle ici des probit, logit, etc.
Dans cette partie, nous nous attarderons uniquement au plus simple de ces
modèles, c’est-à-dire le probit.
Le probit permet de comprendre l’effet d’une variable indépendante sur la
probabilité de se retrouver dans un état. On arrive essentiellement au même but
que celui de la MCO, c’est-à-dire de « prédire » la valeur d’une variable
dépendante à l’aide de variables indépendantes (ou explicatives). Néanmoins,
dans le cas d’un probit, la variable dépendante est qualitative. Le modèle
ressemble à ceci :
y*i = β0 + β’xi + ui
y*i est une variable latente, c’est-à-dire qu’elle est inobservable (ex. : propension
à acheter, préférence d’avoir des enfants, préférence pour un parti politique…).
Néanmoins, on peut observer le comportement de l’individu. Par exemple :
l’individu a acheté une voiture ou l’individu vote pour tel parti politique, etc. Dans
le modèle probit, la variable dépendante est une variable binaire (dummy) dont la
valeur est 1 quand l’événement se produit, et 0 quand il ne se produit pas (note :
le zéro est un seuil choisi arbitrairement).

195
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Y=1 si y*i > 0 ou Y=1 si (β0 + β’xi + ui)> 0 Y=0 autrement.

Le modèle probit donne l’effet de la variation d’une unité de la variable


indépendante sur la probabilité que l’évènement se produise. Sa distribution
normale standard cumulative (Ф(z)) permet de restreindre la distribution des
valeurs que le paramètre βi peut prendre à des valeurs entre 0 et 1.
Prob (y=1) = prob (β0 + βixi + ui> 0)
Prob (y=1) = prob (ui> - (β0 + βixi))
Prob (y=1) = 1- Ф (-(β0 + βixi))
Parce que ui ~ N(0,σ2)
Prob (y=1) = Ф (β0 + βixi)
En somme, ce que l’on cherche à connaître ici est l’effet de xi sur la probabilité
de voir l’évènement se produire. Or, le probit, tel que formulé ci-dessus, nous
donne la probabilité associée à une valeur donnée de la valeur latente (y* i)
exprimé par la combinaison linaire des variables indépendantes. La façon
d’obtenir l’effet de x sur la probabilité que l’évènement se produise est de faire
un dprobit. Le dprobit dérive la fonction sur xi.
δ Prob (y=1) / δ xi
δ (Ф (β0 + βixi)) / δ xi)
(δ Ф/ δ f) * (δ f/ δ xi)
Prob (y=1) = fi (β0 + βixi) * (βi) où fi est la fonction de densité de probabilité
En langage très vulgarisé, le dprobit remplace par le x i par la valeur pour
l’individu moyen, ce qui permet de calculer la probabilité qu’un individu moyen
se retrouve dans un certain état.
Pour faire un probit, il suffit d’inscrire probit suivit de la variable dépendante et
des variables indépendantes (comme pour la régression…). probit
variabledépendante variable indépendante On inscrit dprobit suivit de la variable
dépendante et des variables indépendantes pour faire un dprobit.

196
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
probit ref rural panglo km2 ymedian pgv pimm tax5ans pop ratiopop mois quebec
age dprobit ref rural panglo km2 ymedian pgv pimm tax5ans pop ratiopop mois
quebec age
Options: probit possède en grande partie les mêmes options que regress.
Note: Ici predict donne par défaut la probabilité. Pour avoir l’estimation linéaire,
il faut préciser xt dans les options de predict.
Note : Pour le Probit, on n’a pas besoin de corriger pour l’hétéroscédasticité
puisque que l’échantillon est homoscédastique par hypothèse.

2.6 L’interprétation des résultats


Dans le cadre de cette partie, nous allons décrire et expliquer la signification des
résultats des régressions (MCO et probit).
2.6.1 Régression par MCO
regress lnsalaire homme age2024 age2529 age3034 age3539 age4044 age4549
age5054 age5559 age6069 marieunionlibre veufs separedivorce
educsecondpartielles diplomesecondaire etudespostsec diplomepostsec bacc
diplomedeuxiemecycle dmois pans dans tans tempsplein couverturesyndicale
professionel personneldebureau sante education hotellerierestauration
protection saisonnier temporairecontractuel occasionnelautre
entre20et99employes entre100et500employes plusde500employes if prive==1
[pweight = fweight] , robust

197
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La R-squared (R-carré) est la proportion de la variation de la variable
indépendante qui est expliquée par les variables indépendantes. Il est préférable
d’utiliser un R-carré ajusté puisque le R-carré est affecté par le nombre de
variables indépendantes. Le R-carré est biaisé à la hausse lorsque le nombre de
variables indépendantes est élevé. La plupart du temps, Stata donne le R-carré et
le R-carré ajusté. Sinon, vous devez le calculer vous-même. Si vous obtenez un

198
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
R-carré qui semble petit, il ne faut pas nécessairement rejeter votre modèle. Un
faible R-carré vous donne plutôt l’indice qu’il manquerait des variables
explicatives pertinentes à votre modèle.

Dans la première colonne, on retrouve nos variables indépendantes. Les


coefficients (β) sont dans la seconde colonne (note : les coefficients sont toujours
exprimés dans les unités de la variable dépendante). Dans la troisième colonne,
on retrouve les écarts types estimés. La quatrième colonne donne la statistique t.
La statistique t est essentielle afin de déterminer si les coefficients sont
significatifs. La statistique t doit être interprétée à l’aide de la table de Student.
Finalement, les dernières colonnes donnent l’intervalle de confiance à un niveau
de 5%.

2.6.2 Probit/Dprobit

Le tableau des résultats du probit est très similaire à celui de la régression par
MCO : on retrouve la statistique z au lieu de la statistique t. Le coefficient
s’interprète toutefois plus ou moins bien, comparé à celui résultant d’une MCO.
Le coefficient donne l’effet marginal d’une variation d’une unité de la variable

199
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
indépendante xi sur la valeur de la variable latente y* i. Un dprobit s’avère donc
nécessaire.

Dans le tableau des resultats du dprobit, on retrouve deux nouvelles colonnes :


celle du dF/dx et celled u x-bar. Le dF/dx donne l’effet marginal d’une variation
d’une unité de la variable indépendante sur la probabilité de se retrouve dans un
certain état (prob(y=1)). Le x-bar correspond à la probabilité d’obtenir un individu
dans la catégorie moyenne.
2.6.3 Interprétation économique
Dans le cas du probit comme de la régression par les MCO, des erreurs
d’interprétation peuvent survenir. Tout d’abord, dans votre modèle on retrouve
une variable dépendante et des variables indépendantes. Dans le cadre de notre
recherche, nous nous intéressont à la relation entre une variable indépendante en
particulier et la variable dépendante. Donc, les autres représentent des variables
de contrôle (i.e. ceteris paribus), que vous devrez par ailleurs interpréter. Ainsi,
nous voulons souligner que le lien de causalité prévaut entre la variable
dépendante et la variable indépendante d’intérêt, et non pas entre les variables
indépendantes. Par exemple, l’objectif d’interprétation n’est pas de comparer les

200
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
coefficients de deux variables indépendantes du modèle afin de vérifier laquelle a
une influence plus grande sur la variable dépendante.
Ensuite, si vous avez une variable indépendante qui cause indirectement une autre
variable indépendante qui explique la variable dépendante, il est préférable de
l’enlever du modèle. Par exemple, l’intelligence (variable indépendante) cause la
scolarité (variable indépendante) qui explique le revenu (variable dépendante).
Dans ce cas-ci, il faudrait enlever la variable scolarité parce qu’il devient difficile
de déterminer si elle cause directement le revenu ou si elle a un effet sur le salaire
par l’intermédiaire de la variable intelligence. Ici, l’intelligence serait une variable
proxy.
III- Manipulations plus poussées
3.1 Hétéroscédasticité
Détecter l’hétéroscédasticité. Plusieurs tests se ressemblant existent pour
détecter l’hétéroscédasticité. On aborde dans ce chapitre deux de ces tests, le test
de Breusch-Pagen et le test de White. L’idée générale de ces tests est de vérifier
si le carré des résidus peut être expliqué par les variables explicatives du modèle.
Si c’est le cas, il y a hétéroscédasticité.
La plus simple est le test de Breusch-Pagen:
1. récupérer les résidus de la régression qu’on désire tester ;
2. générer le carré des résidus ;
3. régresser le carré des résidus sur les variables indépendantes de la régression
originale ;
4. tester si les coefficients sont conjointement significatifs (test F ou test LM).
reg y x1 x2
predict u, r
g u2 = u^2
reg u2 x1 x2

201
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il suffit alors de regarder la statistique F donnée par Stata.
La faiblesse du test de Breusch-Pagan est qu’il suppose les erreurs normalement
distribuées. Afin de laisser tomber cette hypothèse, il suffit d’ajouter le carré des
variables indépendantes et leurs produits croisés dans la régression de l’étape 3, il
s’agît là du test de White. Afin de limiter le nombre de paramètre, on peut utiliser
un test de White légèrement modifié :
u2 = β0 + β1ŷ+ β2ŷ2 + e
On procède pour le reste exactement de la même façon que pour le test de
Breusch-Pagan.
Interprétation des résultats des tests d’hétéroscédasticité. Les deux tests
mentionnés plus haut utilisent un test F. Dans le contexte d’un test
d’hétéroscédasticité, l’hypothèse nulle est que tous les coefficients de la
régression des résidus au carré sont nuls, bref il y a homoscédasticité. L’hypothèse
alternative est qu’il y a hétéroscédasticité. Ainsi, si on rejette l’hypothèse nulle («
p-value » < alpha), on peut conclure à la présence d’hétéroscédasticité. Stata
affiche toujours la «p-value» du test F de «overall significance» lorsqu’il effectue
une régression. C’est exactement le test qui nous intéresse dans le cas de
l’hétéroscédasticité. Il n’est donc pas nécessaire d’effectuer un test
supplémentaire après la régression.
3.2 Séries chronologiques
Une série chronologique est le résultat d’un processus stochastique (aléatoire)
indexé en fonction du temps. Plusieurs problèmes sont propres aux séries
chronologiques, notamment en raison de la corrélation du terme d’erreur entre les
observations (autocorrélation) et de la possibilité de changement du processus
générateur de données d’une époque à l’autre. Les sections qui suivent adressent
la question de comment s’assurer que l’on peut travailler avec nos données
chronologiques.

202
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il est tout d’abord important de modéliser les données, notamment les données
financières parce qu’elles contiennent beaucoup de bruit, pour rendre le terme
d’erreur blanc. Pour ce faire, il suffit d’inscrire :
arima variabledependante variableindependante, arima(p,d,q)
où p est le nombre de AR, d le nombre de différenciation et q le nombre de MA.
Il n’est pas nécessaire de préciser de variables indépendantes.
ex: AR(1)
arima t, arima(1,0,0)
ex: MA(1)
arima t, arima(0,0,1)
ex: ARIMA(1,1,2)
arima t, arima(1,1,2)
Pour choisir p et q, il est bon de regarder l’autocorrélogramme partiel (nombre de
AR) et l’autocorrélogramme (nombre de MA) de la variable qui nous intéresse.
Lorsqu’on travaille avec des séries chronologiques dans Stata, il est nécessaire de
l’en aviser par la commande tsset. On commence donc par générer la variable de
temps (t).
Ensuite, on écrit tsset suivit du nom de la variable de temps. Ex. : tsset = t
Voici comment reproduire l’équivalent des opérateurs Avance et Retard dans
Stata pour travailler sur les séries chronologiques. L’opérateur 1 est l’opérateur
Retard de stata. Il peut être utilisé avec toutes les fonctions qui acceptent les séries
temporelles une fois que la déclaration de séries temporelles à été faite.
l#.variable, où variable est la variable sur laquelle l’opérateur doit agir et # est le
nombre de retards à appliquer. Si # est omis, un seul retard est appliqué
(équivalent à l1.variable).
tsset t
* un modèle AR2
regress y l.y l2.y

203
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’opérateur f est l’opérateur Avance de stata. Il peut être utilisé avec toutes les
fonctions qui acceptent les séries temporelles une fois que la déclaration de séries
temporelles à été faite.
f#.variable, où variable est la variable sur laquelle l’opérateur doit agir et # est le
nombre d’avance à appliquer. Si # est omis, une seule avance est appliquée
(équivalent à f1.variable).
tsset t
* une autre formulation pour un modèle AR2
regress f.y y l.y
3.2.1 Test d’autocorrélation
Inutile de mentionner que l’autocorrélation est un problème qui n’est pertinent
que dans le cas des séries temporelles. . . Le test ρ est le test le plus simple à
effectuer pour tester la présence d’autocorrélation :
1. récupérer les résidus de la régression qu’on désire tester ;
2. régresser ût sur ût-1 à ût-n et X
3. Tester la signification conjointe des coefficients de cette régression par un test
F.
Choisissons n périodes égal à 3.
reg y x1 x2
predict u, r
reg u l.u l2.u l3.u
Il suffit alors de regarder la statistique F donnée par Stata.
3.2.2 Stationnarité
Pour travailler avec des données temporelles, elles doivent conserver une
distribution constante dans le temps. C’est le concept de stationnarité.
Série chronologique stationnaire : la distribution des variables chronologiques
ne varie pas dans le temps. Un concept moins fort de stationnarité est
généralement utilisé, la covariance-stationnarité ou stationnarité au second degré.

204
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Série chronologique covariance-stationnaire :
• E [y t] = µ (l’espérance ne dépend pas de t)
• var [y t ] = σ2 (la variance ne dépend pas de t)
• cov [ yt,ys] = γ k = t - s (la covariance ne dépend que de t-s)
Ainsi, si nos variables passées sont semblables à nos variables futures, on peut
utiliser le passé pour tenter de prédire (sic) le futur.
Si nos données ne sont pas stationnaires, on se retrouve avec :
• biais de prévision
• prévision inefficace
• mauvaise inférence
Il existe trois sources principales de non-stationnarité. 1- Changement structurel
(break) La fonction de régression change dans le temps, soit de façon discrète,
soit de façon graduelle. Par exemple, dans le cas d’un changement politique. La
démarche à suivre est détaillée dans la sous-section ci-dessous. 2- Tendance
déterministe Les données suivent une tendance qui a une fonction définie : t, t2,
etc. Afin de résoudre le problème, il suffit d’inclure une variable de tendance dans
le modèle de régression : y = β0 + β1t + β2x.
Malheureusement, tout n’est pas aussi simple que ça en a l’air : très souvent, ce
qu’on pense être une tendance déterministe est en fait une tendance stochastique.
3- Tendance stochastique (racine unitaire) Les données suivent une marche
aléatoire avec ou sans dérive avec un coefficient de 1 pour le terme autorégressé
: yt = yt-1 + µt. Il y a non-stationnarité car la variance n’est pas constante :
var(yt) = tσ2µ.
Les tests à effectuer pour détecter la présence d’une racine unitaire et les
corrections à apporter dans ce cas sont décrits à la prochaine partie.
Procédure pour stationnariser une série chronologique.
Changement structurel On peut corriger cette situation en ajoutant une variable
binaire ou une variable d’interaction qui modélise le changement structurel. Il
n’existe pas de test à proprement parler pour identifier un changement structurel.

205
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’identification se fait plutôt par analyse graphique et par analyse historique :
Observe-t-on une variation importante dans les variables ? Connaît-on un
événement important qui aurait pu changer la distribution des variables dans le
temps ? Exemple : on étudie les exportations du Bénin de 1980 à aujourd’hui.
Nous posons donc implicitement l’hypothèse que la droite de régression se
déplace parallèlement vers le haut à compter de 1991 (l’ordonnée à l’origine n’est
plus la même). Si on avait plutôt supposé que c’était la pente qui avait été affecté,
il aurait fallu ajouter une variable d’interaction. Bien qu’il n’existe pas de test
pour identifier un changement structurel, il en existe tout de même un pour vérifier
si le changement structurel soupçonné est réel ou non. : le Test de Chow. Ce que
ce test vérifie dans les faits, c’est si le coefficient d’une variable est différent pour
deux groupes de données.
Dans l’exemple donné plus tôt, le test de Chow vérifierait si la constante est
statistiquement différente avant et après l’ALE. Le résultat du test est une
statistique F. Dans le contexte du test de Chow, l’hypothèse nulle est qu’il n’y a
pas de changement structurel, i.e. les coefficients sont égaux pour les deux
groupes de données. Donc, si on rejette l’hypothèse nulle (« p-value »< alpha), il
y a bel et bien changement structurel et on est justifié de le modéliser.
Considérez le modèle suivant : y = β0 + β1x1 + β2x2+ u
La façon “classique” d’effectuer le test de Chow est d’effectuer la régression du
modèle pour les deux groupes de façon indépendante et pour les deux groupes
ensemble :
Ŷ1 = β10 + β11x11 + β12x 12
Ŷ2 = β20 + β21x21 + β22x 22
Ŷ = β0 + β1x1 + β2x 2
puis de tester si les coefficients sont statistiquement différents par un test F: H 0 :
β1- β2 = 0, H1 : β1- β2 ≠ 0.
F = ((SŜRy - SŜRy1 - SŜRy2)/q) / (( SŜRy1 - SŜRy2) /n1 + n2 - 2k))

206
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Rappel : SŜRy est la somme au carré des résidus (Σ ûi2) = Σ (yi-𝑦̂𝑖 )2 et q est le
nombre de contraintes et k le nombre de coefficients, ici q = k = 3
Une autre façon plus rapide d’effectuer ce test est de construire une variable
binaire égale à un pour les observations du deuxième groupe et de faire une seule
régression sur les variables originales et sur les termes d’interaction avec la
variable binaire :
Soit δ la variable binaire : Ŷ = β0 + β1x1 + β2x2 + β3 δ + β4x1 δ + β5x2 δ.
On désire maintenant tester si β0 = (β0 + β3), si β1 = (β1 + β4) et si β2 = (β2 + β5).
Ce qui revient à tester si β3, β4 et β5 sont conjointement différent de 0. Ceci peut
être facilement effectué par un test de F.
ex:
g g2 = (groupe == 2)
g g2x1 = g2*x1
g g2x2 = g2*x2
reg y x1 x2 g2 g2x1 g2x2
test g2 g2x1 g2x2
Tendance déterministe Afin de régler le problème de la présence d’une tendance
temporelle, il suffit de la modéliser. Il faut faire attention de bien choisir la
tendance la mieux adaptée à nos données : linéaire, quadratique, logarithmique,
etc.
Ex : tendance quadratique
t=n
t2 = t^2
tsset t
regress y t t2
Racine unitaire : On désire s’assurer que la série n’est pas parfaitement
autocorrélée, i.e. p≠1 dans y1= α + ρyt-1 + et ou, de façon équivalente, θ≠0 dans
∆yt= α + θ yt-1 + εt. La seconde forme est généralement utilisée pour effectuer des
tests.

207
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’hypothèse nulle est donc H0 : θ = 0. Le test t ne tient malheureusement pas dans
ce cas, car les données sont... non stationnaires sous H0 ! Il faut donc utiliser une
loi de DickeyFuller. Le test de Dickey-Fuller (DF) teste s’il y a une racine unitaire
dans le processus générateur de données. La loi de DF sur laquelle le test se base
diffère en fait selon l’hypothèse alternative qu’elle teste. Le choix de l’hypothèse
alternative est donc primordial pour la validité du test. Ce choix doit se baser sur
l’analyse de l’économètre. Soit le modèle suivant :
∆yt = u +βt + θ yt-1 + εt,, εt,, iid (0,α2)
Les hypothèses nulles et alternatives possibles sont :
• H0 : θ = 1(il y a une racine unitaire)
• H1A: θ < 1, µ = 0, β = 0 (pas de constante ni de tendance)
• H1b: θ < 1, µ ≠ 0, β = 0 (une constante, mais pas de tendance)
• H1c: θ < 1, µ ≠ 0, β ≠ 0. (une constante et une tendance)
Il faut spécifier dans Stata l’hypothèse alternative qu’on désire tester à l’aide des
options trend et constant. Enfin, s’il y a de l’autocorrélation dans les données, il
faut utiliser un test de Dickey-Fuller augmenté (ADF) (ou Phillips-Perron). Ce
test ajoute des retards au modèle testé afin de contrôler pour l’autocorrélation. Par
défaut, Stata effectue un test ADF avec un nombre prédéterminé de retards. Il faut
par ailleurs faire attention car si on a trop peu de retards, le résidu est autocorrélé
et le test incorrect, alors que s’il y en a trop, la puissance du test est diminuée. Il
peut être pertinent de faire un autocorrélogramme avant de faire ce test. Le nombre
de retards à inclure peut-être contrôler grâce à l’option lags. Un test de DF
standard est obtenu en fixant lags(0).
Donc, pour travailler avec sur le modèle ∆yt = α + θ yt-1 + ε plutôt que sur y1= α +
ρyt-1 + et, il faut utiliser la fonction arima dans Stata. Pour effectuer un test DF
augmenté sur une variable, on écrit dfuller nomdevariable, option. Les options
sont lags qui spécifie le nombre de retards, et trends et constant qui permet
d’inclure une variable de tendance et une constante dans la régression selon
l’hypothèse nulle à tester choisie. Le test pperron possède exactement la même

208
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
structure et les mêmes options que dfuller, mais effectue un test Phillips-Perron
plutôt qu’un test Dickey-Fuller augmenté.
Interpréter les tests de racine unitaire : Vous avez finalement réussi à vous
décider sur un model à tester et votre logiciel statistique vient de vous donner un
résultat ? Maintenant, que devez-vous en conclure ? Généralement, comme c’est
le cas pour tous les tests, vous obtiendrez deux valeurs : la statistique de test et le
« p-value » associé à cette statistique. Vous pouvez comparer la statistique de test
aux valeurs critiques de la loi correspondante, mais il est plus simple, surtout dans
ce cas, de regarder le « p-value ». Si celui-ci est inférieur au niveau de confiance
que vous avez fixé, 5% par exemple, vous rejetez l’hypothèse nulle : ouf ! Tout
va bien, il n’y a pas de racine unitaire. Dans le cas contraire, on doit corriger le
modèle tel qu’exposé ci-dessous.
Corrections à apporter au modèle La façon de corriger un modèle est de le
différencier, i.e. soustraire à chaque observation la valeur de la période
précédente. y1= α + ρyt-1 + et devient donc ∆yt= α + θ yt-1 + εt. On voit bien que si
l’hypothèse nulle tient, θ = 0 et le terme disparaît du modèle. En d’autres termes,
le fait de différencier au premier degré permet de retrouver la forme AR, MA ou
ARMA, qui sont stationnaires. Deux mises en gardes :
• Il ne faut pas différencier un modèle avec tendance déterministe.
• Ne devenez pas fou avec la différenciation ! De un, surdifférencier « au cas où
» est néfaste et, de deux, la puissance de ces tests n’est pas énorme et, donc, le
risque d’erreur est grand. Dans le doute, puisque de toutes façons vous risquez
d’avoir un biais, ne différenciez pas. Aussi, différencier plusieurs fois enlève tout
potentiel d’interprétation au modèle. Vous aurez beau dire que votre modèle est
désormais stationnaire, mais si vous ne pouvez pas l’interpréter, vous n’êtes pas
avancé.
Interpréter le modèle après les corrections Un modèle différencié s’interprète
comme l’impact d’une variation de la variable indépendante sur la variation de la
variable dépendante. Si nos variables sont en log, la variation peut s’interpréter

209
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
comme une variation en pourcentage (pour un coefficient arbitrairement près de
0). Par ailleurs, il est parfait intéressant d’utiliser les taux de croissance plutôt
qu’une première différenciation.
4.2.3 Co-intégration
La co-intégration est une situation rencontrée lorsque deux séries possédant une
racine unitaire ont une même tendance stochastique. Par exemple, les taux
d’intérêts pour deux obligations de termes différents sont généralement considérés
co-intégrés: ils suivent une tendance similaire avec une différence constante (la
prime de risque). Soit {xt} et {yt} I(1) (= racine unitaire), si pour un θ donné yt -
θ xt est I(0) (=absence de racine unitaire), alors on dit que {xt} et {yt} sont co-
intégrés avec le paramètre d’intégration θ .
Pourquoi un test de co-intégration Si {xt} et {yt} sont bel et bien co-intégrés,
alors 𝛽̂ de la régression yt= α + βxt + et est convergent et il n’y a pas de correction
à apporter. Dans le cas contraire, il faut suivre la démarche donnée pour une racine
unitaire et estimer le modèle en différences.
Test de co-intégration : On construit 𝑒̂𝑡 = yt -𝛼̂ -𝛽̂xt et on teste 𝑒̂𝑡 pour une racine
unitaire. Il faut utiliser le test Dickey-Fuller Augmenté car, sous H0 (𝑒̂𝑡 a une
racine unitaire) la régression est illusoire et la statistique ne suit pas la loi de DF.
Sinon, la démarche et l’interprétation sont identiques à celles pour une racine
unitaire.
3.3 Données en panel
Une base de données d’un panel pourrait ressembler à ceci :

Panel Année Variable revenu Variable éducation Variable n


1 2000 50 000 18 …
1 2001 55 000 20 …
2 2000 45 400 18 …
2 2001 100 000 25 …
… … … … …

210
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour indiquer à Stata que l’on travaille avec des données en panel, il suffit de
reprendre la fonction vue dans la partie précédente (tsset) et d’ajouter la variable
de panel avant la variable de temps. Par exemple :
g année
Tsset panel année
Une fois tsset déclaré pour des données en panel, il est possible de travailler avec
la famille xt de Stata. Il existe une telle fonction pour chacun des types de
régression : xtreg, xtlogit, xtprobit, xttobit, xtgls, etc.
Les données en panel possèdent deux dimensions : une pour les individus (ou une
quelconque unité d’observation) et une pour le temps. Elles sont généralement
indiquées par l’indice i et t respectivement. Il est souvent intéressant d’identifier
l’effet associé à chaque individu, i.e. un effet qui ne varie pas dans le temps, mais
qui varie d’un individu à l’autre. Cet effet peut être fixe ou aléatoire. En plus de
la question des effets individuels, la question de la corrélation et de
l’hétéroscédasticité dans le cadre des données de panels est adressée. Bien qu’elle
ne soit pas adressée ici, la question du biais de sélection doit également être
considérée pour les données de panels.
3.3.1 Effets fixes vs. Effets aléatoires
La discussion suivante se concentrera sur la modélisation des effets individuels ui
pour des données en panel de la forme suivante : Yit = Xit β + ui + eit. Cependant,
il peut aussi s’avérer intéressant d’identifier l’effet associé à chaque période t. On
peut inclure des effets temporels δt afin de tenir compte des changements dans
l’environnement comme, par exemple, de cycles économiques. L’idée est la
même que pour les effets individuels, c’est pourquoi nous ne nous y attarderons
pas. On peut bien évidemment combiner les deux types d’effets : Y u = γ +Xu β +
δ t + ui + eu. Ces effets, individuels ou temporels, peuvent être captés en ajoutant
une variable dichotomique pour chaque individu.
Test de présence d’effets individuels La première étape consiste à vérifier s’il y
a bel et bien présence d’effets individuels dans nos données. On peut représenter
211
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
ces effets par une intercepte propre à chaque individu, ui. On cherche donc à tester
l’hypothèse nulle H0 : ui = 0 dans la régression Yit = γ +Xit β + ui + eit, eu ~ iid. En
Stata, la commande xtreg effectue directement cette analyse.
Rappelons qu’au début de l’analyse, on déclare nos données en panel :
tsset variabledepanel variabledetemps
xtreg y x1 x2 ...,fe
Interprétation du Test : L’hypothèse nulle de ce test est qu’il y a seulement une
intercepte commune, aucun effet individuel. Le résultat est une statistique F avec
(N- 1,NT-N-K-1) degré de liberté. Si on rejette l’hypothèse nulle, alors on doit
inclure des effets individuels dans le modèle.
Modélisation du modèle en présence d’effets individuels :
Dans le cas d’un effet fixe, la méthode la plus simple de capter cet effet est de
supposer qu’il existe pour chacun de nos groupes et, ainsi, d’ajouter une variable
binaire par groupe (sans oublier, comme d’habitude, d’en laisser tomber une).
Donc si nous avons cinq groupes et quatre périodes de temps, nous aurons un total
de sept variables binaires. Il peut être préférable dans certains cas de ne pas inclure
de constante pour comparer tous les groupes entre eux. Dans le dernier exemple,
on pourrait ainsi laisser tomber la constante et inclure cinq variables binaires pour
les groupes et trois variables binaires pour les années. Ajout manuellement de
variables binaires pour chaque groupe et chaque année. Par exemple : régression
sur cinq échantillons tirés de 1980, 81, 82 et 83.
* création des variables binaires
a81 = (annee == 1981)
a82 = (annee == 1982)
a83 = (annee == 1983)
g2 = (groupe == 2)
g3 = (groupe == 3)
g4 = (groupe == 4)
g5 = (groupe == 5)

212
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
* régression
regress y x1 x2 a81 a82 a83 g2 g3 g4 g5
Une autre manière de capter les effets individuels, qui est équivalente à l’ajout de
variables dichotomiques, est d’utiliser un estimateur «within», qui s’implémente
facilement en STATA. Cet estimateur mesure la variation de chaque observation
par rapport à la moyenne de l’individu auquel appartient cette observation :
̅ 𝒕 = 𝜷(𝒙𝒖 − 𝑿
𝒀𝒖 − 𝒀 ̅ 𝒕 ) + 𝒆𝒊𝒕 − 𝒆̅𝒕
Les effets individuels sont donc éliminés et l’estimateur de MCO peut être utilisé
sur les nouvelles variables.
xtreg y x1 x2 ..., fe
On peut aussi modéliser les effets individuels de façon aléatoire : variant autour
d’une moyenne. On suppose le plus souvent qu’ils suivent une loi normale : ut ~
N (0,σ2). On considère alors que l’erreur du modèle est composée de l’erreur
usuelle spécifique à l’observation i, t et de l’erreur provenant de l’intercepte
aléatoire.
Yu =Xuβ +εu
εtt = ett + ut
xtreg y x1 x2 ..., re
On doit maintenant choisir quelle modélisation se prête le mieux à nos données.
Notons que les effets fixes sont plus généraux que les effets aléatoires puisqu’ils
n’imposent pas de structure aux effets individuels. Cependant, on perd N-1 degrés
de liberté en modélisant les effets individuels de manière fixe (inclusion implicite
de N variables dummies moins l’intercepte générale), ce qui rend l’estimation des
coefficients des variables explicatives moins efficientes. Par ailleurs, le
coefficient de toute variable explicative qui ne varie pas dans le temps pour un
même individu (la race, le sexe…) n’est pas estimable puisque l’estimateur
«whitin» l’élimine 𝑋𝑖𝑡 = 𝑋𝑡 = 0. On peut donc être tenté de se tourner vers une
modélisation aléatoire des effets individuels.

213
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Malheureusement, leur efficacité repose sur une hypothèse cruciale à savoir que,
pour que les estimateurs d’effet aléatoires soient non biaisés, il ne doit pas y avoir
de corrélation entre les effets aléatoires (ut) et les variables explicatives.
Le test d’Hausman : Le test d’Hausman est un test de spécification qui permet
de déterminer si les coefficients des deux estimations (fixe et aléatoire) sont
statistiquement différents. L’idée de ce test est que, sous l’hypothèse nulle
d’indépendance entre les erreurs et les variables explicatives, les deux estimateurs
sont non biaisés, donc les coefficients estimés devraient peu différer. Le test
d’Hausman compare la matrice de variance-covariance des deux estimateurs :
W = (βf-βa)’var(βf-βa)-1(βf-βa).
Le résultat suit une loi χ2 avec K-1 degré de liberté. Si on ne peut rejeter la nulle,
i.e. si la p-value est supérieure au niveau de confiance, on utilisera les effets
aléatoires qui sont efficaces s’il n’y a pas de corrélation entre les erreurs et les
variables explicatives.
xtreg y x1 x2 ..., fe (réalise la régression en supposant des effets fixes)
estimates store fixe (conserve les coefficients )
xtreg y x1 x2 ..., re (réalise la régression en supposant des effets aléatoires)
hausman fixe (calcule W)
3.3.2 Corrélation et hétéroscédasticité
Soit la matrice de la variance-covariance des erreurs. Pour pouvoir utiliser les
estimateurs MCO, cette matrice doit respecter la forme suivante :
𝜎 2 𝐼𝑇𝑥𝑇 0 0
𝛺=[ 0 … 0 ]
2
0 0 𝜎 𝐼𝑇𝑥𝑇

On doit donc vérifier les hypothèses d’homoscédasticité et de corrélation. Quatre


tests permettent de vérifier si nos données respectent ces hypothèses dans le
contexte de données en panels.

214
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
En ce qui concerne l’hypothèse d’homoscédasticité (test1 et test2), on doit vérifier
si la variance des erreurs de chaque individu est constante : pour tout individu i,
on doit donc avoir σ2 = σ2 pour tout t. La dimension nouvelle des données de
panels consiste à s’assurer que la variance est la même pour tous les individus :
σ2 = σ2 pour tout i.
Pour la corrélation, l’aspect nouveau auquel on doit porter attention concerne la
possibilité de corrélation des erreurs entre les individus (test3). On doit aussi
vérifier que les erreurs ne sont pas autocorrélées et ce, pour chaque individu
(test4).
1. Test d’hétéroscédasticité Pour détecter l’hétéroscédasticité, le raisonnement
est le même que celui décrit dans la partie suivante et on utilise sensiblement la
même procédure. On peut aussi, comme mentionné dans cette même section,
utiliser le test de White. Pour le Test de Breusch-Pagan :
xtreg y x1 x2 ..., fe/re (régression)
predict résidus (récupère les résidus)
gen résidus2 = résidus^2 (génère les résidus carrés)
reg résidus2 x1 x2 ... (régression des résidus sur les variables explicatives)
Si on ne peut rejeter l’hypothèse nulle d’homoscédasticité, alors on a σ 2tt = σ2,
pour tout i, t ce qui implique nécessairement que σ2tt = σ2t pour tout t et σ2t = σ2
pour tout i. Il n’est alors pas nécessaire de faire le test 2. Si notre modèle ne
contient pas d’effets individuels ou s’il contient des effets fixes, on continu
l’analyse au test de corrélation (test 3). Cependant, bien que cela soit
théoriquement possible, STATA ne permet pas de tester la corrélation si notre
modèle inclut des effets aléatoires (on continue donc au test 4). Si on fait
l’hypothèse qu’il y a corrélation, il est préférable d’utiliser des effets fixes.
Ayant conclu à l’hypothèse d’homoscédasticité avec un modèle à effets fixe, on
continue l’analyse (au test 3) avec la commande : xtreg y x1 x2 ..., fe . Par contre,
si on conclut à la présence d’hétéroscédasticité, on effectue le test 2, que ce soit
avec un modèle à effets fixes ou aléatoires, pour tenter d’obtenir plus

215
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
d’informations sur la forme de l’hétéroscédasticité. On utilise alors les MCG
−1 −1
(GLS en anglais) où 𝛽̂𝑀𝐶𝐺 = (𝑋 ′ 𝛺̂−1 𝑋) 𝑋 ′ 𝛺̂−1 𝑦 𝑉𝑎𝑟̂ (𝛽̂𝑀𝐶𝐺 ) = (𝑋 ′ 𝛺̂−1 𝑋)
2. Test d’hétéroscédasticité inter-individus Ce test-ci est conçu pour tester
l’hypothèse spécifique d’homoscédasticité inter-individus. STATA utilise un test
Wald modifié, qui est essentiellement un test F. Sous l’hypothèse nulle, le test
suppose que la variance des erreurs est la même pour tous les individus : σ2t = σ2
∀ⅈ = 1 … , 𝑁et la statistique suit une loi χ2 de degré de liberté N.

xtgls y x1 x2...,
xttest3
Si la valeur obtenue est inférieure à la valeur critique, on ne peut rejeter
l’hypothèse nulle : la variance des erreurs est la même pour tous les individus.
Étant donné que nous avions déjà conclue à la présence d’hétéroscédasticité sous
une forme quelconque au test 1, on en déduit que nos données ont la structure
suivante :
homoscédasticité intra-individus σ2it = σ2t ∀𝑡
et hétéroscédasticité inter-individus σ2t ≠ σ2 ∀ⅈ = 1 … , 𝑁
Le rejet de l’hypothèse nulle ne nous permet cependant pas de spécifier
d’avantage la structure de l’hétéroscédasticité. On demeure avec la conclusion
précédente d’hétéroscédasticité σ2it ≠ σ2, pour tout i, t, sans pouvoir en dire plus.
3. Corrélation contemporaine entre individus Pour tester la présence de
corrélation des erreurs inter-individus pour une même période, i.e. : E (eit ejt) ≠ 0
pour i ≠ j, on utilise un test Breusch-Pagan. L’hypothèse nulle de ce test est
l’indépendance des résidus entre les individus. Ce test vérifie que la somme des
carrés des coefficients de corrélation entre les erreurs contemporaines est
approximativement zéro. Puisqu’il est seulement nécessaire de tester ceux sous la
diagonale, la statistique résultante suit une χ2 de degré de liberté N(N-1)/2,
équivalent au nombre de restrictions testées.
xtreg y x1 x2 ..., fe /ou xtgls y x1 x2...,

216
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
xttest2
Si la valeur obtenue est supérieure à la valeur critique, on rejette l’hypothèse nulle
: les erreurs sont corrélées de manière contemporaine. On corrige pour la
corrélation en utilisant la fonction :
xtgls y x1 x2 ...,panel(corr)
2. Autocorrélation intra-individus On cherche à vérifier si les erreurs sont
autocorrélées E (eit eis) ≠ 0 pour t ≠ s de forme autorégressive (AR1) :
𝑒𝑖𝑡 = 𝜌𝑒𝑧−1 + 𝑧𝑖𝑡 ∀ⅈ = 1, … 𝑁
S’il y a de l’autocorrélation, les matrices identités le long de la diagonale sont
remplacées par des matrices de la forme suivante :

1 𝜌 𝜌2
𝛥= [ 𝜌 1 𝜌]
𝜌2 𝜌 1

STATA réalise un test Wald dont l’hypothèse nulle est celle d’absence
d’autocorrélation des erreurs. Si on rejette cette hypothèse, i.e. si la valeur obtenue
est supérieure à la valeur critique, les erreurs des individus sont autocorrélées.
xtserial y x1 x2 ...
On ajuste la forme de la matrice Ω afin de tenir compte de l’autocorrélation dans
les erreurs des individus en utilisant soit :
xtgls y x1 x2 ...,panel(…)corr(ar1)
soit :
xtregar y x1 x2 ...,re/fe

Correction : résumé Donc en résumé, s’il n’y a aucun effet individuel, pas
d’hétéroscédasticité ni de corrélation, les estimateurs MCO usuels sont valides.
On effectue alors du « pooling », c’est-à-dire qu’on considère les données comme
N*T observations non-panélisées et on effectue une régression standard :

217
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
reg y x1 x2 ...
S’il y a des effets individuels mais pas d’hétéroscédasticité ni de corrélation, on
utilise la commande xtregy x1 x2 ...,re/fe qu’on corrige si nécessaire pour
l’autocorrélation :
xtregar y x1 x2 ...,re/fe
Finalement, dans les autres cas, on utilise des variantes de la fonction xtgls. Cette
fonction estime le modèle par MCG et permet de combiner les diverses
conclusions aux tests précédents. Les estimateurs β sont estimés en ajustant la
matrice de variance/covariance des erreurs Ω afin de tenir compte de la présence
d’hétéroscédasticité intra et inter individus et/ou autocorrélation inter-individus
de type autorégressif de premier ordre et/ou corrélation inter-individus.
Il suffit de spécifier un des trois choix de structure de variance de panel : (iid |
heteroskedastic | correlated) combiné avec un des trois choix de structure de
corrélation intra-individu : (independent | ar1 | psar1). Le choix de ar1 signifie
qu’on suppose un coefficient d’autorégression ρ commun pour tous les individus
tandis que le choix de psar1 permet aux individus d’avoir des coefficients
différents 𝜌𝑡 ≠ 𝜌𝑗 ∀ⅈ ≠ 𝑗.
Cependant, le choix d’un ρ commun permet une meilleure estimation des β, si
cette restriction est correcte, ce qui est le but de l’analyse.
xtgls y x1 x2 ...,panels(iid ou hetero ou corr) corr(independent ou ar1 ou psar1).
3.4 Variables instrumentales, doubles moindres carrés et test d’endogénéité
Lorsqu’une variable “indépendante” est corrélée avec le terme d’erreur, les
hypothèses classiques du modèle linéaire sont violées et on se retrouve face à un
problème d’endogénéité. Dans ces cas, on peut faire appel à l’estimateur de
variables instrumentales (VI) ou aux doubles moindres carrés ordinaires
(DMCO).
3.4.1 Estimateur Variables Instrumentales
Soit Z, une matrice de VI et X, la matrice originale. L’estimateur VI est donné par
:
218
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
𝛽̂(𝑉𝐼) = (𝑍 ′ 𝑋)−1 𝑍 ′ 𝑦
et l’estimateur VI de la covariance par:
𝜎̂ 2 (𝑍 ′ 𝑋)−1 (𝑍 ′ 𝑍)(𝑋 ′ 𝑍)−1

𝜎̂ 2 = 1 /T (y - X β(IV ))’(y - Xβ(IV )).
ou, lorsque J > K (J étant le nombre de VI et K le nombre de variables
indépendantes), par:
𝛽̂(𝐼𝑉) = [X’Z(Z.’Z)-1Z’X]-1X’Z(Z’Z)-1Z’y.
𝜎̂ 2 [X’Z(Z’Z)-1Z’X]-1.
ivreg permet de faire directement une régression par DMCO. On inscrit donc :
ivreg variabledependante variablesindependantes (variabledependante =
variable(s)intrumentale options
où options peut prendre les mêmes valeurs que pour regress, ainsi que first qui
affiche les résultats de la première régression.
ex:
ivreg y1 z1 z2 (y2=x1), r first
predict peut être utilisé après ivreg
3.4.2 DMCO
Les trois hypothèses soutenant les DMCO :
1-Le terme d’erreur ne doit pas être corrélé avec la variable instrumentale.
2-La variable dont on suppose souffrir d’endogénéité doit être fortement corrélée
avec la variable instrumentale, mais pas corrélée avec le terme d’erreur.
3-La variable instrument doit être différente de la variable qui souffre
d’endogénéité, même à un multiple près.
Les doubles moindres carrés ordinaires permettent d’effectuer une régression en
substituant la variable qui potentiellement souffre d’endogénéité par une variable
instrumentale. Voici un exemple :

219
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les subventions aux entreprises (x) on un impact sur la croissance du PIB (y). Dû
à des contraintes de disponibilité, nous n’arrivons pas à trouver les données sur
les subventions. Donc, supposant qu’il existe un lien positif entre la variable
subvention et efficacité, la variable efficacité serait liée au terme d’erreur, dû à
l’omission d’une variable pertinente. Dans ce cas-ci, la variable instrumentée
serait efficacité, car elle souffre d’endogénéité. Une variable instrumentale
possible serait la taille des entreprises. On choisi cette dernière parce
qu’intuitivement, on suppose que le nombre d’employé n’est pas lié à la variable
subvention. De plus, la variable taille d’entreprise est liée à la variable efficacité
(plus l’index efficacité est élevé, le nombre d’employé nécessaire diminue).
Soit le modèle suivant : y1 = β0 + β1x1 + β2x2 + β3y2 + u et soit z une VI de y2.
Comme leur nom l’indique, les DMCO se font en deux étapes.
1. Estimation de la variable endogène : Régression de y2 sur toutes les variables
indépendantes (x1 et x2 ici) et la/les VI pour y2 (z ici).
On récupère ŷ2, l’estimation linéaire de y2.
2. Régression du modèle avec ŷ2 : Régression de y1 sur une constante, x1, x2 et
ŷ2. Cette dernière régression ne souffrant plus d’endogénéité, les 𝛽̂ ainsi obtenus
sont non-biaisés.
Vous pouvez effectuer les deux régressions par vous même ou utiliser la fonction
ivreg à la partie précédente.
3.4.3 Test d’endogénéité
Le test de Hausman permet de vérifier s’il existe bel et bien une différence entre
l’estimateur de variable instrumentale et l’estimateur MCO, vérifiant ainsi s’il y
a bel et bien endogénéité des variables (si les deux estimateurs sont consistants,
ils seront asymptotiquement égaux). Sous H0, la statistique de Hausman est :
H = [β(VI) - b]’[σ2 [(X’Z(Z’Z)-1Z’X]-1 - σ2 (X’X)-1]-1[β(V I) - b] ~ χ2(J)
La fonction hausman effectue le test de spécification d’Hausman. Estimation du
modèle moins efficient, mais convergent (VI ici) :
hausman, save
220
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Estimation du modèle efficient, mais peut-être pas convergent (MCO ici) :
Hausman

Options : constant, indique que la constante doit être inclue dans la comparaison
des deux modèles.
ex:
ivreg y1 z1 z2 (y2=x1)
hausman, save
reg y1 z1 z2 y2
hausman, constant
3.5 Estimateurs du maximum de vraissemblance (EMV)
La fonction de vraisemblance est la probabilité jointe des observations étant donné
les paramètres d’intérêts, i.e.:

L’estimateur du maximum de vraisemblance (EMV) a pour but de choisir le


vecteur de paramètres θ qui maximise la fonction de vraisemblance, i.e. pour
lequel les données observées sont les plus probables. Pour simplifier les choses,
la fonction de logvraisemblance, L(θ |y), est généralement utilisée. Prenons
l’exemple d’un échantillon normalement distribué, de moyenne 0 de variance σ2 :

La log-vraisemblance est

221
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les CPO sont :

Ce qui nous permet de trouver :

ml permet de faire une estimation par maximum de vraisemblance pour une


équation donnée. Cette fonction étant fort complexe et très peu utilisée dans le
cadre des problèmes abordés dans ce guide, il est laissé à la discrétion du lecteur
le soin de consulter l’aide de Stata à son sujet.
Stata estime automatiquement par maximum de vraisemblance les régressions qui
doivent être traitées par EMV. Les modèles à variable dépendante qualitative, les
modèles de durée et les ARIMA sont des exemples de tels cas.
3.6 Moindres carrés généralisés
La méthode des moindres carrés généralisés (MCG) cherche à modéliser la
fonction de la variance. Nous obtenons alors l’estimateur MCG
𝛽̂MCG = (X’V-1X)-1X’V-1y
ou encore

222
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
𝛽̂MCG = (X’W-1X)-1W’V -1y
et sa variance est
var[𝛽̂] = σ2 (X’V -1X)-1.
Où V et W sont égaux à
𝑥1 0 0
W=σ [02
𝑥2 𝜌 ] = σ2V
0 0 𝑥𝑛
La fonction vwls permet de faire une régression linéaire pondérée par la variance.
On inscrit : vwls variabledependante variablesindependantes [poids], options
Ici, l’option serait sd (nomvariabl). Elle fournit une estimation de l’écart-type de
la variable dépendante. Par exemple :
vwls y x1 x2, sd(sigma2ch)
où sigma2ch est une estimation de l’écart-type de y.
predict peut être utilisé après vwls
3.7 Le logit et le tobit
Le logit est un modèle a essentiellement la même fonction que le probit et repose
sur les mêmes principes, mais a la différence du probit, il utilise une fonction de
répartition logistic pour calculer l’effet de xi sur la probabilité associée à une
valeur donnée de la valeur latente (y*i). Les économistes préfèrent généralement
utiliser le modèle probit car le logit n’est généralement pas problématique avec
les modèles univariés.
logit variabledépendante variableindépendante
Options: logit possède en grande partie les mêmes options que regress.
Un tobit est essentiellement un modèle dont les données sont censurées. Comme
le probit, le tobit suit une loi normale.
tobit variabledépendante variableindépendante
Options: ll(#), ul(#): indiquent respectivement que les données sont tronquées à
gauche ou à droite. Une ou les deux de ces options doivent être spécifiées. #
indique le point de troncation. Si # n’est pas précisé, Stata suppose qu’il s’agit

223
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
respectivement de la valeur minimum et de la valeur maximum. Les autres options
de tobit sont en grande partie
commune avec regress. Par exemple:
tobit y x1 x2 x3 x4, ll(0)

3.8 Biais de sélection


Un biais de sélection existe si la présence d’une observation dans l’échantillon est
déterminée par un ou des facteurs extérieurs. Si c’est le cas, il faut utiliser la
méthode de Heckman pour corriger le biais de sélection. Mathématiquement, ce
biais peut être exprimé comme:
Yi=xiβ + ei Z*i = άiγ+ui
Z*i est une variable latente et i y est observable si et seulement si i Z*i > 0, i.e. yi
sera observé si un niveau « d’utilité » arbitraire expliqué par un ou des facteurs
extérieurs est atteint.
La détection d’un biais de sélection est intuitive : existe-t-il des facteurs qui
pourraient influencer la nature aléatoire de l’échantillon ? Peut-on les caractériser
? Si on détermine qu’il y a biais de sélection, il faut le corriger par la méthode de
Heckman. La commande de Stata pour la méthode de Heckman est Heckman.
L’idée est de modéliser l’équation de sélection (Z*i) qui agît comme un probit: si
Z*i > 0, alors z = 1 (sinon z = 0) et on observe la donnée. On corrige alors
l’estimation de l’espérance conditionnelle de y par un « facteur de biais »
(l’inverse du ratio de Mills).
Attention, la sélection doit être expliquée par un ou des facteurs extérieurs, ils ne
doivent pas se retrouver dans le modèle original, sinon le tout se simplifie et
revient à faire un MCO.

224
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE : COMMUNIQUER LES RESULTATS

CHAPITRE 7 : COMMUNIQUER LES


RESULTATS

225
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La communication des résultats constitue la dernière étape d’un projet d’étude.
Ce chapitre souligne les éléments clés qui font de la communication des résultats
une étape incontournable de toute analyse réussie. En effet, communiquer les
résultats d’une analyse consiste à proposer au lecteur une interprétation adaptée à
ses connaissances. Au-delà des éléments liés à l’interprétation des tests, que nous
avons abordés tout au long des chapitres précédents, l’analyste doit être capable
de formuler de manière intelligible les résultats de son étude.
Rédiger le rapport
La rédaction d’un rapport d’étude n’est pas directement liée à l’analyse des
données. Cependant, même si le projet a été bien mené, un rapport inégal peut
compromettre le succès et la valorisation d’une étude. Cette communication des
résultats de l’enquête peut faire l’objet d’une ou de plusieurs mises en forme, et
se trouve le plus souvent complétée d’une présentation orale que nous
n’aborderons pas ici.
1.1 LA STRUCTURE D’UN RAPPORT D’ANALYSE
On retrouve, en général, les mêmes éléments structurants dans un rapport, qu’il
s’agisse d’un rapport d’étude ou de recherche. Ces éléments peuvent être modifiés
à la marge en fonction du destinataire. Nous développerons, dans ce chapitre, la
dimension professionnelle du rapport et ferons donc référence à des illustrations
provenant du secteur des études de marchés.
Le rapport d’analyse fait écho au brief de l’étude et se structure en huit parties
principales représentées.de

226
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’étude

• Objectifs de l’analyse : cette partie est essentielle car elle résume les éléments
clés de l’analyse et reprend les éléments liés à la définition du problème (tels que
nous les avions abordés dans le chapitre 1). Le rappel des objectifs permet de
communiquer plus précisément sur des aspects qui sont généralement maîtrisés
par le chargé d’étude tels que l’approche méthodologique ou les interprétations
statistiques. En les faisant apparaître clairement au destinataire, le rédacteur du
rapport peut mettre en avant la résolution progressive de ces objectifs de départ.
• Questions à résoudre : il s’agit ici d’établir les questions principales qui
permettent d’avancer dans la satisfaction aux objectifs de l’analyse.
• Procédures de collecte des données : cette rubrique reprend les données
utilisées pour les besoins de l’étude. Il faut en préciser la source s’il s’agit de
données secondaires, ainsi que les caractéristiques principales (nombre
d’observations, de variables, etc.). Le rédacteur du rapport devra apporter un soin

227
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
particulier à la description des procédures de collecte. Quelle méthode
d’échantillonnage ? Quel instrument de mesure ? Comment les données brutes
ont-elles été préparées ?
• Méthodes d’analyse : les méthodes employées et les stratégies d’analyse sont
présentées à ce stade. Dans un premier temps, les tests de nature descriptive (tris
croisés, comparaisons de moyenne, etc.), puis les tests liés à la représentation des
données (analyse factorielle, typologie), et enfin les tests de nature explicative
(régressions, analyses de variance, etc.).
• Résultats principaux : cette partie, la plus importante du rapport, peut être
constituée de plusieurs sous-parties. Pour plus de clarté, il est recommandé
d’organiser ces sous-parties en fonction de thèmes énoncés dès le départ.
• Interprétations détaillées : les interprétations détaillées ont pour objet
d’apporter un éclairage technique aux résultats et d’éclairer le lecteur du rapport
sur la démarche méthodologique. On trouve, dans cette rubrique, l’explication des
tests mis en œuvre, les hypothèses à respecter, l’interprétation des indicateurs de
significativité des tests, entre autres. Ces éléments techniques doivent être
présentés de manière intelligible en fonction du profil du lecteur. En effet, ceux-
ci n’ont pas tous la même expertise en termes d’échantillonnage ou de tests
statistiques, et le chargé d’étude doit veiller à formuler ces éléments de manière à
être compris de tous les destinataires du rapport.
• Conclusions : cette partie est essentielle au client de l’étude et a pour objet de
lui fournir tous les éléments de synthèse utiles pour la valorisation et l’utilisation
de l’étude.
• Recommandations et limites : les recommandations accompagnent la
présentation des résultats et représentent l’engagement de l’analyste dans la
réponse au problème posé par l’entreprise commanditaire. La recommandation
n’est pas systématique et suppose une expertise de la part de l’analyste, ou à tout
le moins que le problème posé ait été analysé suffisamment en profondeur. En
principe, le fait de réaliser l’étude suppose que l’on se soit informé au préalable

228
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
sur le secteur, que l’on ait été briefé par le client et, en conséquence, que l’on est
en mesure de dépasser la simple description et de s’impliquer dans la résolution
du problème managérial. Enfin, les limites ayant pesé sur l’étude doivent être
mentionnées (temps, budget, moyens, etc.). Ce retour sur les conditions de
réalisation de l’analyse et sur les précautions que le commanditaire devra prendre
lors de l’utilisation des résultats est un élément important qui doit prévenir toute
extrapolation hasardeuse, sans toutefois minimiser les résultats de l’étude.
1.2 LES POINTS CLÉS DU RAPPORT
La qualité d’un rapport d’analyse se juge sur deux dimensions principales : la
précision et l’intelligibilité.
La précision représente la qualité du rapport en termes de crédibilité des résultats.
Le document doit établir de manière précise la pertinence des choix effectués en
matière de méthode, d’analyse et de résultats, ce qui présuppose que les données
collectées soient de qualité, que les analyses soient valides et fiables, et que les
résultats soient correctement interprétés. Ce tryptique (données, analyses,
résultats) est au cœur de la démarche d’analyse et doit naturellement être envisagé
de manière conjointe, ces trois dimensions établissant collectivement la crédibilité
de l’étude. Plus exactement, pour que le rapport soit précis, les données doivent
l’être aussi ; le rédacteur devra prendre des précautions importantes quant à la
manipulation des données, la définition, l’exécution et l’interprétation des tests
statistiques. Autrement dit, aucune erreur n’est tolérable dans un rapport
d’analyse. Erreurs de calcul ou de syntaxe, fautes d’orthographe, maladresses
conceptuelles et terminologiques ne sont que quelques exemples de ce manque de
précision qui pénalise la crédibilité d’un rapport.
La clarté de l’expression, la logique du raisonnement, la rigueur de l’expression
et de l’analyse sont les fondements naturels du second critère de qualité d’un
rapport.
L’intelligibilité : Le lecteur du rapport peut éprouver des difficultés de
compréhension et par suite des doutes quant à la qualité du travail effectué lorsque
229
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
le raisonnement n’apparaît pas clairement (des hypothèses de travail
insuffisamment mises en avant par exemple), ou lorsque la présentation manque
de précision (une méthode d’échantillonnage qui reste confuse). Les « croyances
» des commanditaires jouent également un rôle dans la bonne compréhension des
résultats de l’enquête.
Mettre en valeur les résultats
L’objet du rapport d’analyse est d’apporter la réponse attendue par le
commanditaire de l’étude et de constituer une référence. Une fois produit, ce
rapport aura une existence propre, passera de mains en mains auprès de
nombreuses parties prenantes. La mise en valeur des résultats permet de prolonger
cette durée de vie et autorise une utilisation globale ou partielle du rapport par les
différents lecteurs. La version de SPSS dont nous nous servons propose quelques
outils d’amélioration de la qualité des tableaux et des graphiques pour mettre en
valeur les résultats de l’analyse.
2.1 MAÎTRISER LES TABLEAUX
Les tableaux doivent systématiquement être numérotés, comporter un titre clair et
ne doit retenir que la partie la plus significative des données. La maîtrise des
tableaux est un exercice délicat, qui suppose de bien maîtriser la manière dont on
souhaite communiquer les résultats, et qui repose sur la distinction vue plus haut
entre résultats principaux et interprétations détaillées. Il existe, en effet, des
niveaux de résultats simples facilement compréhensibles par le lecteur, et
d’autres, plus complexes, qui exigent des compléments et des éclairages.
2.2 AMÉLIORER LES GRAPHIQUES
Les graphiques jouent eux aussi un rôle crucial dans la présentation des résultats.
Ils enrichissent le contenu du rapport, à condition d’être présentés à bon escient.
Cela implique le bon choix du modèle de graphique en fonction du test mis en
œuvre et un emploi pertinent : complément d’un tableau ou d’un résultat présenté
dans le texte, amélioration de la lisibilité et de la fluidité du rapport, etc. Les
graphiques peuvent être considérablement enrichis grâce à SPSS. Ils sont générés
230
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
de diverses manières : par le biais des principaux tests statistiques ou par
l’utilitaire de diagramme que nous présentons dans cette section. Nous avons trois
types de graphiques : les diagrammes en bâtons, les diagrammes en secteurs et les
diagrammes de dispersion qui sont les plus utilisés.
Résumé
La préparation du rapport fait écho au brief de l’étude et reprend les grandes étapes
de l’analyse des données. Son principal objectif consiste à mettre en lumière les
réponses possibles au problème managérial posé. Un rapport de qualité doit être
à la fois précis et intelligible, au sens où il doit présenter de façon claire pour
toutes les parties prenantes de l’étude des résultats justes. La mise en valeur des
résultats dans le rapport passe par la maîtrise des tableaux et des graphiques. Nous
avons passé en revue dans les chapitres précédents les utilitaires de SPSS et
d’autres logiciels pour générer des tableaux pivotants et des diagrammes de
qualité, mais l’utilisateur doit s’exercer, expérimenter pour pouvoir en découvrir
toutes les facettes.
En guise de conclusion, et pour paraphraser Stefan Sweig : « il ne sert à rien
d’éprouver les plus beaux sentiments si l’on ne parvient pas à les communiquer
».
Il n’existe pas de modèle unique pour élaborer une argumentation et pour
construire un rapport. Dès lors, les seuls conseils possibles sont nécessairement
généraux :
- Présenter les données (le questionnaire et l’échantillonnage, au moins dans leurs
grandes lignes) ; qualifier l’échantillon en en donnant les principales
caractéristiques (répartition des caractéristiques classiques ou centrales : sexe,
âge, CSP...) ; cette présentation peut se faire dès l’introduction, dans une partie
méthodologique ou en annexe.
- Adopter un fil conducteur et s’y tenir : le lecteur doit comprendre le sens de la
démarche dès l’introduction du texte et ne doit pas perdre pied le long de l’article.

231
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Cela signifie en particulier que les aspects les plus statistiques ne doivent pas faire
oublier la finalité du rapport.
- Justifier les choix méthodologiques (pour quelle raison a-t-on recours à une
analyse factorielle ? pourquoi réalise-t-on une telle régression ?).
- Présenter et justifier les indicateurs synthétiques construits (à partir de quelles
variables et selon quels critères d’agrégation ?), voire les principaux recodages.
- Ne pas chercher à restituer toutes les analyses et tous les traitements réalisés : se
contenter d’exposer les résultats les plus probants ou ceux qui sont stratégiques
pour défendre la thèse avancée.
- N e pas submerger le lecteur par des dizaines de tableaux et de nombreuses
analyses sophistiquées : mieux vaut quelques tableaux bien choisis, quelques
variables synthétiques bien construites et justifiées, et quelques graphiques
pédagogiques qu’une avalanche de pourcentages, de tests et de statistiques sans
lien apparent les uns avec les autres.
- Choisir un critère d’arrondi pour les données publiées, en fonction de la taille de
l’échantillon. Pour un échantillon de 1 000 personnes, un chiffre après la virgule
est un maximum.
- Ne pas hésiter à adopter un mode de présentation des résultats qui soit bien
différent du mode de découverte : il est par exemple possible d’utiliser une
méthode factorielle pour identifier les variables saillantes et fortement corrélées
puis d’utiliser ces résultats pour construire des variables synthétiques dont la
pertinence se justifie grâce à de simples tableaux croisés.
- Enfin, le dernier conseil est certainement de lire des articles pour en identifier la
structure et l’enchaînement des arguments et des analyses statistiques au service
d’un raisonnement cohérent.
POUR EN SAVOIR PLUS
En complément des références citées dans le texte, nous indiquons ici quelques
ouvrages ou articles prolongeant ce manuel : soit ils en approfondissent certains

232
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
aspects ; soit ils permettent au lecteur de trouver les justifications mathématiques
des méthodes et outils présentés ici.
• Sur la démarche générale de l’enquête par questionnaire, nous renvoyons
au manuel dont nous prenons la suite :
SINGLY (DE) François, U Enquête et ses méthodes : le questionnaire, Paris,
Armand Colin, 2005 (lère éd. : Nathan, 1992).
• Sur la statistique, son histoire, les questions dont elle se saisit et les grands
types de réponse qu’elle fournit :
BLUM Alain, MARTIN Olivier, La Vérité des chiffres : une illusion ? Université
Paris Descartes, 2009.
DESROSIÈRES Alain, Gouverner par les nombres (2 volumes), Paris, Presses de
l’École des Mines de Paris, 2008.
Manu CARRICANO, Analyse des données avec SPSS, collection synthex
(PEARSON Education).
Régis Bourbonnais, Économétrie cours et exercices corrigés.
• Pour un exposé très pédagogique (sans recours aux mathématiques) des
principes des tests statistiques, de l’échantillonnage et de l’inférence
statistique :
SCHWARTZ Daniel, Le Jeu de la science et du hasard. La Statistique et le vivant,
Paris, Flammarion, 1994.
La lecture de ce beau livre est conseillée à tous. Les exemples sont empruntés à
la médecine et à la biologie mais ils sont éclairants pour les sciences humaines et
sociales ; et ils montrent incidemment que les SHS partagent beaucoup plus de
choses avec les sciences de la vie qu’on ne le croit habituellement.
• Pour un exposé de l’ensemble des techniques statistiques simples ne
nécessitant pas de grandes compétences en mathématiques :
Olivier Martin, l’enquête et ses méthodes : l’analyse des données qualitatives
(2ème Edition).

233
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS

Vous aimerez peut-être aussi