Académique Documents
Professionnel Documents
Culture Documents
AVANT PROPOS.................................................................................................................................. 5
INTRODUCTION ................................................................................................................................. 7
Structure du livre .................................................................................................................................. 9
POURQUOI RECOURIR AUX OUTILS STATISTIQUES ? ....................................................... 11
CHAPITRE 1 : PRODUIRE ET PREPARER LES VARIABLES ................................................ 12
Les différentes sources de données du praticien de l’économétrie. ............................................ 13
I- Population, échantillon et individus ........................................................................................... 15
Les variables nécessaires à l’analyse.............................................................................................. 20
2.1 Variables quantitatives ............................................................................................................. 21
2.2 Variables qualitatives ................................................................................................................ 22
3. De la nécessité de recoder les variables ..................................................................................... 24
3.1 Techniques de recodage 1 : regrouper des modalités ............................................................. 24
3.2 Techniques de recodage 2 : simplifier les variables quantitatives ........................................ 25
3.3 Techniques de recodage 3 : combiner les variables ................................................................ 27
Exercice pratique............................................................................................................................. 28
CHAPITRE 2 : ANALYSE DES RELATIONS ENTRE DEUX VARIABLES ............................ 35
I-Description d’une variable............................................................................................................... 36
1.1 Décrire une variable qualitative ............................................................................................... 36
Mesures de la tendance centrale .................................................................................................... 39
Mesures de la dispersion ................................................................................................................. 40
Représentations graphiques ........................................................................................................... 41
II-Techniques d’analyse des variables qualitatives .......................................................................... 42
2.1- Tableau croisé........................................................................................................................... 42
2.2- Test du Khi-deux ...................................................................................................................... 44
Intérêts et limites ............................................................................................................................. 46
III-Techniques d’analyse des variables quantitatives ...................................................................... 47
3.1- Coefficient de corrélation ........................................................................................................ 47
La notion de relation linéaire ......................................................................................................... 48
La notion de covariation ................................................................................................................. 49
La définition du coefficient de corrélation linéaire ...................................................................... 50
Intérêts, usages et limites ................................................................................................................ 51
IV-Techniques d’analyse d’une variable qualitative et quantitative. ............................................. 53
Test t ................................................................................................................................................. 55
Test Z ................................................................................................................................................ 57
Test de Kolmogorov-Smirov (K-S) ................................................................................................ 58
Test U de Mann-Whitney................................................................................................................ 59
1
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test de la médiane ........................................................................................................................... 60
Test de Wilcoxon ............................................................................................................................. 60
Test du signe .................................................................................................................................... 61
Test de McNemar ............................................................................................................................ 62
Résumé ............................................................................................................................................. 62
Exercice 1 ......................................................................................................................................... 63
CHAPITRE 3 : ANALYSE DE LA VARIANCE ET REGRESSION LINEAIRE ....................... 69
I-ANALYSE DE VARIANCE ............................................................................................................ 70
1.1- LES PRINCIPES DE L’ANALYSE DE VARIANCE .......................................................... 71
1.2- L’ANALYSE UNIVARIÉE DE LA VARIANCE : ANOVA À UN FACTEUR ................ 71
1.3- L’ANALYSE DE VARIANCE Á X FACTEURS ................................................................. 76
1.4- L’ANALYSE DE COVARIANCE : ANCOVA ET MANCOVA ........................................ 84
II-REGRESSION LINEAIRE............................................................................................................ 89
2.1- La corrélation linéaire ............................................................................................................. 90
2.2- Les principes de la corrélation linéaire .................................................................................. 90
2.3- Réalisation d’une corrélation linéaire .................................................................................... 91
2.4- La régression linéaire simple................................................................................................... 93
2.5- L’EXAMEN DES RESIDUS ................................................................................................... 98
2.6- LA RÉGRESSION LINÉAIRE MULTIPLE ...................................................................... 101
Résumé ........................................................................................................................................... 107
EXERCICE SUR L’ANALYSE DE LA VARIANCE ............................................................... 108
EXERCICE SUR LA REGRESSION LINEAIRE .................................................................... 113
CHAPITRE 4 : LES MODELES NON LINEAIRES .................................................................... 117
I- LES MODÈLES NON LINÉAIRES ............................................................................................ 118
1.1- Les fonctions de type exponentiel ......................................................................................... 118
1.2- Les modèles de diffusion ........................................................................................................ 121
1.3 - Méthode d’estimation des modèles non linéaires ............................................................... 123
Exemple d’application .................................................................................................................. 124
II- LA COINTÉGRATION ET LE MODÈLE Á CORRECTION D’ERREUR......................... 127
2.1- Exemples introductifs ............................................................................................................ 127
2.2- Le concept de cointégration................................................................................................... 129
2.3 Propriétés de l’ordre d’intégration d’une série .................................................................... 129
2.4 - Conditions de cointégration ................................................................................................. 131
2.5 - Le modèle à correction d’erreur (ECM) ............................................................................. 132
2.6 - Cointégration entre deux variables ......................................................................................... 133
2.7 - Généralisation à k variables ................................................................................................. 138
CHAPITRE 5 : ÉLEMENTS D’ANALYSE DES SERIES TEMPORELLES ............................ 141
2
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- Stationnarité................................................................................................................................... 142
A. Définition et propriétés ............................................................................................................ 142
B. Fonctions d’autocorrélation simple et partielle ..................................................................... 143
C. Tests de « bruit blanc » et de stationnarité ............................................................................ 145
1- Analyse des fonctions d’autocorrélation ................................................................................. 145
2- Statistiques de Box-Pierce et Ljung-Box ................................................................................. 146
3- Tests de normalité ..................................................................................................................... 147
4- Tests d’homoscédasticité .......................................................................................................... 148
II. La non-stationnarité et les tests de racine unitaire ................................................................... 149
A. La non-stationnarité : les processus TS et DS ........................................................................ 149
B. Les tests de racine unitaire et la stratégie séquentielle de test .............................................. 153
CHAPITRE 6 : GUIDE PRATIQUE D’UTILISATION DES LOGICIELS EVIEWS ET STATA
............................................................................................................................................................. 164
I- CREATION DE L’ESPACE DE TRAVAIL SOUS EVIEWS .................................................. 165
II- IMPORTATION DES DONNEES ............................................................................................. 165
III- CREATION DES SERIES Log(IMPORT), Log(PIB), Log(TRANSPORT)… .................... 165
IV- SAUVEGARDER ET DONNER UN NOM AU FICHIER .................................................... 166
V- REPRESENTATIONS GRAPHIQUES ..................................................................................... 166
VI- TEST DE NORMALITE DE JARQUE BERA ....................................................................... 167
VII- ECRITURE DU MODELE ...................................................................................................... 168
VIII- INTERPRETATION DU COEFFICIENT DEDETERMINATION .................................. 170
IX- TEST DE COINTEGRATION DE JOHNANSEN.................................................................. 174
EXERCICE .................................................................................................................................... 180
STATA................................................................................................................................................ 182
I- EXTRACTION DES DONNEES ............................................................................................. 182
II- LE TRAITEMENT DES DONNEES ..................................................................................... 184
2.1. Rappel de notions théoriques d’économétrie ....................................................................... 184
2.1.1 Qu’est-ce que l’économétrie ? ............................................................................................. 184
2.1.2 La différence entre un estimateur non-biaisé et efficace, et une variable significative .. 184
2.1.3 Les tests d’hypothèses .......................................................................................................... 185
2.1.4 Homoscédasticité vs Hétéroscédasticité .............................................................................. 187
2.2.2 Création de nouvelles variables. .......................................................................................... 189
2.2.3 Divers ..................................................................................................................................... 191
2.3 Statistiques de l’échantillon .................................................................................................... 191
2.4 Graphiques et tableaux ........................................................................................................... 193
2.5 Régressions ............................................................................................................................... 194
2.5.1 Régression par les moindres carrés ordinaires (MCO) .................................................... 194
2.5.2 Probit/Dprobit ...................................................................................................................... 195
3
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.6 L’interprétation des résultats ................................................................................................. 197
2.6.3 Interprétation économique .................................................................................................. 200
III- Manipulations plus poussées ................................................................................................. 201
3.1 Hétéroscédasticité .................................................................................................................... 201
3.2 Séries chronologiques .............................................................................................................. 202
3.2.1 Test d’autocorrélation .......................................................................................................... 204
3.2.2 Stationnarité.......................................................................................................................... 204
4.2.3 Co-intégration ....................................................................................................................... 210
3.3 Données en panel ..................................................................................................................... 210
3.3.1 Effets fixes vs. Effets aléatoires ........................................................................................... 211
3.4.1 Estimateur Variables Instrumentales ................................................................................. 218
3.4.2 DMCO ................................................................................................................................... 219
3.4.3 Test d’endogénéité ................................................................................................................ 220
3.5 Estimateurs du maximum de vraissemblance (EMV).......................................................... 221
3.6 Moindres carrés généralisés ................................................................................................... 222
3.7 Le logit et le tobit ..................................................................................................................... 223
3.8 Biais de sélection ...................................................................................................................... 224
CHAPITRE 7 : COMMUNIQUER LES RESULTATS ................................................................ 225
1.1 LA STRUCTURE D’UN RAPPORT D’ANALYSE ............................................................ 226
1.2 LES POINTS CLÉS DU RAPPORT ..................................................................................... 229
2.1 MAÎTRISER LES TABLEAUX ............................................................................................ 230
2.2 AMÉLIORER LES GRAPHIQUES...................................................................................... 230
Résumé ........................................................................................................................................... 231
POUR EN SAVOIR PLUS ........................................................................................................... 232
4
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
AVANT PROPOS
5
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
En effet, nous avons voulu, par une alternance systématique de cours et
d’exercices, répondre à un besoin pédagogique qui est de mettre rapidement en
pratique les connaissances théoriques et ainsi, d’utiliser de manière opérationnelle
les acquis du cours.
Le recours à ces logiciels, lors de la résolution des exercices, permet une
découverte de ces outils et donne une dimension pratique que recherchent
l’étudiant et le praticien.
6
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
INTRODUCTION
La plupart des décisions sur l’échiquier national et international reposent sur des
données collectées sur des faits sociaux, le marché, les clients, les concurrents.
Mais le plus souvent, ces analyses sont simplistes, limitées, voire biaisées : d’une
part, parce qu’elles se limitent à des analyses descriptives (tableaux croisés,
analyses factorielles…) et non pas explicatives des phénomènes observés ; d’autre
part, parce qu’elles ne s’assurent pas toujours des conditions de validité et de
fiabilité des résultats.
Dans le même temps, l’analyse des données s’est considérablement transformée
ces dernières années : le volume de données disponible est plus important, et les
outils d’analyse plus sophistiqués. Ces solutions analytiques, telles les suites de
logiciels développées par SPSS, EVIEWS et STATA visent à tirer parti de cette
profusion de données afin d’aider les dirigeants à prendre des décisions fondées,
optimales.
« Ces logiciels économétriques jouent un rôle crucial dans la transformation des
données brutes en connaissances exploitables. Ils fournissent aux chercheurs et
aux économistes les outils nécessaires pour modéliser, analyser et interpréter les
complexités des phénomènes économiques, permettant ainsi une compréhension
approfondie et éclairée du comportement économique ou sociale. »
La diffusion de ces nouvelles approches passe par la mise sur le marché de jeunes
diplômés éclairés et sensibilisés à une démarche analytique dépassant l’intuition
et fondée sur des modèles afin de prendre des décisions optimales. L’idée
maitresse qui nous a guidés tout au long de la rédaction de cet ouvrage est de
démontrer la valeur ajoutée de l’analyse de données dans l’optimisation de
décisions courantes. L’économie, notre domaine de spécialisation, nous a semblé
tout indiqué pour mettre en œuvre une telle approche fonctionnelle. Loin d’un
inventaire de techniques statistiques, nous avons souhaité définir une série de
7
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
questions simples faisant le lien entre les outils d’analyse de données et les
décisions économiques, parmi lesquelles :
Analyse de données avec SPSS, EVIEWS et STATA
• Comment produire et préparer les variables nécessaires à l’analyse ?
• Comment choisir le type de variable (qualitative ou quantitative) en
fonction des besoins de l’étude ?
• Quelle approche mobiliser pour analyser les relations entre deux ou
plusieurs variables ?
• Comment utiliser intelligemment les outils statistiques ?
• Comment communiquer ou rédiger un rapport à partir des résultats issus de
l’analyse des données ?
Cet ouvrage s’adressant principalement aux étudiants et s’inspirant fortement des
remarques de nos enseignants, nous avons également cherché à présenter les
informations de manière simple, passant rapidement le relais à une mise en
application des concepts statistiques par le biais d’une manipulation du logiciel
SPSS. Apprendre en faisant permettra au lecteur d’acquérir des compétences en
analyse de données de manière progressive, et sur l’ensemble de la démarche.
Cette forme d’apprentissage par l’expérience, de pédagogie active, s’étant révélée
payante pour nous, nous espérons qu’elle le sera également pour les enseignants
et les étudiants. Afin de faciliter l’utilisation de ce livre et fait un pont entre la
théorie et la pratique dans le cadre d’un cours (en licence ou master), nous l’avons
émaillée des images et vidéos réalisées par toute l’équipe du groupe SOS
INFORMATIQUE.
8
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Structure du livre
Le domaine de l’analyse de données étant vaste et complexe, nous avons souhaité
organiser ce livre en deux grandes parties distinctes. Une première partie
(chapitres 1 à 4) présente les méthodes descriptives en analyse de données
(analyses univariées et bivariées, tris croisés, analyses factorielles).
La seconde partie de l’ouvrage (chapitres 5 à 7) présente un panorama de
techniques plus avancées (analyse de variance, régressions, analyse conjointe)
afin de guider l’analyste dans ces procédures plus sophistiquées. Enfin, le dernier
chapitre traite de la rédaction du rapport, la valeur ajoutée d’une démarche
analytique passant aussi par la capacité à communiquer les résultats de manière
précise et intelligible.
Remerciements
Nous voudrions remercier vivement ceux qui nous ont aidés à réaliser cet ouvrage,
en particulier, Camille GUIDIME, docteur à l'université de Parakou pour la
qualité de son enseignement qu’il nous a transmis, Elie ADEDODJA docteur à la
FASEG-UP pour ses remarques et sa confiance, Rachidou YOROU, docteur à
l'université de Parakou professeur pour ses encouragements constants et son aide
précieuse.
Merci aussi à Calixte AHIKPON et à toute l’équipe du groupe SOS
INFORMATIQUE pour leur travail éditorial constructif et enrichissant.
Ensuite, nos plus vifs remerciements vont à nos proches, pour les longs instants
volés, le temps étant le plus précieux des cadeaux. Comme le dit Paul Claudel : «
Le temps, tout le consume, et l’amour seul l’emploie. »
9
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Ce livre s’adresse en premier lieu aux étudiants dont la formation requiert une
connaissance de l’économétrie. Gageons qu’il sera un support de cours
indispensable et un allié précieux pour tous.
N’oublions pas cependant le praticien de l’économétrie (économiste d’entreprise,
chercheur, etc.) qui, confronté à des problèmes d’estimation statistique, trouvera
dans ce livre les réponses pratiques aux différentes questions qu’il peut se poser.
Enfin, j’exprime toute ma gratitude à tous les étudiants et docteurs qui ont eu la
gentillesse de me faire des commentaires et dont les conseils et suggestions
contribuent à la qualité pédagogique de ce livre. Je reste, bien entendu, le seul
responsable des erreurs qui subsisteraient.
10
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
POURQUOI RECOURIR AUX OUTILS STATISTIQUES ?
Les sciences sociales peuvent être vues comme celles étudiant les principes de
variation sociale des caractéristiques individuelles, des comportements, des
attitudes, des pratiques ou des opinions. Lorsqu’elles recourent aux données
quantitatives, par exemple issues d’un questionnaire, elles font appel à la
statistique puisque celle-ci fournit des outils destinés à analyser de grands
ensembles de données. Face à de tels ensembles, la science statistique dispose
d’outils théoriques et pratiques permettant d’identifier ces variations, de comparer
ces variations entre divers groupes (les hommes et les femmes ont-ils les mêmes
pratiques ?), de saisir les liens pouvant unir ces variations (relation entre le salaire
des employés et leur niveau d’éducation), d’identifier les groupes « typiques »
ayant des pratiques plutôt homogènes, c’est-à-dire présentant peu de variations
(les adolescents aiment plus les jeux ?), ou encore d’expliquer les principes de
variations (la diversité des jeux s’explique-elle par les différences d’âge ou de
milieu social ?).
Ces notions de variation, de liens, de corrélation, d’explication, de typologie ou
encore de comparaison, dont les exemples montrent bien toute l’importance en
économie (comme dans toutes les sciences empiriques d’ailleurs), trouvent en
statistique des expressions et des formalisations pratiques.
Ainsi, à titre d’illustration, l’idée de relation ou de lien s’exprime dans les notions
statistiques de corrélation, de tableau croisé, de comparaison de pourcentages ou
de test du khi2 ; l’idée d’explication trouve une expression pratique dans la notion
de régression ; l’idée de variation est bien incarnée dans la notion de variance ou
dans le tri à plat... En somme, la statistique offre aux sciences sociales des
instruments permettant d’opérationnaliser, c’est-à- dire de mettre en pratique, des
questions que cette dernière se pose sur des faits sociaux.
11
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Chapitre 1 : Produire et préparer les variables
12
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les différentes sources de données du praticien de l’économétrie.
Pour étudier l’économie et toutes les sciences par ailleurs, le statisticien doit
élaborer des outils (méthodes d’enquête, concepts, catégories, données) lui
permettant de s’abstraire des cas particuliers, de se détacher des représentations
individuelles (à commencer par la sienne). Ce travail d’objectivation est essentiel.
Nous nous attachons ici à préciser les aspects pratiques d’élaboration des données
: les origines possibles de ces données, la construction des échantillons et enfin
l’estimation de la fiabilité des résultats.
Il est commun de dire que les économistes, et plus généralement tous les
scientifiques, travaillent sur des « données ». Le terme utilisé est très mal choisi
car d’une part ces « données » sont construites et d’autre part elles sont coûteuses.
Elles sont construites au sens où elles résultent d’un travail d’élaboration du
statisticien : celui-ci doit définir les dimensions qui semblent pertinentes (sa
problématique), les concepts permettant de se représenter la réalité étudiée, les
catégories servant à coder les faits observés, ainsi que les modalités des protocoles
d’interview ou d’observation... Les données ne s’offrent pas à lui : il doit les «
conquérir ». Dire que les données sont construites ne signifie toutefois pas qu’elles
sont inventées : affirmer que la conception d’un dispositif d’observation et
d’enregistrement du réel est indispensable à l’étude de ce réel ne signifie pas que
ce réel soit une invention, un artifice.
13
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
comme l’INSAE (Institut National des Statistiques et de l’Analyse Economique)
pour le Bénin, le Bureau of Economic Analysis (BEA) aux Etats-Unis, l’INSEE
en France ou encore le National Bureau of Statistic (NBS) en Chine. Il utilise
également des données provenant des enquêtes et d’organisations internationales
comme le FMI ou la Banque Mondiale.
Voici le lien d’une vidéo expliquant explicitement les étapes de collecte des
données sur différents sites.
https://bit.ly/3TPLFss
La netnographie
On constate, depuis quelques années, un intérêt grandissant pour l’information
collectée à partir de l’observation de communautés virtuelles, nouvelles formes
de communautés dont Internet a permis l’émergence. Ainsi, de nombreux
sociologues réalisent des études sur la base d’informations issues des formulaires
d’enquête en ligne et n’ont pas tardé à saisir les opportunités offertes par ces
nouveaux types d’interactions sociales. Kozinets a développé récemment une
approche nouvelle, l’ethnographie sur Internet ou netnographie qu’il définit
comme « une nouvelle méthode de recherche qualitative qui adapte la méthode de
l’ethnographie à l’étude des cultures et des communautés qui émergent grâce aux
communications informatisées » (Kozinets, 2002, p. 62). En tant que technique
de recherche d’information, la netnographie utilise l’information publique
disponible sur les forums en ligne. Le canal Internet permet par exemple aux
marques de participer à de véritables conversations et de s’appuyer sur un puissant
levier du marketing : le bouche à oreille selon Laurent Florès, CEO de la société
d’étude crmmetrix, spécialiste de l’écoute client. Il est désormais possible de
quantifier le volume de ces conversations, d’analyser leur contenu et le profil des
intervenants, avec un avantage important sur les techniques traditionnelles,
puisque cette approche n’altère pas le contexte étudié par l’intervention d’un
analyste mais collecte plutôt une information en langage naturel.
14
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Vous trouverez sur cette adresse une vidéo explicative des différentes étapes de
la création d’un formulaire d’enquête en ligne (Google Forms)
https://bit.ly/48HrktC
15
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2- Echantillon
Afin de bien illustrer les étapes d’un plan de sondage, un petit détour historique
peut s’avérer intéressant. Tout commence aux États-Unis, lorsque Franklin D.
Roosevelt se représente contre Alf Landon aux élections de 1936. Derrière les
candidats, deux hommes s’affrontent pour pronostiquer le résultat de ces
élections. D’une part Codely, rédacteur en chef du Literary Digest, utilise la
technique du vote de paille (straw vote) : quelques jours avant les élections, il fait
paraître des bulletins de vote dans son journal et demande à ses lecteurs de
mentionner leur choix. Il reçoit 2,4 millions de réponses et donne Landon gagnant.
D’autre part, Gallup, créateur de l’institut éponyme, n’interroge que 4 000
personnes et joue Roosevelt gagnant. La victoire de ce dernier marque la
naissance des instituts de sondage. Gallup est le père de l’échantillon représentatif,
le premier à avoir eu l’idée de reconstituer une population en miniature. Cette
jeune pratique est construite autour de deux étapes principales : la définition de la
population à étudier et la sélection de l’échantillon.
Même lorsque c’est possible, il est souvent fastidieux et très coûteux de réaliser
une étude exhaustive. Il ne faudrait d’ailleurs pas croire qu’une enquête
exhaustive apporte une meilleure connaissance de la population : parce qu’une
enquête exhaustive auprès d’une grande population suppose l’emploi d’un grand
nombre d’enquêteurs, dont la formation doit être assurée, dont le travail doit
souvent être contrôlé a posteriori et dont le coût est donc très élevé ; parce qu’un
recensement nécessite d’opérer un maillage précis et systématique du territoire ou
de l’espace à recenser ; enfin parce que la gestion de très grands ensembles de
16
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
données présente de sérieuses difficultés (recoupement des informations, contrôle
de la qualité des questionnaires, vérification du caractère réellement exhaustif...).
Les erreurs s’accumulant et les difficultés se multipliant avec la taille de la
population à enquêter, une enquête exhaustive présente toujours des défauts : les
erreurs, omissions ou doubles comptes, réponses inexactes ou omises, sont
inévitables.
Mieux vaut une enquête auprès d’un échantillon dont on connaît bien les
conditions de recrutement et de passation qu’une enquête aspirant à être
exhaustive ou très large. Le cas de cette élection parlée ci-dessus illustre bien ce
principe. George Gallup a utilisé un échantillon de 4 000 personnes pour prévoir
le vote tandis qu’un journal a sollicité 2,4 millions de personnes mais sans
contrôler leur représentativité en espérant que la très grande taille de l’échantillon
serait le garant de la qualité des résultats. La prédiction de Gallup (victoire de
Roosevelt) s’est avérée exacte alors que le journal s’est trompé.
Travailler sur un échantillon bien conçu permet de mieux contrôler le choix des
individus et les erreurs de mesures. À l’exception des situations où les populations
étudiées sont de petite taille (par exemple la population des élèves inscrits en
terminale dans un lycée particulier, ou la population d’un immeuble). Interroger
un nombre restreint d’individus apporte autant d’informations, et des informations
de meilleure qualité, qu’une enquête exhaustive. La condition est que ce nombre
restreint d’individus, cet échantillon soit « bien conçu » et respecte un certain
nombre de principes.
17
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Tirage au hasard
Échantillons probabilistes
Échantillonnage stratifié
Échantillonnage « boule
de neige
• Méthode des quotas : cette méthode est moins coûteuse que les méthodes
aléatoires. Elle présente l’avantage de la simplicité : on choisit quelques
caractéristiques dont on connaît la distribution statistique dans la population
étudiée (par exemple, sexe, âge, catégorie socioprofessionnelle du chef de
18
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
famille), puis on donne à chaque enquêteur un plan de travail qui lui impose le
respect de certaines proportions au sein des interviewés. Par contre, elle ne permet
théoriquement pas de calculer les marges d’erreur associées aux résultats trouvés,
comme une méthode aléatoire permet de le faire.
19
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les variables nécessaires à l’analyse
1- Mesurer à l’aide d’un questionnaire
20
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
utilisables. Il est par exemple impossible de calculer un statut matrimonial moyen
ou un diplôme moyen.
Les sociologues par exemple utilisent des variables quantitatives dans deux
grands types de situations. Premièrement, lorsqu’ils veulent exprimer des durées
(âge, ancienneté d’une pratique, durée d’une expérience professionnelle, temps
consacré à une activité, nombre d’années d’études, durée entre deux
événements...), des valeurs monétaires (revenus, patrimoine, salaires, montant de
l’argent de poche, dépenses, consommation, épargne...), des indicateurs de
«volume» (nombre de livres lus, nombre d’enfants, taille du réseau amical...) ou
des indicateurs d’« intensité » (fréquence d’une pratique culturelle...). Les
variables synthétiques, que nous définirons plus loin et qui jouent un rôle central,
relèvent également de cette catégorie : elles expriment grâce à un indicateur
quantitatif la position d’un individu selon une grandeur sociologique, par
exemple, son niveau de participation aux tâches ménagères, son niveau
d’investissement sociale, son degré de « religiosité »...
21
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
aimer la musique Rap ou coupé-décalé ; probabilité des enfants des différents
groupes sociaux d’accéder à une grande école...
22
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
peu, pas du tout » ou « Très souvent, assez souvent, de temps en temps, rarement,
jamais ». C’est aussi le cas de toutes les variables fondamentalement quantitatives
mais qui sont codées selon une échelle comme dans l’exemple suivant :
1. Aucun
2. Un ou deux livres
3. Entre 3 et 10 livres
4. Entre 11 et 30 livres
5. Plus de 30 livres »
Une variable qualitative peut être simple (lorsqu’elle reflète une seule
information), multiple (lorsqu’elle reflète plusieurs informations en même temps)
ou ordonnées (lorsqu’elle reflète plusieurs informations classées par ordre). La
question « Quelles sont vos trois stations de radio préférées ? » constitue une
variable multiple. S’il est, en plus, demandé de classer ces trois stations de radio
préférées, elle devient une variable multiple ordonnée. Comme exemple de
variable qualitative nominale, nous pouvons citer le genre (homme, femme), la
religion (l’islam, le christianisme, le bouddhisme…) car on peut créer un ordre
pour ces modalités mais plutôt les noms.
23
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
3. De la nécessité de recoder les variables
Le travail de recodage résulte de deux nécessités. L’une d’entre elles correspond
à des contraintes statistiques et techniques :
1) certaines réponses, notamment les réponses aux questions ouvertes, doivent
être recodées de manière à être exploitables dans une perspective quantitative ;
2) certaines modalités de réponses sont rarement choisies et doivent donc être
regroupées car les effectifs ne permettent pas de les analyser en tant que telles ;
3) enfin, il est parfois nécessaire, pour pouvoir utiliser certaines méthodes
statistiques, de diminuer le nombre de modalités des variables (c’est le cas dans
les analyses factorielles).
La seconde nécessité correspond aux exigences et choix théoriques : elle résulte
de la problématique choisie. Recoder une variable, c’est préparer les données de
façon à les rendre adéquates à la problématique. Cette dernière affirmation est
essentielle : en dehors des contraintes techniques signalées ci-dessus, le recodage
d’une variable doit être réalisé en fonction d’un questionnement et non de
présupposés extérieurs à la problématique.
Il est donc faux de croire que le recodage est une simple opération technique. Il
s’agit d’une opération théorique, visant à rendre les variables les plus adéquates
possibles à la problématique et aux notions en œuvre dans celle-ci. Bien recoder
les variables est un impératif pour conduire une bonne analyse sociologique.
24
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
e) Faculté de médecine ou de pharmacie
f) Faculté de droit
g) Autre filière universitaire
h) École d'infirmières
i) École d'architecture
Il y a au moins trois manières de recoder cette variable, selon qu’on s’intéresse à
l’opposition entre ceux qui ont poursuivi des études post-bac et ceux qui ont arrêté
; à l’opposition entre ceux qui ont engagé des études courtes (IUT, BTS...) et ceux
ayant débuté des cursus longs (médecine, classes préparatoires) ; ou à l’opposition
entre les filières sélectives (classes préparatoires, IUT, médecine, pharmacie...) et
filières moins sélectives (filière universitaire hors médecine, pharmacie et
droit...). C’est la problématique et la question théorique posée au traitement
statistique (par exemple un tableau croisé) utilisant la variable qui vont déterminer
la nature du recodage, en l’occurrence du regroupement de modalités.
26
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
3.3 Techniques de recodage 3 : combiner les variables
Afin de simplifier le travail d’analyse et de croisement, il est souvent utile de
concevoir des variables combinant deux variables primaires. Les modalités de la
nouvelle variable sont obtenues par combinaison des modalités des deux variables
primaires. Cette technique est particulièrement utile lorsque l’analyse conduit à
tenir compte de deux variables contextuelles ou explicatives en même temps. Il
est par exemple fréquent de recourir à une variable combinant à la fois une
information sur le sexe et une information sur l’âge1 :
Variable âge x sexe
1. Homme de 18 à 34 ans
2. Homme de 35 à 59 ans
3. Homme de plus de 60 ans
4. Femme de 18 à 34 ans
5. Femme de 35 à 59 ans
6. Femme de plus de 60 ans
Cette technique est également utile pour rassembler deux informations qui vont
naturellement ensemble mais qui font l’objet de deux questions différentes dans
le questionnaire. Les questions « Quelle est votre religion ? » et « Êtes-vous
pratiquant(e) ? » peuvent être assemblées de la manière suivante :
1. Sans religion
2. Catholique non pratiquant
3. Catholique pratiquant
4. Protestant non pratiquant
5. Protestant pratiquant
6. Musulman non pratiquant
27
1 On pourra prendre soin de réfléchir à l’ordre avec lequel on croise les variables : dans
l’exemple, le sexe vient avant l’âge et la variable reflète des groupes de sexe découpés selon
l’âge. L’inversion des rôles fournit une variable davantage structurée par l’âge.
Résumé
Exercice pratique
Exercice 1 : Créer un formulaire d’enquête en ligne sur l’impact du Covid-19 sur
les ménages de la ville de Parakou. Vous avez la latitude de choisir vos questions
en fonction de la problématique que vous définirez au préalable. Exemple de
problématique : Est-ce que le Covid a un impact significatif sur le revenu des
ménages de la ville de Parakou ou encore est-ce que le Covid a un impact sur la
qualité nutritionnelle des ménages de la ville de Parakou ?
28
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution : Cliquez sur ce lien et découvrez une vidéo instructive sur la création
d’un formulaire d’enquête en ligne avec Google Forms.
https://bit.ly/48HrktC
• Quel montant moyen dépensez-vous par mois dans ce type de point de vente ?
• En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer ?
29
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution :
30
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Exercice 3 : Recoder les variables niveau de satisfaction et âge de cette base de
données relative à l’achat du livre le plus vendu du groupe SOS
INFORMATIQUE « APPRENDRE EXCEL Á PARTIR DE ZÉRO ». Elle
recapitule les informations des clients dont le niveau de satisfaction, le sexe et le
prix. La variable niveau de satisfaction comportera trois modalités à savoir : peu
satisfait, satisfait, très satisfait. Vous allez recoder ces modalités en leur affectant
les codes 1, 2 et 3. Pareil pour la variable sexe qui comporte deux modalités,
masculin, féminin.
31
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution : Pour recoder la variable niveau de satisfaction, cliquez sur l’onglet
‘’Transformer’’ Création de variable
32
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Veuillez sur cette fenêtre renseigner le nom de la modalité et le code puis cliquer
sur Ajouter. Faites la même chose avec les autres modalités et suivez la même
procédure pour recoder la variable Sexe.
Les deux dernières colonnes représentent les variables recodées avec les
modalités 1, 2 et 3 pour la variable niveau de satisfaction et 1, 2 pour la variable
sexe.
33
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour en savoir plus sur le recodage des variables qualitatives et quantitatives avec
le logiciel SPSS d’une part et avoir une maitrise parfaite de ce dernier, écrivez au
(+229) 94270028 pour bénéficier d’une réduction exceptionnelle parce que vous
avez déjà le livre.
34
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Chapitre 2 : Analyse des relations entre deux variables
35
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I. Description d’une variable
Retenez encore une fois pour la route qu’une variable est qualitative dès lors
qu’elle a pour valeur des modalités ; elle peut être nominale (lorsque l’ensemble
des modalités ne possède pas de structure particulière) ou ordinale (lorsque
l’ensemble des modalités est ordonné). Une variable est considérée comme
quantitative ou métrique lorsque ses modalités peuvent être mesurées (par
exemple l’âge, la valeur d’une action, etc.).
Il existe plusieurs possibilités dans SPSS pour décrire les données collectées. On
peut par
Exemple, dans un premier temps, générer un rapport sur les observations pour
s’assurer qu’elles ne comportent pas d’erreurs de saisie, de valeurs aberrantes
(Analyse > Rapport > Récapitulatif des observations…) ou plus simplement
pour prendre connaissance des variables dans un tableau synthétique, ce qui
s’avère souvent utile en début d’analyse (Outils > variables…).
36
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La procédure Fréquence permet d’obtenir les affichages statistiques et graphiques
qui servent à décrire des variables quantitatives et qualitatives. Pour obtenir un
tableau d’effectifs et de fréquences pour une ou plusieurs variables dans SPSS,
ouvrez le fichier de données « Employee data.sav », sélectionnez dans le menu
Analyse > Statistiques descriptives > Fréquences…, puis procédez à la
description de la variable de type ordinale catégorie d’employé correspondant à
la question : « Vous appartenez à quelle catégorie d’employé ? ». La boîte de
dialogue de la figure 1 apparaît.
37
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Tableau 1 : Description de la variable « Catégorie d’employé »
38
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 1 : Diagramme en secteurs des effectifs de la variable catégorie
d’employé.
39
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
moyenne arithmétique. La moyenne révèle la tendance centrale en ce sens que les
réponses se trouvent réparties de part et d’autre de la moyenne. Si certaines
valeurs sont très éloignées les unes des autres, elles peuvent avoir une influence
importante sur la moyenne. Dans ce cas, il vaut mieux utiliser la médiane, qui
n’est pas sensible aux valeurs aberrantes ou extrêmes.
Mesures de la dispersion
Les mesures de la dispersion reposent sur les indicateurs suivants : l’étendue, la
variance, l’écart type et le coefficient de variation. L’étendue (ou intervalle) est la
différence entre la plus grande et la plus petite des valeurs observées.
41
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
des variables en sélectionnant les observations sur lesquelles on souhaite faire
porter l’analyse. On peut notamment chercher à savoir si les hommes perçoivent
en moyenne plus ou moins que l’ensemble de la population. Pour ce faire, il faudra
filtrer les observations en fonction du sexe des répondants.
Pour en savoir plus sur ce type de graphique avec le logiciel SPSS d’une part et
avoir une maitrise parfaite de ce dernier, écrivez au (+229) 94270028 pour
bénéficier d’une réduction exceptionnelle parce que vous avez déjà le livre.
43
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.2- Test du Khi-deux
Les tableaux croisés présentent la distribution des fréquences de réponse pour
deux ou plusieurs variables mises en relation mais ils ne permettent pas de
démontrer l’existence de cette association du point de vue statistique. Pour
mesurer véritablement la relation entre les variables, il est nécessaire de mettre en
place des tests de signification statistique de l’association.
Le test le plus couramment utilisé est celui du khi-deux (khi-2), car il consiste à
tester la signification statistique d’une association de deux variables qualitatives
(nominales ou ordinales). Plus précisément, il a pour objet de tester
l’indépendance des variables dans un tableau croisé en comparant la distribution
observée sur l’échantillon à une distribution théorique qui correspond à
l’hypothèse que l’on veut tester.
44
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le test du khi-deux s’obtient par la procédure des tableaux croisés vue plus haut
(Analyse > Statistiques descriptives > Tableaux croisés…) et peut être sélectionné
dans le menu Statistiques, comme l’indique la figure 3.
45
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus
haut et sélectionné le test du khi-deux dans le menu Statistiques de la boîte de
dialogue Tableaux croisés. Conformément à ce que nous pouvions penser a priori,
la valeur du khi-2 (χ2) est inférieure à la valeur critique correspondant au seuil de
signification statistique de 0,05 (nous obtenons 0,001). Ce résultat nous permet
de rejeter Ho (« il n’existe pas de lien entre les variables ») et de conclure qu’il
existe bien une relation entre le salaire et la catégorie d’employé dans la
population observée.
Intérêts et limites
Le test du khi-2 est très utile pour indiquer l’existence d’une relation de
dépendance entre deux variables. Mais il ne constitue pas un indicateur de
l’intensité de cette dépendance. La probabilité associée à l’hypothèse
d’indépendance ne permet pas de hiérarchiser les relations entre variables en
identifiant celles qui sont fortement liées et celles qui le sont un peu moins : la
probabilité indique la confiance qu’il est possible d’accorder à l’hypothèse
d’indépendance et non l’intensité de leur éventuelle dépendance.
46
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Deuxièmement, les effectifs doivent être suffisants pour que nous puissions juger
des effets du hasard et, donc, distinguer ce qui relève du hasard et ce qui n’en
relève pas. Imaginons que l’effectif théorique d’une cellule du tableau soit
seulement de 4 personnes. Si l’effectif observé de cette même cellule est de 2 ou
de 6 personnes, l’écart relatif est important mais peut-on juger sur de si petits
effectifs ? De toutes petites fluctuations dans l’échantillonnage vont
considérablement changer la distance du khi-2 et donc les conclusions du test.
Pour cette raison, il est préférable de ne pas utiliser le test du khi-2 dès que le
tableau est trop « creux ». Les recettes pour déterminer si un tableau est trop creux
sont nombreuses, presque aussi nombreuses que les manuels ou les statisticiens.
La plus prudente est certainement de suivre le principe proposé par Philippe
Cibois 1 : examiner les contributions des diverses cases du tableau à la distance
totale du khi-2 afin d’identifier les cases qui, à elles seules, expliqueraient
l’essentiel de la distance du khi-2 ; et si seules une ou deux cases expliquent la
valeur de la distance, s’interroger sur la nature de la relation unissant les modalités
correspondantes.
Troisièmement, comme tout test statistique, le test du khi-2 n’est pas une preuve
absolue de la présence ou de l’absence d’une dépendance entre deux variables. Il
ne fournit que des présomptions de relations... qui devront être étayées par
d’autres analyses, d’autres croisements...
48
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
de l’autre. Autrement dit, les variables X et F sont linéairement liées si une
variation de p % de X entraîne toujours une variation constante de q % de Y. Par
exemple la consommation de livres (estimée par le nombre de livres achetés par
an) est liée linéairement à leur prix si une variation de 10 % du prix des livres
entraîne immanquablement une variation de q % de leur consommation : la valeur
de q peut être négative (dans ce cas, la consommation baisse si le prix augmente)
ou positive (dans ce cas, la consommation croît si le prix augmente) ; q peut valoir
- 15 %, - 9 %, - 3 %, 5 %, 11 %, 17 % ... L ’important est ici que cette variation
soit toujours identique si le prix des livres augmente de 10 % pour passer de 10 à
11 € , ou de 20 à 22 € , ou de 50 à 55 € ... Mathématiquement, la propriété de
liaison linéaire entre deux variables s’écrit : Y = a x X + b (où a et b sont des
nombres constants). Notons que cette relation n’a pas de symétrique (X et Y
jouent des rôles identiques) : si X et Y sont liées linéairement, Y et X le sont
également. Ainsi si Y = a x X + b alors : X = Y/a - b/a : c’est une autre relation
linéaire (X = a ’ x Y + b ’ avec a ’ = 1/a et b’ = b/a).
La notion de covariation
Pour exprimer la variation (variabilité) d’une variable, nous avons vu qu’il était
possible de recourir à l’indicateur de variance ou d’écart-type. Il est possible de
concevoir un indicateur comparable pour exprimer la covariation de deux
variables c’est-à-dire pour rendre compte de leurs variations simultanées. Si ces
variations simultanées sont élevées, les variables sont probablement liées
(puisqu’une variation de l’une est associée, presque systématiquement, à une
variation de l’autre - comme par exemple dans le cas du poids et de la taille des
individus). Si ces variations simultanées sont faibles, les variables sont
probablement indépendantes (puisque l’une peut varier sans que l’autre le fasse).
L’indicateur de covariation est appelé covariance et est défini comme la moyenne
des produits des écarts à la moyenne de chaque variable.
49
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La covariance prend des valeurs positives d’autant plus élevées que les deux
variables varient simultanément dans le même sens (une hausse de l’une est
associée à une hausse de l’autre ; une baisse de l’une est associée à une baisse de
l’autre). Elle prend des valeurs négatives d’autant plus petites (c’est-à-dire
éloignées de zéro) que les variables varient simultanément dans des sens
contraires (une baisse de l’une est associée à une hausse de l’autre).
covariance de X et de Y
rxy =
(écart-type de X) x (écart-type de F)
50
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
✓ Le coefficient calculé entre deux variables X et Y vaut -1 si X et Y sont
liées par une relation linéaire parfaite mais qu’une croissance de X est
associée à une décroissance de Y (et inversement : une décroissance de X
est associée à une croissance de Y) ;
✓ Le coefficient vaut 1 si X et Y entretiennent une relation linéaire parfaite et
une croissance de X est associée à une croissance de Y. Il est possible de
parler de relation linéaire croissante ou positive ;
✓ Le coefficient vaut 0 si X et Y n’entretiennent pas de relation linéaire : X
et Y sont dites linéairement indépendantes.
Il est également possible d’interpréter rxy, ou plus exactement son carré r2xy,
comme une mesure de la variabilité de Y expliquée par X (et réciproquement),
c’est-à-dire la part des variations de Y qui peut être expliquée par les variations
de X (et réciproquement). Plus cette part est élevée, plus Y est expliquée par X (et
réciproquement). Ce coefficient r2xy est appelé « coefficient de détermination
» : il est toujours compris entre 0 et 1 : plus il est proche de 1, plus X permet
d’expliquer les variations de Y ; plus il est proche de 0, moins X permet
d’expliquer Y (et réciproquement).
Intérêts, usages et limites
Le principal intérêt du coefficient de corrélation est de fournir une indication de
l’intensité de la relation (linéaire) qu’entretiennent deux variables. À la différence
du khi-2, qui livre simplement une indication sur la plausibilité de l’hypothèse
51
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
d’indépendance entre deux variables sans apporter de renseignement sur la force
de leur éventuelle dépendance, les valeurs des coefficients de corrélation peuvent
être interprétées comme des intensités : elles permettent donc de hiérarchiser les
relations entre variables.
Le coefficient de corrélation est très fréquemment utilisé dès que les variables
sont de nature quantitative : d’une part, parce qu’il est simple à calculer et à
interpréter ; d’autre part, parce que dans le cas de petites variations, il est toujours
possible de considérer, par approximation, que les variations sont linéaires, car, à
l’échelle des faibles variations de valeur, toute courbe reliant deux variables X et
Y peut être considérée comme un morceau de droite. Une autre raison de son
succès est qu’il est connu par tous : il fait partie des tout premiers outils
statistiques présentés dans tous les cours de statistiques. Cette familiarité n’a
toutefois pas que des avantages : elle conduit à oublier les conditions d’utilisation
et le sens réel de ce coefficient pour ne voir en lui que « la » méthode de mesure
des corrélations entre variables quantitatives.
La principale limite du coefficient de corrélation a déjà été signalée, elle est
contenue dans sa définition : il ne permet d’identifier que les relations de nature
linéaire entre deux variables et signale la présence ou l’absence d’une telle
relation, sans fournir la moindre indication sur la présence d’une relation d’un tout
autre type entre deux variables. Par exemple, le coefficient de corrélation linéaire
entre l’âge des enquêtés et le nombre de fois où ils se sont rendus au cinéma au
cours des douze derniers mois peut être nul sans pour autant signifier qu’il n’existe
aucun lien entre l’âge et la fréquentation des cinémas : le nombre de films vus au
cinéma au cours d’une année peut croître progressivement de 12 à 25 ans pour
baisser de 25 à 45 ans et croître à nouveau au-delà de 45 ans... Le coefficient de
corrélation linéaire sera incapable de restituer une telle relation.
Dans tous les cas, il est bon voire indispensable de se faire une idée de la relation
qu’entretiennent deux variables en construisant une représentation graphique des
52
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
valeurs de ces deux variables. Un graphique permet d’identifier les éventuelles
relations entre deux variables, même si ces relations ne sont pas linéaires.
Une autre limite classiquement attribuée au coefficient de corrélation est que s’il
permet de renseigner sur l’éventuelle présence d’une relation linéaire entre deux
variables, il ne dit rien sur la nature causale ou non de cette relation. Cette limite
n’est pas propre à ce coefficient : la critique vaut également pour le test du khi2.
De manière générale, la recherche de relation causale est hors de portée des seuls
outils statistiques simples.
53
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La méthode habituellement utilisée pour estimer la présence ou l’absence d’un tel
lien est appelée l’analyse de la variance, souvent abrégée en ANOVA (Analysis
of Variance). Il s’agit d’un test, permettant d’aboutir à l’acception ou au rejet
d’une hypothèse, en l’occurrence l’hypothèse qu’il n’y a pas de lien entre la
variable qualitative et la variable quantitative. On parle parfois du « test ANOVA
».
Le principe de l’ANOVA
Nous savons que la variance est une mesure de la variabilité : elle permet
d’estimer l’hétérogénéité ou, au contraire, l’homogénéité d’une série de valeurs.
Supposons que le nombre de sports pratiqués soit parfaitement déterminé par le
sexe, par exemple que les adolescentes (féminin) pratiquent un seul sport tandis
que les adolescents (masculins) pratiquent deux sports. Dans ce cas,
l’homogénéité de comportement des filles (comme celle des garçons) est totale :
la variance du nombre de sports pratiqués est nulle parmi les filles (comme parmi
les garçons). En revanche, entre le groupe des garçons et celui des filles, il existe
une hétérogénéité : la variabilité entre les deux groupes n’est pas nulle. Ainsi la
variabilité entre le comportement des garçons et celui des filles est plus importante
que la variance des comportements au sein du groupe des filles et au sein du
groupe des garçons. Et ceci est associé à une situation où la variable qualitative
est liée à la variable quantitative.
Imaginons maintenant que le sexe et la pratique sportive n’aient aucun lien entre
eux. Dans ce cas, les comportements des garçons diffèrent peu ou pas du tout de
ceux des filles : les garçons peuvent avoir des pratiques très différentes ; les filles
peuvent également avoir des pratiques sportives très variables ; mais ce qui
importe ici est que les garçons et les filles aient des attitudes proches voire
identiques. En termes techniques, cela signifie que la variabilité entre les garçons
et les filles est faible ou nulle comparativement à la variabilité des comportements
masculins d’une part et féminins d’autre part.
54
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Cet exemple suggère que pour se faire une idée de l’existence d’un lien éventuel
entre la pratique sportive et le sexe des adolescents, il suffit de comparer les
variabilités au sein des groupes et la variabilité entre les groupes. Le principe
général de l’ANOVA réside dans cette comparaison des variabilités.
Complément
Test t
Le test t est directement lié à la statistique t de Student, qui suppose que la variable
adopte une distribution normale, que la moyenne soit connue et que la variance,
lorsqu’elle est inconnue, soit estimée sur l’échantillon. On le calcule de la manière
suivante :
𝒕 = (𝒙
̅ − 𝝁) ∕ 𝑺𝒙̅ ̅ ∶ 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒅𝒆 𝒍′ é𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 ; 𝝁 ∶
Où 𝒙
𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 ; 𝑺𝒙̅ ∶ 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 𝒅𝒆 𝒍′é𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏
Dans SPSS, ce test paramétrique peut être estimé avec la procédure suivante :
menu Analyse > Comparer les moyennes > Test T pour échantillon unique…,
55
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour comparer les moyennes de deux échantillons indépendants (comparaison des
clients et des non-clients par exemple), on utilisera une analyse de variance
(ANOVA) à 1 facteur. Pour comparer les moyennes de deux échantillons appariés
(comparaison de relevés de prix à deux périodes distinctes par exemple), on suivra
une extension du test t pour échantillons appariés qui est disponible dans la même
boîte de dialogue.
56
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test Z
Le test Z peut être mis en place lorsque la variance de l’échantillon est connue. La
valeur de Z s’obtient par la formule suivante :
𝒛 = (𝒙
̅ − 𝝁) ∕ 𝝈𝒙̅ Où 𝜎𝑥̅ est l’écart type de la population
Z = où : est l’écart type de la population Ce test peut également être étendu pour
tester des proportions.
Test non paramétriques : Les tests non paramétriques sont souvent mis en œuvre
dans la pratique en marketing et autres : ils s’appliquent aux variables qualitatives
et s’avèrent relativement performants sur de petits échantillons, même s’ils sont
moins puissants que les tests paramétriques. Voici les principaux tests
paramétriques présentés ici : un test d’ajustement (le test de Kolmogorov-
Smirov), des tests de comparaison d’échantillons indépendants (le test U de
57
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Mann-Whitney et le test de la médiane), ainsi que des tests de comparaison
d’échantillons appariés (le test de Wilcoxon, le test du signe et le test de
McNemar).
58
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test U de Mann-Whitney
Le test de Mann-Whitney permet de vérifier que deux échantillons (ou groupes)
proviennent bien de la même population. On peut l’utiliser, par exemple, pour
comparer les réponses dans un département par rapport aux réponses nationales.
La statistique du test U réunit les deux échantillons et ordonne les observations
par ordre croissant de taille. Le test calcule le nombre de fois où un résultat du
groupe 1 précède un résultat du groupe 2, ainsi que le nombre de fois où un résultat
du groupe 2 précède un résultat du groupe 1. U est d’autant plus petit que les
groupes sont différents.
Pour calculer le U de Mann-Whitney dans SPSS, il faut d’abord définir la variable
qui servira à scinder les données en deux échantillons : Analyse > Test non
paramétrique > 2 échantillons indépendants…, puis sélectionner une variable
de regroupement (Facteur) et cliquer sur Définir les niveaux. Pour définir les
groupes, vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe
2. Sélectionnez ensuite le test U de Mann-Whitney dans la boîte de dialogue.
59
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test de la médiane
Ce test, moins puissant que le U de Mann-Whitney, permet de déterminer si deux
groupes sont issus de populations ayant la même médiane, en estimant la position
de chaque observation par rapport à la médiane globale des deux échantillons.
Pour calculer le test de la médiane dans SPSS, vous devez suivre la procédure
suivante : Analyse > Test non paramétrique > échantillons indépendants…,
puis sélectionner le test de la médiane dans le menu du type de test envisagé.
Test de Wilcoxon
Le test de Wilcoxon est utilisé dans le cas de la comparaison de deux échantillons
appariés, c’est-à-dire lorsque l’on souhaite, par exemple, comparer deux types de
réponses : avant/après l’exposition à un message publicitaire, attitude par rapport
à une marque A et une marque B, etc. La statistique z du test de Wilcoxon s’obtient
en calculant la différence entre les scores des deux observations par paires
d’observations, puis en calculant le rang de toutes les différences, et enfin la
60
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
somme des rangs positifs et des rangs négatifs. On rejette l’hypothèse nulle
(absence de différence entre les deux groupes) s’il y a une différence entre la
somme des rangs positifs et la somme des rangs négatifs. Le sens de la statistique
indique le sens de la différence de la paire examinée.
Dans SPSS, ouvrez le menu Analyse > Test non paramétrique > 2 échantillons
liés…, puis sélectionnez le test que vous souhaitez mettre en œuvre (Wilcoxon,
Signe, McNemar), comme le montre l’image ci-dessous.
Test du signe
Le test du signe est relativement proche du test de Wilcoxon, mais il est plus limité
et par suite moins puissant. Il ne s’attache en effet qu’à une comparaison des
signes des différences, sans procéder à un classement comme le fait le test de
Wilcoxon.
61
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Test de McNemar
Le test de McNemar peut également être mis en œuvre dans le cas d’échantillons
appariés, pour comparer les valeurs de deux variables dichotomiques (à deux
dimensions).
Résumé
Première étape de l’analyse à proprement parler, la description des données
permet de représenter les valeurs observées sur les différents individus de
l’échantillon. L’analyse univariée, qui examine une seule variable à la fois,
repose sur la description (fréquences, tendance centrale, dispersion, distribution)
et la visualisation graphique des variables, ainsi que sur l’inférence, c’est-à-dire
la comparaison à des valeurs déterminées. L’analyse bivariée permet d’aller plus
loin par l’étude des relations entre deux variables, grâce aux tris croisés et aux
principaux tests d’analyse bivariée : tests d’association (khi-deux) et tests de
comparaison (test t, test K-S, test U de Mann-Whitney, etc.). Pour aller encore
plus loin dans l’analyse, le chargé d’étude devra mettre en place des analyses
multivariées, lesquelles seront abordées dans le chapitre suivant.
62
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Exercice 1 : Les tests
Anciens
……Item Clients Signification
clients
Âge moyen 47,6 ans 22,1 ans ,000
63
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
– nombre de SMS dans l’abonnement 5,8 5,2 ,659
Solution :
1. Dans ce cas de figure, le chargé d’étude doit comparer la moyenne des
réponses de deux échantillons à deux périodes distinctes, en d’autres termes
avant et après l’exposition du produit dans un message publicitaire. Il s’agit
donc d’une mesure sur échantillons appariés. Il pourra, par exemple, mettre
en œuvre une extension du test t.
2. Les résultats de l’enquête comportent 7 résultats significatifs à un degré de
confiance de 95 %. On peut donc conclure que les abonnés ayant préféré la
concurrence sont en général plus jeunes et que leur abonnement était plus
récent que celui des abonnés interrogés. En outre, ils sont plus nombreux à
posséder un second téléphone portable et sont relativement moins satisfaits
de la qualité des communications, des options de leur abonnement ainsi que
du prix et du coût global mensuel de l’abonnement que les abonnés
interrogés.
3. On peut réaliser un tri croisé des deux variables qualitatives et procéder à
un test de khi-deux pour savoir si les deux variables sont liées. Comme nous
n’avons aucune information sur le nombre d’observations, nous ne sommes
pas certains de pouvoir respecter la condition de 5 observations par case du
tableau. En outre, il est possible de procéder à un test sur échantillons
64
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
appariés pour comparer les réponses aux deux questions : un test de
Wilcoxon serait alors approprié.
Exercice 2
Solution 2
65
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Nous avons choisi de représenter ces variables d’une façon relativement simple,
en ne demandant que les effectifs, les pourcentages ainsi que le mode. Le mode
représentant la catégorie ayant l’effectif le plus élevé. Le résultat est confirmé
dans le tableau ci-dessus où les employés de cette entreprise sont majoritairement
du sexe (54,4 %) avec un niveau d’éducation de 12 années.
2. Pour voir graphiquement la part des employés de cette entreprise qui
appartiennent à la catégorie « cadre », il faut dans cette boite de dialogue
66
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
cliquer sur Statistiques et choisir le type de graphiques qui représentera au
mieux notre variable (diagramme en secteur) dans le cas d’espèce).
67
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Sélectionnez vos deux variables pour les téléverser dans le rectangle à l’aide de la
flèche indicatrice. Par défaut, la case de Pearson est cochée et le test de
signification est sur Bilatéral.
68
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 3 : ANALYSE DE LA VARIANCE ET
REGRESSION LINEAIRE
CHAPITRE 3 : ANALYSE DE LA
VARIANCE ET REGRESSION LINEAIRE
69
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- ANALYSE DE VARIANCE
L’analyse de variance désigne une famille de méthodes destinées à examiner et à
interpréter les différences de moyennes observées entre plusieurs groupes pour
une même variable (ANOVA pour ANalysis Of VAriance) ou pour plusieurs
variables (MANOVA pour Multivariate ANalysis Of VAriance). Ces méthodes
sont souvent utilisées pour analyser des données issues d’une expérimentation où
des caractéristiques d’un objet sont manipulées afin d’optimiser l’objet au
moindre coût. Nous verrons dans un premier temps les techniques d’analyse de
variance et de covariance avant de découvrir un terrain d’application privilégié de
l’ANOVA : la méthode du plan d’expérience.
70
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
1.1- LES PRINCIPES DE L’ANALYSE DE VARIANCE
L’analyse de variance entre dans le cadre général du modèle linéaire, où une
variable quantitative (ou plusieurs) est expliquée par une variable qualitative (ou
plusieurs). L’objectif essentiel est de comparer les moyennes empiriques de la
variable quantitative observées pour les variables qualitatives (facteurs) ou
quantitatives découpées en classes (niveaux). À titre d’exemple, on étudiera la
satisfaction du client à l’égard d’un produit selon les différentes caractéristiques
de ce produit (parfum, texture, etc.). Il s’agit de savoir si un facteur, ou une
combinaison de facteurs (interaction), a un effet sur la variable quantitative
expliquée. Par exemple, il s’agira de déterminer les caractéristiques optimales
d’un paquet de céréales pour un petit déjeuner destiné aux enfants. Des indicateurs
statistiques permettent de tester la significativité de cette combinaison linéaire.
L’hypothèse nulle est vérifiée par le test F sous SPSS. Afin d’identifier les
moyennes qui diffèrent, on peut comparer les moyennes avec les contrastes ou
avec les tests post hoc.
Deux conditions sont nécessaires pour que les conclusions d’une ANOVA soient
valides : l’homogénéité de la variance intragroupe et la normalité des données.
Le test de Levene (> 0,05) est utilisé pour accepter l’hypothèse d’homogénéité
de la variance intragroupe. Il faut, par ailleurs, vérifier la présence éventuelle de
71
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
mesures aberrantes par le contrôle de la distribution des résidus à l’aide d’un
graphique, les erreurs de saisie pouvant générer des hétérogénéités.
Si les données ne sont pas appropriées à une ANOVA (hétérogénéité des
variances ou données fortement asymétriques), on doit alors utiliser des tests non
paramétriques qui ne supposent ni homogénéité de la variance, ni une
distribution normale, par exemple le test de Kruskall-Wallis.
La boîte de dialogue apparaît (voir figure 7), transférez les variables en les
sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante à
72
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
tester est l’avis à l’égard du prix et la variable indépendante est placée dans le
champ Facteur.
Avant de lancer l’ANOVA à un facteur, nous vérifions l’homogénéité des
moyennes. Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure
8), cliquez sur Test d’homogénéité.
Cliquez sur Poursuivre pour revenir à la précédente boîte de dialogue puis sur
OK.
73
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 9 : Interprétation du test d’homogénéité.
Plus la valeur de p est petite, plus la preuve est forte contre l’hypothèse nulle. Ici,
les moyennes sont très différentes (F = 0,91 ; p = 0,41). L’hypothèse nulle est
rejetée, le prix a un effet sur l’avis des clients après usage du livre mais, à ce stade,
nous ne savons pas quel est le prix préféré. Pour cela, il faut réaliser un test de
comparaisons multiples, aussi appelé test post hoc.
Cliquez sur Post Hoc. Dans la boîte de dialogue qui apparaît (voir figure 10),
cliquez sur le test de votre choix. Nous sélectionnons ici le test de Duncan,
souvent employé pour des tests de comparaisons de plusieurs moyennes. Dans
notre cas, il s’agira des prix 5000, 4500 ou 4000.
74
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 10 : Demande de test de comparaisons multiples a posteriori pour
ANOVA à 1 facteur.
Le test de Duncan montre (voir figure 11) que le prix « 4000 » est supérieur aux
autres. Le prix moyen à son égard est de 2,63, significativement plus élevée que
celui des prix 5000 (2,21) ou 4500 (2,25).
En d’autres termes, les clients préfèrent acheter le livre à plutôt qu’à 5000 ou
4500).
75
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 10 : Test Post Hoc
76
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
liés au premier facteur respecte alors celui des niveaux du second facteur. Dans le
cas d’une interaction non ordinale, nous avons en revanche une modification dans
l’ordre des effets. Une interaction non ordinale peut être non croisée ou croisée.
Cette dernière interaction est la plus forte de toutes.
L’existence d’une interaction se détecte par l’observation des courbes : leur
parallélisme indique une absence d’interaction (l’effet conjoint des facteurs
combinés est égal à la somme de leurs effets principaux individuels) alors que leur
croisement montre que l’effet relatif des niveaux du premier facteur varie en
fonction des niveaux de l’autre.
Allez dans le menu Analyse > Modèle linéaire général > Univarié. Dans la boîte
de dialogue qui apparaît (voir figure 11), transférez les variables en les
sélectionnant une à une puis en cliquant sur les flèches. La variable dépendante
est le salaire actuel et les variables indépendantes ou explicatives le sexe de
l’employé et son niveau d’éducation sont placées dans le champ Facteur(s)
fixe(s). Quelques remarques sur les boutons de cette boîte de dialogue :
Modèle. Ce bouton permet de préciser le type de modèle à analyser et le type
d’erreur. Par défaut, sont cochées l’option factoriel complet, où tous les effets sont
calculés, et somme des carrés de type III, qui permet de tester des modèles
équilibrés ou non (un modèle est déséquilibré lorsque les cellules ne contiennent
pas le même nombre d’observations). Il faut cliquer sur le bouton Termes
2
Vous trouverez ce fichier les fichiers d’échantillons du logiciel 77
78
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Avant de lancer l’ANOVA, nous devons vérifier l’homogénéité des moyennes.
Cliquez sur Option. Dans la boîte de dialogue qui apparaît (voir figure 12),
cliquez sur Tests d’homogénéité.
Cliquez sur Poursuivre pour revenir à la boîte de dialogue MLG Univarié puis
sur OK. Le test de Levene (voir figure 13) n’est pas significatif (0,01 < 0,05),
l’hypothèse d’homogénéité des échantillons est donc rejetée.
79
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 13 : Interprétation du test d’homogénéité.
Nous pouvons procéder à l’analyse des résultats de l’ANOVA (voir figure 14).
Le modèle explique 68,9 % le salaire, c’est-à-dire que le salaire d’un employé
dépend à 68,9 % de son sexe et de son niveau d’éducation. Le coefficient du sexe
(F = 35,05; p < ,001) et le niveau d’éducation (F = 57,68; p < ,001) ont un impact
significatif sur le salaire.
81
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 16 : Graphique du salaire en fonction du sexe.
82
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’analyse multivariée de la variance est une extension de l’ANOVA pour mesurer
les différences de moyenne de deux variables dépendantes quantitatives (ou plus)
en fonction de plusieurs variables qualitatives. Ce que la MANOVA apporte en
plus de l’analyse de variance simple concerne la corrélation des variables à
expliquer, décomposée en intra et intergroupe. Ces interactions apparaissent
lorsque les effets d’un facteur donné sur les variables expliquées dépendent des
modalités des autres facteurs.
83
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
• Linéarité des variables dépendantes.
• La significativité des différences de moyennes s’appuie sur le test F,
complété d’autres statistiques : la trace de Hotelling, la plus grande racine de Roy,
le lambda de Wilks et le critère de Pillai-Bartlett pour chaque variable explicative.
Si le critère de Pillai est le plus robuste à la violation de certaines conditions
d’utilisation de la MANOVA, il est conseillé de comparer cette statistique aux
autres indicateurs.
L’interprétation d’une MANOVA se fait en deux temps. À la première étape,
l’examen du critère de Pillai indique la significativité des variables explicatives.
À la seconde, il faut déceler, parmi les variables expliquées, celles qui sont
affectées par la variable indépendante. Les résultats se lisent alors, comme pour
une ANOVA, sur les courbes des diagrammes.
84
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’ANCOVA réside aussi dans la prise en compte des différences de réponses dues
aux caractéristiques des répondants.
85
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 18 : Commande d’une ANCOVA.
Le test de Levene (voir figure 20) n’est pas significatif (< ,001), l’hypothèse
d’homogénéité des échantillons est donc rejetée.
Nous pouvons procéder à l’analyse des résultats de l’ANCOVA (voir figure 20).
Le sexe et le niveau d’éducation challenges ainsi que les covariables expliquent
82,9 % le salaire.
86
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 20 : Résultats de l’ANCOVA à cinq variables explicatives.
87
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour le découvrir, retournez dans la boîte de dialogue : Analyse > Modèle
Linéaire Général > Univarié et cliquez sur Options puis sur Estimations des
paramètres (voir figure 21).
88
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Comme pour une ANOVA, la lecture des effets des variables qualitatives se fait
à l’aide d’un graphique.
Cet exemple dévoile comment une ANCOVA prend en compte des variables
explicatives à la fois qualitatives et quantitatives dans un même traitement. La
MANCOVA va plus loin puisqu’elle traite en même temps plusieurs variables
explicatives de différentes natures ainsi que plusieurs variables dépendantes
quantitatives.
89
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.1- La corrélation linéaire
La corrélation linéaire est une statistique largement utilisée car elle synthétise
l’importance de la relation entre deux variables métriques. Le tableau 3 montre
bien que le coefficient de corrélation est le test statistique pour mesurer le lien
entre deux variables quantitatives.
90
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Une corrélation proche de 1 ou de –1 en valeur absolue signifie que deux variables
sont liées entre elles et peuvent s’expliquer mutuellement. Lorsque r est proche
de 0, il y a une faible corrélation. Si r est proche de +1, cela veut dire que les deux
variables varient dans le même sens. Si r est proche de –1, cela signifie que les
deux variables varient en sens inverse l’une de l’autre.
91
3
Vous trouverez ce fichier à l’adresse
92
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.4- La régression linéaire simple
La régression linéaire vise à expliquer une variable dépendante par une ou un
ensemble de variables indépendantes quantitatives. Lorsque le problème implique
une seule variable indépendante, la technique statistique est appelée régression
simple. Lorsque le problème implique plusieurs variables indépendantes, il s’agit
d’une régression multiple. La régression est utilisée pour l’explication et la
prédiction.
Les principes et conditions d’application de la régression simple sont exposés
avant d’aborder ceux de la régression multiple. Ces deux techniques sont chacune
illustrées par des exemples d’applications.
La régression vise à estimer ou prédire la valeur d’une variable à partir d’une seule
autre. Par exemple, on peut expliquer la consommation de SMS par l’âge du
consommateur.
Dans une régression simple, les valeurs de la variable dépendante (Y) sont
estimées à partir de la variable indépendante (X) par équation linéaire :
Yi = aC+ bXi + e
Où Yi est la valeur estimée de Y, b est la pente (coefficient de régression) et a la
constante.
Les conditions d’application de la régression
Le modèle de la régression pose un certain nombre d’hypothèses lors de
l’estimation des paramètres et des tests d’hypothèses. Ces conditions
d’application de la régression sont :
• la linéarité du phénomène mesuré ;
• la variance constante du terme d’erreur ou homoscédasticité ;
• l’indépendance des termes d’erreur ;
• la normalité de la distribution du terme d’erreur.
La linéarité est importante car le concept de corrélation est fondé sur une relation
linéaire. La linéarité d’une relation bivariée est vérifiée par l’examen des résidus.
93
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’homoscédasticité est vérifiée par l’examen des résidus ou par un simple test
statistique. Le logiciel SPSS fournit le test d’homogénéité de Levene, qui mesure
l’égalité des variances pour une seule paire de variables. Son utilisation est
souvent recommandée.
L’indépendance des termes d’erreur est une autre condition de l’analyse de
régression multiple. Outre l’examen du graphique des résidus, cette hypothèse
peut aussi être validée par le test de Durbin-Watson.
94
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
• Le test t : sa valeur doit être plus grande que 2 (1,96) pour être significative
(notée** à p < 0,05). Elle indique si chacun des coefficients des variables
présentes dans l’équation est significatif.
95
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le premier tableau récapitule les variables explicatives prises en compte dans le
modèle. Ici, il n’y a qu’une seule variable puisque nous travaillons sur une
régression simple. Le troisième tableau indique si le modèle est significatif ou
non. Dans ce cas-ci, le modèle obtenu est significatif (p < 0,05), le lien entre la
quantité de gras et l’épaisseur de la circonférence des cuisses est significatif (t =
2,18) et positif (R2 ou coefficient standardisé de 0,21) (voir le tableau de la figure
25).
NB : Tout travail de type recherche de corrélation et de modélisation commence
par une séance approfondie de statistique descriptive. Avant de faire des calculs
de régression, regardons attentivement les données. Il faut en particulier se méfier
des points aberrants, susceptibles de « tirer » les coefficients de régression, ou
d’un nuage de points organisé en deux paquets orientés suivant deux directions,
ou d’autres cas de ce type.
Ce travail se fait par l’examen des résidus comme nous allons maintenant le
découvrir.
96
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 25 : Interprétation d’une régression simple.
97
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.5- L’EXAMEN DES RESIDUS
L’estimation réalisée par l’équation de régression n’atteint habituellement pas
l’exactitude complète. D’un point de vue géométrique, les points des données ne
se retrouvent pas sur la ligne droite spécifiée par l’équation de régression. Les
résidus représentent les différences sur les variables prédites ; ils constituent un
indicateur de performance de la droite de régression.
L’examen de ces résidus sert à estimer l’exactitude des estimations. Il est donc
recommandé de demander une analyse des résidus avec des graphiques qui
fournissent des aperçus utiles pour s’assurer que les hypothèses fondamentales et
la qualité du modèle de régression ont bien été respectées.
L’hypothèse de distribution normale du terme d’erreur est vérifiée par
l’observation du graphique des résidus. L’hypothèse d’une valeur constante de
la variance du terme d’erreur (homoscédasticité) est validée à l’aide du
graphique des résidus en fonction des valeurs estimées de la variable dépendante.
Si la configuration n’est pas aléatoire, la variance du terme d’erreur n’est pas
constante. La variation des variances des termes d’erreur doit être comprise entre
–3 et +3. Ce graphique sert aussi à vérifier une autre condition importante :
l’absence de corrélation ou indépendance entre les termes d’erreur.
L’exemple suivant montre comment demander un examen des résidus avec le
logiciel SPSS et comment interpréter les résultats de ce diagnostic.
Pour obtenir l’examen des résidus, retournez à la boîte de dialogue (Analyse >
Régression > Linéaire), cliquez sur Statistiques et, dans l’encadré Résiduels,
cochez Diagnostic des observations (voir figure 26).
98
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 26 : Demande d’un tableau des résidus.
Cliquez ensuite sur Poursuivre et, pour avoir un graphique des résidus, cliquez
sur le bouton Tracés. La boîte de dialogue de la figure 27 apparaît.
99
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour commander un diagramme de résidus standardisés (*ZRESID) contre les
valeurs prédites standardisées (ZPRED), il faut transférer avec les flèches
*ZRESID dans la case face à Y et *ZPRED dans la case face à X. Cochez Tracé
de probabilités gaussien afin d’avoir la droite de régression. Cliquez ensuite sur
Poursuivre pour revenir à la boîte de dialogue précédente et enfin sur OK.
100
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 27 : Nuage de points des résidus standardisés.
Le nuage de points édité des résidus standardisés en rapport avec les valeurs
prédites standardisées ne fait apparaître aucun modèle particulier, ce qui confirme
l’hypothèse de valeur constante de la variance du terme d’erreur
(homoscédasticité) et d’indépendance des termes d’erreur.
D’autres diagrammes, comme l’histogramme des résidus standardisés, sont aussi
à examiner. Idéalement, la distribution doit être normale.
101
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
leur pouvoir explicatif. Dans le cas de l’explication, la régression sert à déterminer
l’importance relative de chaque variable indépendante par sa magnitude et sa
direction. Par exemple, la quantité de gras peut dépendre de la circonférence de
l’épaisseur des triceps et de la circonférence des cuisses.
La régression cherche la combinaison de poids (b) pour les variables
indépendantes (Xi) qui amènerait les valeurs de Y prédites par l’équation aussi
près que possible des valeurs de Y mesurées :
Yi = a + b1X1 + b2X2 + … + bnXn
C’est un indice de la relation entre les valeurs prédites et les valeurs mesurées.
102
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
ne figurant pas dans l’équation et présentant la plus forte corrélation
partielle est considérée ensuite. La procédure s’arrête lorsqu’il ne reste plus
de variables satisfaisant le critère d’introduction.
La méthode pas à pas est une combinaison des méthodes descendantes et
ascendantes, elle est généralement recommandée comme étant la meilleure
méthode.
Toutes les variables doivent respecter le critère de tolérance pour être entrées dans
l’équation, quelle que soit la méthode d’entrée spécifiée. Le niveau de tolérance
par défaut est 0,0001. Une variable n’est pas entrée si elle fait passer la tolérance
d’une autre variable déjà entrée dans le modèle en dessous du seuil de tolérance.
Les conditions de la régression multiple
La régression multiple est complexifiée par la présence de multicolinéarité. En
effet, la majorité des études mettent en jeu des variables explicatives qui sont
corrélées. Une méthode simple pour détecter une trop grande corrélation entre
variables indépendantes consiste à demander des tests de colinéarité : tolérance
et facteur d’inflation de la variance (VIF).
La tolérance est définie comme la part de variabilité de la variable indépendante
qui n’est pas expliquée par une ou d’autres variables indépendantes. Une tolérance
élevée correspond à un faible degré de colinéarité. Le seuil de 0,3 est
recommandé. À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit
être faible : < 3.
103
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
multiple, allez dans le menu Analyse > Régression > Linéaire. La boîte de
dialogue de la figure 28 apparaît.
Transférez les variables en les sélectionnant chacune à leur tour et en cliquant sur
les flèches. La variable à expliquer dans Variable dépendante, les variables
explicatives dans Variables explicatives.
La méthode de sélection des variables pas à pas est choisie eu égard à notre choix
de recherche.
104
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 27 : Commande de tests de colinéarité.
Les résultats de la régression multiple apparaissent dans la figure 28.
Ce premier tableau présente les variables introduites : la circonférence des cuisses
et l’épaisseur des triceps.
Les deux variables prises en compte expliquent 99 % la quantité de gras (R2
ajusté). Le tableau ANOVA atteste que les deux variables sont significatives
(Signification <,001).
Nous lisons ensuite les résultats du test de colinéarité (voir tableau 4). Tolérances
et facteurs d’inflation de la variance (VIF) sont proches de 1, largement dans les
limites recommandées (tolérance > 0,3 et VIF < 3,3). Les variables explicatives
sont donc peu corrélées entre elles, ce qui est un indice de qualité du modèle.
105
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 27 : Interprétation des résultats d’une régression multiple.
Nous pouvons conclure que le modèle est très satisfaisant, car il explique 99,9 %
la quantité de gras (R2 ajusté). Il est significatif (voir tableau ANOVA), les
coefficients de la pente de régression sont significatifs et il n’y a pas de problème
de colinéarité (voir tableau coefficients).
L’épaisseur des triceps et la circonférence des cuisses sont deux déterminants très
importants de la quantité de gras dans le corps humain.
106
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Résumé
L’analyse de variance et de covariance sert à évaluer les écarts des valeurs
moyennes d’une variable dépendante sous l’effet de variables indépendantes
contrôlées et, cela, en tenant compte de l’influence de variables indépendantes
non contrôlées. L’ANOVA permet d’effectuer un test sur les moyennes de deux
populations ou plus. Le test F permet de vérifier l’hypothèse nulle qui suppose
l’égalité des moyennes.
L’analyse multivariée de la variance implique l’examen simultané de plusieurs
variables indépendantes qualitatives. Elle permet l’évaluation de l’interaction de
ces variables. Le test F sert à vérifier la signification de l’effet global, des effets
principaux et des interactions. Il y a interaction lorsque l’effet d’une variable
indépendante sur une variable dépendante diffère en fonction des modalités ou
niveaux d’une autre variable indépendante.
L’analyse de covariable fait référence, en plus de variable(s) indépendante(s)
qualitative(s), au test de variable(s) indépendante(s) quantitative(s). Cette
dernière, appelée covariable, est souvent utilisée pour éliminer la variation externe
de la variable dépendante.
La régression simple sert à tester l’effet d’une seule variable indépendante sur une
variable dépendante. La force de la relation est mesurée par le coefficient de
détermination R2. La régression multiple implique au moins deux variables
indépendantes et une variable dépendante. La signification de l’équation de
107
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
régression globale est testée grâce au test t. Les graphiques des résidus servent à
vérifier la pertinence des hypothèses sous-jacentes et l’ajustement du modèle de
régression.
108
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
SOLUTION 1
109
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Groupe A : individus ayant suivi un régime hyperprotéiné ;
Groupe B : individus ayant suivi un régime d’association d’aliments ;
Groupe C : individus ayant suivi un régime hypocalorique.
Tableau : Expérience sur les régimes
Groupe A Groupe B Groupe C
3 1 11
4 1 9
6 5 10
8 6 5
3 1 10
3 2 6
4 1 9
6 5 10
Après avoir saisi ces données, faites une analyse de variance pour vérifier si les
moyennes des trois groupes sont différentes.
SOLUTION 2
Pour saisir les données, allez dans Fichier > Nouveau > Données (voir figure
28). Ensuite, dans Vue des variables, rentrez le Nom des variables et leur
Étiquette. Nous avons des données qualitatives (régime) et des données
quantitatives (kilos perdus) : la colonne Mesure affiche Nominales et Échelle.
Il faut ensuite entrer les données dans la partie Vu de données.
110
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il faut ensuite commander une ANOVA à un facteur (voir figure 29). Allez dans
le menu Analyse > Comparer les moyennes > ANOVA à un facteur. Choisissez
comme variable dépendante le nombre de kilos perdus et comme variable
indépendante le type de régime.
111
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Figure 30 : Expérience sur les régimes : interprétation des résultats de
l’ANOVA.
Le test de Levene est significatif (0,50), l’hypothèse d’homogénéité des
échantillons est donc acceptée. Nous pouvons procéder à l’analyse des résultats
de l’ANOVA.
Le type de régime a un effet significatif sur la perte de poids. Cependant, à ce
stade, nous ne connaissons pas le type de régime le plus efficace. Il faut demander
un test de différence de moyenne (test post hoc) [voir figure 31].
Allez dans le menu Analyse > Comparer les moyennes > ANOVA à un facteur,
cliquez sur le bouton Post Hoc puis choisissez un test (ici, le test de Duncan).
112
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
EXERCICE SUR LA REGRESSION LINEAIRE
EXERCICE 1 : ÉTUDE DU POINT DE VENTE
Une étude sur la clientèle d’un magasin vise à mieux comprendre les clients et
notamment les variables liées à l’intention d’achat. Voici les résultats de la
corrélation multiple entre le montant moyen dépensé par mois, l’intention d’achat,
le niveau d’études, la taille du foyer et le niveau de revenus du foyer (voir figure
31).
1. Quelles variables sont le plus reliées au montant moyen dépensé par mois ?
2. Ces variables sont-elles différentes de celles qui sont reliées à l’intention
d’achat dans le point de vente ?
113
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La taille du foyer n’est pas reliée au montant moyen dépensé par mois. En effet,
la corrélation de 0,03 n’est pas significative, il n’y a pas de signe ** à
l’intersection de « Taille du foyer » et de « Montant moyen dépensé par mois ».
1. Comme pour le montant moyen dépensé par mois, l’intention d’achat est aussi
liée au niveau d’études et n’est pas liée à la taille du foyer. Toutefois, à la
différence du montant moyen dépensé par mois, l’intention d’achat et le
niveau de revenus du foyer ne sont pas fortement corrélés (0,28).
114
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Moyenne du Qualité perçue de Absentéisme en jours
Étudiant
trimestre l’enseignement par trimestre
1 5 4 10
2 7 4 2
3 15 3 0
4 11 2 0
5 16 3 0
6 12 2 1
7 11 3 0
8 14 4 0
9 10 4 0
10 14 4 0
11 11 3 0
12 9 4 1
13 9 2 2
14 11 4 0
15 10 4 0
16 7 2 1
17 14 4 0
18 15 4 0
19 11 3 0
20 14 4 0
21 12 3 0
22 11 4 0
23 9 3 0
24 8 2 2
25 11 4 0
26 10 3 0
27 14 4 0
28 12 4 0
115
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
SOLUTION 2
La solution de cet exercice en vidéo explicative avec toutes les analyses et
interprétations est disponible à l’adresse (+229) 94270028.
Vous pouvez également bénéficier d’une formation complète sur l’analyse des
données avec le logiciel de votre choix (SPSS, STATA et EVIEWS) sur cette
même adresse et vous aurez droit à une réduction exceptionnelle parce que vous
avez déjà le document. Ecrivez vite au (+229) 94270028 pour bénéficier de votre
réduction.
116
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 4 : LES MODELES NON LINEAIRES
117
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- LES MODÈLES NON LINÉAIRES
Nous avons examiné le cas du modèle linéaire, cependant, très souvent, la théorie
économique doit être formalisée à l’aide de relations non linéaires.
Dans cette section, la part consacrée au cours est très réduite. En effet, l’étude des
modèles non linéaires se prête bien à l’exercice pratique. Nous examinons tout
d’abord en 1, les différents types de modèles non linéaires : ceux qui sont linéaires
sur leurs paramètres et des modèles un peu plus complexes (modèle de diffusion,
par exemple) qui font l’objet d’une étude particulière. Puis, les méthodes
d’estimation des paramètres des modèles non linéarisables sont présentées en 2.
1- Les différents types de modèles non linéaires
1.1- Les fonctions de type exponentiel
Nous allons examiner le cas de modèles dont la spécification n’est pas linéaire,
mais qui sont linéaires par rapport à leurs paramètres.
118
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
K L Q
8 23 106,00
9 14 81,08
… … …
3 10 43,21
6 71 121,24
𝜟𝒚 ∕𝒚 𝝏 𝒍𝒐𝒈(𝒚)
𝒆= = = rapport de dérivées logarithmiques.
𝜟𝒙 ∕𝒙 𝝏 𝒍𝒐𝒈(𝒙)
119
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les t∗ de Student calculés sont tous supérieurs au t lu (t220,05 = 2,07), les
coefficients sont donc significativement différents de 0 au seuil de 5 %.
Attention, la statistique de Durbin et Watson ne s’interprète pas puisque le modèle
est spécifié en coupe instantanée.
L’estimation statistique est donc satisfaisante.
L’élasticité de la production au capital est égale à : α1 = 0,64.
L’élasticité de la production au travail est égale à : α2 = 0,25.
(Si le facteur capital augmente de 10 %, la production augmente de 6,4 % et si le
facteur travail augmente de 10 %, la production augmente de 2,5 %.)
Le coefficient α0 est égal à : α0 = 101,084 = 12,13.
̂ = 12,13 K 0,64 L0,25.
La fonction de production estimée s’écrit : 𝑸
120
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Or nous avons 𝛼̂1 + 𝛼̂2 = 0,89, pour quelle probabilité critique cette valeur est-elle
significativement inférieure à 1 ? On teste donc les hypothèses suivantes :
H0 : α1 + α2 = 1
H1 : α1 + α2 < 1
Le t calculé de Student est donc égal, sous H0, à :
̂ 𝟏 +𝜶
𝜶 ̂ 𝟐 −𝟏
t∗ = ̂𝜶
𝝈 ̂ 𝟏 +𝜶̂𝟐
Or la matrice des variances et covariances des coefficients est fournie par Eviews :
̂ 𝟐𝜶̂𝟏+𝜶̂𝟐 = 𝝈
Soit 𝝈 ̂ 𝟐𝒂̂𝟏 + 𝝈
̂ 𝟐𝜶̂𝟐 + 𝟐 𝒄𝒐𝒗( α1, α2)
= 0,000749 + 0,001261 + 2 × 0,000314 = 0,002638
̂ 1 +𝛼
𝛼 ̂ 2 −1 0,64+0,25−1
t∗ = ̂𝛼
= = −2,14 ≃ t22 0,020
𝜎 ̂ 1 +𝛼
̂2 0,05136
2) Le modèle de Gompertz
𝒕+𝒂
Ce modèle est défini par la formulation suivante : yt = 𝒆𝒃𝒓 → Ln(yt) = br t + a
(e = base du logarithme népérien).
Avec ymax = ea = seuil de saturation, b et r sont les deux paramètres du modèle (b
< 0 et 0 < r < 1).
Si t → ∞ alors yt → ymax, et si t → -∞ alors yt → 0.
122
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
3) Les méthodes d’estimation
La difficulté d’estimation de ce type de modèles1 vient du fait qu’ils ne sont pas
linéaires. L’emploi du modèle de régression est donc impossible tel quel.
L’estimation des paramètres d’un tel modèle doit être effectuée par des méthodes
de régression non linéaire qui nécessitent des procédures numériques itératives
assez complexes, objet du paragraphe suivant.
L’inspiration générale des techniques d’estimation non linéaires sont les mêmes
quel que soit le type d’algorithme. Il s’agit de méthodes itératives dans lesquelles
l’équation non linéaire est linéarisée à l’aide d’un développement limité de Taylor
(à partir d’un jeu de valeurs de coefficients initiaux). Les MCO sont alors utilisés
sur cette équation linéaire afin d’estimer des nouveaux coefficients. Ces nouveaux
coefficients permettent, à l’aide d’un nouveau développement limité, de procéder
à une nouvelle linéarisation. La procédure est arrêtée lorsque les coefficients sont
relativement stables d’une itération à l’autre.
Pour ce type de méthode soit efficiente, il convient que les valeurs initiales ne
soient pas trop éloignées des valeurs optimales. Dans le cas contraire, il n’y a pas
convergence et la procédure est défaillante.
123
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Exemple d’application
Estimation des paramètres d’un modèle de diffusion Logistique et de
Gompertz
Le tableau 3 présente les ventes cumulées (en milliers d’unités) d’un CD audio
d’un artiste à succès sur 19 semaines.
Tableau 3 : Extrait des ventes cumulées sur 19 semaines (milliers d’unités)
Semaines Ventes
1 44,7
2 61,0
… …
18 607,0
19 633,9
On demande :
1) D’estimer les paramètres d’un modèle de diffusion de type Logistique.
2) D’estimer les paramètres d’un modèle de diffusion de type Gompertz.
Solution
Le graphique 2 présente l’évolution des ventes cumulées en fonction des
semaines. Ce graphique peut suggérer une évolution selon un modèle de diffusion,
nous serions alors à proximité du point d’inflexion.
124
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Graphique 2 : Ventes cumulés
R-squared 0.999009
𝒚
𝒎𝒂𝒙 𝟕𝟏𝟖
Le modèle estimé s’écrit : 𝒚𝒕 = 𝟏+𝒃𝒓 𝒕 = 𝟏+𝟏𝟒,𝟕𝟕×𝟎,𝟕𝟖𝟓𝒕
125
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
* Régression non linéaire
nonlin b r a Définition des paramètres à estimer
eval a = 5.
eval b = -3.5
eval r = 0.5
Résultats
𝒕+𝒂
Soit le modèle : yt = 𝒆𝒃𝒓 = e(-3,46×0,88t+6,83) ; le seuil de saturation, selon un
modèle de Gompertz, est donc de e6,83 = 927.
126
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
II- LA COINTÉGRATION ET LE MODÈLE Á CORRECTION
D’ERREUR
L’analyse de la cointégration, présentée par Granger (1983) et Engle (1987), est
considérée par beaucoup d’économistes comme un des concepts nouveaux les
plus importants dans le domaine de l’économétrie et de l’analyse de séries
temporelles. Dans cette section, nous abordons en premier, des exemples
permettant une introduction au problème de la cointégration. La seconde partie
sera consacrée à la présentation de la cointégration en termes de définition et de
spécification. Les tests de cointégration ainsi que les méthodologies d’estimation
sont ensuite développés dans le cas à deux variables (3ème partie) et enfin (4ème
partie) dans les cas à k variables.
2.1- Exemples introductifs
– Premier exemple
Soit les variables yt et xt définies de la manière suivante :
y1 = 1 avec comme variable explicative : x1 = 1
y2 = 2 avec comme variable explicative : x2 = 22
…
yn = n avec comme variable explicative : xn = n2
La tendance de yt est de type linéaire et celle de xt est quadratique. Le résultat de
la régression de yt sur xt(n = 30) conduit à l’estimation suivante :
yt = 5,92 + 0,03xt
R2 = 0,94 - DW = 0,057
127
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
tendances déterministes de degré différent. Le graphique 1 présente la série brute
(tendance linéaire) et la série ajustée par une tendance quadratique.
128
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
sont affectées d’une tendance stochastique. En effet, si on passe en différences
premières (𝛥𝑦𝑡 = 𝑓(𝛥𝑥𝑡 )), plus aucune régression n’est significative.
𝛥𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1 = 𝜀1 t
𝛥𝑥𝑡 = 𝑥𝑡 − 𝑥𝑡−1 = 𝜀2 t
En régressant une série non stationnaire (de type DS) sur une autre série du même
type, on obtient des coefficients significatifs mais avec une statistique DW proche
de 0. Ce deuxième exemple illustre le risque de régresser entre elles deux séries
affectées d’une tendance stochastique. Il faut donc toujours, au préalable,
stationnariser des séries non stationnaires ; dans le cas contraire, il existe un risque
de « régression fallacieuse » (« spurious regression »).
129
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La combinaison linéaire α x1t + β x2t → I(?). En effet, le résultat dépend des signes
des coefficients α, β et de l’existence d’une dynamique non stationnaire
commune. Examinons un autre cas de figure :
x1t → I(d)
x2t → I(d′) d′≠d ⇒ x1t + x2t → I(?)
Il s’avère impossible de conclure car on somme deux séries d’ordre d’intégration
différent.
130
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Graphique 3 : Les variables xt et yt sont cointégrées.
131
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
x2,t → I(d)
...
xk,t → I(d) on note Xt = [x1,t x2,t ... xk,t] s’il existe un vecteur de cointégration α =
[α1 α2 ...αk] de dimension (k,1)tel que αXt → I(d - b), alors les k variables sont
cointégrées et le vecteur de cointégration est α. On note que Xt → C I(d,b) avec b
>0.
2.5 - Le modèle à correction d’erreur (ECM)
Examinons le cas particulier suivant : xt, yt → C I(1,1) et [β,-1] (on normalise en
posant β = - α1/α2. Soit β xt - yt → I(0)) le vecteur de cointégration.
Dans ce type de spécification, le fait que les séries soient cointégrées et non
stationnaires soulève un problème d’estimation. La bonne qualité statistique du
modèle (R2 élevé et coefficients significatifs) est due au fait que les séries sont
non stationnaires (puisque cointégrées). En régression directe de yt sur xt – lorsque
yt, xt → C I(1,1). L’utilisation de ce modèle à des fins prévisionnelles s’avère
désastreuse ; en effet, la relation mise en évidence par cette régression n’est pas
réelle, elle découle simplement d’une relation entre deux tendances.
Le problème est donc, d’une part de retirer la relation commune de cointégration
(la tendance commune), d’autre part, de rechercher la liaison réelle entre les
variables : c’est l’objectif du Modèle à Correction d’Erreur (ECM). Cette
représentation est à la fois un modèle statique (β1 𝛥xt) et un modèle dynamique
(β2(yt-1 - β xt-1)).
132
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
système en dehors de l’équilibre (dynamique de court terme) est définie par
l’erreur constatée entre yt-1 et xt-1 .
133
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il convient donc (tests de Dickey-Fuller et Dickey-Fuller Augmenté) de
déterminer très soigneusement le type de tendance déterministe ou stochastique
de chacune des variables, puis l’ordre d’intégration d des chroniques étudiées. Si
les séries statistiques étudiées ne sont pas intégrées de même ordre, la procédure
est arrêtée, il n’y a pas de risque de cointégration.
Soit : xt → I(d) et yt → I(d)
✓ Étape 2 : estimation de la relation de long terme
Si la condition nécessaire est vérifiée, on estime par les MCO la relation de
long terme entre les variables : yt = a0 + a1 xt + εt.
Pour que la relation de cointégration soit acceptée, le résidu εt issu de cette
régression doit être stationnaire : εt = yt -𝑎̂1 xt -𝑎̂0.
La stationnarité du résidu est testée à l’aide des tests de Dickey-Fuller et Dickey-
Fuller Augmenté (DF ou DFA).
Dans ce cas, nous ne pouvons plus utiliser les tables de Dickey et Fuller. En effet,
le test porte sur les résidus estimés à partir de la relation statique et non pas sur
les « vrais » résidus de la relation de cointégration. MacKinnon (1991) a donc
simulé des tables qui dépendent du nombre d’observations et du nombre de
variables explicatives figurant dans la relation statistique.
Si le résidu est stationnaire nous pouvons alors estimer le modèle à correction
d’erreur.
2.6.2. Estimation du modèle à correction d’erreur
Lorsque des séries sont non stationnaires et cointégrées, il convient d’estimer
leurs relations au travers d’un modèle à correction d’erreur (ECM, « Error
Correction Model »). Engle et Granger (1987) ont démontré que toutes les séries
cointégrées peuvent être représentées par un ECM (théorème de la représentation
de Granger).
Nous allons présenter la méthode la plus répandue d’estimation d’un ECM. Nous
nous bornons, ici, au cas d’une seule variable explicative. La généralisation à k
variables est abordée dans la partie suivante. Soit les séries yt et xt → I(1),
134
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’estimation par les MCO (Moindres Carrés Ordinaires) de la relation de long
terme indique une stationnarité du résidu. Les séries yt et xt sont donc notées :
CI(1, 1).
Exercice
135
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
̂ 1xt + εt) en testant une éventuelle cointégration (dans ce cas estimer
̂ 0+𝒂
(yt = 𝒂
le modèle à correction d’erreur).
1 0,000 10,890
2 2,851 12,188
… … …
29 6,744 12,347
30 7,270 15,194
Solution
La première étape consiste à étudier les propriétés des deux séries en termes de
stationnarité. Le tableau 2 présente les résultats des tests :
– de Dickey-Fuller (aucun retard n’est significatif dans l’éventualité d’un test de
Dickey-Fuller Augmenté),
– de Phillips-Perron (troncature = 2),
– et de KPSS (troncature = 2).
136
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
xt en niveau – LM yt en niveau –
statistique LM
Test KPSS [2] 0,53 0,39
Test KPSS [3] 0,22 0,20
Nous pouvons vérifier que le résidu est bien stationnaire, il existe donc un risque
de cointégration entre les deux variables.
Test DF Test PP (l = 2)
εt Modèle (1) Modèle (2) Modèle (1) Modèle (2)
137
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le coefficient (terme de rappel) de 𝜀𝑡−1 est bien significativement négatif, la
représentation à correction d’erreur est validée.
2.7 - Généralisation à k variables
La littérature économique récente concernant la théorie de l’équilibre démontre
qu’une série macroéconomique stationnaire peut être le résultat d’une
combinaison de variables non stationnaires, d’où l’importance actuelle de
l’analyse de la cointégration à k variables. La généralisation de deux à k variables
s’avère assez complexe du fait du nombre de possibilités de vecteurs de
cointégration possibles.
2.7.1 La cointégration entre k variables
Dans un modèle économétrique à k variables explicatives :
yt = β0 + β1 x1t + β2 x2t + ... + βk xkt + εt
Si les variables (yt et xkt) sont non stationnaires, I(1) par exemple, il existe alors
un risque de cointégration. En effet, l’existence d’une éventuelle cointégration
implique que les variables doivent être non stationnaires. Comme dans le cas à
deux variables, si une combinaison linéaire de ces variables est stationnaire, elles
sont alors cointégrées. L’estimation par les MCO du modèle permet de calculer le
résidu :
̂0 - 𝜷
εt = yt - 𝜷 ̂ 1 x1t - ... - 𝜷
̂ k xkt
Si ce résidu est stationnaire, nous acceptons l’hypothèse d’une cointégration entre
les variables. Les tests de Dickey-Fuller de stationnarité sur le résidu doivent
s’effectuer à partir des valeurs critiques tabulées par MacKinnon (1991) en
fonction du nombre de variables total du modèle. Le vecteur de cointégration est
donné par : [1, -𝛽̂0,-𝛽̂1,...,-𝛽̂k] . Cependant, le cas multivarié est plus complexe que
le cas à deux variables du fait des possibilités combinatoires de cointégration. En
effet si, par exemple, les variables yt, x1t, x2t et x3t sont cointégrées par paires yt, x1t
→ C I(1,1) et x2t , x3 → C I(1,1), leur combinaison linéaire est I(0).
138
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Nous avons : e1t = yt -𝛼̂0 -𝛼̂1x1t et e2t = x2t - 𝛾̂0 - 𝛾̂1x3t et par conséquent : et = e1t +
e2t = yt -𝛼̂0 -𝛼̂1x1t + x2t - 𝛾̂0 - 𝛾̂1x3t → I(0)
Nous obtenons, dans ce cas de figure, un autre vecteur de cointégration possible :
[1,- 𝛼̂0 - 𝛾̂0, -𝛼̂1,1,- 𝛾̂1]. D’une manière générale, dans un modèle à une variable à
expliquer et k variables explicatives (soit k + 1 variables au total), il peut exister
k vecteurs de cointégration linéairement indépendants. Le nombre de vecteurs de
cointégration linéairement indépendants est appelé le rang de la cointégration. Si
les variables sont de même ordre d’intégration, I(1) par exemple, l’existence d’un
seul vecteur de cointégration est possible ; en revanche, si les séries ne sont pas
toutes intégrées du même ordre, nous pouvons être certains que le vecteur de
cointégration n’est pas unique. De manière pratique, pour tester une éventuelle
cointégration entre plusieurs variables, il convient tout d’abord de la tester sur
l’ensemble des k + 1 variables, puis en cas de cointégration de la tester par
combinatoire entre les variables.
2.7.2. Estimation du modèle à correction d’erreur
La cointégration ayant été révélée par les tests précédents, deux cas de figure sont
à envisager :
• il existe un vecteur unique de cointégration,
• plusieurs vecteurs de cointégration existent.
Si le vecteur de cointégration est unique, nous pouvons employer les méthodes
d’estimation envisagées à la section précédente, par exemple, celle en deux étapes
de Engle et Granger.
– Étape 1 : estimation par les MCO de la relation de long terme et calcul du résidu
:
̂0 - 𝜷
εt = yt - 𝜷 ̂ 1 x1t - ... - 𝜷
̂ k xkt
– Étape 2 : estimation par les MCO de la relation du modèle dynamique (court
terme) :
140
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 5 : ÉLEMENTS D’ANALYSE DES SERIES TEMPORELLES
141
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Ce chapitre est consacré à une présentation sommaire des techniques d’analyse
des séries chronologiques. Ce thème, à lui seul, peut faire l’objet de longs
développements et de nombreux ouvrages4 y sont intégralement consacrés. Nous
étudions en I. les caractéristiques statistiques en termes de stationnarité des séries
temporelles en présentant les différents tests (Dickey-Fuller, corrélogramme, etc.)
s’y rapportant. Puis en II., nous présentons différentes classes de modèles (AR,
MA, ARMA) en étudiant leurs propriétés.
I- Stationnarité
A. Définition et propriétés
Avant le traitement d’une série chronologique, il convient d’en étudier les
caractéristiques stochastiques. Si ces caractéristiques c’est-à-dire son espérance et
sa variance se trouvent modifiées dans le temps, la série chronologique est
considérée comme non stationnaire ; dans le cas d’un processus stochastique
invariant, la série temporelle est alors stationnaire. De manière formalisée, le
processus stochastique yt est stationnaire si :
4 142
Pour un approndissement de ce chapitre, se référer au livre de Bourbonnais R. et Terraza M.,
Dunod, 2010.
143
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Tableau 1 : Exemple de calcul d’une fonction d’autocorrélation
k 0 1 2 3 4
t yt yt-1 yt-2 yt-3 yt-4
1 123
2 130 123
3 125 130 123
4 138 125 130 123
5 145 138 125 130 123
6 142 145 138 125 130
7 141 142 145 138 125
8 146 141 142 145 138
9 147 146 141 142 145
10 157 147 146 141 142
11 150 157 147 146 141
12 145 150 157 147 146
144
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Afin d’éviter par la suite toutes ambiguïtés entre les deux fonctions
d’autocorrélation, nous appelons fonction d’autocorrélation simple, la fonction
d’autocorrélation.
C. Tests de « bruit blanc » et de stationnarité
Nous ne pouvons identifier clairement les caractéristiques stochastiques d’une
série chronologique que si elle est stationnaire. Cette étude de stationnarité
s’effectue essentiellement à partir de l’étude des fonctions d’autocorrélation (ou
de leur représentation graphique appelée « corrélogramme »). Une série
chronologique est stationnaire si elle ne comporte ni tendance ni saisonnalité.
Nous allons donc, à partir de l’étude du corrélogramme d’une série, essayer de
montrer de quelle manière nous pouvons mettre en évidence ces deux
composantes. Nous pouvons distinguer différents types de séries stationnaires :
145
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Le test d’hypothèses pour un terme ρk est le suivant :
H0 : ρk = 0
H1 : ρk =/ 0
Nous pouvons utiliser le test d’hypothèses d’un coefficient de corrélation,
présenté au chapitre 3, fondé sur la comparaison d’un t de Student empirique et
théorique. Toutefois, Quenouille a démontré que pour un échantillon de taille
importante (n > 30), le coefficient ρk tend de manière asymptotique vers une loi
normale de moyenne 0 et d’écart type 1/√n.
L’intervalle de confiance du coefficient ρk est alors donné par :
ρk = 0 ± tα/2 (1/√n)
n = nombre d’observations.
146
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Un processus de bruit blanc implique que ρ1 = ρ2 = ... = ρh = 0, soit les hypothèses
:
H0 : ρ1 = ρ2 = ... = ρh = 0
H1 : il existe au moins un ρi significativement différent de 0.
Pour effectuer ce test, on recourt à la statistique Q (due à Box-Pierce) qui est
donnée par :
ℎ
𝑄 = 𝑛 ∑ 𝑝̂𝑘2
𝑘=1
′
𝜌̂𝑘2
𝑄 = 𝑛(𝑛 + 2) ∑
𝑛−𝑘
𝑘=1
qui est aussi distribuée selon un χ2 à h degrés de liberté et dont les règles de
décisions sont identiques au précédent. Ces tests sont appelés par les anglo-saxons
: « portmanteau test » soit littéralement test « fourre-tout ».
3- Tests de normalité
Pour calculer des intervalles de confiance prévisionnels et aussi pour effectuer les
tests de Student sur les paramètres, il convient de vérifier la normalité des erreurs.
Le test de Jarque et Bera (1984), fondé sur la notion de Skewness (asymétrie) et
147
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
de Kurtosis (aplatissement), permet de vérifier la normalité d’une distribution
statistique.
a) Les tests du Skewness et du Kurtosis
𝟏 𝒏
Soit ̅)𝒌 le moment centré d’ordre k, le coefficient de
𝝁𝒌 = ∑𝒊=𝟏(𝒙𝒊 − 𝒙
𝒏
𝜇3 𝜇4
Skewness (β11/2) est égal à : β11/2 = 3∕2 et le coefficient de Kurtosis : β2 = .
𝜇2 𝜇22
seuil de 5 %).
Si les hypothèses H0 : ν1 = 0 (symétrie) et ν2 = 0 (aplatissement normal) sont
vérifiées, alors ν1 ≤ 1,96 et ν2 ≤ 1,96 ; dans le cas contraire, l’hypothèse de
normalité est rejetée.
b) Le test de Jarque et Bera
Il s’agit d’un test qui synthétise les résultats précédents ; si β11/2 et β2 obéissent à
𝑛 𝑛
des lois normales alors la quantité s : s = 𝛽1 + (𝛽2 − 3)2 suit un χ2 à deux
6 24
degrés de liberté.
Donc si s > χ21-α (2), on rejette l’hypothèse H0 de normalité des résidus au seuil
α. Ces tests de normalité servent également dans le cas où il y a hétéroscédacité.
En effet, l’hétéroscédacité se manifeste sur le graphe de la distribution par des
queues de probabilité plus épaisses (distribution leptokurtique) que les queues de
la loi normale.
4- Tests d’homoscédasticité
Un processus de bruit blanc doit être homoscédastique, les tests
d’hétéroscédasticité peuvent être utilisés.
148
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
✓ Le test de Goldfeld-Quandt a pour but de comparer la somme des carrés
des résidus d’estimation après avoir scindé les résidus en deux sous-
échantillons.
✓ Un autre test consiste à étudier la distribution des carrés des résidus.
L’analyse des termes du corrélogramme des résidus au carré permet de
tester l’existence d’une hétéroscédacité. Si certaines valeurs de la FAC
(tests de Box-Pierce ou Ljung-Box) sont significativement différentes de 0,
nous pouvons conclure à la présence d’une hétéroscédacité.
149
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Ce processus TS est non stationnaire car E[xt] dépend du temps. Connaissant 𝛼̂0
et 𝛼̂1 , le processus xt peut être stationnarisé en retranchant, de la valeur de xt en t,
la valeur estimée 𝛼̂0 +𝛼̂1𝑡 . Dans ce type de modélisation, l’effet produit par un
choc (ou par plusieurs chocs aléatoires) à un instant t est transitoire. Le modèle
étant déterministe, la chronique retrouve son mouvement de long terme qui est ici
la droite de tendance. Il est possible de généraliser cet exemple à des fonctions
polynômiales de degré quelconque.
b) Les processus DS
Les processus DS sont des processus que l’on peut rendre stationnaires par
l’utilisation d’un filtre aux différences : (1 - D)dxt = β + εt où εt est un processus
stationnaire, β une constante réelle, D l’opérateur décalage et d l’ordre du filtre
aux différences.
Ces processus sont souvent représentés en utilisant le filtre aux différences
premières (d = 1). Le processus est dit alors processus du premier ordre. Il s’écrit
: (1 - D)xt = β + εt ⇔ xt = xt-1 + β + εt
L’introduction de la constante β dans le processus DS permet de définir deux
processus différents :
• β = 0 : le processus DS est dit sans dérive.
Il s’écrit : xt = xt-1 + εt.
Comme εt est un bruit blanc, ce processus DS porte le nom de modèle de marche
au hasard ou de marche aléatoire (Random Walk Model). Il est très fréquemment
utilisé pour analyser l’efficience des marchés financiers. Pour étudier les
caractéristiques de ce modèle, écrivons-le sous sa forme développée :
xt = xt-1 + εt
xt-1 = xt-2 + εt-1 ⇒ xt = xt-2 + εt-1 + εt
xt-2 = xt-3 + εt-2 ⇒ xt = xt-3 + εt-2 + εt-1 + εt
etc.
Si le premier terme de la chronique est x0, le modèle s’écrit alors :
150
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
xt = x0 + ∑𝑡𝑖=1 𝜀𝑖
Les caractéristiques de ce processus sont (en supposant x0 certain) :
E[xt] = x0
V [xt] = tσε2
cov[xt,xt′] = σε2 × Min(t,t′) si t ≠ t′
Par exemple : cov(x4,x2) = E[(x0 + ε1 + ε2 + ε3 + ε4)(x0 + ε1 + ε2)]
= E(ε1 × ε1) + E(ε2 × ε2) = 2σε2.
En effet tous les produits E(εt × εt′) = 0 si t ≠ t′.
Éléments d’analyse des séries temporelles Á 247
Ce processus est non stationnaire en variance puisqu’elle dépend du temps. Cette
non stationnarité est dite aléatoire ou stochastique.
Pour stationnariser la marche aléatoire, il suffit d’appliquer au processus le filtre
aux différences premières : xt = xt-1 + εt ⇔ (1 - D)xt = εt .
• β ∕= 0 : le processus porte alors le nom de processus DS avec dérive.
Il s’écrit : xt = xt-1 + β + εt .
Comme précédemment, on peut rechercher sa forme équivalente développée :
xt = xt-1 + β + εt
xt-1 = xt-2 + β + εt-1 ⇒ xt = xt-2 + 2β + εt-1 + εt
xt-2 = xt-3 + β + εt-2 ⇒ xt = xt-3 + 3β + εt-2 + εt-1 + εt
etc.
Si on suppose la valeur d’origine x0 connue et déterministe, on a alors :
xt = x0 + βt + ∑𝑡𝑖=1 𝜀𝑖
On peut analyser les caractéristiques de ce processus :
E[xt] = x0 + βt V [xt] = tσε2
cov[xt,xt′] = σε2 × Min(t,t′) si t ≠ t′
Le processus est non stationnaire de par son espérance et sa variance. L’espérance
étant de la même forme que celle d’un processus TS, on reconnaît dans ce
processus une non stationnarité déterministe et aléatoire à la fois.
151
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La stationnarisation de ce processus est réalisée en utilisant le filtre aux
différences premières : xt = xt-1 + β + εt ⇔ (1 - B)xt = β + εt
Soit en employant la forme développée :
xt = x0 + βt + ∑𝑡𝑖=1 𝜀𝑖 et en calculant : xt-1 = x0 + β(t - 1) + ∑𝑡−1
𝑖=1 𝜀𝑖
152
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Sur le plan économétrique, il est donc primordial d'identifier clairement le
processus sous-jacent et d'employer la méthode adéquate de stationnarisation.
Sinon le risque de créer des « bruits parasites » artificiels est très élevé.
Les conséquences sont également importantes sur le plan économique.
Considérons, par exemple, le PIB d'un pays comme la France en valeur réelle. Si
ce PIB est DS plutôt que TS, il est alors nécessaire de remettre en cause la
décomposition traditionnelle (tendance et cycle) et sa justification théorique :
l'indépendance des schémas explicatifs. Si le PIB est en effet DS, la croissance et
le cycle sont liés et ne peuvent être en conséquence étudiés de façon séparés. Or,
d'après les travaux de Nelson et Plosser (1982) sur des chroniques macro-
économiques, la variabilité constatée de la composante conjoncturelle serait due
à une structure DS. Comme jusqu'à présent, l'analyse de cette composante
s'effectue à partir du résidu d'une régression entre le PIB et une tendance
déterministe, cette analyse surestime l'amplitude du cycle et sous-estime
l'importance de la tendance.
B. Les tests de racine unitaire et la stratégie séquentielle de test
Les tests de racine unitaire « Unit Root Test » permettent non seulement de
détecter l’existence d’une non-stationnarité mais aussi de déterminer de quelle
non-stationnarité il s’agit (processus TS ou DS) et donc la bonne méthode pour
stationnariser la série.
a) Tests de racines unitaires : tests de Dickey-Fuller (1979)
Les tests de Dickey-Fuller (DF) permettent de mettre en évidence le caractère
stationnaire ou non d’une chronique par la détermination d’une tendance
déterministe ou stochastique. Les modèles servant de base à la construction de ces
tests sont au nombre de trois. Le principe des tests est simple : si l’hypothèse H0
: φ1 = 1 est retenue dans l’un de ces trois modèles, le processus est alors non
stationnaire.
[1] xt = φ1xt-1 + εt Modèle autorégressif d’ordre d’ordre 1.
[2] xt = φ1xt-1 + εt Modèle autorégressif avec constante.
153
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
[3] xt = φ1xt-1 + bt + c + εt Modèle autorégressif avec tendance.
Si l’hypothèse H0 est vérifiée, la chronique xt n’est pas stationnaire quel que soit
le modèle retenu.
Dans le dernier modèle [3], si on accepte H1 : φ1 < 1 et si le coefficient b est
significativement différent de 0, alors le processus est un processus TS ; on peut
le rendre stationnaire en calculant les résidus par rapport à la tendance estimée par
les moindres carrés ordinaires.
Sous H0, les règles habituelles de l’inférence statistique ne peuvent pas être
appliquées pour tester cette hypothèse, en particulier la distribution de Student du
paramètre φ1 ; Dickey et Fuller ont donc étudié la distribution asymptotique de
l’estimateur φ1 sous l’hypothèse H0. À l’aide de simulations de Monte-Carlo, ils
ont tabulé les valeurs critiques pour des échantillons de tailles différentes. Ces
tables sont des tables1 analogues aux tables du t de Student.
Les auteurs ont choisi de tester la valeur (𝜙̂1 - 1) au lieu de 𝜙̂1 pour des raisons
purement statistiques. Cela n’est pas gênant pour le test. En effet, xt = φ1xt-1 + εt
s’écrit aussi :
xt - xt-1 = φ1xt-1 - xt-1 + εt
𝛥xt = (φ1 - 1)xt-1 + εt
Il est donc équivalent de tester comme hypothèse H0 : φ1 = 1 ou φ1 - 1 = 0. Les
principes généraux du test sont les suivants.
On estime par les moindres carrés ordinaires le paramètre φ1 noté 𝜙̂1 pour les
modèles [1], [2] et [3]. L’estimation des coefficients et des écarts types du modèle
par les moindres carrés ordinaires fournit tφˆ1 qui est analogue à la statistique de
Student (rapport du coefficient sur son écart type). Si tφˆ1 ≥ ttabulé, alors on accepte
l’hypothèse H0 ; il existe une racine unité, le processus n’est donc pas stationnaire.
Remarque : les principaux logiciels d’analyse de séries temporelles calculent
automatiquement les valeurs critiques tφˆ1.
b) Les tests de Dickey et Fuller Augmentés
154
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Dans les modèles précédents, utilisés pour les tests de Dickey-Fuller simples, le
processus εt est, par hypothèse, un bruit blanc. Or il n’y a aucune raison pour que,
a priori, l’erreur soit non corrélée ; on appelle tests de Dickey-Fuller Augmentés
(ADF, 1981) la prise en compte de cette hypothèse.
Les tests ADF sont fondés, sous l’hypothèse alternative |φ1| < 1, sur l’estimation
par les MCO des trois modèles :
𝜌
Modèle [4] : 𝛥𝑥𝑡 = 𝜌𝑥𝑡−1 − ∑ 𝜙𝑗 𝛥𝑡−𝑗+1 + 𝜀𝑡
𝑗=2
𝜌
Modèle [5] : 𝛥𝑥𝑡 = 𝜌𝑥𝑡−1 − ∑ 𝜙𝑗 𝛥𝑡−𝑗+1 + 𝑐 + 𝜀𝑡
𝑗=2
𝜌
Modèle [6] : 𝛥𝑥𝑡 = 𝜌𝑥𝑡−1 − ∑ 𝜙𝑗 𝛥𝑡−𝑗+1 + 𝑐 + 𝑏𝑡 + 𝜀𝑡 avec εt → i.i.d.
𝑗=2
Le test se déroule de manière similaire aux tests DF simples, seules les tables
statistiques diffèrent. La valeur de p peut être déterminée selon les critères de
Akaike ou de Schwarz, ou encore, en partant d’une valeur suffisamment
importante de p, on estime un modèle à p – 1 retards, puis à p – 2 retards, jusqu’à
ce que le coefficient du pième retard soit significatif.
c) Le test de Phillips et Perron (1988)
Ce test est construit sur une correction non paramétrique des statistiques de
Dickey-Fuller pour prendre en compte des erreurs hétéroscédastiques. Il se
déroule en quatre étapes :
1) Estimation par les moindres carrés ordinaires des trois modèles de base des
tests de Dickey-Fuller et calcul des statistiques associées, soit et le résidu estimé.
1 𝑛
2) Estimation de la variance dite de court terme 𝜎̂ 2 = ∑𝑡=2 𝑒𝑡2
2
3) Estimation d'un facteur correctif 𝑠𝑡2 (appelé variance de long terme) établi à
partir de la structure des covariances des résidus des modèles précédemment
estimés de telle sorte que les transformations réalisées conduisent à des
distributions identiques à celles du Dickey-Fuller standard :
155
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
𝑙
1 𝑛 𝑖 1
𝑠𝑡2 = ∑𝑡=2 𝑒𝑡2 + 2∑ (1 − 𝑙+1) 𝑛 ∑𝑡=𝑖+1 𝑒𝑡 𝑒𝑡−𝑖
2 𝑖=1
Pour estimer cette variance de long terme, il est nécessaire de définir un nombre
de retards l (troncature de Newey-West) estimé en fonction du nombre
d'observations n, l ≈ 4(n/100)2/9.
̂ 1 −1)
(𝜙 ̂𝜙
𝑛(𝑘−1)𝜎 ̂ ̂2
𝜎
4) Calcul de la statistique de PP : 𝑡𝜙̂∗ = √𝑘 × ̂∅′ 1
+ 1
avec k = (qui
𝜎 √𝑘 𝑆𝑡2
est égal à 1, de manière asymptotique si et est un bruit blanc). Cette statistique est
à comparer aux valeurs critiques de la table de MacKinnon.
d) Stratégie de tests
Nous constatons que pour réaliser un test de racine unitaire, le résultat n’est pas
identique selon l’utilisation de l’un des trois modèles comme processus générateur
de la chronique de départ. Les conclusions auxquelles on parvient sont donc
différentes et peuvent entraîner des transformations erronées. C’est la raison pour
laquelle Dickey et Fuller, et à leur suite d’autres auteurs, ont élaboré des stratégies
de tests. Nous présentons un exemple simplifié (schéma 1) d’une stratégie de tests.
Les valeurs critiques des 𝑡𝑐̂ et 𝑡𝑏̂ permettant de tester la nullité des coefficients c
et b des modèles.
e) Le test KPSS (1992)
Kwiatkowski (1992) propose d’utiliser un test du multiplicateur de Lagrange (L
M) fondé sur l’hypothèse nulle de stationnarité. Après estimation des modèles, on
calcule la somme partielle des résidus : St = ∑𝑡𝑖=1 𝜀𝑖 et on estime la variance de
long terme (st2) comme pour le test de Phillips et Perron.
156
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Schéma 1 : Stratégie simplifiée des tests de racine unitaire
𝑛
∑ 𝑠𝑡2
𝑡=1
La statistique est alors L M = 2 On rejette l’hypothèse de stationnarité si
𝑠𝑡 𝑛2
cette statistique est supérieure aux valeurs critiques lues dans une table élaborée
par les auteurs.
Il est à noter que les logiciels Stata et Eviews permettent directement l'utilisation
de ces tests.
157
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Solution
Nous allons étudier le CAC40 sur 1 160 observations quotidiennes. Le graphique
1 illustre l’évolution de l’indice CAC40.
Les fonctions d’autocorrélation simple et partielle, pour h = 15 retards, sont
obtenues directement par une fonction :
158
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Graphique 1 : Évolution de l’indice boursier CAC40
Eviews fournit les résultats des fonctions d’autocorrélation simple (colonne AC)
et partielle (colonne PAC), avec les corrélogrammes respectifs. Les bornes de
l’intervalle de confiance sont stylisées par des traits pointillés horizontaux ;
chaque terme qui sort de cet intervalle est donc significativement différent de 0
au seuil de 5 %. Nous nous apercevons que tous les termes du corrélogramme
simple sont extérieurs à l'intervalle de confiance. Le processus n'est pas un bruit
blanc (il semble même caractéristique d'un processus non stationnaire. La
statistique Q de Ljung-Box (la seule calculée par Eviews) confirme ce fait :
Q-Stat = 14483 (au retard k = 15) > χ20,05;15 = 25, on refuse l'hypothèse de nullité
des coefficients ρk (la probabilité critique de ce test est indiquée αc = 0,000 < 0,05,
donc on refuse H0. Le processus CAC40 n'est pas un bruit blanc. A partir des tests
de Dickey-Fuller nous allons examiner si le processus est non stationnaire.
Le test de Dickey-Fuller simple consiste à estimer1 les trois modèles :
[1] : CACt - CACt-1 = DCACt = (φ1 - 1)
[2] : CACt-1 CACt - CACt-1 = DCACt = (φ1 - 1) CACt-1 + c
[3] : CACt - CACt-1 = DCACt = (φ1 - 1) CACt-1 + c + bt
L’estimation par les MCO des paramètres du modèle [3] donne :
DCACt = -0,008447 CACt-1 + 14,94 + 0,002103 t
(–2,053) (2,0) (1,11)
n = 1 159 - (·) = t empirique.
Le coefficient de la droite de tendance n’est pas significativement différent de 0
(t∗ = 1,11), on rejette l’hypothèse d’un processus TS et t𝜙̂1 = -2,053 > ttabulé = -
3,41 (ou n(𝜙̂1 - 1) = 1 159 × -0,008447 = -9,79 > -21,8) ; on accepte l’hypothèse
H0 (valeurs critiques au seuil de 5 %) ; le processus n’est pas stationnaire.
159
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
DCACt = -0,00709 CACt-1 + 13,63
(–1,805) (1,85)
n = 1 159 - (·) = t empirique.
Le terme constant n’est pas significativement différent de 0 (t∗ = 1,85), on rejette
l’hypothèse d’un processus DS avec dérive et t𝜙̂1 = -1,805 > ttabulé = -2,86 ; on
accepte l’hypothèse H0 ; le processus n’est pas stationnaire.
Enfin l’estimation par les MCO des paramètres du modèle [1] donne :
DCACt = 0,000174 CACt-1
(0,536)
n = 1 159 - (·) = t empirique.
t𝜙̂1 = 0,536 > ttabulé = -1,95 , on accepte l’hypothèse H0 ; le processus n’est pas
stationnaire.
Le test DFA (avec quatre retards) conduit à des résultats similaires :
Les probabilités critiques sont toutes supérieures à 0,05, nous ne rejetons pas
l’hypothèse H0 ; nous pouvons donc conclure que le processus CAC40 possède
une racine unitaire et n’est donc pas stationnaire.
Nous procédons ensuite au test de Phillips-Perron avec une troncature l = 6.
160
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Hypothèse H0 : CAC possède une racine unitaire
Troncature l = 6
Les probabilités critiques sont toutes supérieures à 0,05, nous ne rejetons pas
l’hypothèse H0 ; le processus CAC40 possède une racine unitaire.
Enfin, nous procédons aux tests KPSS.
Hypothèse H0 : CAC ne possède pas une racine unitaire
Troncature l = 6
La statistique LM est supérieur à la valeur critique (pour un seuil de 5%) pour les
deux spécifications, nous rejetons l’hypothèse H0, le processus CAC40 possède
donc une racine unitaire.
Tous les résultats sont convergents, nous pouvons donc conclure que le processus
CAC40 n’est pas stationnaire.
S’agit-il d’un processus de marche au hasard sans dérive ? Nous allons le vérifier
en calculant le corrélogramme de la série filtrée par les différences premières ceci
afin de stationnariser le processus :
161
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La statistique Q a une probabilité critique de 0,182 (pour k = 15) largement
supérieure à 0,05 ; nous acceptons l’hypothèse H0 de nullité des coefficients du
corrélogramme. Le corrélogramme de la série CAC40 filtrée par les différences
premières est caractéristique d’un bruit blanc. La série CAC40 est donc bien un
processus DS sans dérive.
162
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les tests sont effectués par valeurs :
1∕2
|𝛽1 −0| |−0,39−0| |𝛽3 −0| |6,83 − 3|
ν1 = 6
= 6
= 5,42 > 1,96 et v2 = 24
= 24
= 26,61 > 1,96 .
√ √ √ √
𝑛 1159 𝑛 1159
163
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE 6 : GUIDE PRATIQUE D’UTILISATION DES LOGICIELS EVIEWS
ET STATA
164
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
I- PRESENTATION DU LOGICIEL EVIEWS
Le logiciel Eviews est spécialisé en économétrie. Il peut être utilisé de manière
simple grâce à une ergonie de type « Windows ». Il aide aussi bien en économétrie
approfondie que dans l’analyse des séries temporelles ; il possède aussi des outils
de programmation qui permettent de développer soi-même des algorithmes de
calcul.
lnimport = log(import)
165
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
lnfbcf = log(fbcf)
lnautres_services = log(autres_services)
V- REPRESENTATIONS GRAPHIQUES
Pour faire le graphe d’une variable, double cliquez sur cette dernière et faites :
View Graph
PIB
12,000
10,000
8,000
6,000
4,000
2,000
0
1980 1985 1990 1995 2000 2005 2010 2015
166
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
VI- TEST DE NORMALITE DE JARQUE BERA
Pour tester la distribution normale des variables, il faut impérativement effectuer
le test de normalité de Jarque Bera. Pour cela, sélectionner dans notre cas d’espèce
les variables générées en commençant par lnpib.
Common Sample. Dans la fenêtre qui apparaitra, vous avez dans un rectangle,
vos différentes variables sélectionnées précédemment. Cliquez sur OK.
REGLE DE DECISION
- Au seuil de 5% on accepte l’hypothèse de normalité dès que la valeur de
Probability est supérieure à 0,05 soit 5%.
- Au seuil de 5% on rejette l’hypothèse de normalité dès que la valeur de
Probability est supérieure ou égale à 0,05 soit 5%.
LNPOPULA
LNIMPORT LNAUTRES TION_ACTI LNTRANSP LNVOYAG
LNPIB ATION LNFBCF _SERVICES VE ORTS ES
Mean 8.383207 7.668115 6.922924 3.831137 15.02125 3.665938 4.136854
Median 8.386461 7.649707 6.921007 3.923971 14.99948 3.541162 4.400535
Maximum 9.214443 7.759696 7.891002 5.210546 15.61469 5.189395 5.462382
Minimum 7.603175 7.605523 5.990203 2.384718 14.45434 2.534728 2.173536
Std. Dev. 0.477731 0.048143 0.490604 0.751385 0.358971 0.789103 0.982232
Skewness 0.060269 0.622960 0.177536 -0.219164 0.041766 0.532456 -0.825837
Kurtosis 1.751789 1.960876 2.259967 2.512807 1.723761 2.235757 2.508314
Observations 38 38 38 38 38 38 38
c = le terme constant
Retenez que c’est bien de savoir faire les différents tests mais c’est encore plus
mieux quand on sait les interpréter.
168
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Estimation par les MCO
Dependent Variable: LNPIB
Method: Least Squares
Date: 22/01/24 Time: 22:54
Sample: 1980 2017
Included observations: 38
Variable Coefficient Std. Error t-Statistic Prob.
C -13.06911 5.676306 -2.302398 0.0282
LNIMPORTATION 0.288533 0.831854 0.346855 0.7310
LNFBCF 0.075745 0.044798 1.690826 0.1009
LNAUTRES_SERVICE
S -0.050854 0.033460 -1.519851 0.1387
LNPOPULATION_ACT
IVE 1.258361 0.113826 11.05511 0.0000
LNTRANSPORTS -0.020803 0.022248 -0.935042 0.3570
LNVOYAGES 0.020395 0.037200 0.548261 0.5874
R-squared 0.988417 Mean dependent var 8.383207
Adjusted R-squared 0.986175 S.D. dependent var 0.477731
S.E. of regression 0.056171 Akaike info criterion -2.756018
Sum squared resid 0.097810 Schwarz criterion -2.454357
Log likelihood 59.36434 Hannan-Quinn criter. -2.648689
F-statistic 440.8969 Durbin-Watson stat 1.825559
Prob(F-statistic) 0.000000
Interprétation :
❖ Si les importations augmentent de 10% alors le PIB augmente de
28,85%
❖ Si la FBCF augmente de 10% alors le PIB augmente de 7,57%
❖ Si les autres_services augmentent de 10% alors le PIB diminue de
5,08% puisque l’élasticité associée à cette variable est négative.
❖ Si la population_active augmente de 10% alors le PIB augmente de
125%
169
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
❖ Si les transports augmentent de 10% alors le PIB diminue de 2,08%
puisque l’élasticité associée à cette variable est négative.
❖ Si les voyages augmentent de 10% alors le PIB augmente de 2,03%.
TEST CLASSIQUES
a- Test de significativité
❖ La variable Lpopulation_active a une influence significative sur la variable
LPIB car la probabilité critique associée est inférieur à 5%.
❖ Les variables Ltransports, Lautres_services, Limportation, Lfbcf,
Lvoyages n’ont pas une influence significative sur la variable LPIB car les
probabilités associées sont supérieures à 5%.
b- Test de significativité global du modèle : Le modèle est globalement
significatif car la valeur de Prob(F-statistic) est inférieure à 5% soit
0,0000000,05.
c- Test d’hétéroscédasticité des erreurs ou test de White
Règle de décision
Cliquee sur White puis sur OK. On obtient les résultats ci-dessous
170
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
F-statistic 5.158264 Prob. F(24,13) 0.0018
Obs*R-squared 34.38885 Prob. Chi-Square(24) 0.0780
Scaled explained SS 209.8296 Prob. Chi-Square(24) 0.0000
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 22/01/24 Time: 23:15
Sample: 1980 2017
Included observations: 38
Collinear test regressors dropped from specification
171
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Dans notre cas, la F-statistic est inférieure à 5%, autrement 0,001785 0,05 alors
accepte l’hypothèse d’hétéroscédasticité des erreurs du modèle.
Rège de décision
20
15
10
-5
-10
-15
-20
88 90 92 94 96 98 00 02 04 06 08 10 12 14 16
CUSUM 5% Significance
172
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
H0 : Racine Unitaire (non stationnaire)
H1 : Non Racine Unitaire (Stationnaire)
CV : Critical Value (Valeur Critique)
Règle de décision
Commande
Cliquer sur Quick Series statistics Unit Root Tests Ecrire
le nom de la variable.
Ensuite, sélectionner ADF test, choisir le modèle (Trent and intercept), choisir 1
pour le nombre de décalages, choisir Level (le test est fait sur la variable en
niveau).
t-Statistic Prob.*
173
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
R-squared 0.157120 Mean dependent var 0.043548
Adjusted R-squared 0.107538 S.D. dependent var 0.028640
S.E. of regression 0.027057 Akaike info criterion -4.304174
Sum squared resid 0.024890 Schwarz criterion -4.173559
Log likelihood 82.62722 Hannan-Quinn criter. -4.258126
F-statistic 3.168934 Durbin-Watson stat 2.085356
Prob(F-statistic) 0.054704
RESULTAT OBTENU
- ADF = -2,45 > -4,22 on accepte H0 donc lnpib est non stationnaire à
niveau.
En suivant la même procédure, vous pouvez effectuer le test de stationnarité pour
toutes les variables du modèle et interpréter.
- Si LR > CV cointégration
- Si LR < CV pas de cointégration
Commande
Cliquer sur Quick Group statistics cointegration taper dans
l’ordre toutes les variables précéder par ln puis choisissez No deterministic trend ;
No intercept trend.
174
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Hypothesized Trace 0.05
No. of CE(s) Eigenvalue Statistic Critical Value Prob.**
175
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
1 Cointegrating Equation(s): Log likelihood 296.0684
176
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
(0.55561) (0.13693)
D(LNVOYAG
ES) 0.364300 -0.214635
(0.27140) (0.06689)
177
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
(1.00503) (0.23138) (0.29019) (4.49167)
D(LNFBCF) -0.221748 0.321553 -0.410667 0.860068
(0.53700) (0.12363) (0.15505) (2.39997)
D(LNIMPORT
ATION) -0.060184 -0.004690 -0.011802 0.301604
(0.03108) (0.00715) (0.00897) (0.13889)
D(LNPOPULA
TION_ACTIV
E) 0.456642 -0.046547 0.010526 0.721241
(0.14494) (0.03337) (0.04185) (0.64775)
D(LNTRANSP
ORTS) -1.778563 -0.061566 -0.649082 36.17980
(1.34563) (0.30980) (0.38853) (6.01386)
D(LNVOYAG
ES) 0.285281 -0.300263 0.061180 -11.12595
(0.65881) (0.15168) (0.19022) (2.94435)
178
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
LNAUTRES_S LNIMPORTAT LNPOPULATI LNTRANSPO
LNPIB ERVICES LNFBCF ION ON_ACTIVE RTS LNVOYAGES
1.000000 0.000000 0.000000 0.000000 0.000000 0.000000 -1.012434
(0.16984)
0.000000 1.000000 0.000000 0.000000 0.000000 0.000000 -1.164402
(0.16572)
0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 -1.079909
(0.23669)
0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 -0.144505
(0.03329)
0.000000 0.000000 0.000000 0.000000 1.000000 0.000000 -0.774462
(0.13147)
0.000000 0.000000 0.000000 0.000000 0.000000 1.000000 -2.638233
(0.75720)
RESULTAT OBTENU
125,97 > 125,61 cointégrations de lnpib et des autres variables du modèle au seuil
de 5%. Le log du PIB et celui des autres variables suivent des évolutions parallèles
entre 1980 et 2017.
179
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
EXERCICE
180
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
même adresse et vous aurez droit à une réduction exceptionnelle parce que vous
avez déjà le document. Ecrivez vite au (+229) 94270028 pour bénéficier de votre
réduction.
181
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
STATA
Ce guide vous servira d’outil de référence tout au long de votre analyse des
données avec le logiciel Stata. Nous avons tenté de rassembler toute la matière
essentielle à la maitrise parfaite de ce logiciel. Cela dit, il se peut que pour
certains, des sections de cette partie contiennent des notions triviales ou trop
avancées en fonction de vos objectifs de recherche. Il vous suffira donc de sauter
à la prochaine section plus rapidement.
Chaque section présente le but de l’opération qui y est traitée. Les commandes
appropriées sont ensuite présentées, d’abord individuellement, puis dans le cadre
d’un exemple concret. Prenez note que ce texte décrit seulement les fonctions
ainsi que leurs options les plus souvent utilisées, il n’est donc pas du tout
exhaustif.
Un conseil : apprenez à utiliser l’aide de Stata. Il s’agit d’un outil fort utile pour
découvrir de nouvelles fonctions ou pour connaître l’ensemble des options
disponibles pour les fonctions décrites dans ce guide.
La première partie vous indiquera comment trouver les données d’enquête dont
vous aurez besoin pour réaliser votre recherche. La deuxième décrivant la base
des manipulations économétriques et la dernière partie exposant des
manipulations plus poussées. Il abordera des sujets spécifiques de l’économétrie.
Il introduit peu de nouvelles fonctions, se concentrant plutôt sur la démarche à
adopter pour effectuer l’opération en question.
182
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
types de fichier de données peuvent être structurés de façons différentes, et
permettent de réaliser différents types d’analyses économétriques.
Les autres types de structures de données privilégient les données agrégées (séries
chronologiques) ou nécessitent des connaissances plus poussées en économétrie
(pooling et panel).
Note : Il arrive qu’il y ait des données manquantes dans les fichiers de données.
Dans le cadre de données d’enquête, un répondant peut refuser de répondre à une
question. Dans ce cas, on retrouve un espace vide dans la base de données, ce qui
peut fausser les résultats de manipulations. Il faut remplacer ces espaces par des
points, Stata ne pouvant pas lire les espaces vides. Allez dans le bloc note et faites
Ctrl+H. Et sur les fichiers de données agrégées, deux options s’offrent à vous
pour combler les espaces vides. Vous pouvez soit faire des moyennes mobiles, en
183
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
utilisant la valeur avant et la valeur après la donnée manquante (par exemple, s’il
manque le PIB pour l’année 2020, additionnez celui de 2019 à celui de 2021, et
divisez-les en deux. Cela donne la moyenne mobile pour 2020.) Une idée de la
valeur manquante peut aussi vous être donnée en faisant un graphique. Or,
puisqu’il manque des données, Stata ne pourra produire le graphique, vous devrez
donc aller dans Excel…
184
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
population, on doit faire l’hypothèse que les 4 conditions suivantes sont respectées
dans notre échantillon.
185
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
statistiques de test, nous ferons un bref rappel des principes fondamentaux du test
d’hypothèse.
La première chose à faire est de formuler l’hypothèse que l’on veut tester. On doit
donc définir notre hypothèse nulle (H0) et l’hypothèse alternative. Dans le cadre
de régression, H0 consiste, la plupart du temps, en un coefficient égal à zéro (H0 :
β=0). En termes économiques, cela veut dire que l’effet marginal des coefficients
sur la variable dépendante est nul. L’hypothèse alternative peut aussi prendre
diverses formes selon le cas : H1 : β≠0, H1 : β>0 ou H1 : β<0. La formulation de
l’hypothèse alternative est très importante puisqu’elle vient influencer la zone de
rejet du test. Cette zone est déterminée en fonction du niveau de confiance choisi
(α) et si on fait un test à une ou deux queues. Plus le niveau de confiance est élevé,
plus le test est précis. En sciences humaines, on choisi généralement un niveau de
5%. Dans ce cas, il y a 5% des chances que l’on rejette l’hypothèse nulle alors
qu’elle est vrai. De plus, quand la situation le permet, il est préférable de
privilégier un test bilatéral pour avoir un test plus précis.
̂−𝜷∕𝝈
La statistique t se calcule ainsi : 𝜷 ̂ 𝜷 . Stata donne cette statistique dans le
tableau des résultats d’un régression par MCO. Alors, avec un niveau de confiance
de 95% et un nombre infini de degrés de libertés, si H0 : β=0 et H1 : β≠0, la zone
de non-rejet sera de -1.96 à 1.96. Ceci est un test bilatéral. Si H0 : β=0 et H1 : β>0,
la zone de non-rejet sera de 0 à 1.64. Si H0 : β=0 et H1 : β<0, la zone de non-rejet
sera de -1.64 à 0. Ceux-ci sont des tests unilatéraux. Donc, on rejette H0 : β=0 si
la statistique t donnée se trouve à l’extérieure de l’intervalle de confiance. Si t est
rejeté, cela veut dire que notre coefficient a un impact sur notre variable
indépendante, donc qu’elle est statistiquement significative.
En ce qui concerne la statistique z, avec un niveau de confiance de 95%, si H 0 :
β=0 et H1 : β≠0, la zone de non-rejet sera aussi de -1.96 à 1.96. Si H0 : β=0 et H1
: β>0, la zone de non-rejet sera de 0 à 1.645. Si H0 : β=0 et H1 : β<0, la zone de
non-rejet sera de - 1.645 à 0. Donc, on rejette H0 : β=0 si la statistique z donnée
186
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
se trouve à l’extérieure de la zone de non-rejet. Si z est rejeté, cela veut dire que
notre coefficient a un impact sur notre variable indépendante, donc qu’elle est
statistiquement significative.
La statistique f (test de signification conjointe de Fisher) est caractérisée par deux
valeurs : q, le nombre de contraintes, i.e. le nombre de degrés de libertés du
numérateur et k, le nombre de coefficients du modèle non-contraint, (n – k) est le
nombre de degrés de libertés du dénominateur.
f = (R2/ k) / (1- R2 ) (n-k-1)
Dans le cas où on a deux contraintes et où (n – k) peut être considéré infini (>100),
la valeur critique de la statistique f à 95% est 3.00, i.e. Prob [q,n k F . . f] = 0.95.
Ainsi, si la valeur de la statistique f obtenue est supérieure à la valeur critique, on
rejette l’hypothèse nulle. Dans le cas contraire, on ne peut rejeter l’hypothèse
nulle.
187
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
bonne. L’hétéroscédasticité est une situation rencontrée fréquemment dans les
données, il est donc important de savoir la détecter5 et la corriger6.
2.2 Commandes de base sur Stata
Le texte qui se trouve en italique désigne le texte tel qu’il serait entré à
l’ordinateur, dans Stata, pour obtenir les manipulations souhaitées.
188
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Infile permet plus de flexibilité que insheet en permettant que les observations
soient sur plusieurs lignes ou que les données soient séparées par des espaces.
Données pondérées. Il est fortement possible que les données votre base de
données soient pondérées. Par exemple, dans un recensement, les répondants
n’ont pas tous le même poids dans le sondage. En effet, un répondant de la ville
de Cotonou n’a pas le même poids qu’un répondant provenant de Parakou, la
population de Cotonou représentant 14% de la population béninoise alors que la
population de Parakou est dans les environs 1/3 de celle de Cotonou. Si vos
données sont pondérées, cela sera généralement indiqué sur à la fin de la base de
données ou dans le cliché d’enregistrement. Si tel est le cas, vous devrez l’indiquer
à Stata à l’aide de la fonction suivante : svyset [pweight =
nomdevariabledepondération]. Lorsque Stata est avisé que vos données sont
pondérées, il suffit d’ajouter svy avant chaque fonction (exemple : svymean,
svyregress, svyprobit…). Ce faisant, vous n’avez pas à toujours ajouter [pweight
= fweight] comme option à la fin de vos fonctions. Une exception à cette règle
existe toutefois. En faisant une régression par MCO, vous ne pouvez corriger pour
l’hétéroscédasticité en utilisant l’option robust si vous utilisez la fonction
svyregress. Donc, il faut utiliser regress et ajouter [pweight = fweight] en option
à la fonction.
Voici un exemple de ce à quoi devrait ressembler un début de fichier Do-file :
clear
set memory 800m
log using nouveaunom.log, replace
insheet using "C:\Documents and Settings\p0678264\Bureau\EXTRACT.TAB"
svyset [pweight = fweight]
189
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
gauche du signe d’égalité est le nom de la variable que l’on veut créer par
l’entremise de l’opération, et le nom du côté droit est le nom de la variable tel
qu’attribué ou correspondant à une variable dans le fichier de données. On peut
désirer créer des nouvelles variables parce que celles que l’on retrouve dans notre
base de données ne nous satisfait pas. Par exemple, si on veut estimer l’impact
d’être une femme sur le niveau d’éducation, la variable « sex » qui englobe les
hommes et les femmes n’est pas assez précise. On créera donc une variable binaire
ou dummy. Par exemple : g femme = (sex==2) et g homme = (sex==1). En terme
littéraire cela veut dire : générer la nouvelle variable appelée femme lorsque la
variable d’origine appelé sex prend la valeur 2 (lorsque le répondant est une
femme, 2 est inscrit dans la base de donnée). Créer une nouvelle variable voudra
probablement dire la modifier mathématiquement. Par exemple : g salaire1 =
log(salaire) ou g salaire2 = salaire^2.
Dans le tableau suivant, vous trouverez les opérateurs logiques et de comparaisons
les plus fréquemment utilisés.
Soustraction - Addition +
Division / Multiplication *
Non (¬) ~ Puissance ^
Ou | Et &
Renvoie l’argument possédant
Renvoie l’argument Min Max
la
possédant la valeur la
(x1…xn) valeur la plus élevée (x1…xn)
moins élevée
Différent ~= Égal ==
Racine carrée de x Sqrt(x) ex Exp(x)
Plus petit < Plus grand >
Logarithme de x Log(x) Σx Sum(x)
Plus petit ou égal <= Plus grand ou égal >=
190
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.2.3 Divers
Il est possible d’insérer des commentaires dans son programme en prenant soin
de débuter la ligne de commentaire par le symbole ‘*’. Par exemple: * Ceci est un
commentaire.
La majorité des fonctions peuvent être suivies de if qui permet de spécifier une
condition pour que la commande soit exécutée. if est placé après la fonction, mais
avant les options. Par exemple : regress y x1 x2 x3 if sex==1
La majorité des fonctions peuvent être suivies de in qui permet de spécifier
l’étendue des données affectées par la fonction. in est placé après la fonction, mais
avant les options. L’étendue peut prendre la forme # ou #/#, et # peut-être un
nombre positif, l (dernière observation), f (première observation) ou un nombre
négatif (distance par rapport à la dernière observation). Par exemple : regress y x1
x2 x3 in f/60 (les 60 premières observations) ou regress y x1 x2 x3 in -10/1 (les 10
dernières observations).
Si vous voulez afficher à l’écran la valeur de certaines variables, faite list
nomsdesvariables. Par exemple : list sex in -10/1 (Stata affichera la valeur des 10
dernières observations de la variable sexe).
Si vous ne voulez pas retenir certaines catégories d’une variable binaire, vous
pouvez utiliser la fonction drop. Par exemple : drop if sex==2
2.3 Statistiques de l’échantillon
Il est toujours recommandé d’examiner le portrait de notre échantillon avant de
commencer à faire des manipulations. En effet, cela permet de vérifier s’il y a des
anomalies dans l’échantillon qui pourraient venir biaiser les estimateurs. Un
exemple d’anomalie pourrait être de retrouver quelques données très éloignées de
la moyenne (le revenu de Dangote dans un échantillon du revenu d’infirmières).
Pour ce faire, deux options s’offrent à vous. Si vous êtes plus visuel, faire un
graphique des données s’avère la meilleure option. Sinon, il suffit d’utiliser
191
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’option summarize (ou mean). Vous n’avez qu’à inscrire la fonction suivit du
nom de vos variables. Par exemple :
svymean homme femme age1519 age2024 age2529 age3034 age3539 age4044
age4549 age5054 age5559 age6069 celibataire marieunionlibre veufs
separedivorce eduprimaire educsecondpartielles diplomesecondaire
etudespostsec diplomepostsec bacc diplomedeuxiemecycle salaire lnsalaire Un
tableau comme celui-ci apparaît.
192
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
doit être égale à 1 pour chaque groupe de variables dichotomiques. Nous ne nous
attarderons pas aux autres colonnes, car elles sont moins utiles pour l’analyse.
Finalement, en utilisant ces données, vous pourrez faire des tableaux croisés qui
vous donneront une intuition des résultats de votre régression (i.e. les moyennes
donnent une bonne idée du signe (+/-) du coefficient. Voici un exemple de tableau
croisé.
Origine du vote, élection présidentielle, USA, 2004, %
Catholique 1 40
Protestants 54 5
193
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
2.5 Régressions
2.5.1 Régression par les moindres carrés ordinaires (MCO)
La régression par les MCO est une méthode qui permet d’estimer les coefficients
d’une régression linéaire multivariée en minimisant la somme des carrés des
résidus. La régression par MCO permet d’obtenir des estimateurs BLUE.
ŷ = β0 + β1x1 + β2x 2+ β3x+3…βnxn
En faisant une régression à l’aide de Stata, vous obtiendrez donc une liste de
coefficients (β1, β2, β3, …βn). Ici, il est préférable de ne pas inscrire les coefficients
sous la forme d’une équation (par exemple : ŷ = 0.33 + 0.25x1 + 0.25x2 + 0.25x3).
Si vous décidez de le faire, il est important d’inscrire la valeur de la statistique t
en dessous de chaque coefficient afin que le lecteur sache si les variables sont
significatives ou non. Une façon plus élégante de présenter les résultats est
d’inscrire le nom des variables ainsi que leur coefficient et leur statistique t dans
un tableau, et souligner les variables qui passent le test de « signification » en
gras.
Pour programmer une régression sur Stata, il suffit d’inscrire regress suivit de la
variable dépendante et des variables indépendantes. Dans notre programmation,
on doit laisser tomber une catégorie pour chaque variable binaire (pour éviter le
problème de multicolinéarité parfaite). L’exemple suivant inclus aussi une
condition (if prive==1), la pondération et la correction de l’hétéroscédasticité.
regress lnsalaire homme age1519 age2529 age3034 age3539 age4044 age4549
age5054 age5559 age6069 marieunionlibre veufs separedivorce
educsecondpartielles diplomesecondaire etudespostsec diplomepostsec bacc
diplomedeuxiemecycle dmois pans dans tans tempsplein couverturesyndicale
professionel personneldebureau sante education hotellerierestauration
protection saisonnier temporairecontractuel occasionnelautre
entre20et99employes entre100et500employes plusde500employes if prive==1
[pweight = fweight] , robust
194
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Correction de l’hétéroscédasticité. Effectuer une régression par MCO et
calculer les variances robustes d’Eicker-White. Dans Stata, il suffit d’ajouter
l’option robust (exemple : regress y x1 x2 x3, robust) à sa régression pour corriger
les écarts-types. Toutes les interprétations et les tests s’effectuent comme
auparavant avec les nouveaux écarts-types. Il peut être tentant d’utiliser
systématiquement les écarts-types robustes, mais il faut savoir que cette méthode
gonfle les écarts-types inutilement et réduit la puissance des tests lorsque ceci
n’est pas nécessaire. Il faut donc s’abstenir de l’utiliser lorsqu’elle ne s’avère pas
nécessaire.
2.5.2 Probit/Dprobit
Le probit fait partie de la famille des modèles de régression pour variables
dépendantes prenant des valeurs dichotomiques. On parle ici des probit, logit, etc.
Dans cette partie, nous nous attarderons uniquement au plus simple de ces
modèles, c’est-à-dire le probit.
Le probit permet de comprendre l’effet d’une variable indépendante sur la
probabilité de se retrouver dans un état. On arrive essentiellement au même but
que celui de la MCO, c’est-à-dire de « prédire » la valeur d’une variable
dépendante à l’aide de variables indépendantes (ou explicatives). Néanmoins,
dans le cas d’un probit, la variable dépendante est qualitative. Le modèle
ressemble à ceci :
y*i = β0 + β’xi + ui
y*i est une variable latente, c’est-à-dire qu’elle est inobservable (ex. : propension
à acheter, préférence d’avoir des enfants, préférence pour un parti politique…).
Néanmoins, on peut observer le comportement de l’individu. Par exemple :
l’individu a acheté une voiture ou l’individu vote pour tel parti politique, etc. Dans
le modèle probit, la variable dépendante est une variable binaire (dummy) dont la
valeur est 1 quand l’événement se produit, et 0 quand il ne se produit pas (note :
le zéro est un seuil choisi arbitrairement).
195
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Y=1 si y*i > 0 ou Y=1 si (β0 + β’xi + ui)> 0 Y=0 autrement.
196
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
probit ref rural panglo km2 ymedian pgv pimm tax5ans pop ratiopop mois quebec
age dprobit ref rural panglo km2 ymedian pgv pimm tax5ans pop ratiopop mois
quebec age
Options: probit possède en grande partie les mêmes options que regress.
Note: Ici predict donne par défaut la probabilité. Pour avoir l’estimation linéaire,
il faut préciser xt dans les options de predict.
Note : Pour le Probit, on n’a pas besoin de corriger pour l’hétéroscédasticité
puisque que l’échantillon est homoscédastique par hypothèse.
197
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La R-squared (R-carré) est la proportion de la variation de la variable
indépendante qui est expliquée par les variables indépendantes. Il est préférable
d’utiliser un R-carré ajusté puisque le R-carré est affecté par le nombre de
variables indépendantes. Le R-carré est biaisé à la hausse lorsque le nombre de
variables indépendantes est élevé. La plupart du temps, Stata donne le R-carré et
le R-carré ajusté. Sinon, vous devez le calculer vous-même. Si vous obtenez un
198
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
R-carré qui semble petit, il ne faut pas nécessairement rejeter votre modèle. Un
faible R-carré vous donne plutôt l’indice qu’il manquerait des variables
explicatives pertinentes à votre modèle.
2.6.2 Probit/Dprobit
Le tableau des résultats du probit est très similaire à celui de la régression par
MCO : on retrouve la statistique z au lieu de la statistique t. Le coefficient
s’interprète toutefois plus ou moins bien, comparé à celui résultant d’une MCO.
Le coefficient donne l’effet marginal d’une variation d’une unité de la variable
199
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
indépendante xi sur la valeur de la variable latente y* i. Un dprobit s’avère donc
nécessaire.
200
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
coefficients de deux variables indépendantes du modèle afin de vérifier laquelle a
une influence plus grande sur la variable dépendante.
Ensuite, si vous avez une variable indépendante qui cause indirectement une autre
variable indépendante qui explique la variable dépendante, il est préférable de
l’enlever du modèle. Par exemple, l’intelligence (variable indépendante) cause la
scolarité (variable indépendante) qui explique le revenu (variable dépendante).
Dans ce cas-ci, il faudrait enlever la variable scolarité parce qu’il devient difficile
de déterminer si elle cause directement le revenu ou si elle a un effet sur le salaire
par l’intermédiaire de la variable intelligence. Ici, l’intelligence serait une variable
proxy.
III- Manipulations plus poussées
3.1 Hétéroscédasticité
Détecter l’hétéroscédasticité. Plusieurs tests se ressemblant existent pour
détecter l’hétéroscédasticité. On aborde dans ce chapitre deux de ces tests, le test
de Breusch-Pagen et le test de White. L’idée générale de ces tests est de vérifier
si le carré des résidus peut être expliqué par les variables explicatives du modèle.
Si c’est le cas, il y a hétéroscédasticité.
La plus simple est le test de Breusch-Pagen:
1. récupérer les résidus de la régression qu’on désire tester ;
2. générer le carré des résidus ;
3. régresser le carré des résidus sur les variables indépendantes de la régression
originale ;
4. tester si les coefficients sont conjointement significatifs (test F ou test LM).
reg y x1 x2
predict u, r
g u2 = u^2
reg u2 x1 x2
201
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il suffit alors de regarder la statistique F donnée par Stata.
La faiblesse du test de Breusch-Pagan est qu’il suppose les erreurs normalement
distribuées. Afin de laisser tomber cette hypothèse, il suffit d’ajouter le carré des
variables indépendantes et leurs produits croisés dans la régression de l’étape 3, il
s’agît là du test de White. Afin de limiter le nombre de paramètre, on peut utiliser
un test de White légèrement modifié :
u2 = β0 + β1ŷ+ β2ŷ2 + e
On procède pour le reste exactement de la même façon que pour le test de
Breusch-Pagan.
Interprétation des résultats des tests d’hétéroscédasticité. Les deux tests
mentionnés plus haut utilisent un test F. Dans le contexte d’un test
d’hétéroscédasticité, l’hypothèse nulle est que tous les coefficients de la
régression des résidus au carré sont nuls, bref il y a homoscédasticité. L’hypothèse
alternative est qu’il y a hétéroscédasticité. Ainsi, si on rejette l’hypothèse nulle («
p-value » < alpha), on peut conclure à la présence d’hétéroscédasticité. Stata
affiche toujours la «p-value» du test F de «overall significance» lorsqu’il effectue
une régression. C’est exactement le test qui nous intéresse dans le cas de
l’hétéroscédasticité. Il n’est donc pas nécessaire d’effectuer un test
supplémentaire après la régression.
3.2 Séries chronologiques
Une série chronologique est le résultat d’un processus stochastique (aléatoire)
indexé en fonction du temps. Plusieurs problèmes sont propres aux séries
chronologiques, notamment en raison de la corrélation du terme d’erreur entre les
observations (autocorrélation) et de la possibilité de changement du processus
générateur de données d’une époque à l’autre. Les sections qui suivent adressent
la question de comment s’assurer que l’on peut travailler avec nos données
chronologiques.
202
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Il est tout d’abord important de modéliser les données, notamment les données
financières parce qu’elles contiennent beaucoup de bruit, pour rendre le terme
d’erreur blanc. Pour ce faire, il suffit d’inscrire :
arima variabledependante variableindependante, arima(p,d,q)
où p est le nombre de AR, d le nombre de différenciation et q le nombre de MA.
Il n’est pas nécessaire de préciser de variables indépendantes.
ex: AR(1)
arima t, arima(1,0,0)
ex: MA(1)
arima t, arima(0,0,1)
ex: ARIMA(1,1,2)
arima t, arima(1,1,2)
Pour choisir p et q, il est bon de regarder l’autocorrélogramme partiel (nombre de
AR) et l’autocorrélogramme (nombre de MA) de la variable qui nous intéresse.
Lorsqu’on travaille avec des séries chronologiques dans Stata, il est nécessaire de
l’en aviser par la commande tsset. On commence donc par générer la variable de
temps (t).
Ensuite, on écrit tsset suivit du nom de la variable de temps. Ex. : tsset = t
Voici comment reproduire l’équivalent des opérateurs Avance et Retard dans
Stata pour travailler sur les séries chronologiques. L’opérateur 1 est l’opérateur
Retard de stata. Il peut être utilisé avec toutes les fonctions qui acceptent les séries
temporelles une fois que la déclaration de séries temporelles à été faite.
l#.variable, où variable est la variable sur laquelle l’opérateur doit agir et # est le
nombre de retards à appliquer. Si # est omis, un seul retard est appliqué
(équivalent à l1.variable).
tsset t
* un modèle AR2
regress y l.y l2.y
203
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’opérateur f est l’opérateur Avance de stata. Il peut être utilisé avec toutes les
fonctions qui acceptent les séries temporelles une fois que la déclaration de séries
temporelles à été faite.
f#.variable, où variable est la variable sur laquelle l’opérateur doit agir et # est le
nombre d’avance à appliquer. Si # est omis, une seule avance est appliquée
(équivalent à f1.variable).
tsset t
* une autre formulation pour un modèle AR2
regress f.y y l.y
3.2.1 Test d’autocorrélation
Inutile de mentionner que l’autocorrélation est un problème qui n’est pertinent
que dans le cas des séries temporelles. . . Le test ρ est le test le plus simple à
effectuer pour tester la présence d’autocorrélation :
1. récupérer les résidus de la régression qu’on désire tester ;
2. régresser ût sur ût-1 à ût-n et X
3. Tester la signification conjointe des coefficients de cette régression par un test
F.
Choisissons n périodes égal à 3.
reg y x1 x2
predict u, r
reg u l.u l2.u l3.u
Il suffit alors de regarder la statistique F donnée par Stata.
3.2.2 Stationnarité
Pour travailler avec des données temporelles, elles doivent conserver une
distribution constante dans le temps. C’est le concept de stationnarité.
Série chronologique stationnaire : la distribution des variables chronologiques
ne varie pas dans le temps. Un concept moins fort de stationnarité est
généralement utilisé, la covariance-stationnarité ou stationnarité au second degré.
204
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Série chronologique covariance-stationnaire :
• E [y t] = µ (l’espérance ne dépend pas de t)
• var [y t ] = σ2 (la variance ne dépend pas de t)
• cov [ yt,ys] = γ k = t - s (la covariance ne dépend que de t-s)
Ainsi, si nos variables passées sont semblables à nos variables futures, on peut
utiliser le passé pour tenter de prédire (sic) le futur.
Si nos données ne sont pas stationnaires, on se retrouve avec :
• biais de prévision
• prévision inefficace
• mauvaise inférence
Il existe trois sources principales de non-stationnarité. 1- Changement structurel
(break) La fonction de régression change dans le temps, soit de façon discrète,
soit de façon graduelle. Par exemple, dans le cas d’un changement politique. La
démarche à suivre est détaillée dans la sous-section ci-dessous. 2- Tendance
déterministe Les données suivent une tendance qui a une fonction définie : t, t2,
etc. Afin de résoudre le problème, il suffit d’inclure une variable de tendance dans
le modèle de régression : y = β0 + β1t + β2x.
Malheureusement, tout n’est pas aussi simple que ça en a l’air : très souvent, ce
qu’on pense être une tendance déterministe est en fait une tendance stochastique.
3- Tendance stochastique (racine unitaire) Les données suivent une marche
aléatoire avec ou sans dérive avec un coefficient de 1 pour le terme autorégressé
: yt = yt-1 + µt. Il y a non-stationnarité car la variance n’est pas constante :
var(yt) = tσ2µ.
Les tests à effectuer pour détecter la présence d’une racine unitaire et les
corrections à apporter dans ce cas sont décrits à la prochaine partie.
Procédure pour stationnariser une série chronologique.
Changement structurel On peut corriger cette situation en ajoutant une variable
binaire ou une variable d’interaction qui modélise le changement structurel. Il
n’existe pas de test à proprement parler pour identifier un changement structurel.
205
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’identification se fait plutôt par analyse graphique et par analyse historique :
Observe-t-on une variation importante dans les variables ? Connaît-on un
événement important qui aurait pu changer la distribution des variables dans le
temps ? Exemple : on étudie les exportations du Bénin de 1980 à aujourd’hui.
Nous posons donc implicitement l’hypothèse que la droite de régression se
déplace parallèlement vers le haut à compter de 1991 (l’ordonnée à l’origine n’est
plus la même). Si on avait plutôt supposé que c’était la pente qui avait été affecté,
il aurait fallu ajouter une variable d’interaction. Bien qu’il n’existe pas de test
pour identifier un changement structurel, il en existe tout de même un pour vérifier
si le changement structurel soupçonné est réel ou non. : le Test de Chow. Ce que
ce test vérifie dans les faits, c’est si le coefficient d’une variable est différent pour
deux groupes de données.
Dans l’exemple donné plus tôt, le test de Chow vérifierait si la constante est
statistiquement différente avant et après l’ALE. Le résultat du test est une
statistique F. Dans le contexte du test de Chow, l’hypothèse nulle est qu’il n’y a
pas de changement structurel, i.e. les coefficients sont égaux pour les deux
groupes de données. Donc, si on rejette l’hypothèse nulle (« p-value »< alpha), il
y a bel et bien changement structurel et on est justifié de le modéliser.
Considérez le modèle suivant : y = β0 + β1x1 + β2x2+ u
La façon “classique” d’effectuer le test de Chow est d’effectuer la régression du
modèle pour les deux groupes de façon indépendante et pour les deux groupes
ensemble :
Ŷ1 = β10 + β11x11 + β12x 12
Ŷ2 = β20 + β21x21 + β22x 22
Ŷ = β0 + β1x1 + β2x 2
puis de tester si les coefficients sont statistiquement différents par un test F: H 0 :
β1- β2 = 0, H1 : β1- β2 ≠ 0.
F = ((SŜRy - SŜRy1 - SŜRy2)/q) / (( SŜRy1 - SŜRy2) /n1 + n2 - 2k))
206
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Rappel : SŜRy est la somme au carré des résidus (Σ ûi2) = Σ (yi-𝑦̂𝑖 )2 et q est le
nombre de contraintes et k le nombre de coefficients, ici q = k = 3
Une autre façon plus rapide d’effectuer ce test est de construire une variable
binaire égale à un pour les observations du deuxième groupe et de faire une seule
régression sur les variables originales et sur les termes d’interaction avec la
variable binaire :
Soit δ la variable binaire : Ŷ = β0 + β1x1 + β2x2 + β3 δ + β4x1 δ + β5x2 δ.
On désire maintenant tester si β0 = (β0 + β3), si β1 = (β1 + β4) et si β2 = (β2 + β5).
Ce qui revient à tester si β3, β4 et β5 sont conjointement différent de 0. Ceci peut
être facilement effectué par un test de F.
ex:
g g2 = (groupe == 2)
g g2x1 = g2*x1
g g2x2 = g2*x2
reg y x1 x2 g2 g2x1 g2x2
test g2 g2x1 g2x2
Tendance déterministe Afin de régler le problème de la présence d’une tendance
temporelle, il suffit de la modéliser. Il faut faire attention de bien choisir la
tendance la mieux adaptée à nos données : linéaire, quadratique, logarithmique,
etc.
Ex : tendance quadratique
t=n
t2 = t^2
tsset t
regress y t t2
Racine unitaire : On désire s’assurer que la série n’est pas parfaitement
autocorrélée, i.e. p≠1 dans y1= α + ρyt-1 + et ou, de façon équivalente, θ≠0 dans
∆yt= α + θ yt-1 + εt. La seconde forme est généralement utilisée pour effectuer des
tests.
207
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
L’hypothèse nulle est donc H0 : θ = 0. Le test t ne tient malheureusement pas dans
ce cas, car les données sont... non stationnaires sous H0 ! Il faut donc utiliser une
loi de DickeyFuller. Le test de Dickey-Fuller (DF) teste s’il y a une racine unitaire
dans le processus générateur de données. La loi de DF sur laquelle le test se base
diffère en fait selon l’hypothèse alternative qu’elle teste. Le choix de l’hypothèse
alternative est donc primordial pour la validité du test. Ce choix doit se baser sur
l’analyse de l’économètre. Soit le modèle suivant :
∆yt = u +βt + θ yt-1 + εt,, εt,, iid (0,α2)
Les hypothèses nulles et alternatives possibles sont :
• H0 : θ = 1(il y a une racine unitaire)
• H1A: θ < 1, µ = 0, β = 0 (pas de constante ni de tendance)
• H1b: θ < 1, µ ≠ 0, β = 0 (une constante, mais pas de tendance)
• H1c: θ < 1, µ ≠ 0, β ≠ 0. (une constante et une tendance)
Il faut spécifier dans Stata l’hypothèse alternative qu’on désire tester à l’aide des
options trend et constant. Enfin, s’il y a de l’autocorrélation dans les données, il
faut utiliser un test de Dickey-Fuller augmenté (ADF) (ou Phillips-Perron). Ce
test ajoute des retards au modèle testé afin de contrôler pour l’autocorrélation. Par
défaut, Stata effectue un test ADF avec un nombre prédéterminé de retards. Il faut
par ailleurs faire attention car si on a trop peu de retards, le résidu est autocorrélé
et le test incorrect, alors que s’il y en a trop, la puissance du test est diminuée. Il
peut être pertinent de faire un autocorrélogramme avant de faire ce test. Le nombre
de retards à inclure peut-être contrôler grâce à l’option lags. Un test de DF
standard est obtenu en fixant lags(0).
Donc, pour travailler avec sur le modèle ∆yt = α + θ yt-1 + ε plutôt que sur y1= α +
ρyt-1 + et, il faut utiliser la fonction arima dans Stata. Pour effectuer un test DF
augmenté sur une variable, on écrit dfuller nomdevariable, option. Les options
sont lags qui spécifie le nombre de retards, et trends et constant qui permet
d’inclure une variable de tendance et une constante dans la régression selon
l’hypothèse nulle à tester choisie. Le test pperron possède exactement la même
208
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
structure et les mêmes options que dfuller, mais effectue un test Phillips-Perron
plutôt qu’un test Dickey-Fuller augmenté.
Interpréter les tests de racine unitaire : Vous avez finalement réussi à vous
décider sur un model à tester et votre logiciel statistique vient de vous donner un
résultat ? Maintenant, que devez-vous en conclure ? Généralement, comme c’est
le cas pour tous les tests, vous obtiendrez deux valeurs : la statistique de test et le
« p-value » associé à cette statistique. Vous pouvez comparer la statistique de test
aux valeurs critiques de la loi correspondante, mais il est plus simple, surtout dans
ce cas, de regarder le « p-value ». Si celui-ci est inférieur au niveau de confiance
que vous avez fixé, 5% par exemple, vous rejetez l’hypothèse nulle : ouf ! Tout
va bien, il n’y a pas de racine unitaire. Dans le cas contraire, on doit corriger le
modèle tel qu’exposé ci-dessous.
Corrections à apporter au modèle La façon de corriger un modèle est de le
différencier, i.e. soustraire à chaque observation la valeur de la période
précédente. y1= α + ρyt-1 + et devient donc ∆yt= α + θ yt-1 + εt. On voit bien que si
l’hypothèse nulle tient, θ = 0 et le terme disparaît du modèle. En d’autres termes,
le fait de différencier au premier degré permet de retrouver la forme AR, MA ou
ARMA, qui sont stationnaires. Deux mises en gardes :
• Il ne faut pas différencier un modèle avec tendance déterministe.
• Ne devenez pas fou avec la différenciation ! De un, surdifférencier « au cas où
» est néfaste et, de deux, la puissance de ces tests n’est pas énorme et, donc, le
risque d’erreur est grand. Dans le doute, puisque de toutes façons vous risquez
d’avoir un biais, ne différenciez pas. Aussi, différencier plusieurs fois enlève tout
potentiel d’interprétation au modèle. Vous aurez beau dire que votre modèle est
désormais stationnaire, mais si vous ne pouvez pas l’interpréter, vous n’êtes pas
avancé.
Interpréter le modèle après les corrections Un modèle différencié s’interprète
comme l’impact d’une variation de la variable indépendante sur la variation de la
variable dépendante. Si nos variables sont en log, la variation peut s’interpréter
209
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
comme une variation en pourcentage (pour un coefficient arbitrairement près de
0). Par ailleurs, il est parfait intéressant d’utiliser les taux de croissance plutôt
qu’une première différenciation.
4.2.3 Co-intégration
La co-intégration est une situation rencontrée lorsque deux séries possédant une
racine unitaire ont une même tendance stochastique. Par exemple, les taux
d’intérêts pour deux obligations de termes différents sont généralement considérés
co-intégrés: ils suivent une tendance similaire avec une différence constante (la
prime de risque). Soit {xt} et {yt} I(1) (= racine unitaire), si pour un θ donné yt -
θ xt est I(0) (=absence de racine unitaire), alors on dit que {xt} et {yt} sont co-
intégrés avec le paramètre d’intégration θ .
Pourquoi un test de co-intégration Si {xt} et {yt} sont bel et bien co-intégrés,
alors 𝛽̂ de la régression yt= α + βxt + et est convergent et il n’y a pas de correction
à apporter. Dans le cas contraire, il faut suivre la démarche donnée pour une racine
unitaire et estimer le modèle en différences.
Test de co-intégration : On construit 𝑒̂𝑡 = yt -𝛼̂ -𝛽̂xt et on teste 𝑒̂𝑡 pour une racine
unitaire. Il faut utiliser le test Dickey-Fuller Augmenté car, sous H0 (𝑒̂𝑡 a une
racine unitaire) la régression est illusoire et la statistique ne suit pas la loi de DF.
Sinon, la démarche et l’interprétation sont identiques à celles pour une racine
unitaire.
3.3 Données en panel
Une base de données d’un panel pourrait ressembler à ceci :
210
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Pour indiquer à Stata que l’on travaille avec des données en panel, il suffit de
reprendre la fonction vue dans la partie précédente (tsset) et d’ajouter la variable
de panel avant la variable de temps. Par exemple :
g année
Tsset panel année
Une fois tsset déclaré pour des données en panel, il est possible de travailler avec
la famille xt de Stata. Il existe une telle fonction pour chacun des types de
régression : xtreg, xtlogit, xtprobit, xttobit, xtgls, etc.
Les données en panel possèdent deux dimensions : une pour les individus (ou une
quelconque unité d’observation) et une pour le temps. Elles sont généralement
indiquées par l’indice i et t respectivement. Il est souvent intéressant d’identifier
l’effet associé à chaque individu, i.e. un effet qui ne varie pas dans le temps, mais
qui varie d’un individu à l’autre. Cet effet peut être fixe ou aléatoire. En plus de
la question des effets individuels, la question de la corrélation et de
l’hétéroscédasticité dans le cadre des données de panels est adressée. Bien qu’elle
ne soit pas adressée ici, la question du biais de sélection doit également être
considérée pour les données de panels.
3.3.1 Effets fixes vs. Effets aléatoires
La discussion suivante se concentrera sur la modélisation des effets individuels ui
pour des données en panel de la forme suivante : Yit = Xit β + ui + eit. Cependant,
il peut aussi s’avérer intéressant d’identifier l’effet associé à chaque période t. On
peut inclure des effets temporels δt afin de tenir compte des changements dans
l’environnement comme, par exemple, de cycles économiques. L’idée est la
même que pour les effets individuels, c’est pourquoi nous ne nous y attarderons
pas. On peut bien évidemment combiner les deux types d’effets : Y u = γ +Xu β +
δ t + ui + eu. Ces effets, individuels ou temporels, peuvent être captés en ajoutant
une variable dichotomique pour chaque individu.
Test de présence d’effets individuels La première étape consiste à vérifier s’il y
a bel et bien présence d’effets individuels dans nos données. On peut représenter
211
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
ces effets par une intercepte propre à chaque individu, ui. On cherche donc à tester
l’hypothèse nulle H0 : ui = 0 dans la régression Yit = γ +Xit β + ui + eit, eu ~ iid. En
Stata, la commande xtreg effectue directement cette analyse.
Rappelons qu’au début de l’analyse, on déclare nos données en panel :
tsset variabledepanel variabledetemps
xtreg y x1 x2 ...,fe
Interprétation du Test : L’hypothèse nulle de ce test est qu’il y a seulement une
intercepte commune, aucun effet individuel. Le résultat est une statistique F avec
(N- 1,NT-N-K-1) degré de liberté. Si on rejette l’hypothèse nulle, alors on doit
inclure des effets individuels dans le modèle.
Modélisation du modèle en présence d’effets individuels :
Dans le cas d’un effet fixe, la méthode la plus simple de capter cet effet est de
supposer qu’il existe pour chacun de nos groupes et, ainsi, d’ajouter une variable
binaire par groupe (sans oublier, comme d’habitude, d’en laisser tomber une).
Donc si nous avons cinq groupes et quatre périodes de temps, nous aurons un total
de sept variables binaires. Il peut être préférable dans certains cas de ne pas inclure
de constante pour comparer tous les groupes entre eux. Dans le dernier exemple,
on pourrait ainsi laisser tomber la constante et inclure cinq variables binaires pour
les groupes et trois variables binaires pour les années. Ajout manuellement de
variables binaires pour chaque groupe et chaque année. Par exemple : régression
sur cinq échantillons tirés de 1980, 81, 82 et 83.
* création des variables binaires
a81 = (annee == 1981)
a82 = (annee == 1982)
a83 = (annee == 1983)
g2 = (groupe == 2)
g3 = (groupe == 3)
g4 = (groupe == 4)
g5 = (groupe == 5)
212
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
* régression
regress y x1 x2 a81 a82 a83 g2 g3 g4 g5
Une autre manière de capter les effets individuels, qui est équivalente à l’ajout de
variables dichotomiques, est d’utiliser un estimateur «within», qui s’implémente
facilement en STATA. Cet estimateur mesure la variation de chaque observation
par rapport à la moyenne de l’individu auquel appartient cette observation :
̅ 𝒕 = 𝜷(𝒙𝒖 − 𝑿
𝒀𝒖 − 𝒀 ̅ 𝒕 ) + 𝒆𝒊𝒕 − 𝒆̅𝒕
Les effets individuels sont donc éliminés et l’estimateur de MCO peut être utilisé
sur les nouvelles variables.
xtreg y x1 x2 ..., fe
On peut aussi modéliser les effets individuels de façon aléatoire : variant autour
d’une moyenne. On suppose le plus souvent qu’ils suivent une loi normale : ut ~
N (0,σ2). On considère alors que l’erreur du modèle est composée de l’erreur
usuelle spécifique à l’observation i, t et de l’erreur provenant de l’intercepte
aléatoire.
Yu =Xuβ +εu
εtt = ett + ut
xtreg y x1 x2 ..., re
On doit maintenant choisir quelle modélisation se prête le mieux à nos données.
Notons que les effets fixes sont plus généraux que les effets aléatoires puisqu’ils
n’imposent pas de structure aux effets individuels. Cependant, on perd N-1 degrés
de liberté en modélisant les effets individuels de manière fixe (inclusion implicite
de N variables dummies moins l’intercepte générale), ce qui rend l’estimation des
coefficients des variables explicatives moins efficientes. Par ailleurs, le
coefficient de toute variable explicative qui ne varie pas dans le temps pour un
même individu (la race, le sexe…) n’est pas estimable puisque l’estimateur
«whitin» l’élimine 𝑋𝑖𝑡 = 𝑋𝑡 = 0. On peut donc être tenté de se tourner vers une
modélisation aléatoire des effets individuels.
213
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Malheureusement, leur efficacité repose sur une hypothèse cruciale à savoir que,
pour que les estimateurs d’effet aléatoires soient non biaisés, il ne doit pas y avoir
de corrélation entre les effets aléatoires (ut) et les variables explicatives.
Le test d’Hausman : Le test d’Hausman est un test de spécification qui permet
de déterminer si les coefficients des deux estimations (fixe et aléatoire) sont
statistiquement différents. L’idée de ce test est que, sous l’hypothèse nulle
d’indépendance entre les erreurs et les variables explicatives, les deux estimateurs
sont non biaisés, donc les coefficients estimés devraient peu différer. Le test
d’Hausman compare la matrice de variance-covariance des deux estimateurs :
W = (βf-βa)’var(βf-βa)-1(βf-βa).
Le résultat suit une loi χ2 avec K-1 degré de liberté. Si on ne peut rejeter la nulle,
i.e. si la p-value est supérieure au niveau de confiance, on utilisera les effets
aléatoires qui sont efficaces s’il n’y a pas de corrélation entre les erreurs et les
variables explicatives.
xtreg y x1 x2 ..., fe (réalise la régression en supposant des effets fixes)
estimates store fixe (conserve les coefficients )
xtreg y x1 x2 ..., re (réalise la régression en supposant des effets aléatoires)
hausman fixe (calcule W)
3.3.2 Corrélation et hétéroscédasticité
Soit la matrice de la variance-covariance des erreurs. Pour pouvoir utiliser les
estimateurs MCO, cette matrice doit respecter la forme suivante :
𝜎 2 𝐼𝑇𝑥𝑇 0 0
𝛺=[ 0 … 0 ]
2
0 0 𝜎 𝐼𝑇𝑥𝑇
214
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
En ce qui concerne l’hypothèse d’homoscédasticité (test1 et test2), on doit vérifier
si la variance des erreurs de chaque individu est constante : pour tout individu i,
on doit donc avoir σ2 = σ2 pour tout t. La dimension nouvelle des données de
panels consiste à s’assurer que la variance est la même pour tous les individus :
σ2 = σ2 pour tout i.
Pour la corrélation, l’aspect nouveau auquel on doit porter attention concerne la
possibilité de corrélation des erreurs entre les individus (test3). On doit aussi
vérifier que les erreurs ne sont pas autocorrélées et ce, pour chaque individu
(test4).
1. Test d’hétéroscédasticité Pour détecter l’hétéroscédasticité, le raisonnement
est le même que celui décrit dans la partie suivante et on utilise sensiblement la
même procédure. On peut aussi, comme mentionné dans cette même section,
utiliser le test de White. Pour le Test de Breusch-Pagan :
xtreg y x1 x2 ..., fe/re (régression)
predict résidus (récupère les résidus)
gen résidus2 = résidus^2 (génère les résidus carrés)
reg résidus2 x1 x2 ... (régression des résidus sur les variables explicatives)
Si on ne peut rejeter l’hypothèse nulle d’homoscédasticité, alors on a σ 2tt = σ2,
pour tout i, t ce qui implique nécessairement que σ2tt = σ2t pour tout t et σ2t = σ2
pour tout i. Il n’est alors pas nécessaire de faire le test 2. Si notre modèle ne
contient pas d’effets individuels ou s’il contient des effets fixes, on continu
l’analyse au test de corrélation (test 3). Cependant, bien que cela soit
théoriquement possible, STATA ne permet pas de tester la corrélation si notre
modèle inclut des effets aléatoires (on continue donc au test 4). Si on fait
l’hypothèse qu’il y a corrélation, il est préférable d’utiliser des effets fixes.
Ayant conclu à l’hypothèse d’homoscédasticité avec un modèle à effets fixe, on
continue l’analyse (au test 3) avec la commande : xtreg y x1 x2 ..., fe . Par contre,
si on conclut à la présence d’hétéroscédasticité, on effectue le test 2, que ce soit
avec un modèle à effets fixes ou aléatoires, pour tenter d’obtenir plus
215
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
d’informations sur la forme de l’hétéroscédasticité. On utilise alors les MCG
−1 −1
(GLS en anglais) où 𝛽̂𝑀𝐶𝐺 = (𝑋 ′ 𝛺̂−1 𝑋) 𝑋 ′ 𝛺̂−1 𝑦 𝑉𝑎𝑟̂ (𝛽̂𝑀𝐶𝐺 ) = (𝑋 ′ 𝛺̂−1 𝑋)
2. Test d’hétéroscédasticité inter-individus Ce test-ci est conçu pour tester
l’hypothèse spécifique d’homoscédasticité inter-individus. STATA utilise un test
Wald modifié, qui est essentiellement un test F. Sous l’hypothèse nulle, le test
suppose que la variance des erreurs est la même pour tous les individus : σ2t = σ2
∀ⅈ = 1 … , 𝑁et la statistique suit une loi χ2 de degré de liberté N.
xtgls y x1 x2...,
xttest3
Si la valeur obtenue est inférieure à la valeur critique, on ne peut rejeter
l’hypothèse nulle : la variance des erreurs est la même pour tous les individus.
Étant donné que nous avions déjà conclue à la présence d’hétéroscédasticité sous
une forme quelconque au test 1, on en déduit que nos données ont la structure
suivante :
homoscédasticité intra-individus σ2it = σ2t ∀𝑡
et hétéroscédasticité inter-individus σ2t ≠ σ2 ∀ⅈ = 1 … , 𝑁
Le rejet de l’hypothèse nulle ne nous permet cependant pas de spécifier
d’avantage la structure de l’hétéroscédasticité. On demeure avec la conclusion
précédente d’hétéroscédasticité σ2it ≠ σ2, pour tout i, t, sans pouvoir en dire plus.
3. Corrélation contemporaine entre individus Pour tester la présence de
corrélation des erreurs inter-individus pour une même période, i.e. : E (eit ejt) ≠ 0
pour i ≠ j, on utilise un test Breusch-Pagan. L’hypothèse nulle de ce test est
l’indépendance des résidus entre les individus. Ce test vérifie que la somme des
carrés des coefficients de corrélation entre les erreurs contemporaines est
approximativement zéro. Puisqu’il est seulement nécessaire de tester ceux sous la
diagonale, la statistique résultante suit une χ2 de degré de liberté N(N-1)/2,
équivalent au nombre de restrictions testées.
xtreg y x1 x2 ..., fe /ou xtgls y x1 x2...,
216
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
xttest2
Si la valeur obtenue est supérieure à la valeur critique, on rejette l’hypothèse nulle
: les erreurs sont corrélées de manière contemporaine. On corrige pour la
corrélation en utilisant la fonction :
xtgls y x1 x2 ...,panel(corr)
2. Autocorrélation intra-individus On cherche à vérifier si les erreurs sont
autocorrélées E (eit eis) ≠ 0 pour t ≠ s de forme autorégressive (AR1) :
𝑒𝑖𝑡 = 𝜌𝑒𝑧−1 + 𝑧𝑖𝑡 ∀ⅈ = 1, … 𝑁
S’il y a de l’autocorrélation, les matrices identités le long de la diagonale sont
remplacées par des matrices de la forme suivante :
1 𝜌 𝜌2
𝛥= [ 𝜌 1 𝜌]
𝜌2 𝜌 1
STATA réalise un test Wald dont l’hypothèse nulle est celle d’absence
d’autocorrélation des erreurs. Si on rejette cette hypothèse, i.e. si la valeur obtenue
est supérieure à la valeur critique, les erreurs des individus sont autocorrélées.
xtserial y x1 x2 ...
On ajuste la forme de la matrice Ω afin de tenir compte de l’autocorrélation dans
les erreurs des individus en utilisant soit :
xtgls y x1 x2 ...,panel(…)corr(ar1)
soit :
xtregar y x1 x2 ...,re/fe
Correction : résumé Donc en résumé, s’il n’y a aucun effet individuel, pas
d’hétéroscédasticité ni de corrélation, les estimateurs MCO usuels sont valides.
On effectue alors du « pooling », c’est-à-dire qu’on considère les données comme
N*T observations non-panélisées et on effectue une régression standard :
217
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
reg y x1 x2 ...
S’il y a des effets individuels mais pas d’hétéroscédasticité ni de corrélation, on
utilise la commande xtregy x1 x2 ...,re/fe qu’on corrige si nécessaire pour
l’autocorrélation :
xtregar y x1 x2 ...,re/fe
Finalement, dans les autres cas, on utilise des variantes de la fonction xtgls. Cette
fonction estime le modèle par MCG et permet de combiner les diverses
conclusions aux tests précédents. Les estimateurs β sont estimés en ajustant la
matrice de variance/covariance des erreurs Ω afin de tenir compte de la présence
d’hétéroscédasticité intra et inter individus et/ou autocorrélation inter-individus
de type autorégressif de premier ordre et/ou corrélation inter-individus.
Il suffit de spécifier un des trois choix de structure de variance de panel : (iid |
heteroskedastic | correlated) combiné avec un des trois choix de structure de
corrélation intra-individu : (independent | ar1 | psar1). Le choix de ar1 signifie
qu’on suppose un coefficient d’autorégression ρ commun pour tous les individus
tandis que le choix de psar1 permet aux individus d’avoir des coefficients
différents 𝜌𝑡 ≠ 𝜌𝑗 ∀ⅈ ≠ 𝑗.
Cependant, le choix d’un ρ commun permet une meilleure estimation des β, si
cette restriction est correcte, ce qui est le but de l’analyse.
xtgls y x1 x2 ...,panels(iid ou hetero ou corr) corr(independent ou ar1 ou psar1).
3.4 Variables instrumentales, doubles moindres carrés et test d’endogénéité
Lorsqu’une variable “indépendante” est corrélée avec le terme d’erreur, les
hypothèses classiques du modèle linéaire sont violées et on se retrouve face à un
problème d’endogénéité. Dans ces cas, on peut faire appel à l’estimateur de
variables instrumentales (VI) ou aux doubles moindres carrés ordinaires
(DMCO).
3.4.1 Estimateur Variables Instrumentales
Soit Z, une matrice de VI et X, la matrice originale. L’estimateur VI est donné par
:
218
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
𝛽̂(𝑉𝐼) = (𝑍 ′ 𝑋)−1 𝑍 ′ 𝑦
et l’estimateur VI de la covariance par:
𝜎̂ 2 (𝑍 ′ 𝑋)−1 (𝑍 ′ 𝑍)(𝑋 ′ 𝑍)−1
où
𝜎̂ 2 = 1 /T (y - X β(IV ))’(y - Xβ(IV )).
ou, lorsque J > K (J étant le nombre de VI et K le nombre de variables
indépendantes), par:
𝛽̂(𝐼𝑉) = [X’Z(Z.’Z)-1Z’X]-1X’Z(Z’Z)-1Z’y.
𝜎̂ 2 [X’Z(Z’Z)-1Z’X]-1.
ivreg permet de faire directement une régression par DMCO. On inscrit donc :
ivreg variabledependante variablesindependantes (variabledependante =
variable(s)intrumentale options
où options peut prendre les mêmes valeurs que pour regress, ainsi que first qui
affiche les résultats de la première régression.
ex:
ivreg y1 z1 z2 (y2=x1), r first
predict peut être utilisé après ivreg
3.4.2 DMCO
Les trois hypothèses soutenant les DMCO :
1-Le terme d’erreur ne doit pas être corrélé avec la variable instrumentale.
2-La variable dont on suppose souffrir d’endogénéité doit être fortement corrélée
avec la variable instrumentale, mais pas corrélée avec le terme d’erreur.
3-La variable instrument doit être différente de la variable qui souffre
d’endogénéité, même à un multiple près.
Les doubles moindres carrés ordinaires permettent d’effectuer une régression en
substituant la variable qui potentiellement souffre d’endogénéité par une variable
instrumentale. Voici un exemple :
219
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les subventions aux entreprises (x) on un impact sur la croissance du PIB (y). Dû
à des contraintes de disponibilité, nous n’arrivons pas à trouver les données sur
les subventions. Donc, supposant qu’il existe un lien positif entre la variable
subvention et efficacité, la variable efficacité serait liée au terme d’erreur, dû à
l’omission d’une variable pertinente. Dans ce cas-ci, la variable instrumentée
serait efficacité, car elle souffre d’endogénéité. Une variable instrumentale
possible serait la taille des entreprises. On choisi cette dernière parce
qu’intuitivement, on suppose que le nombre d’employé n’est pas lié à la variable
subvention. De plus, la variable taille d’entreprise est liée à la variable efficacité
(plus l’index efficacité est élevé, le nombre d’employé nécessaire diminue).
Soit le modèle suivant : y1 = β0 + β1x1 + β2x2 + β3y2 + u et soit z une VI de y2.
Comme leur nom l’indique, les DMCO se font en deux étapes.
1. Estimation de la variable endogène : Régression de y2 sur toutes les variables
indépendantes (x1 et x2 ici) et la/les VI pour y2 (z ici).
On récupère ŷ2, l’estimation linéaire de y2.
2. Régression du modèle avec ŷ2 : Régression de y1 sur une constante, x1, x2 et
ŷ2. Cette dernière régression ne souffrant plus d’endogénéité, les 𝛽̂ ainsi obtenus
sont non-biaisés.
Vous pouvez effectuer les deux régressions par vous même ou utiliser la fonction
ivreg à la partie précédente.
3.4.3 Test d’endogénéité
Le test de Hausman permet de vérifier s’il existe bel et bien une différence entre
l’estimateur de variable instrumentale et l’estimateur MCO, vérifiant ainsi s’il y
a bel et bien endogénéité des variables (si les deux estimateurs sont consistants,
ils seront asymptotiquement égaux). Sous H0, la statistique de Hausman est :
H = [β(VI) - b]’[σ2 [(X’Z(Z’Z)-1Z’X]-1 - σ2 (X’X)-1]-1[β(V I) - b] ~ χ2(J)
La fonction hausman effectue le test de spécification d’Hausman. Estimation du
modèle moins efficient, mais convergent (VI ici) :
hausman, save
220
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Estimation du modèle efficient, mais peut-être pas convergent (MCO ici) :
Hausman
Options : constant, indique que la constante doit être inclue dans la comparaison
des deux modèles.
ex:
ivreg y1 z1 z2 (y2=x1)
hausman, save
reg y1 z1 z2 y2
hausman, constant
3.5 Estimateurs du maximum de vraissemblance (EMV)
La fonction de vraisemblance est la probabilité jointe des observations étant donné
les paramètres d’intérêts, i.e.:
La log-vraisemblance est
221
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Les CPO sont :
222
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
𝛽̂MCG = (X’W-1X)-1W’V -1y
et sa variance est
var[𝛽̂] = σ2 (X’V -1X)-1.
Où V et W sont égaux à
𝑥1 0 0
W=σ [02
𝑥2 𝜌 ] = σ2V
0 0 𝑥𝑛
La fonction vwls permet de faire une régression linéaire pondérée par la variance.
On inscrit : vwls variabledependante variablesindependantes [poids], options
Ici, l’option serait sd (nomvariabl). Elle fournit une estimation de l’écart-type de
la variable dépendante. Par exemple :
vwls y x1 x2, sd(sigma2ch)
où sigma2ch est une estimation de l’écart-type de y.
predict peut être utilisé après vwls
3.7 Le logit et le tobit
Le logit est un modèle a essentiellement la même fonction que le probit et repose
sur les mêmes principes, mais a la différence du probit, il utilise une fonction de
répartition logistic pour calculer l’effet de xi sur la probabilité associée à une
valeur donnée de la valeur latente (y*i). Les économistes préfèrent généralement
utiliser le modèle probit car le logit n’est généralement pas problématique avec
les modèles univariés.
logit variabledépendante variableindépendante
Options: logit possède en grande partie les mêmes options que regress.
Un tobit est essentiellement un modèle dont les données sont censurées. Comme
le probit, le tobit suit une loi normale.
tobit variabledépendante variableindépendante
Options: ll(#), ul(#): indiquent respectivement que les données sont tronquées à
gauche ou à droite. Une ou les deux de ces options doivent être spécifiées. #
indique le point de troncation. Si # n’est pas précisé, Stata suppose qu’il s’agit
223
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
respectivement de la valeur minimum et de la valeur maximum. Les autres options
de tobit sont en grande partie
commune avec regress. Par exemple:
tobit y x1 x2 x3 x4, ll(0)
224
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
CHAPITRE : COMMUNIQUER LES RESULTATS
225
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
La communication des résultats constitue la dernière étape d’un projet d’étude.
Ce chapitre souligne les éléments clés qui font de la communication des résultats
une étape incontournable de toute analyse réussie. En effet, communiquer les
résultats d’une analyse consiste à proposer au lecteur une interprétation adaptée à
ses connaissances. Au-delà des éléments liés à l’interprétation des tests, que nous
avons abordés tout au long des chapitres précédents, l’analyste doit être capable
de formuler de manière intelligible les résultats de son étude.
Rédiger le rapport
La rédaction d’un rapport d’étude n’est pas directement liée à l’analyse des
données. Cependant, même si le projet a été bien mené, un rapport inégal peut
compromettre le succès et la valorisation d’une étude. Cette communication des
résultats de l’enquête peut faire l’objet d’une ou de plusieurs mises en forme, et
se trouve le plus souvent complétée d’une présentation orale que nous
n’aborderons pas ici.
1.1 LA STRUCTURE D’UN RAPPORT D’ANALYSE
On retrouve, en général, les mêmes éléments structurants dans un rapport, qu’il
s’agisse d’un rapport d’étude ou de recherche. Ces éléments peuvent être modifiés
à la marge en fonction du destinataire. Nous développerons, dans ce chapitre, la
dimension professionnelle du rapport et ferons donc référence à des illustrations
provenant du secteur des études de marchés.
Le rapport d’analyse fait écho au brief de l’étude et se structure en huit parties
principales représentées.de
226
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
l’étude
• Objectifs de l’analyse : cette partie est essentielle car elle résume les éléments
clés de l’analyse et reprend les éléments liés à la définition du problème (tels que
nous les avions abordés dans le chapitre 1). Le rappel des objectifs permet de
communiquer plus précisément sur des aspects qui sont généralement maîtrisés
par le chargé d’étude tels que l’approche méthodologique ou les interprétations
statistiques. En les faisant apparaître clairement au destinataire, le rédacteur du
rapport peut mettre en avant la résolution progressive de ces objectifs de départ.
• Questions à résoudre : il s’agit ici d’établir les questions principales qui
permettent d’avancer dans la satisfaction aux objectifs de l’analyse.
• Procédures de collecte des données : cette rubrique reprend les données
utilisées pour les besoins de l’étude. Il faut en préciser la source s’il s’agit de
données secondaires, ainsi que les caractéristiques principales (nombre
d’observations, de variables, etc.). Le rédacteur du rapport devra apporter un soin
227
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
particulier à la description des procédures de collecte. Quelle méthode
d’échantillonnage ? Quel instrument de mesure ? Comment les données brutes
ont-elles été préparées ?
• Méthodes d’analyse : les méthodes employées et les stratégies d’analyse sont
présentées à ce stade. Dans un premier temps, les tests de nature descriptive (tris
croisés, comparaisons de moyenne, etc.), puis les tests liés à la représentation des
données (analyse factorielle, typologie), et enfin les tests de nature explicative
(régressions, analyses de variance, etc.).
• Résultats principaux : cette partie, la plus importante du rapport, peut être
constituée de plusieurs sous-parties. Pour plus de clarté, il est recommandé
d’organiser ces sous-parties en fonction de thèmes énoncés dès le départ.
• Interprétations détaillées : les interprétations détaillées ont pour objet
d’apporter un éclairage technique aux résultats et d’éclairer le lecteur du rapport
sur la démarche méthodologique. On trouve, dans cette rubrique, l’explication des
tests mis en œuvre, les hypothèses à respecter, l’interprétation des indicateurs de
significativité des tests, entre autres. Ces éléments techniques doivent être
présentés de manière intelligible en fonction du profil du lecteur. En effet, ceux-
ci n’ont pas tous la même expertise en termes d’échantillonnage ou de tests
statistiques, et le chargé d’étude doit veiller à formuler ces éléments de manière à
être compris de tous les destinataires du rapport.
• Conclusions : cette partie est essentielle au client de l’étude et a pour objet de
lui fournir tous les éléments de synthèse utiles pour la valorisation et l’utilisation
de l’étude.
• Recommandations et limites : les recommandations accompagnent la
présentation des résultats et représentent l’engagement de l’analyste dans la
réponse au problème posé par l’entreprise commanditaire. La recommandation
n’est pas systématique et suppose une expertise de la part de l’analyste, ou à tout
le moins que le problème posé ait été analysé suffisamment en profondeur. En
principe, le fait de réaliser l’étude suppose que l’on se soit informé au préalable
228
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
sur le secteur, que l’on ait été briefé par le client et, en conséquence, que l’on est
en mesure de dépasser la simple description et de s’impliquer dans la résolution
du problème managérial. Enfin, les limites ayant pesé sur l’étude doivent être
mentionnées (temps, budget, moyens, etc.). Ce retour sur les conditions de
réalisation de l’analyse et sur les précautions que le commanditaire devra prendre
lors de l’utilisation des résultats est un élément important qui doit prévenir toute
extrapolation hasardeuse, sans toutefois minimiser les résultats de l’étude.
1.2 LES POINTS CLÉS DU RAPPORT
La qualité d’un rapport d’analyse se juge sur deux dimensions principales : la
précision et l’intelligibilité.
La précision représente la qualité du rapport en termes de crédibilité des résultats.
Le document doit établir de manière précise la pertinence des choix effectués en
matière de méthode, d’analyse et de résultats, ce qui présuppose que les données
collectées soient de qualité, que les analyses soient valides et fiables, et que les
résultats soient correctement interprétés. Ce tryptique (données, analyses,
résultats) est au cœur de la démarche d’analyse et doit naturellement être envisagé
de manière conjointe, ces trois dimensions établissant collectivement la crédibilité
de l’étude. Plus exactement, pour que le rapport soit précis, les données doivent
l’être aussi ; le rédacteur devra prendre des précautions importantes quant à la
manipulation des données, la définition, l’exécution et l’interprétation des tests
statistiques. Autrement dit, aucune erreur n’est tolérable dans un rapport
d’analyse. Erreurs de calcul ou de syntaxe, fautes d’orthographe, maladresses
conceptuelles et terminologiques ne sont que quelques exemples de ce manque de
précision qui pénalise la crédibilité d’un rapport.
La clarté de l’expression, la logique du raisonnement, la rigueur de l’expression
et de l’analyse sont les fondements naturels du second critère de qualité d’un
rapport.
L’intelligibilité : Le lecteur du rapport peut éprouver des difficultés de
compréhension et par suite des doutes quant à la qualité du travail effectué lorsque
229
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
le raisonnement n’apparaît pas clairement (des hypothèses de travail
insuffisamment mises en avant par exemple), ou lorsque la présentation manque
de précision (une méthode d’échantillonnage qui reste confuse). Les « croyances
» des commanditaires jouent également un rôle dans la bonne compréhension des
résultats de l’enquête.
Mettre en valeur les résultats
L’objet du rapport d’analyse est d’apporter la réponse attendue par le
commanditaire de l’étude et de constituer une référence. Une fois produit, ce
rapport aura une existence propre, passera de mains en mains auprès de
nombreuses parties prenantes. La mise en valeur des résultats permet de prolonger
cette durée de vie et autorise une utilisation globale ou partielle du rapport par les
différents lecteurs. La version de SPSS dont nous nous servons propose quelques
outils d’amélioration de la qualité des tableaux et des graphiques pour mettre en
valeur les résultats de l’analyse.
2.1 MAÎTRISER LES TABLEAUX
Les tableaux doivent systématiquement être numérotés, comporter un titre clair et
ne doit retenir que la partie la plus significative des données. La maîtrise des
tableaux est un exercice délicat, qui suppose de bien maîtriser la manière dont on
souhaite communiquer les résultats, et qui repose sur la distinction vue plus haut
entre résultats principaux et interprétations détaillées. Il existe, en effet, des
niveaux de résultats simples facilement compréhensibles par le lecteur, et
d’autres, plus complexes, qui exigent des compléments et des éclairages.
2.2 AMÉLIORER LES GRAPHIQUES
Les graphiques jouent eux aussi un rôle crucial dans la présentation des résultats.
Ils enrichissent le contenu du rapport, à condition d’être présentés à bon escient.
Cela implique le bon choix du modèle de graphique en fonction du test mis en
œuvre et un emploi pertinent : complément d’un tableau ou d’un résultat présenté
dans le texte, amélioration de la lisibilité et de la fluidité du rapport, etc. Les
graphiques peuvent être considérablement enrichis grâce à SPSS. Ils sont générés
230
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
de diverses manières : par le biais des principaux tests statistiques ou par
l’utilitaire de diagramme que nous présentons dans cette section. Nous avons trois
types de graphiques : les diagrammes en bâtons, les diagrammes en secteurs et les
diagrammes de dispersion qui sont les plus utilisés.
Résumé
La préparation du rapport fait écho au brief de l’étude et reprend les grandes étapes
de l’analyse des données. Son principal objectif consiste à mettre en lumière les
réponses possibles au problème managérial posé. Un rapport de qualité doit être
à la fois précis et intelligible, au sens où il doit présenter de façon claire pour
toutes les parties prenantes de l’étude des résultats justes. La mise en valeur des
résultats dans le rapport passe par la maîtrise des tableaux et des graphiques. Nous
avons passé en revue dans les chapitres précédents les utilitaires de SPSS et
d’autres logiciels pour générer des tableaux pivotants et des diagrammes de
qualité, mais l’utilisateur doit s’exercer, expérimenter pour pouvoir en découvrir
toutes les facettes.
En guise de conclusion, et pour paraphraser Stefan Sweig : « il ne sert à rien
d’éprouver les plus beaux sentiments si l’on ne parvient pas à les communiquer
».
Il n’existe pas de modèle unique pour élaborer une argumentation et pour
construire un rapport. Dès lors, les seuls conseils possibles sont nécessairement
généraux :
- Présenter les données (le questionnaire et l’échantillonnage, au moins dans leurs
grandes lignes) ; qualifier l’échantillon en en donnant les principales
caractéristiques (répartition des caractéristiques classiques ou centrales : sexe,
âge, CSP...) ; cette présentation peut se faire dès l’introduction, dans une partie
méthodologique ou en annexe.
- Adopter un fil conducteur et s’y tenir : le lecteur doit comprendre le sens de la
démarche dès l’introduction du texte et ne doit pas perdre pied le long de l’article.
231
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
Cela signifie en particulier que les aspects les plus statistiques ne doivent pas faire
oublier la finalité du rapport.
- Justifier les choix méthodologiques (pour quelle raison a-t-on recours à une
analyse factorielle ? pourquoi réalise-t-on une telle régression ?).
- Présenter et justifier les indicateurs synthétiques construits (à partir de quelles
variables et selon quels critères d’agrégation ?), voire les principaux recodages.
- Ne pas chercher à restituer toutes les analyses et tous les traitements réalisés : se
contenter d’exposer les résultats les plus probants ou ceux qui sont stratégiques
pour défendre la thèse avancée.
- N e pas submerger le lecteur par des dizaines de tableaux et de nombreuses
analyses sophistiquées : mieux vaut quelques tableaux bien choisis, quelques
variables synthétiques bien construites et justifiées, et quelques graphiques
pédagogiques qu’une avalanche de pourcentages, de tests et de statistiques sans
lien apparent les uns avec les autres.
- Choisir un critère d’arrondi pour les données publiées, en fonction de la taille de
l’échantillon. Pour un échantillon de 1 000 personnes, un chiffre après la virgule
est un maximum.
- Ne pas hésiter à adopter un mode de présentation des résultats qui soit bien
différent du mode de découverte : il est par exemple possible d’utiliser une
méthode factorielle pour identifier les variables saillantes et fortement corrélées
puis d’utiliser ces résultats pour construire des variables synthétiques dont la
pertinence se justifie grâce à de simples tableaux croisés.
- Enfin, le dernier conseil est certainement de lire des articles pour en identifier la
structure et l’enchaînement des arguments et des analyses statistiques au service
d’un raisonnement cohérent.
POUR EN SAVOIR PLUS
En complément des références citées dans le texte, nous indiquons ici quelques
ouvrages ou articles prolongeant ce manuel : soit ils en approfondissent certains
232
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS
aspects ; soit ils permettent au lecteur de trouver les justifications mathématiques
des méthodes et outils présentés ici.
• Sur la démarche générale de l’enquête par questionnaire, nous renvoyons
au manuel dont nous prenons la suite :
SINGLY (DE) François, U Enquête et ses méthodes : le questionnaire, Paris,
Armand Colin, 2005 (lère éd. : Nathan, 1992).
• Sur la statistique, son histoire, les questions dont elle se saisit et les grands
types de réponse qu’elle fournit :
BLUM Alain, MARTIN Olivier, La Vérité des chiffres : une illusion ? Université
Paris Descartes, 2009.
DESROSIÈRES Alain, Gouverner par les nombres (2 volumes), Paris, Presses de
l’École des Mines de Paris, 2008.
Manu CARRICANO, Analyse des données avec SPSS, collection synthex
(PEARSON Education).
Régis Bourbonnais, Économétrie cours et exercices corrigés.
• Pour un exposé très pédagogique (sans recours aux mathématiques) des
principes des tests statistiques, de l’échantillonnage et de l’inférence
statistique :
SCHWARTZ Daniel, Le Jeu de la science et du hasard. La Statistique et le vivant,
Paris, Flammarion, 1994.
La lecture de ce beau livre est conseillée à tous. Les exemples sont empruntés à
la médecine et à la biologie mais ils sont éclairants pour les sciences humaines et
sociales ; et ils montrent incidemment que les SHS partagent beaucoup plus de
choses avec les sciences de la vie qu’on ne le croit habituellement.
• Pour un exposé de l’ensemble des techniques statistiques simples ne
nécessitant pas de grandes compétences en mathématiques :
Olivier Martin, l’enquête et ses méthodes : l’analyse des données qualitatives
(2ème Edition).
233
SOS INFORMATIQUE, L’INFORMATIQUE CHEZ VOUS