Vous êtes sur la page 1sur 101

INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES

Série des Documents de Travail


de la
DIRECTION DES STATISTIQUES DEMOGRAPHIQUES ET SOCIALES

Unité « Méthodes Statistiques »

Série des Documents de Travail


Méthodologie Statistique

N° 0301
Les modèles logit polytomiques non ordonnés :
théorie et applications

Cédric AFSA ESSAFI

Ces documents de travail ne reflètent pas la position de l'INSEE et n'engagent que leurs auteurs.
Working papers do not reflect the position of INSEE but only their authors views.
Les modèles logit polytomiques non ordonnés :
théorie et applications
Cédric Afsa Essafi 1

Résumé

Les modèles logit polytomiques non ordonnés constituent une famille de modèles
économétriques adaptés au cas où la variable à expliquer est une variable qualitative, dont les
modalités ne peuvent être classées les unes par rapport aux autres. Il en est ainsi, par exemple,
de la catégorie socio-professionnelle, du mode de transport, du statut d’occupation du
logement, du lieu de résidence, etc. Le présent document expose, en première partie, les
fondements théoriques de ces modèles et passe en revue les principaux outils permettant de
les estimer et de tester leur validité. Les parties suivantes appliquent ces modèles à deux
exemples. Dans le premier, la variable à expliquer est la catégorie socio-professionnelle.
Grâce à un modèle logit multinomial, on met en évidence les facteurs socio-démographiques
(sexe, âge, diplôme, …) qui distinguent les salariés appartenant à l’une ou à l’autre des
catégories socio-professionnelles retenues dans l’étude. Le second exemple, qui explique le
choix du mode de transport pour rejoindre deux villes, fournit l’occasion d’appliquer un
modèle logit conditionnel et un modèle emboîté. Les deux exemples sont traités à partir de
données d’enquêtes en utilisant exclusivement le logiciel SAS.

Mots-clés : variable qualitative ; modèle de choix discrets.

1
Direction des Statistiques Démographiques et Sociales, au moment de la rédaction de ce document.
Je remercie Thomas Amossé, Sabine Chaupain, Pauline Givord, Olivier Guillot, David Le Blanc,
Stefan Lollivier, Jean-Louis Pan Ké Shon, Jean-Claude Ray, Daniel Verger pour leurs relectures des
versions successives du document et leurs précieux conseils. Je reste responsable de toutes les
erreurs qui subsistent.

2
Table des matières
Introduction générale 7

Les modèles logit polytomiques : définitions et propriétés 11


I.1 Définition des modèles logit multinomial et logit conditionnel 13
I.1.a Le modèle logit multinomial 13
I.1.b Le modèle logit conditionnel 15
I.1.c Ressemblances et différences entre les modèles multinomial et conditionne l 16
I.2 Le logit multinomial/conditionnel comme modèle de choix discrets 19
I.3 Estimation 23
I.4 Indicateurs de qualité de l’ajustement du modèle aux données 25
I.5 Tests d’hypothèse 27
I.6 Présentation et interprétation des résultats d’un logit multinomial 29
I.7 La propriété IIA 31
I.8 Le modèle logit emboîté (nested logit) 33
I.9 Le modèle logit à paramètres aléatoires (mixed logit) 37

Applications - remarques générales préliminaires 39


Introduction 41
II.1 Remarques sur le choix des variables 43
II.2 Remarques préliminaires sur la présentation des résultats
d’un logit multinomial 47
II.3 Brève présentation des procédures SAS 49

…/..

3
Etude de cas I : le logit multinomial 51
III.1 Les données ; sélection et codification des variables 53
III.2 Quelques statistiques descriptives 55
III.3 Estimation du logit multinomial par la procédure Catmod 57
III.4 Estimation du logit multinomial par la procédure Qlim 59
III.5 Estimation du logit multinomial par la procédure Mdc 63
III.6 Les paramètres estimés et leur significativité 67
III.7 Le cas des variables explicatives polytomiques à plus de deux modalités ;
exemple de test entre deux modèles emboîtés 71
III.8 Présentation et interprétation des résultats 75
III.8.a Le tableau des paramètres estimés 75
III.8.b Le tableau des effets moyens des variables 78
III.8.c L’estimation des écarts-type par bootstrap 84
III.9 Choix entre deux modèles non emboîtés 87

Etude de cas II : le logit conditionnel et le logit emboîté (nested logit) 89


IV.1 Spécification et estimation d’un logit conditionnel 91
IV.2 Test de la propriété IIA 95
IV.3 Spécification et estimation d’un logit emboîté 97

Bibliographie 101

Annexes 105
Macro de préparation des données pour la procédure Mdc
Macro de calcul des dérivées des probabilités
Macro de calcul des probabilités prédites pour les variables qualitatives

4
Introduction générale

Une enquête a été menée auprès d’un échantillon d’individus, leur demandant quel
moyen de transport ils utilisent habituellement pour se rendre sur leur lieu de travail. On veut
maintenant en analyser les résultats. Plus précisément, on cherche à déterminer le rôle joué
par chaque caractéristique de l’individu (son âge, son sexe, son niveau de revenus, etc) dans
son choix du mode transport. On se demande par exemple si le choix dépend de l’âge, si les
personnes à hauts revenus, indépendamment de leur âge ou d’autres caractéristiques,
privilégient un moyen de transport particulier. Ou encore si les choix des hommes et des
femmes sont différents. On aimerait aussi estimer l’impact d’une hausse importante du prix de
l’essence : conduirait-elle à une baisse sensible de l’utilisation de la voiture ? Au bénéfice de
quel autre moyen de transport ?
Pour ce faire, il faut écrire un modèle économétrique qui respecte la nature particulière de
la variable à expliquer (le moyen de transport). C’est, en effet, une variable qualitative, et non
pas numérique. Corrélativement, c’est une variable discrète : à la différence des variables
continues, elle prend un nombre (très) limité de modalités. De plus, elle n’est pas ordonnée :
on ne peut pas a priori classer les modes de transport les uns par rapport aux autres, affirmer
par exemple que la voiture est “supérieure” à la bicyclette, elle-même “supérieure” au bus,
etc.
Les modèles de choix discrets sont les modèles adaptés à ce cas de figure. Ils sont
nommés ainsi parce qu’ils modélisent précisément des comportements où l’individu doit faire
un choix parmi un ensemble discret de choix possibles. Parmi eux, les modèles logit
polytomiques non ordonnés sont les plus utilisés. Cela tient à leur flexibilité et - du moins
pour une partie d’entre eux - à leur relative facilité d’utilisation, comparativement, par
exemple, aux modèles concurrents que sont les modèles probit multinomiaux.
Les modèles logit polytomiques non ordonnés, qui fnt l’objet du présent document,
constituent une famille de modèles dont le modèle de base est le logit multinomial. Leurs
domaines d’application sont nombreux. Outre les transports, on peut citer le choix du mode de
garde des enfants en bas âge, le choix d’une profession, celui d’un parti politique lors d’une
élection, ou du lieu de résidence, etc 2 .

Le logit multinomial, modèle de base des logit polytomiques non ordonnés


Le modèle logit multinomial a été introduit à la fin des années 60 par McFadden (1968)
et Theil (1969). Boskin (1974) d’un côté, Schmidt et Strauss (1975) de l’autre, l’ont appliqué
au choix d’une profession, dans des perspectives très différentes (voir encadré).
Boskin a utilisé le logit multinomial comme modèle (économique) de comportement, où
le choix de la profession est déterminé par des critères monétaires qui sont, d’une part, les
coûts de formation nécessaires pour accéder à un emploi relevant d’une profession donnée,
d’autre part le salaire que l’individu espère en retirer. Les coûts de formation et les salaires
espérés varient d’une profession à l’autre. Un tel modèle peut servir à prédire, par exemple,
l’impact d’un abaissement des coûts de formation sur le choix professionnel. Formellement, le
modèle de Boskin expliquait la variable «catégorie professionnelle » par les deux variables
monétaires caractéristiques des choix offerts, i.e. dont les montants dépendent de la
profession choisie.

2
… sans oublier le vaste domaine des « produits différenciés » (le marché automobile par exemple). Pour une
introduction à cette littérature, voir Anderson, de Palma et Thisse (1989).

5
Deux utilisations différentes du logit multinomial
Pour expliquer le choix d’une profession, Boskin (1974) a proposé un modèle économique
simple. Il a supposé que l’individu prend sa décision sur des critères monétaires. Il compare les
professions en évaluant, pour chacune d’elles, le coût de formation nécessaire pour l’exercer, et le gain
(le salaire) qu’il espère en retirer. Pour appliquer son modèle, Boskin a pu disposer (ou reconstituer)
des données où il connaissait à la fois le groupe professionnel de chaque individu de son échantillon,
et les coûts de formation et salaires potentiels que chaque individu devait payer ou pouvait percevoir
compte tenu de ses propres caractéristiques. Et Boskin connaissait ces coûts et salaires non seulement
pour la profession que l’individu avait choisie mais aussi pour toutes les autres. Il a alors utilisé ces
deux variables - le salaire potentiel, le coût de la formation - comme facteurs explicatifs
d’appartenance à un groupe professionnel. Il a estimé son modèle sur plusieurs sous-populations de
salariés, selon leur sexe (homme/femme) et leur groupe ethnique (Blanc/Noir). Boskin a par exemple
trouvé que les effets respectifs du salaire potentiel et du coût de la formation sur le choix professionnel
étaient de 1.084 et de - 0.001 lorsque le modèle était estimé sur la sous-population constituée
uniquement de Blancs, et 0.072 et - 0.010 lorsqu’il l’était sur la sous-population des Noirs. Ces deux
catégories de salariés n’arbitrent donc pas de la même manière entre coûts et bénéfices attendus : les
coûts de formation «freinent » davantage les Noirs que les Blancs (- 0.010 rapporté à 0.072, à
comparer à - 0.001 rapporté à 1.084). Boskin a interprété cette différence, d’une part comme le signe
d’une inégalité d’accès à la formation en défaveur des Noirs, d’autre part comme des degrés différents
d’aversion au risque.
Schmidt et Strauss (1975) ont étudié la discrimination sur le marché du travail, en se demandant
s’il y avait égalité d’accès aux différentes professions entre les hommes et les femmes, entre les
Blancs et les Noirs. Pour ce faire, ils disposaient d’un échantillon de salariés dont ils connaissaient la
catégorie professionnelle d’une part, et plusieurs caractéristiques individuelles d’autre part : le sexe, le
groupe ethnique (Blanc/Noir), le niveau d’études atteint et l’expérience professionnelle. Ils se sont
posés des questions comme : un homme et une femme, ayant terminé leurs études au même âge et
ayant travaillé le même nombre d’années, ont-ils pour autant les mêmes chances d’être cadres ? Ils ont
appliqué à leurs données un logit multinomial expliquant la variable « catégorie professionnelle » par
les quatre descripteurs socio-démographiques retenus. Ils ont par exemple trouvé qu’à même niveau
d’études, même expérience professionnelle et même sexe, un Blanc avait 3,5 fois plus de chances
qu’un Noir d’être ouvrier qualifié plutôt qu’ouvrier non qualifié. Autre exemple : à niveau
d’éducation, expérience professionnelle et groupe ethnique donnés, un homme avait 3fois plus de
chances qu’une femme d’être cadre plutôt qu’employé(e).

Schmidt et Strauss, de leur côté, ont utilisé le logit multinomial davantage comme un
outil d’analyse discriminante, dans le but de mettre en évidence les traits distinctifs de chaque
catégorie professionnelle. Par exemple, constatant la faible proportion des femmes chez les
cadres, ils se sont demandés si le sexe de l’individu était bien un facteur discriminant de
l’appartenance catégorielle, c’est-à-dire si, une fois prises en compte les différences effectives
des niveaux d’études et d’expérience professionnelle entre les femmes et les hommes, ces
derniers restaient surreprésentés parmi les cadres. Pour ce faire, ils ont cherché à expliquer,
avec leur modèle, la variable « catégorie professionnelle » par des variables caractéristiques
des individus (sexe, niveau d’études, etc).

A ce stade, il convient d’attirer l’attention sur le flottement terminologique qui existe


dans la littérature. Boskin a dénommé son modèle logit conditionnel, alors que Schmidt et
Strauss ont appelé le leur logit multinomial. Cette distinction coïncide en fait avec la nature
des variables explicatives retenues dans l’une et l’autre modélisation. Celles du modèle de
Boskin sont des caractéristiques des choix offerts, alors que celles du modèle de Schmidt et
Strauss sont des caractéristiques des individus qui choisissent. Ce sont les dénominations que
nous adopterons dans le document, du moins dans un premier temps. Elles ne font cependant
pas l’unanimité. Par exemp le, McFadden a plutôt employé le terme conditionnel dans ses

6
premiers travaux, alors que, dans ses articles plus récents, il lui préfère l’appellation
multinomial (McFadden, 2001). Certains auteurs le suivent sur ce point et qualifient le modèle
utilisé par Schmidt et Strauss de logit multinomial simple. En réalité, nous verrons que ces
deux modèles « purs » sont deux cas particuliers d’un modèle logit qui rassemble des
variables explicatives caractérisant les choix et des variables explicatives décrivant les
individus ; c’est plutôt la dénomination de multinomial qui lui sera réservée.

Extensions du logit multinomial


Le logit multinomial a été étendu dans deux directions différentes (voir le schéma infra) :
les modèles GEV (Generalized Extreme-Value Logit Models), introduits par McFadden
(1978), dont le logit emboîté (Nested Logit) est un cas particulier ; les modèles logit à
coefficients aléatoires (Mixed Multinomial Logit), développés au cours des années 90 (voir
Revelt et Train (1998) pour une revue de la littérature). La première extension a consisté à
généraliser la loi suivie par les résidus du modèle logit multinomial (qui est la loi extreme-
value). La seconde a conservé la même loi, mais a rendu aléatoires les paramètres du modèle.
Les deux extens ions visaient à répondre à la critique, souvent faite au logit multinomial,
de reposer sur une hypothèse d’indépendance des choix offerts, parfois peu réaliste. Cette
hypothèse est connue, dans la littérature anglo-saxonne, sous le sigle IIA (pour Independence
from Irrelevant Alternatives), qu’on peut traduire approximativement par « indépendance par
rapport aux choix non retenus ». L’idée est la suivante. Le modèle logit ne prend pas en
compte la proximité de nature qui peut exister entre plusieurs choix offerts à l’individu. Il est
structuré de manière telle que l’individu arbitre entre deux choix a et b indépendamment des
autres choix qui lui sont offerts. Une manifestation particulièrement gênante de cette propriété
est que l’introduction d’un nouvel élément dans l’ensemble des choix possibles ne réévalue
pas les poids respectifs que l’individu, dans son processus de décision, accorde à a et à b. Si,
par exemple, l’individu préfère “deux fois plus” la voiture au bus, ce rapport restera de 1 à 2
même si une ligne de tramway est créée.
Le modèle logit emboîté intègre explicitement la nécessité, dans certains cas, de faire
dépendre la décision de l’individu à la fois de critères communs à plusieurs choix, proches par
nature, et de critères spécifiques à chacun des choix offerts.
Le logit à coefficients aléatoires, quant à lui, a été développé dans la perspective d’avoir
un modèle très flexible. A cet égard, un résultat important de McFadden et Train (2001)
montre que, sous des conditions très générales, tout modèle de choix discrets fondé sur la
maximisation d’une fonction d’utilité stochastique peut être approximé par un logit à
coefficients aléatoires.
Cela étant, la plus grande flexibilité de ces modèles se paye, surtout pour le logit à
coefficients aléatoires, par des problèmes qui ne se posent pas - ou qui sont aisément
résolubles - avec le logit mutinomial. En particulier, pour identifier ces modèles, on doit poser
des conditions se traduisant par des restrictions sur les variables ou sur les termes de la
matrice de variance-covariance du modèle, conditions qui, dans la pratique, sont rarement
évidentes.
Pour terminer et être plus complet, on mentionnera une alternative possible aux modèles
logit polytomiques non ordonnés pour obtenir un modèle flexible de choix discrets. Il s’agit
du modèle probit multinomial (Hausman et Wise, 1978), qui est une généralisation, à plus de
deux choix possibles, du modèle probit (simple). Là encore, ce modèle pose de très délicats
problèmes d’identification (Keane, 1992).

7
logit dichotomique probit (simple)

logit multinomial

logit emboîté

modèle GEV modèle logit à probit multinomial


coefficients aléatoires
Les modèles de choix discrets

Plan du document
Le document est en grande partie consacrée au logit multinomial. Il étudie aussi le logit
emboîté comme issue possible au non-respect de la propriété IIA. Les autres modèles,
notamment le logit à coefficients aléatoires, sont abordés beaucoup plus succinctement,
essentiellement à cause des problèmes, déjà mentionnés, d’identification et d’estimation qu’ils
posent et qui rendent leur application pratique très délicate.
La partie I est théorique. Elle rappelle les définitions et propriétés des modèles examinés
dans le document. Les parties suivantes sont beaucoup plus pratiques. Elles sont dédiées à la
mise en œuvre de plusieurs modèles (multinomial, conditionnel, emboîté). Des exemples
concrets sont traités par des procédures SAS. Des développements relativement longs sont
consacrés à la présentation des résultats, qui reste un exercice difficile surtout si on doit
s’adresser à un public non initié aux arcanes de la modélisation. Le lecteur d’abord intéressé
par les aspects opérationnels de la question pourra passer assez rapidement à ces parties
pratiques, quitte à revenir ultérieurement à la partie plus théorique, grâce aux fréquents
renvois qui y sont faits.

8
Les modèles logit polytomiques
Définitions et propriétés

9
I.1 - Définition des modèles logit multinomial et logit conditionnel
I.1.a - Le modèle logit multinomial
On observe un échantillon de n individus, répartis en J catégories disjointes. Chaque
individu i appartient à une catégorie j parmi les J possibles. Il est décrit par un ensemble de K
caractéristiques xi1 , xi2 , …, xiK (par exemple son âge, sexe, niveau d’études, etc).
Le modèle est construit sur l’idée suivante. La probabilité que l’individu i, compte tenu
de ses caractéristiques xik , fasse partie de la catégorie j est supposée dépendre des xik , ou,
plus précisément, d’une combinaison linéaire des xik . Formellement, cela s’écrit :
P( j xi ) = G (β0 j + β1 j xi1 + β2 j xi2 + ... + βKj xiK ) = G ( xiβ j ) ,
pour j = 1, 2, …, J. Le vecteur xi = (1 xi1 xi 2 ... xiK ) est le vecteur (ligne) des variables
explicatives du modèle. Sa première composante vaut systématiquement 1. Elle prend en
compte, dans le modèle, le fait que les catégories n’ont pas les mêmes effectifs. On
remarquera que les paramètres de la combinaison linéaire dépendent de la catégorie j. On note
β j = (β0 j , β1 j , β2 j ,..., β Kj ) le vecteur (colonne) de ces paramètres.
Le problème est de trouver une forme fonctionnelle G telle que chaque quantité P( j xi )
soit bien une probabilité, c’est-à-dire possède les deux propriétés suivantes :
J
0 < P( j xi ) < 1 et ∑ P( j xi ) = 1 . (1)
j =1

Pour assurer la stricte positivité de P( j xi ) , on prend la fonction exponentielle. C’est ce


choix qui fonde le modèle logit. On pose donc :
P( j xi ) = exp( xiβ j ) .
Mais cette quantité peut prendre des valeurs supérieures à 1. On la norme alors par la somme
des exp( xiβ j ) , et le modèle s’écrit :
exp( xiβ j )
P( j xi ) = J , pour j = 1, 2, …, J. (2)
∑ exp( xiβh )
h =1

La forme fonctionnelle donnée par (2) répond bien aux propriétés (1).
Le modèle possède a priori un nombre relativement élevé de paramètres : ( K + 1) × J . En
l’état, les effets des caractéristiques x sur l’appartenance à l’une des J catégories ne sont pas
identifiés (on dit aussi que le modèle n’est pas identifié, ou que les paramètres ne le sont pas).
En effet, supposons que l’on ajoute un terme τ0 quelconque aux J paramètres β0 j , un terme
τ1 aux J paramètres β1 j , …, un terme τ K aux J paramètres βKj . On a alors, en notant
τ = ( τ0 , τ1,..., τK ) :
exp( xi (β j + τ)) exp( xiβ j ) exp( xi τ) exp( xiβ j )
J = J = J .
∑ exp( x i (β h + τ )) ∑ exp( x β
i h ) exp( x i τ) ∑ exp( x β
i h )
h =1 h =1 h =1

Une infinité de valeurs de β j sont donc possibles, qui cond uisent à une même valeur de la
probabilité. Il faut alors imposer aux paramètres une condition qui permette l’identification du
modèle. Celle qui est retenue en règle très générale est d’imposer la nullité de tous les
paramètres relatifs à une catégorie donnée, appelée alors catégorie de référence. Si on décide
que la catégorie de référence correspond à j = J, alors la condition d’identification est :
β0 J = β1J = β2 J = ... = β KJ = 0 .

10
Avec cette condition identifiante, le modèle s’écrit finalement :
 exp( xiβ j )
 P( j xi ) = J −1
, pour j = 1, 2, ..., J − 1
 1 + ∑ exp( xiβh )
 h =1
 (3)
 P( J x ) = 1
 i J −1

 1 + ∑ exp( xiβh )
h =1

On a parfois intérêt à écrire le modèle sous une forme plus facile à manier. En divisant
P( j xi ) par P( J xi ) et en en prenant le logarithme, on obtient :
ln[ P( j xi ) / P( J xi )] = xiβ j , pour j = 1, 2,…, J-1 (4)
On notera qu’avec J = 2, on retrouve l’expression d’un logit dichotomique. On peut aisément
changer de catégorie de référence. Prenons j = 1, par exemple, comme nouvelle référence. En
utilisant (4), on a :
ln[ P( j xi ) / P(1 xi )] = ln[ P( j xi ) / P( J xi )] − ln[ P(1 xi ) / P ( J xi )]
= xi (β j − β1) .
Les « nouveaux » paramètres s’obtiennent par différence des anciens.
Plus généralement, j1 et j 2 étant deux catégories quelconques, on a :
ln[ P( j1 xi ) / P ( j 2 xi )] = xi (β j1 − β j2 ) (5)
Le rapport des deux probabilités ne dépend pas des catégories autres que j1 et j 2 . On
retrouvera cette propriété au I.1.b. On notera une autre propriété intéressante du modèle.
Puisque deux catégories sont disjointes, P( j1 ou j2 xi ) = P( j1 xi ) + P( j2 xi ) . On a alors :
P ( j1 xi ) P( j1 xi ) / P ( j 2 xi ) exp[ xi (β j1 − β j2 )]
P( j1 xi , j1 ou j2 ) = = = (6)
P ( j1 xi ) + P ( j 2 xi ) 1 + [ P( j1 xi ) / P ( j 2 xi )] 1 + exp[ xi (β j1 − β j2 )]
Ainsi, conditionnellement au fait que i appartienne aux catégories j1 ou j 2 , la probabilité
P( j1 xi ) est modélisée par un logit dichotomique de paramètre ( β j1 − β j2 ) . Cette propriété se
traduit, sur le plan pratique, par le fait qu’on peut estimer les paramètres d’un logit
multinomial en menant plusieurs estimations de logit dichotomiques opposant une catégorie à
chacune des ( J − 1) autres. Seule la précision des paramètres estimés diffère (Begg et Gray,
1984).

A priori, trois types de variables peuvent figurer dans la liste des explicatives :
• des variables continues ;
• des variables binaires ;
• des variables qualitatives ayant plus de deux modalités.
Les premières ne posent pas de problème particulier. On peut traiter les variables binaires
comme des variables continues à condition de les coder en 0 et 1. En revanche, les variables
qualitatives ayant plus de deux modalités doivent recevoir un traitement particulier. Plus
précisément, une variable, dont les modalités sont 1, 2, …, M, sera remplacée par M variables
binaires : la mième vaut 1 si l’individu a la modalité m, 0 sinon. Ces M variables binaires sont
colinéaires puisque leur somme vaut toujours 1. Comme avec tout autre modèle
économétrique (modèle linéaire au autre) il faut alors en exclure une du modèle, sinon les

11
paramètres qui leur sont attachés ne pourraient être estimés 3 . La modalité exclue est appelée
modalité de référence de la variable explicative.
Selon que les variables sont continues, binaires ou polytomiques, les paramètres du
modèle n’ont pas la même interprétation, et on ne calcule pas de la même manière les effets
des variables sur les probabilités d’appartenance aux différentes catégories. La section I.6 est
consacrée à ces questions.

I.1.b - Le modèle logit conditionnel


Conformément à la terminologie adoptée en introduction, le modèle logit conditionnel a,
comme variables explicatives, uniquement des caractéristiques z j des choix 4 j. Il ne contient
aucune variable invariante d’un choix à l’autre. En particulier, le modèle logit conditionnel ne
contient pas la variable de terme constant. Par ailleurs, les paramètres du modèle sont
indépendants du choix j.
En reprenant la démarche utilisée pour le logit multinomial et en remplaçant
formellement xiβ j par z ijβ , le modèle conditionnel s’écrit :
exp( z ijβ)
P( j zi ) = J , pour j = 1, 2, …, J. (8)
∑ exp( zihβ)
h =1

où zi = {zih : h = 1,..., J }. Parce que toutes les variables explicatives dépendent de chaque choix
j, le problème d’identification rencontré avec le logit multinomial ne se pose pas : il n’y a pas
à imposer de contraintes sur β (voir I.2 infra).
Le logit conditionnel partage avec le logit multinomial la propriété (5) que le rapport des
deux probabilités de choix j1 et j 2 ne dépend pas des autres choix possibles (de leur nombre,
leurs configurations, etc) :
P( j1 z i ) / P( j2 z i ) = exp[( z ij1 − z ij2 )β]
Cette propriété, appelée IIA (Independence from Irrelevant Alternatives) dans la littérature
anglo-saxonne et que l’on peut traduire par « indépendance par rapport aux choix non
retenus », peut être gênante, surtout si on utilise le logit conditionnel pour modéliser des
comportements. On y reviendra (section I.7).

Pour des raisons qui seront explicitées plus loin, les variables explicatives d’un logit
conditionnel sont, en règle très générale, continues, à la différence du multinomial, qui admet
plusieurs types de variables comme on l’a vu. On peut alors mesurer l’effet de chaque
variable explicative sur les différents choix en dérivant les probabilités de choix par rapport à
la variable. Plus précisément, on peut mesurer l’effet de deux manières :
• soit en calculant la dérivée partielle de chaque probabilité par rapport à la variable. On
mesure alors l’effet de l’augmentation d’une unité de la variable sur chaque choix.
• soit en calculant la dérivée partielle du logarithme de chaque probabilité par rapport au
logarithme de la variable. C’est l’élasticité du choix par rapport à la variable. On mesure
l’effet de l’augmentation de 1% de la variable sur chaque choix. L’intérêt de calculer des
élasticités est qu’elles sont invariantes au changement d’unité de mesure de la variable.

3
Ce traitement n’est pas spécifique au logit multinomial. Il vaut pour tout modèle économétrique (modèle
linéaire ou autre).
4
Ce changement d’appellation - pour le logit conditionnel on parle plus volontiers de choix, alors que pour le
multinomial on a employé le terme de catégorie - sera justifié un peu plus loin.

12
Les dérivées partielles
Pour simplifier les notations dans les calculs des effets, on suppose que le modèle
contient une seule variable z caractéristique de chaque choix. Chaque individu i est supposé
faire face à J valeurs zij . Soit β le paramètre associé à z.
Pour calculer les dérivées partielles des probabilités, on utilise (8). On obtient, en
supprimant l’indice i pour alléger les notations :
∂P( j z ) ∂z j = P( j z )[1 − P( j z )]β
 (9)
∂P( h z ) ∂z j = − P( j z ) P( h z )β, pour h ≠ j
Les dérivées partielles des probabilités dépendent donc des valeurs des variables explicatives.
La dérivée, par rapport à z j , de P( j z ) est toujours du signe de β , et celle de P( h z ) (pour
j ≠ h ) est toujours du signe opposé à celui de β . Cette propriété est une conséquence directe
de la forme fonctionnelle (8) 5 . On vérifie de plus que :
J
∂P ( h z )
∑ ∂z j
=0
h =1

La variation d’une des probabilités à l’augmentation d’une caractéristique est compensée par
les variations concomitantes des autres probabilités.
Les élasticités
On calcule maintenant les élasticités des probabilités. On a deux types d’élasticité :
• les élasticités directes : E j = ∂ ln P ( j z ) / ∂ ln z j ; elles mesurent l’effet, sur la probabilité
de choisir j, d’une augmentation de la caractéristique z de j ;
• les élasticités croisées : Ehj = ∂ ln P( h z ) / ∂ ln z j , h ≠ j ; en mesurant les effets, sur les
probabilités des autres choix, d’une augmentation de la caractéristique z de j, elles
décrivent les substitutions possibles entre j et h du fait de l’augmentation de z j .
En partant de (8), les élasticités directes s’écrivent alors :
∂ ln P( j z ) ∂P ( j z ) z j
Ej = = = [1 − P( j z )]βz j
∂ ln z j ∂z j P( j z )
et les élasticités croisées :
∂ ln P( h z ) ∂P (h z ) z j
Ehj = = = − P( j z )βz j , h ≠ j
∂ ln z j ∂z j P (h z )
Fait remarquable, les élasticités Ehj croisées ne dépendent pas de h. Elles sont les mêmes
pour tous les choix autres que j. Supposons, pour fixer les idées, que β soit négatif. Si z j
augmente, P( j z ) va alors diminuer, puisqu’alors E j < 0 . Les individus vont alors se
reporter sur les autres choix de manière “uniforme”, c’est-à-dire au sens où la quantité Ehj est
la même pour tous les h. Ceci est une manifestation de la propriété IIA (section I.7)

I.1.c - Ressemblances et différences entre les modèles logit multinomial et logit


conditionnel
On va d’abord montrer que les deux modèles sont formellement équivalents. Cette
équivalence reste cependant largement artificielle, car elle repose sur un jeu d’écriture.
Pour le voir, on prend l’exemple d’un logit multinomial avec x comme seule variable
explicative, ceci pour ne pas alourdir les notations. Toujours dans le souci d’alléger l’écriture

5
… qui est elle-même une conséquence directe de l’hypothèse IIA (voir I.7)

13
et comme il n’y a pas d’ambiguïté, on supprime l’indice i repérant l’individu. Le modèle
s’écrit :
ln[ P( j x )] = β j x
avec βJ = 0 (condition d’identification). On définit alors des variables spécifiques aux choix,
notées x1 , x2 , …, x J , de la manière suivante : x j est un vecteur de J composantes dont la
j ième vaut x, toutes les autres étant nulles. On rassemble les J paramètres du modèle dans un
vecteur β : β = ( β1, β 2 ,..., βJ ) . On a alors :
ln[ P( j x)] = β j x = x jβ
C’est l’écriture d’un logit conditionnel.
Inversement, on part d’un logit conditionnel avec une seule variable spécifique à chaque
choix. Il s’écrit donc :
ln[ P( j x )] = β x j
On rassemble les J valeurs prises par la variable spécifique dans le vecteur x :
x = ( x1 x2 ... xJ ) . Soit β j le vecteur ayant J composantes, dont la la j ième vaut β , toutes les
autres étant nulles. Le modèle logit conditionnel s’écrit alors :
ln[ P( j x)] = βx j = xβ j
C’est l’écriture d’un logit multinomial.
Cette équivalence formelle peut expliquer le flottement terminologique, rencontré dans la
littérature, entre logit multinomial et logit conditionnel (voir, supra, l’introduction générale du
document). Une conséquence très pratique de cette équivalence est qu’une même procédure
informatique peut estimer indifféremment un logit multinomial ou un logit conditionnel,
pourvu que les données soient configurées de manière adéquate. C’est ce que fait la procédure
Mdc de SAS, qui sera utilisée pour traiter les exemples d’application : elle estime un lo git
multinomial écrit sous la forme d’un logit conditionnel.
Dans ces conditions, on sera souvent amené à employer indifféremment les termes de
multinomial ou de conditionnel pour qualifier ces modèles. On le sera d’autant plus qu’on
peut tout à fait spécifier un modèle logit plus général que le modèle multinomial ou le modèle
conditionnel, qui est un mélange des deux et s’écrit :
exp( xijβ j )
P( j xij ) = J , pour j = 1, 2, …, J,
∑ exp( xihβh )
h =1

avec : xijβ j = zij γ + wi δ j , (10)


où z ij sont des caractéristiques des choix et wi des caractéristiques de l’individu. Le logit
multinomial correspond à γ = 0 , le logit conditionnel à δ j = 0 , ∀ j ∈ {1, 2,..., J } .
Une remarque terminologique. Ce modèle plus général a parfois été nommé modèle logit
mixte. On évitera cette appellation et lui préférera celle de logit multinomial ou conditionnel,
pour éviter la confusion avec les modèles appelés mixed logit dans les articles anglo-saxons,
qui sont en réalité des modèles logit dont les paramètres sont aléatoires (section I.9).

L’équivalence que l’on vient de montrer entre le logit multinomial et le logit conditionnel
est purement formelle. Il y a, entre les deux modèles, une différence de nature. Le logit
multinomial est plutôt un outil descriptif, alors que le logit conditionnel est mieux à même de
modéliser des comportements.

14
L’utilisation du logit multinomial à des fins descriptives est d’autant plus légitime que,
sous certaines conditions, ce modèle est en réalité une méthode d’analyse discriminante. Très
précisément, on montre (voir, par exemple, Amemiya (1981), Maddala (1983, chap 4),
Sautory et Vong (1992), Bardos (2001)) que si toutes les variables explicatives sont continues
et sont distribuées selon une loi normale multidimensionnelle de telle manière que les J lois
conditionnelles à l’appartenance de l’individu à l’une des J classes ont la même variance,
alors le logit multinomial est formellement équivalent à une analyse discriminante linéaire. A
ce titre, il en remplit les deux objectifs : trouver la fonction linéaire des variables individuelles
qui sépare au mieux les classes (les catégories) ; affecter à une classe un nouvel individu (i.e.
lui imputer une catégorie) dont on connaît seulement les valeurs prises par les variables le
décrivant.
La section I.2 suivante est consacrée à la justification théorique du logit conditionnel - et
de son extension via la forme (10) de sa partie explicative - comme modèle de comportement
économique, sous réserve que les z ij comportent des variables de prix et que wi contienne
une variable de revenus.

15
I.2 - Le logit multinomial/conditionnel comme modèle de choix discrets
Soit un individu, décrit par un ensemble de caractéristiques, faisant face à un ou plusieurs
choix possibles, décrits eux aussi par des caractéristiques qui leur sont spécifiques. Par
exemple, des individus doivent choisir entre plusieurs de modes de transport pour se rendre
sur leur lieu de travail. Ils font leur choix en comparant les coûts des différents modes, les
temps de trajet respectifs, etc. Leur choix va dépendre aussi de leurs revenus et d’autres
caractéristiques qui leur sont propres.
Pour expliquer en termes économiques pourquoi tel individu fait tel choix plutôt qu’un
autre, il faut des modèles spécifiques, car ceux dérivés de la théorie standard du
consommateur sont inopérants.
Pour le voir, rappelons que, dans la théorie standard, les individus sont supposés
maximiser leur utilité U, qui dépend des quantités q de biens qui leur sont offerts et qu’ils sont
susceptibles d’acheter. Ces biens ont des prix p. Comme les individus ont des ressources
limitées R, la maximisation se fait sous contrainte budgétaire pq = R : les individus arbitrent
entre les différentes quantités de biens compte tenu de leurs ressources et des prix de ces
biens. Le résultat de l’arbitrage conduit à demander des quantités optimales q * , au sens où,
avec q * , U est à son maximum (sous la contrainte budgétaire) : U (q * ) = MaxU ( q) . Ce calcul
d’optimisation repose crucialement sur le fait que les quantités q sont continues, ce qui permet
d’évaluer les variations de U à des petites variations de q pour trouve r le maximum de
l’utilité 6 . Les quantités optimales q * dépendent des prix p et des ressources R : q * = q* ( p, R) .
Connaissant p et R, on pourrait, si on connaissait U, calculer la valeur V qu’elle prend à son
maximum : V = U[ q *( p, R)] = V ( p , R) . La fonction V, qui varie selon les valeurs prises par p
et R, est appelée fonction d’utilité indirecte, U étant dénommée fonction d’utilité directe.
Cette démarche ne peut être appliquée à des questions comme le choix d’un mode de
transport, parce que l’individu n’arbitre pas entre des quantités de biens, mais entre des
options possibles. La théorie standard n’est pas applicable à cause du caractère
fondamentalement discret du choix. Il faut donc des modèles spécifiques. Ce sont les modèles
de choix discrets.
Les économistes se sont inspirés de travaux menés en psychologie (voir de Palma et
Thisse (1987) pour une présentation historique et épistémologique des modèles de choix
discrets). Thurstone (1927), notamment, avait introduit la notion d’aléa pour expliquer la
variabilité des réponses d’un même individu à des stimuli identiques. En interprétant le niveau
de stimulus comme un niveau d’utilité, Marschak (1960) a alors transposé l’idée originelle de
Thurstone dans le cadre économique, pour donner naissance aux modèles RUM (Random
Utility Maximization)7 . Formellement, l’utilité V se décompose, de manière très générale,
en :
V =V + ε ,
où V est la composante connue de l’utilité et ε la différence entre l’utilité et sa composante
connue. Le terme ε , inconnu, est considéré comme aléatoire. La partie connue de l’utilité est
supposée dépendre des caractéristiques observées x des choix ou des individus : V = V (x ) .
On notera que, pour les économistes qui ont construit et appliqué ces modèles, le caractère

6
Le programme d’optimisation nécessite l’écriture du Lagrangien L(q) qui doit être dérivé par rapport à q.
7
Les économistes hésitent entre les dénominations Random Utility Maximization et Random Utility Model. Le
choix entre les deux termes n’est pas innocent. Pour Train (2002), par exemple, RUM est l’abréviation de
Random Utility Model. Ceci lui permet d’affirmer que ce modèle n’est pas la propriété des économistes qui
postulent un individu maximisateur. La théorie a montré que le modèle RUM est cohérent avec l’hypothèse d’un
comportement individuel fondé sur la maximisation de l’utilité. Mais rien ne prouve qu’il ne peut l’être avec
d’autres formes de comportement.

16
aléatoire de l’utilité provient exclusivement du manque d’information du modélisateur, qui
n’observe pas tous les facteurs - l’ensemble de choix, les goûts des individus, etc -
susceptibles d’influencer la décision. Plus précisément, Manski (1977) a distingué 4 sources
d’incertitude : les caractéristiques inobservées des choix offerts, les caractéristiques
inobservées des individus, les erreurs de mesure et le choix de la relation fonctionnelle entre
les caractéristiques observées et les choix offerts. Si l’utilité est aléatoire par manque
d’information, en revanche la règle de décision qui conduit un individu à faire tel choix reste
fondamentalement déterministe. Par contraste, des psychologues comme Luce ou Tversky
soutiennent que le processus de décision est aléatoire par nature, parce qu’un individu peut
être influencé par le contexte, ou se tromper dans ses choix.

Soit, alors, {1, 2,..., J } l’ensemble des choix possibles. Soit {y1 , y2 ,..., y J } les J variables
binaires associées à ces différents choix, définies comme suit :
 yij = 1 ⇔ l' individu i a choisi j

 yij = 0 ⇔ l' individu i n' a pas choisi j
Le processus de choix est modélisé de la manière suivante : l’individu i choisit l’option j qui
lui procure la plus grande utilité indirecte :
yij = 1(Vij = max Vih ) (11)
h ∈{1, 2,..., J }

où Vih est la valeur que prend l’utilité indirecte lorsque l’individu i fait le choix h. La
condition V j = max Vh pour chaque individu i implique :
V j ( x ) + ε j > Vh ( x ) + ε h , pour tout h ≠ j
ou encore :
ε h < ε j + V j ( x ) − Vh ( x ) , pour tout h ≠ j (12)
Pour rendre ces modèles opératoires, il faut spécifier à la fois une distribution des ε j et
une forme fonctionnelle des V j (x ) qui conduisent à des modèles économétriques facilement
estimables. Commençons par la partie aléatoire de l’utilité. McFadden (1968, 1973) a supposé
que les ε j sont indépendants et identiquement distribués selon une loi extreme-value de type
I, appelée aussi loi de Weibull, ou encore loi de Gumbel8 , dont la fonction de répartition est
égale à :
F ( a ) = exp[ −e− a ] (13)
et la fonction de densité à :
f (u ) = exp[ −u − e− u ] (14)
Une hypothèse importante est que tous les ε j sont indépendants des caractéristiques x. On
peut alors calculer la probabilité qu’un individu fasse le choix j, compte tenu de ses
caractéristiques x. En effet, on a :
P( y j = 1 x ) = P[(V1 < V j , .., V j −1 < V j , V j+ 1 < V j ,..., VJ < V j ) x ]
= P[( ε1 < ε j + V j ( x) − V1( x) ,...., ε J < ε j + V j ( x ) − VJ ( x )) x ]
d’après (12). Pour traduire la probabilité en fonction de répartition, il faut fixer ε j , c’est-à-
dire conditionner par ε j . On écrit donc :

8
La loi de Gumbel est en réalité la loi de -X, où X suit la loi de Weibull.

17
P( y j = 1 x )
= ∫ P[( ε1 < ε j + V j ( x ) − V1( x) ,...., ε J < ε j + V j ( x ) − VJ ( x )) x , ε j ]. f ( ε j ) dε j

Puisque les ε j sont indépendants entre eux, la probabilité sous l’intégrale est égale au produit
des probabilités :
P( y j = 1 x ) = ∫ ∏ P[ε
h≠ j
h < ε j + V j ( x ) − Vh ( x ) x, ε j ]. f (ε j ) dε j

Par ailleurs, on a la propriété générale suivante : soit u une variable aléatoire de fonction de
répartition F ; soit z un vecteur de variables aléatoires ; si u est indépendante de z, alors :
P[u < g ( z ) z ] = F [ g ( z )]
Dans ces conditions, puisque les ε j sont supposés être indépendants entre eux et
indépendants des caractéristiques x dont dépend la fonction V , il s’ensuit :
P( y j = 1 x ) = ∫ ∏ F [ε
h≠ j
j + V j ( x) − Vh ( x)] . f (ε j ) dε j

En remplaçant F et f par leurs expressions (13) et (14), l’expression sous l’intégrale s’écrit :
 
 ∏ exp[ −e − ε j −V j ( x ) + Vh ( x ) ] . exp[ −ε j − e− ε j ]
 h≠ j 
 J − ε −V ( x ) +V h ( x ) 
J
] .exp[ −ε j ] = exp[ −e .∑ e
−ε j −V j ( x ) +Vh ( x)
=  ∏ exp[ −e j j ]. exp[ −ε j ] .
 h=1  h =1
J
Posons : k = ∑ e
−V j ( x ) +Vh ( x )
. On a alors :
h =1
−ε j − (ε j − ln k )
P( y j = 1 x) = ∫ exp[ −ε j − k .e ] dε j = ∫ exp[ −ε j − e ] dε j
−( ε j − ln k )
= exp[ − ln k ]. ∫ exp[ −( ε j − ln k ) − k .e ] d ( ε j − ln k )
1
= exp[ − ln k ]. ∫ f (ε j − ln k ). d (ε j − ln k ) = .
k
exp[V j ( x )]
Finalement : P( y j = 1 x ) = J
, pour j = 1,…, J (15)
∑ exp[V ( x)]
h =1
h

Reste à spécifier la forme fonctionnelle de V . On la suppose dépendre de paramètres β .


Pour que leur estimation soit (relativement) simple, il faut que V soit linéaire en ses
paramètres. La forme la plus simple consiste à écrire :
V j = z j γ + wδ j , pour j = 1,…, J (16)
où z j sont des caractéristiques du choix j et w des caractéristiques individuelles. On retrouve
(10). Les variables de prix ou de coûts associés aux différents choix feront partie des z j et les
variables de revenu seront une des variables w (à condition bien entendu que l’on dispose de
l’information). Ceci justifie le fa it que, dans le modèle de choix discrets, on prenne l’utilité
indirecte V plutôt que l’utilité directe U. La première, en effet, dépend directement des prix p
et du revenu R, alors que la seconde a pour arguments des quantités de biens 9 .

9
Cela étant, la théorie montre que les préférences des agents peuvent être représentées indifféremment par la
fonction d’utilité directe ou par la fonction d’utilité indirecte. En outre, on peut déduire de la fonction d’utilité
indirecte les fonctions de demande de biens, en utilisant l’identité de Roy qui fait intervenir uniquement les
dérivées de V par rapport aux prix et au revenu total (voir, par exemple, Train, 1986, chap 5).

18
Avec γ = 0 , on se ramène au logit multinomial (I.1.a). On peut donc considérer à la
rigueur le logit multinomial comme un modèle économique de comportement, où les
variables de prix sont intégrées dans les résidus. La capacité prédictive du logit multinomial
comme modèle de comportement économique est cependant très faible puisqu’on est
incapable d’évaluer l’impact des variations de prix sur les choix. Avec δ j = 0 pour j = 1,…,
J, on retrouve le logit conditionnel (I.1.b).
Les paramètres attachés aux variables individuelles doivent dépendre de j, sinon ils
disparaissent des membres de droite des équations (15). En effet, en insérant (16) dans (15) et
en supposant δ j = δ, ∀ j , on a :

exp[ z j γ + wδ] exp[ z j γ] exp[ wδ] exp[ z j γ ]


P( y j = 1 x) = J
= J
= J

∑ exp[ z γ + wδ]
h =1
h exp[ wδ]∑ exp[ z h γ]
h =1
∑ exp[ z γ]
h =1
h

En revanche, les paramètres attachés aux caractéristiques des choix ne doivent pas dépendre
de j si, surtout dans le cas où les z j sont des prix, on souhaite interpréter les paramètres en
termes d’élasticités des choix aux variations de prix (voir (9) supra).

La présentation du modèle sous la forme d’une maximisation des utilités (11) permet de
poser des conditions générales d’identification (des paramètres) du modèle. Soit, en effet, µ
et σ deux constantes, avec la seule restriction que σ soit strictement positive. L’expression
(11) s’écrit indifféremment :
yij = 1(Vij = max Vih )
h ∈{1, 2,..., J }

= 1[σVij + µ = max ( σVih + µ )]


h ∈{1, 2 ,..., J }

= 1[0 = max σ(Vih − Vij )]


h ∈{1, 2,..., J }

Cela signifie que l’ordre des préférences des agents est invariant par toute transformation
monotone croissante de la fonction d’utilité indirecte, en particulier par toute fonction affine
croissante 10 .
On tire de ces égalités deux enseignements. D’une part, le modèle est le même si on
multiplie la fonction d’utilité, donc sa partie aléatoire, par une constante positive quelconque.
Cette constante joue le rôle d’un paramètre d’échelle, qu’il faut donc fixer à une certaine
valeur. D’autre part, ce n’est pas le niveau de chaque utilité qui est pertinent mais la
différence entre les utilités.
Dans le cas du logit multinomial/conditionnel, le paramètre d’échelle a été fixé par le
choix de la distribution des ε j . La variance de la loi extreme-value de type I est en effet égale
à π 2 / 6. En revanche, l’invariance du modèle à l’ajout d’une constante quelconque µ a des
conséquences différentes selon la spécification de V (voir (16) supra) :
• si (16) ne contient que des caractéristiques des choix, on a Vh − V j = ( z h − z j ) γ , et γ est
identifié (sous réserve, bien entendu, que les variables ne soient pas colinéaires) ;
• si (16) contient, en plus des z j , des variables individuelles, alors la différence des utilités
est égale à Vh − V j = ( zh − z j ) γ + w(δ h − δ j ) . Les deux paramètres δ h et δ j ne sont pas
identifiables séparément. Seule leur différence l’est. Il faut une contrainte, par exemple en
fixer un à zéro, pour assurer l’identification (sous réserve, encore une fois, que les
variables ne soient pas colinéaires).

10
Ceci est la transposition, à l’utilité indirecte, de la propriété d’ordinalité de l’utilité directe.

19
I.3 - Estimation
Le logit multinomial/conditionnel s’estime par la méthode du maximum de
vraisemblance. La vraisemblance du modèle s’écrit de la manière suivante. D’abord, la
probabilité que l’individu i, étant donné ses caractéristiques et celles des différents choix
offerts, fasse le choix j est égale à :
J

∏[ P( j x )]
y ij
i
j =1

où, rappelons- le, yij = 1 si i a choisi j, 0 sinon. C’est la contribution de i à la vraisemblance.


Ensuite, en supposant que chaque individu a fait un choix indépendamment des choix
effectués par les autres, la probabilité que les n individus de l’échantillon aient fait les choix
observés est le produit des probabilités :
n J

∏∏ [P( j x )]
yij
i
i =1 j =1

En prenant le logarithme de cette quantité, la log-vraisemblance est finalement égale à :


n J
ln L (β) = ∑∑ yij ln [ P( j xi )] (17)
i =1 j =1

Cette log-vraisemblance dépend des paramètres β de la forme fonctionnelle de P( j xi ) . Une


propriété générale du maximum de vraisemblance est que, sous réserve que P( j xi ) soit
correctement spécifiée, β̂ maximisant ln L (β) est un estimateur converge nt de β . Rappelons
notamment que la spécification (15) suppose que les variables x soient indépendantes des ε j .
Par conséquent, si elles sont corrélées aux ε j , si, en d’autres termes, elles sont endogènes, β̂
est très probablement (asymptotiquement) biaisé.
McFadden (1973) a montré que sous l’hypothèse où l’utilité sous-jacente au modèle est
linéaire en ses paramètres, alors la log-vraisemblance est globalement concave. Elle admet
donc un maximum, qui vérifie :
d ln L (β)
=0 (18)

En remplaçant P( j xi ) , dans (17), par son expression donnée par (15) et (16), l’annulation des
dérivées premières (18) conduit, tous calculs faits, à :
∂L( γ, δ) n J
= ∑∑[ yij − Pˆ ( j xi )] z′ij = 0 (partie « conditionnelle » du logit)
∂γ i =1 j =1

et
∂L (γ, δ) n
= ∑ [ yij − Pˆ ( j xi )] wi′ = 0 (partie « multinomiale »)
∂δ j i =1

où Pˆ ( j xi ) est la probabilité prédite par le modèle, obtenue en remplaçant β = [ γ , δ] par


βˆ = [ γˆ , δˆ ] . En divisant la seconde expression par n, on obtient :
1 n 1 n
∑ yijw′i = ∑ Pˆ ( j xi ) w′i , ∀ j = 1,.., J .
n i =1 n i =1
C’est un ensemble de K + 1 égalités (où K est le nombre de variables explicatives, hors terme
constant du modèle). Dans le cas particulier du terme constant ( wi = 1, ∀ i ), on a :
1 n 1 n
∑ yij = ∑ Pˆ ( j xi ) , pour j = 1, …, J (19)
n i =1 n i =1

20
Autrement dit, dans un modèle multinomial, la part observée des individus appartenant à la
catégorie j est égale à la moyenne empirique 11 des probabilités prédites d’appartenance des
individus à la catégorie j. En ce sens, le modèle prédit exactement la répartition des individus
par catégorie.

L’estimateur de β a, bien entendu, toutes les propriétés asymptotiques d’un estimateur du


maximum de vraisemblance. Notamment, si l’échantillon est suffisamment grand, les valeurs
des paramètres, obtenues avec différents échantillons de taille n tirés dans la même
population, sont (approximativement) distribuées selon une loi normale multidimensionnelle.
La propriété s’écrit formellement :
n (βˆ − β) 
→
d
N (0, A−1 )
avec A = −E[ H ( x, β)] , où H est la matrice des dérivées secondes de la log-vraisemblance
(matrice hessienne). Par conséquent, la matrice de variance covariance de β̂ est
(approximativeme nt) A−1 / n . On remarquera, notamment, que les écarts-type des différents
paramètres, c’est-à-dire les racines carrées des éléments diagonaux de A−1 / n , diminuent
lorsque n augmente.
Puisque A est inconnue, il faut l’estimer. On le fait en remplaçant l’espérance par la
moyenne empirique.

11
… éventuellement pondérée si les individu n’ont pas le même poids.

21
I.4 - Indicateurs de la qualité de l’ajustement du modèle aux données
Plusieurs indicateurs ont été construits avec la log-vraisemblance (17) pour juger la
qualité de l’ajustement du modèle aux données, avec l’idée d’en faire des équivalents du
coefficient de détermination empirique R2 du modèle linéaire classique. McFadden (1973) a
ainsi défini le coefficient ρ2 , appelé parfois pseudo-R², égal à :
ln L
ρ2 = 1 − , (20)
ln L0

où L est la valeur de la vraisemblance du modèle et L0 la valeur de la vraisemblance du


modèle réduit aux seuls termes constants, c’est-à-dire sans variable explicative. D’après (17),
puisque chaque P( j xi ) est inférieur ou égal à 1, son logarithme est négatif, si bien que
ln L < 0 . Comme le modèle avec variables explicatives est plus vraisemblable que le modèle
sans variable, ln L0 < ln L . Par conséquent, 0 < ρ2 < 1 .
L’inconvénient de ρ2 est qu’il n’est pas, en réalité, l’analogue du coefficient de
détermination R2 du modèle linéaire, car il n’en possède pas plusieurs propriétés. En
particulier, ses valeurs ne couvrent pas l’intervalle ]0,1[ et restent toujours faibles. Pour
pallier ce défaut, Estrella (1998) a proposé un autre indicateur, qui possède les propriétés
statistiques du R2 . On souhaite notamment que la valeur 0 de l’indicateur corresponde à une
absence totale d’ajustement et la valeur 1 à un ajustement “parfait”. L’indicateur d’Estrella est
égal à :
2
− ln L 0
 ln L  n
φ 0 = 1 −   (21)
 ln L0 
où n est , rappelons- le, la taille de l’échantillon.

Ces deux indicateurs peuvent être améliorés. Ben-Akiva et Lerman (1985) ont souligné
que le « R2 de McFadden » ne prend pas en considération l’idée de parcimonie, qui peut être
une qualité recherchée d’un modèle. Rapidement dit, c’est la capacité du modèle à mieux
expliquer la réalité avec le minimum de variables explicatives. Or, lorsqu’on ajoute une
variable au modèle, le coefficient ρ2 augmente automatiquement. Ben-Akiva et Lerman ont
alors proposé, pour faire pendant au coefficient de détermination ajusté R 2 d’un modèle
linéaire, le coefficient ρ 2 construit sur le rapport des vraisemblances, corrigé du nombre de
paramètres à estimer :
ln L − ( K + 1) × ( J − 1)
ρ2 = 1 − (22)
ln L0
Estrella a aussi proposé un indicateur ajusté :
2
− ln L0
 ln L − ( K + 1) × ( J − 1)  n
φ a0 = 1 −   (23)
 ln L0 
Toutefois, la correction apportée par la prise en compte du nombre de paramètres est sensible
lorsque la taille de l’échantillon est relativement faible. Dans le cas contraire, elle est
négligeable.

Un autre type d’indicateur de qualité est parfois proposé pour évaluer la capacité
prédictive du modèle. Il consiste à comparer les probabilités prédites par le modèle et les

22
probabilités réelles observées sur les données. Plus précisément, on calcule pour chaque
individu les J probabilités prédites Pˆ ( j xi ) obtenues en remplaçant β par β̂ dans
l’expression de P( j xi ) . La catégorie prédite est celle qui correspondrait à la plus forte valeur
des Pˆ ( j xi ) . On peut alors calculer un taux de bons classements, indiquant le nombre de fois
où la catégorie prédite et la catégorie observée sont les mêmes.
Cet indicateur est à bannir, notamment parce qu’il n’est pas cohérent avec le processus de
décision sous-jacent au modèle de comportement. En effet, retenir la catégorie avec la plus
forte probabilité prédite, c’est retenir celle qui maximise la partie connue V de l’utilité (voir
I.2 supra). Or le choix se fait en maximisant l’utilité totale V, qui intègre tous les éléments
que le modélisateur ignore et qui l’empêche de prédire parfaitement les choix. Supposons,
pour fixer les idées, qu’un individu ait à choisir entre 1 et 2, tels que V1 soit supérieur à de
V 2 . L’individu choisira pourtant 2 si ε 2 − ε1 > V1 − V2 , c’est-à-dire si la partie inconnue de
l’utilité pour le choix 2 dépasse celle pour le choix 1 d’une quantité au moins égale à V1 − V2 .
Une solution de moindre mal consiste à calculer les J probabilités prédites Pˆ ( j xi ) pour
chaque individu, de rapporter chacune d’elles à la part Pj de la catégorie j dans la population,
et de prendre comme choix ou catégorie prédit(e) celui (celle) qui donne le plus fort ratio
Pˆ ( j xi ) / Pj .

23
I.5 - Tests d’hypothèse
Les principaux tests d’hypothèse examinés ici portent sur la nullité d’un ou plusieurs
paramètres du modèle : la (ou les) valeur(s) estimée(s) par le maximum de vraisemblance
d’un ou plusieurs paramètres est-elle (sont-elles) suffisamment éloignée(s) de 0 pour qu’on
puisse en inférer, sans grand risque de se tromper, que la (les) variable(s) correspondante(s) a
(ont) un effet sur le choix j ?
En principe, puisqu’on a utilisé la méthode du maximum de vraisemblance pour estimer
les paramètres, on a le choix entre plusieurs tests, qui sont équivalents à condition de disposer
d’un échantillon suffisamment important. En pratique, la méthode dépend du test à effectuer :
• si on a à tester la nullité d’un seul paramètre, on employera la statistique de Student ;
• si on a à tester la nullité simultanée de plusieurs paramètres, il est plus commode
d’utiliser le test du rapport de vraisemblance.

Test de nullité d’un paramètre


On veut tester la nullité du paramètre γ attaché à une variable z j caractéristique de choix
dans un logit conditionnel, ou du paramètre δ j d’une variable individuelle, associé à la
catégorie j, dans un logit multinomial. Pour ce faire, on utilise la statistique de Student. Cette
statistique est égale au rapport de la valeur estimée du paramètre à son écart-type estimé. Sa
valeur absolue mesure une « distance » à zéro du paramètre estimé, compte tenu de l’aléa dû
au fait qu’on observe un échantillon d’individus. Plus elle est élevée, plus faible est le risque
de se tromper en affirmant que le paramètre est non nul. Avec un échantillon de taille
importante, elle suit la loi normale centrée réduite. Les valeurs-repère sont traditionnellement
1.65 (si la valeur absolue de la statistique est supérieure à 1.65, le risque de se tromper en
affirmant la non-nullité est inférieur à 10 %), 1.96 (risque inférieur à 5 %) et 2.57 (risque
inférieur à 1 %).

Test de nullité de plusieurs paramètres


Si on veut tester la nullité simultanée de plusieurs paramètres, on utilise le test du rapport
de vraisemblance. En toute généralité, il consiste à tester un modèle avec K 2 variables
explicatives (modèle 2) contre un modèle avec K1 variables explicatives (modèle 1), où les
variables du modèle 1 constituent un sous-ensemble des variables du modèle 2 (donc
K1 < K 2 ). On dit que le modèle 1 est emboîté dans le modèle 2. L’idée est la suivante. On
part du modèle 1. On lui ajoute une ou plusieurs variables explicatives pour aboutir au modèle
2. Ceci augmente sa vraisemblance : un modèle explique mieux la réalité avec davantage de
variables explicatives. La vraisemblance du modèle 2 est donc supérieure à celle du modèle 1.
On aurait donc tendance à choisir le modèle 2. Mais s’il se trouve que l’écart entre les deux
vraisemblances est insignifiant, alors on choisira le modèle 1, car il explique aussi bien la
réalité que le modèle 2, mais avec moins de variables. On le retient si on préfère les modèles
parcimonieux.
Cette idée se traduit statistiquement de la manière suivante. Soit L1 (resp L2 ) la
vraisemblance du modèle 1 (resp modèle 2) obtenue avec les valeurs des paramètres estimées
par le maximum de vraisemblance. Une des propriétés dérivées de l’estimation par le
maximum de vraisemblance est que la statistique − 2[ln L1 − ln L2 ] suit asymptotiquement la
loi du χ 2 , dont le nombre de degrés de liberté est égal à la différence entre le nombre de
paramètres du modèle 2 et le nombre de paramètres du modèle 1. Si la valeur de la statistique
est faible, c’est-à-dire si la « distance » entre les deux modèles n’est pas suffisamment
importante pour affirmer, sans risque élevé de se tromper, que les deux modèles sont
différents, alors on préfèrera le modèle 1 au modèle 2.

24
Deux exemples d’application :
1 - Effet global d’un caractéristique individuelle (logit multinomial)
On se demande si la k ième variable explicative x( k ) d’un logit multinomial a un effet sur
l’appartenance à une quelconque des J catégories, c’est-à-dire si au moins un des paramètres
δ1, δ 2 ,..., δJ de la variable est non nul. On che rche donc à tester la nullité des J-1 paramètres :
δ1 = δ 2 = ... = δ J −1 = 0 (on a imposé δ J = 0 car on a choisi j = J comme catégorie de
référence). On conduit le test de la manière suivante. On estime le modèle avec la variable
x( k ) , et on en note la valeur de la log- vraisemblance. On réestime le modèle mais en
supprimant la variable x( k ) , c’est-à-dire en annulant les J-1 paramètres δ1, δ 2 ,..., δ J −1 . On note
la valeur de la log-vraisemblance. On calcule la statistique de test, en prenant l’opposé du
double de la différence entre les deux log- vraisemblances, et on la compare à la distribution
de la loi du χ 2 à J - 1 degrés de liberté. Si cette statistique est élevée, cela signifie que le
modèle contraint (c’est-à-dire celui où on a imposé aux paramètres d’être nuls) est trop
restrictif. Un des paramètres au moins n’est pas nul : la variable x( k ) a bien un effet.
2 - Effet d’une variable polytomique sur l’appartenance à la catégorie j (logit multinomial)
Soi M le nombre de modalités de la variable. Cette variable est remplacée, dans le modèle, par
M - 1 variables binaires (voir I.1.a). Dès lors, tester l’effet de la variable polytomique, c’est
tester la nullité simultanée des M - 1 paramètres attachés aux M - 1 variables binaires. On se
ramène alors au même type de test que l’exemple précédent. La valeur de la statistique de test
est à comparer avec la distribution du χ 2 à M - 1 degrés de liberté.

Test entre deux modèles non emboîtés


On l’a vu, tester la nullité d’un ou de plusieurs paramètres, c’est départager deux modèles
emboîtés. On peut aussi chercher à départager deux modèles non emboîtés. Le test est dû à
Ben-Akiva et Swait (voir Ben-Akiva et Lerman, 1985). Il repose sur le coefficient ρ 2 (voir
(22) supra). Soit 1 et 2 deux spécifications non emboîtées du modèle. Sous l’hypothèse nulle
que le modèle 1 est le « vrai » modèle, alors l’inégalité suivante est asymptotiquement
vérifiée :
{ }
Pr( ρ22 − ρ12 > z ) ≤ Φ − [ −2 z ln L0 + ( K2 − K1)]1/ 2 , z > 0

où K1 (resp K 2 ) est le nombre total de paramètres du modèle 1 (resp modèle 2), et Φ la


fonction de répartition de la loi normale centrée réduite. Si tous les individus ont le même
nombre J de choix possibles, alors l’inégalité s’écrit :
{ }
Pr( ρ22 − ρ12 > z ) ≤ Φ − [−2n z ln J + ( K 2 − K1)]1/ 2 , z > 0 (24)
Si on retient le modèle qui a le ρ 2 le plus grand, la quantité à droite du signe d’inégalité est
une borne supérieure de la probabilité de se tromper en choisissant le modèle avec le plus
grand ρ 2 .

25
I.6 - Présentation et interprétation des résultats d’un logit multinomial
Dans un modèle linéaire classique où la variable continue y est expliquée par des varia-
bles x( k ) ( y = β0 + β1x(1) + ... + β K x( K ) + u ), les paramètres βk sont facilement interprétables.
Par exemple, si x( k ) est continue, βk mesure l’effet, sur y, de l’augmentation d’une unité de
x( k ) : βk = ∂y / ∂x( k ) . Le paramètre βk nous renseigne à la fois sur le sens de l’évolution de y
(le signe de βk nous indique si y augmente ou diminue) et sur son amplitude (mesurée par la
valeur de βk ).
Dans un logit multinomial, où c’est la probabilité d’appartenance à une catégorie qui est
expliquée par les variables x( k ) , les paramètres sont beaucoup plus difficiles à interpréter.
Même la forme linéaire (4) du modèle ne résoud pas le problème.
En effet, en dérivant (4) par rapport à x( k ) supposée continue, on obtient :
∂ ln[ P( j x ) / P( J x )] ∂ ( P( j x) / P( J x)) 1
βkj = = (25)
∂x( k ) ∂x( k ) P( j x) / P( J x )
Le paramètre βkj est égal, au facteur 1/[ P( j x) / P( J x)] près, à la dérivée du rapport des
probabilités P( j x) / P( J x ) . Il nous renseigne seulement sur le sens de l’évolution de ce
rapport lorsque x( k ) augmente d’une unité, mais pas sur son amplitude. Il ne nous apporte
aucune information sur l’évolution de la seule probabilité P( j x) . Pour le voir, il suffit de
dériver (2) :
∂P ( j x )  J

= β kj − ∑ βkh P( h x ) P( j x) (26)
∂x( k )  h=1 
Cette dérivée dépend des valeurs de toutes les variables explicatives. Autrement dit, l’effet de
x( k ) sur P( j x) varie d’un individu à l’autre. Bien plus, (26) montre que les signes de βkj et
de ∂P( j x) / ∂x( k ) peuvent être opposés, du moins si J > 2. Cette situation est due à la nécessité
d’imposer au modèle une condition d’identification et, par voie de conséquence, de définir
une catégorie de référence, à laquelle toutes les autres catégories doivent être comparées
(supra I.1.a). En d’autres termes, ce qui est pertinent pour le logit multinomial est le rapport
P( j x) / P ( J x ) et non la seule probabilité P( j x) . Ceci ne se produit pas avec le logit
conditionnel, où, au moins, les paramètres renseignent sur le sens des évolutions des
différentes probabilités de choix lorsqu’une variable explicative augmente (supra I.1.b).
Notons toutefois que dans le cas du logit dichotomique (J = 2), (26) devient :
∂P (1 x)  2

= βk1 − ∑ βkh P( h x ) P(1 x ) = βk 1 [1 − P(1 x) ] P(1 x )
∂x( k )  h =1 
Dans un logit dichotomique, le paramètre et la dérivée de la probabilité sont du même signe.
On est confronté au même problème d’interprétation des paramètres lorsque x( k ) est une
variable binaire, codée 0/1. En effet, en partant de (4), on obtient :
 P ( j x, x(k ) = 1) / P( J x , x( k ) = 1) 
βkj = ln  
 P( j x , x( k ) = 0) / P( J x , x( k ) = 0) 

P( j x, x( k ) = 1) / P ( J x, x( k ) = 1)
c’est-à-dire : = exp[ β kj ] (27)
P( j x, x(k ) = 0) / P ( J x, x( k ) = 0)
Le rapport à gauche du signe d’égalité est appelé odds ratio (ratio des risques relatifs). Là
encore, il faut systématiquement rapporter la catégorie j à la catégorie de référence.
Le problème se complique lorsque la variable explicative est une variable qualitative
ayant plus de deux modalités, puisqu’il faut imposer, à la variable, une modalité de référence,

26
à laquelle toutes les autres modalités de la variable doivent être comparées (voir I.1.a). Dans
ce cas, la lecture des résultats doit « gérer » deux références : la catégorie de référence, et la
modalité de référence de la variable explicative.

On aimerait pourtant pouvoir “se passer” de la catégorie de référence, avoir une mesure
de l’effet d’une variable sur l’appartenance à la catégorie j, sans devoir rapporter celle-ci à la
référence.
Une première solution consiste à comparer systématiquement les catégories deux à deux,
grâce à la propriété (5). Il faut alors mener J × ( J − 1) / 2 comparaisons. Mais elle n’est pas
viable lorsque J est élevé, car le nombre de comparaisons devient trop important, ce qui rend
difficile une présentation synthétique des résultats.
La seconde solution consiste à calculer des « effets moyens ». Les calculs dépendent de la
nature de la variable.
• Si la variable explicative est continue, on obtient les « effets moyens » de x( k ) sur les
P( j x) en calculant les dérivées des probabilités (26) pour chaque individu de
l’échantillon, et en prenant la moyenne sur l’échantillon.
• Si la variable est qualitative, les « effets moyens » sont estimés par des différences de
probabilités prédites. Prenons le cas général d’une variable x( k ) ayant M modalités. Elle est
en fait représentée par M variables binaires (voir I.1.a). On procède alors comme suit. Pour
chaque individu de l’échantillon, on calcule M × J probabilités prédites par le modèle, en
remplaçant dans les expressions (3) les paramètres par leurs valeurs estimées et en prenant
successivement (1,0,0,…,0), (0,1,0,…,0),…, (0,0,…,1) comme valeurs de x( k ) , toutes les
autres variables explicatives restant fixées à leurs valeurs. On calcule ensuite les M × J
probabilités moye nnes en prenant les moyennes, sur l’échantillon, de ces M × J
probabilités prédites individuellement. On obtient ainsi des « probabilités prédites
moyennes » pour les différentes modalités de x( k ) . L’« effet moyen » de la modalité m par
rapport à la modalité de référence de la variable s’estime par la différence entre la
probabilité prédite pour m et celle prédite pour la modalité de référence.
Dans le cas particulier où la variable qualitative x( k ) est binaire (M = 2), x( k ) est une
variable binaire qu’on aura codée en 0/1. La différence entre les deux probabilités prédites
pour chaque individu ressemble à la dérivée de la probabilité P( j x) par rapport à x( k )
lorsque x( k ) est continue. On a, en effet, en notant Pˆ ( j x( k ) = 0, x) et Pˆ ( j x( k ) = 1, x) les
deux probabilité prédites :
∆Pˆ ( j x( k ) , x )
Pˆ ( j x( k ) = 1, x) − Pˆ ( j x( k ) = 0, x ) =
∆x( k )

Une troisième solution, valable pour tout type de variable, est de calculer J probabilités
prédites à partir des expressions (3), en remplaçant les paramètres par leurs valeurs estimées
et en affectant à x des valeurs particulières. On peut, par exemple, choisir pour x les valeurs
moyennes des variables calculées sur l’échantillon, et récupérer ainsi des probabilités prédites
au point moyen de l’échantillon : Pˆ ( j x ) . Toutefois, à cause du caractère non linéaire du
modèle logit, ces probabilités prédites au point moyen peuvent être très éloignées de la
moyenne des probabilités prédites individuellement et donc des répartitions empiriques
calculées sur l’échantillon (voir (19) supra). Pour cette raison, on ne retiendra pas ici cette
solution.

27
I.7 - La propriété IIA
Soit j1 et j 2 deux choix parmi tous ceux offerts à l’individu. De (15) et (16), on déduit :
P( j1 x) exp[V j1 ( x )] exp[ z j1 γ + wδ j1 ]
= = .
P( j 2 x) exp[V j2 ( x)] exp[ z j2 γ + wδ j2 ]
Le rapport des probabilités de deux choix j1 et j 2 ne dépend donc pas des autres choix (de
leur nombre, de leur contenu, etc) offerts à l’individu et qui n’ont pas été retenus dans
l’arbitrage entre j1 et j 2 . Cette propriété est appelée, dans la littérature anglo-saxonne,
Independence from Irrelevant Alternatives (IIA), qu’on peut traduire approximativement par
« indépendance par rapport aux choix non retenus ».
Dans certaines occasions, elle est trop restrictive pour modéliser correctement un
comportement, comme le montre l’exemple suivant, connu sous l’appellation « bus bleu/bus
rouge » et qui est dû à Debreu (1960).
Supposons que, pour se transporter d’un endroit à l’autre, les individus aient le choix
entre la voiture et un bus bleu, et supposons que ce choix leur soit indifférent. On a donc
Pv = Pbb = 1/ 2 si bien que Pv / Pbb = 1 . Supposons maintenant que la compagnie de bus
introduise des bus rouges, et supposons que les individus ne soient pas sensibles à la couleur :
Pbb / Pbr = 1 . Le ratio Pv / Pbb , qui ne dépend pas des autres choix possibles, reste égal à 1. La
seule possibilité pour Pv , Pbb et Pbr de vérifier à la fois Pv / Pbb = 1 et Pbb / Pbr = 1 est :
Pv = Pbb = Pbr = 1/ 3 . Or, puisque les individus ne préfèrent pas la voiture au bus et qu’ils sont
indifférents à la couleur du bus, on doit s’attendre à avoir Pv = 1 / 2 et Pbb = Pbr = 1 / 4 . Par
conséquent, le logit surestime la probabilité de prendre un bus et sous-estime la probabilité de
prendre la voiture.
Dans cet exemple, la propriété IIA n’est pas valide parce qu’en réalité deux des choix
proposés sont très proches l’un de l’autre. Ils partagent de nombreuses caractéristiques12 . Un
modèle de comportement plus réaliste tiendrait compte du fait que l’individu prend sa
décision à la fois sur des caractéristiques communes à des choix qui sont proches par nature,
et des critères spécifiques à chaque choix offert. Ainsi, il préfère voyager d’une manière
générale en bus (car il se fatigue moins, peut utiliser son temps de tra,sport pour lire, …) et
arbitre entre le bleu et le rouge selon ses goûts de couleur.

La propriété IIA est parfois dénommée hypothèse IIA. Cela provient du fait que Luce
(1959) a fondé un modèle de choix, appelé modèle de Luce, sur un ensemble d’axiomes, dont
le principal est précisément l’axiome IIA : le rapport des probabilités de choisir entre j1 et j 2
est le même quel que soit le sous-ensemble des choix contenant au moins j1 et j 2 . Il a alors
montré qu’il existe une fonction V telle que la probabilité de choisir a dans l’ensemble S
s’écrive :
exp[ V ( a)]
PS (a ) =
∑ exp[V (b)]
b∈S

On retrouve l’expression d’un logit multinomial. Marschak (1960) a montré qu’une condition
suffisante pour que le modèle de Luce soit équivalent au modèle de maximisation de l’utilité
(modèle RUM : voir I.2) est que V soit une utilité aléatoire avec des résidus indépendants et
identiquement distribués selon la loi extreme-value de type I.

12
Cette perspective rejoint celle de Lancaster (1966), qui considérait que ce ne sont pas les biens eux-mêmes
mais leurs caractéristiques qui sont sources directes d’utilité.

28
Une remarque importante. L’indépendance des résidus est une condition suffisante, mais
non nécessaire, pour que l’axiome IIA conduise à un modèle de choix RUM. En d’autres
termes, les choix peuve nt être dépendants tout en ne violant pas l’axiome IIA. De Palma et
Thisse (1987) reprennent un exemple de Strauss (1979) qui montre qu’un modèle de choix
ayant la structure du logit multinomial peut être obtenu avec des utilités aléatoires
positivement corrélées. Cette propriété sera exploitée dans le logit emboîté (nested logit).

L’hypothèse IIA peut être testée. L’idée du test proposé par Hausman et McFadden
(1984) est que, si la propriété IIA est valide, alors les paramètres des modèles logit estimés
sur différents sous-ensembles de l’espace total des choix ne doivent pas être statistiquement
différents.
Soit alors C l’espace total des choix. Soit A un sous-ensemble de C. Soit β̂C et β̂ A les
valeurs des paramètres des deux logit estimés respectivement sur C et A. Soit V̂C et V̂A les
matrices de variance-covariance correspondantes des deux modèles. Certains paramètres
peuvent être estimés sur C mais pas sur A. Par exemple, supposons que C soit constitué des
choix {1,2,..., J } et A des choix { 2,..., J }. Supposons, pour fixer les idées, que les variables
explicatives du modèle soient des caractéristiques de l’individu. Les paramètres de ces
variables associés au choix 1 peuvent être identifiés et estimés sur C. En revanche, ils ne
peuvent pas être identifiés (donc estimés) sur A, puisque par définition de A on n’observe pas
d’individu choisissant l’option 1. Il faut donc les exclure de β̂C si on veut comparer les
paramètres estimés sur C et ceux estimés sur A. L’ensemble des paramètres β̂C est donc
remplacé par le sous-ensemble βˆ C ' . Soit alors VˆC ' la sous-matrice de V̂C correspondant à cette
restriction.
Le test est construit sur l’idée suivante. Si l’hypothèse IIA est valide, βˆ C ' et β̂ A sont tous
deux convergents. βˆ C ' est efficace mais β̂ A ne l’est pas à cause de la perte d’information due
à la suppression d’un (ou plusieurs) choix. Par conséquent, la matrice VˆA − VˆC ' est définie
positive. La statistique de test est alors :
S = (βˆ − βˆ )' (Vˆ − Vˆ ) −1 (βˆ − βˆ )
C' A A C' C' A (28)
Sous l’hypothèse nulle que la propriété IIA est valide, cette statistique suit la loi du χ 2 dont le
nombre de degrés de liberté est égal au rang de la matrice VˆA − VˆC ′ .
Dans la pratique, on choisira A en excluant de C un choix qui ressemble à un autre
présent dans A. Dans l’exemple du bus bleu/bus rouge, c’est le bus rouge ou le bus bleu qui
doit être exclu. Le test conduira (très probablement) au rejet de l’hypothèse IIA.
Si on ne peut rejeter l’hypothèse nulle sur une seule configuration de A, cela ne prouve
pas que la propriété IIA soit valide. Il faut répéter le test sur les autres sous-ensembles
possibles de C. Si l’hypothèse nulle est rejetée, alors il faut se tourner vers d’autres
spécifications possibles, appartenant à la famille des modèles logit : les logit emboîtés (nested
logit) ou, plus généralement, les modèles logit fondés sur la loi extreme-value généralisée
(modèles logit GEV) ; les modèles logit à paramètres aléatoires (mixed logit).

29
I.8 - Le modèle logit emboîté (nested logit)
Supposons que les choix offerts à l’individu puissent être regroupés selon leurs
ressemblances, c’est-à-dire de telle sorte que tous les choix d’un même groupe partagent une
qualité que l’on ne retrouve pas dans les autres groupes. Pour reprendre l’exemple de la
section précédente, les bus bleu et rouge sont tous deux un moyen de transport collectif,
contrairement à la voiture. Supposons maintenant que, pour prendre sa décision, l’individu se
fonde non seulement sur les caractéristiques particulières de chaque choix qui lui est offert,
mais aussi sur les qualités partagées par les différents choix d’un même groupe. Par exemple,
l’individu choisit le bus bleu parce qu’il préfère les transports collectifs, qui le fatiguent
moins que la voiture, et, plus accessoirement, parce que la couleur du bus rouge ne lui plaît
pas. Un modèle logit emboîté (nested logit) permet de modéliser une telle prise de décision.
Pour éviter une présentation trop lourde, on se limite ici à un modèle à deux niveaux de
décision. Le modèle logit emboîté n’en restreint pas a priori le nombre, même si un modèle en
impliquant plus de trois a peu d’applications pratiques 13 .
Soit alors L le nombre de groupes (nests) résultant de la partition de l’espace des choix.
Dans chaque groupe l , il y a J l choix possibles, indicés par j (l) . Au total, l’individu a donc
J = J1 + J 2 + ... + J L options possibles, indicées par j. Le processus de décision peut être
représenté par un arbre à deux niveaux14 . Le niveau agrégé, le niveau 2 15 , représente la
répartition de tous les choix possibles en différents groupes. Le niveau le plus fin, le niveau 1,
représente les choix à l’intérieur de chaque groupe. Lorsqu’un des groupes n’en cont ient
qu’un, on dit que modèle est partiellement dégénéré. Le schéma suivant donne l’exemple d’un
arbre où L = 2, et où le groupe l = 1 contient 2 choix possibles ( J 1 = 2 ) et le groupe l = 2 en
contient 3 ( J 2 = 3 ).

l =1 l=2 niveau 2

1(1) 2(1) 1(2) 2(2) 3(2) niveau 1

On note xl les variables décrivant les qualités communes aux choix d’un même groupe. Leurs
valeurs peuvent varier d’un groupe à l’autre, mais ne le doivent pas d’un choix à l’autre d’un
même groupe. On note x j (l ) les variables caractéristiques de chaque choix. Elles
interviennent au niveau 1. On note x l’ensemble des variables explicatives.

Pour interpréter le logit emboîté comme modèle de choix discrets, on se place dans le
cadre de l’utilité stochastique (voir supra I.2). On suppose que la fonction d’utilité indirecte
du choix j se décompose en une partie qui caractérise le groupe et ne varie pas d’un choix à
l’autre d’un même groupe, et d’une partie pouvant varier d’un choix à l’autre du même
groupe :
V j = V j + ε j = Vl + V j (l) + ε j
13
Pour un logit emboîté à trois niveaux, voir par exemple Hensher et Greene (2002). Voir aussi Train (2002).
14
Une remarque sur la terminologie. On évitera l’appellation de logit séquentiel pour qualifier un logit emboîté,
qui pourrait faire penser que le processus de décison doit être séquentiel pour être modélisé par un logit emboîté.
Si séquence il y a, elle est plutôt dans la démarche du modélisateur.
15
On a retenu la numérotation des niveaux qui figure dans la procédure Mdc du logiciel SAS.

30
où ε j est la partie stochastique de l’utilité. On suppose que ( ε1 , ε 2 ,..., ε J ) est distribué selon
une loi particulière, dont la fonction de répartition est :
 L  Jl λl

 −ε j / λ l  
F ( ε1, ε 2 ,..., ε J ) = exp − ∑  ∑ e
 
 
(29)
 l =1 j=1
   
McFadden (1978) 16 a montré que cette distribution permettait d’écrire un modèle de choix
discrets découlant de la maximisation de l’utilité (modèle RUM : supra I.2). La probabilité de
choisir j s’écrit :
λ l −1
 Jl 
exp(V j / λ l ). ∑ exp(V j ( l ) / λ l ) 
P( j x) =  j=1  (30)
λl
L  Jl 
∑  ∑ exp(V j ( l) / λ l ) 
l=1  j =1 
C’est l’expression du logit emboîté à deux niveaux. McFadden (1978) a établi qu’une
condition nécessaire et suffisante pour que le logit emboîté puisse être considéré comme un
modèle RUM de choix discrets est que 0 < λl ≤ 1 . Par conséquent, si l’estimation du modèle
donne un paramètre λ l strictement supérieur à 1, alors la spécification est erronée et il faut
changer de modèle.
Dans ce modèle, les parties aléatoires des utilités ont une structure particulière de
corrélation. Les résidus ε j correspondant à deux choix d’un même groupe l sont corrélés, et
chaque paramètre λ l mesure leur degré d’indépendance : plus λ l est élevé, moins les choix
du groupe l sont corrélés. Attention ! La quantité 1 − λ l n’est pas égale au coefficient de
corrélation.
On notera que si j1 et j 2 sont dans le même groupe, alors :
P( j1 x ) exp( V j1 / λl )
= (31)
P ( j 2 x) exp( V j1 / λl )
Le modèle de choix dans le groupe l est donc un logit multinomial17 . Par conséquent, les
choix modélisés par un logit emboîté, lorsqu’ils appartiennent à un même groupe, vérifient la
propriété IIA tout en étant corrélés entre eux. Enfin, si tous les λ l sont égaux à 1, on retrouve
le modèle logit multinomial.

On suppose maintenant que Vl et V j (l ) sont des combinaisons linéaires des variables


explicatives. L’utilité indirecte V j s’écrit donc :
V j = xl β + λ l x j( l )βl (32)
avec λ l > 0 . On peut toujours écrire (32) sous cette forme, c’est-à-dire introduire une
constante λ l , car cela revient à normer βl . Par ailleurs, on peut écrire la probabilité P( j x)
comme le produit de deux probabilités :
P( j x) = P(l x). P( j (l ) x j ( l) ) (33)

où P( l x) est la probabilité (marginale) de choisir un des L groupes, c’est-à-dire de faire un


choix quelconque parmi les différentes possibilités du groupe l , et où P( j ( l) x j( l ) ) est la

16
Trois autres auteurs l’ont aussi montré, indépendamment de McFadden. Il s’agit de Williams (1977) et de Daly
et Zachary (1979).
17
Dans cette section, on emploie le terme de multinomial dans son sens élargi, pour qualifier un modèle logit
multinomial/conditionnel.

31
probabilité (conditionne lle) de choisir une option et une seule, étant donné que cette option
fait partie du groupe l . D’après (31), la probabilité conditionnelle de faire le choix j (l) est
un logit multinomial :
exp( x j (l )βl )
P( j ( l) x j (l ) ) = J l (34)
∑ exp( x j( l )βl )
j =1

En réécrivant (33) et faisant apparaître (34), on obtient (voir Train (2002)) :


exp( xl β + λ l I l )
P( l x) = L (35)
∑ exp( xlβ + λ l Il )
l=1

où :
Jl
I l = ln ∑ exp( x j ( l) βl ) (36)
j =1

est appelée « variable d’inclusion » (inclusive value). Finalement, la probabilité P( j x) est le


produit de deux logit.
La décomposition (33) suggère d’estimer le modèle en deux étapes. On estime d’abord,
pour chaque groupe, le logit multinomial (34) qui lui correspond. On récupère les valeurs
estimées des paramètres pour calculer les variables d’inclusion (36). La deuxième étape
consiste à estimer le modèle (35) après avoir introduit les variables d’inclusion calculées lors
de la première étape.
La méthode en deux étapes présente plusieurs défauts. D’une part, les écarts-type calculés
lors de l’estimation du modèle en deuxième étape doivent être corrigés. D’autre part, la
méthode en deux étapes est moins efficace que l’estimation, en une seule fois, du modèle
complet. On préférera donc cette seconde méthode. On notera toutefois que la maximisation
peut être parfois difficile, car la fonction de vraisemblance n’est pas globalement concave. Si
la convergence est difficile, il faut essayer différents algorithmes d’optimisation. Par ailleurs,
pour s’assurer que le maximum atteint n’est pas un maximum local, on a intérêt à prendre
d’autres valeurs initiales des paramètres.
Lorsque le modèle est partiellement dégénéré, c’est-à-dire lorsqu’au moins un groupe ne
contient qu’un choix, la variable d’inclusion est indéterminée. Il faut alors imposer une
restriction au(x) paramètre(s) λ l correspondants. Une possibilité est de le (ou les) fixer à 1 18 .
On peut calculer, après estimation des paramètres, des effets des variables explicatives
sur les probabilités de choix. Ces calculs dépend ent des hypothèses de spécification qui auront
été retenues. En tout état de cause, le plus simple est de partir de (33) :
∂ ln P( j x ) ∂ ln P (l x) ∂ ln P( j (l ) x j( l ) )
= + (37)
∂x( k ) ∂x( k ) ∂x( k )
et de remplacer P( j ( l) x j( l ) ) et P( l x) par leurs expressions (34) et (35).

Les modèles logit emboîtés posent des problèmes pratiques de spécification. D’abord,
l’utilisation d’un logit emboîté n’est justifiée que si on dispose de variables xl
caractéristiques des groupes. Sinon, il se posera un problème d’identification des effets des
différentes variables. Ensuite, même en supposant que l’on dispose de ces variables xl , on

18
Cette normalisation repose sur l’idée qu’un logit emboîté dont tous les choix de niveau 2 sont dégénérés est un
logit multinomial. D’autres normalisations sont possibles (voir Hunt, 2000).

32
peut hésiter dans la manière de définir les différents groupes, c’est-à-dire de partitionner
l’espace des choix.
Notons enfin que le logit emboîté est un cas particulier d’une famille plus générale de
modèles, appelés modèles GEV (Generalized Extreme-Value). Ils s’appuient sur la
distribution GEV, définie par :
F ( ε1, ε 2 ,..., ε J ) = exp[ −G (e − ε1 , e − ε 2 ,..., e − ε J )]
où G est une fonction positive ou nulle quelles que soient les valeurs de ses arguments,
homogène de degré 1, qui devient infinie lorsqu’un de ses arguments tend vers l’infini, et dont
les dérivées partielles vérifient certaines propriétés (voir McFadden (1978), Maddala (1983),
Train (2002)). McFadden a montré qu’on peut définir un modèle de choix discrets découlant
de la maximisation d’une utilité dont la partie stochastique suit une loi GEV. Les probabilités
de choix sont données par :
exp(V j ).G j ( eV1 , eV2 ,..., eVJ )
Pj =
G( eV1 , eV2 ,..., eVJ )
où G j est la dérivée partielle de G par rapport à son j ième argument. Le cas particulier :
J
G(Y1, Y2 ,..., YJ ) = ∑ Y j
j =1

correspond au logit multinomial. Le cas :


λl
 J l (1/ λ l ) 
L
G(Y1 , Y2 ,..., YJ ) = − ∑  ∑ Y j 

l=1  j =1 
correspond au logit emboîté.

33
I.9 - Le modèle logit à paramètres aléatoires (mixed logit)
Le modèle logit à paramètres aléatoires (mixed logit dans la littérature anglo-saxonne 19 )
est un modèle de plus en plus utilisé par les économistes s’intéressant aux choix discrets. La
raison de son succès est sa grande flexibilité. McFadden et Train (2000) ont montré que tout
modèle de choix discrets découlant de la maximisation d’une utilité stochastique (modèle
RUM : supra I.2) peut être approché, avec toute la précision voulue, par un modèle logit à
paramètres aléatoires, sous réserve d’un choix approprié des variables et d’une spécification
adéquate de la loi de distribution des paramètres.
Le modèle est spécifié de la manière suivante. L’utilité V j du choix j se décompose en
une partie déterministe V j et une partie aléatoire ε j . La partie déterministe est une fonction
de caractéristiques observées x des individus ou des choix, paramétrée par α :
V j = V j ( x ; α) + ε j
Les paramètres α sont considérés comme aléatoires. Ils suivent une loi dont la fonction de
densité est f. Les ε j sont indépendants et identiquement distribués selon une loi extreme-
value de type I. Dès lors, si on fixe α , la probabilité du choix j (conditionnellement à α ) est
un logit multinomial :
exp[V j ( x ; α)]
P( y j = 1 x ; α) = J , pour j = 1,…, J

h =1
∑ exp[Vh (x ;α )]
La probabilité de faire le choix j est alors la moyenne pondérée des P( y j = 1 x ; α ) :
exp[ V j ( x ; α )]
P( y j = 1 x ) = ∫ P( y j = 1 x ; α) f (α) dα = ∫ J f (α) dα , pour j = 1,…, J
∑ exp[Vh (x ;α )]
h =1

Cette moyenne pondérée justifie l’appellation mixed logit : le modèle est une « moyenne » de
modèles logit (mixture of logit models). La fonction f est parfois appelée mixing distribution.

Le modèle a plusieurs interprétations, selon la spécification de V j ( x ; α ) . On peut par


exemple écrire l’utilité Vij ( x ; α) du choix j pour l’individu i sous la forme :
Vij ( x ; α) = xij α i
où x est un vecteur de caractéristiques des choix ou des individus. Le paramètre α représente
l’hétérogénéité des préférences des agents. Il varie d’un individu à l’autre. On spécifie alors
une loi de paramètres θ pour la distribution de α , que l’on estime pour en déduire la
moyenne et la variance des α i . Sous cette forme, le modèle est parfois appelé modèle à
coefficients aléatoires (random coefficients model).
Une autre écriture possible de l’utilité est :
Vij ( x, z ; β, η) = xijβ + zijηi
où z j sont exclusivement des caractéristiques des choix. Les z j peuvent être simplement les
termes constants spécifiques aux choix. Les paramètres ηi suivent une loi de moyenne nulle
et de variance-covariance Ω à estimer. Ceci revient à écrire l’utilité V j sous la forme :
Vij = xijβ + ζ ij
où ζ ij = z ijηi + εij est la partie stochastique de l’utilité, qui se compose donc de deux parties
aléatoires. Pour cette raison, le modèle est parfois appelé modèle à erreurs composées (error

19
La terminologie n’est pas fixée, et la traduction de mixed logit en logit à paramètres aléatoires est une
possibilité parmi d’autres.

34
components model). Ecrit sous cette forme, le modèle prend explicitement en compte la
corrélation des utilités d’un choix à l’autre. On a, en effet :
Cov( ζ h , ζ j ) = E( zh η + ε h ) E( z jη + ε j ) = z′h Ω z j .
Spécifier un tel modèle permet ainsi de lever l’hypothèse IIA, trop restrictive dans certains cas
de figure.

Le modèle mixed logit autorise donc de nombreuses spécifications. Les contreparties de


cette grande flexilibité sont, d’une part, des problèmes d’identification des différents
paramètres du modèle (Walker, 2002), d’autre part la complexité des procédures d’estimation
qui utilisent des techniques de simulation (voir Train (2002) pour davantage de détails).

35
Applications
Remarques générales préliminaires

36
Les parties II à IV sont toutes consacrées à la mise en œuvre des modèles logit
polytomiques. On a fait le choix de les rendre les plus autonomes possible de la première
partie, au risque de devoir réexposer certaines notions ou propriétés des modèles. Par
conséquent, le lecteur d’abord intéressé par l’application pratique des modèles pourra, du
moins dans un premier temps, se contenter de la section I.1. Il aura toujours l’occasion de
revenir sur les aspects théoriques des problèmes rencontrés grâce aux renvois qui sont faits
tout au long des parties pratiques.

On insiste davantage sur le logit multinomial, pour plusieurs raisons. D’abord, on a vu


que le logit multinomial peut être utilisé aussi bien comme technique d’analyse discriminante
que comme outil de modélisation de comportement, même si, sous ce deuxième aspect, il est
très imparfait. Son champ d’application est donc a priori très large. Ensuite, c’est de loin le
modèle le plus utilisé car le plus facile à mettre en oeuvre. Le logit conditionnel, par exemple,
nécessite d’avoir des données plus lourdes à collecter, notamment des caractéristiques de tous
les choix offerts à l’individu et pas seulement de celui qu’il a effectué. Enfin, les problèmes
pratiques de présentation des résultats que pose le logit multinomial nécessitent de lui
consacrer des développements relativement longs.
Les autres modèles sont traités beaucoup plus succinctement. Il s’agit simplement de
fournir au lecteur les quelques éléments indispensables à leur mise en œuvre pratique, libre à
lui d’en approfondir l’utilisation, en s’inspirant des développements plus théoriques de la
partie I.

Dans la partie II, on rappelle d’abord quelques unes des précautions à prendre dans le
choix des variables. Cette réflexion préalable à l’estimation d’un modèle est indispensable.
Elle conditionne la qualité de l’interprétation des résultats. On consacre ensuite quelques
paragraphes à la question de la présentation des résultats, qui reste épineuse surtout si on vise
un large public. Enfin, la section II.3 présente rapidement les trois procédures SAS utilisables,
et qui seront appliquées sur des données réelles dans les deux dernières parties. On a écrit
plusieurs macros, utilisant la procédure SAS de langage matriciel Iml (Interactive Matrix
Language), destinées à alléger les tâches de préparation des données et de présentation des
résultats. On a pris le parti de commenter en détail la première macro, pour permettre au
lecteur peu familier de la procédure Iml de mieux se l’approprier, quitte à le renvoyer à l’aide
en ligne de SAS pour de plus amples précisions.

Pour terminer, il va sans dire que les paragraphes consacrés au logit multinomial
s’appliquent aussi au logit dichotomique, pour lequel le nombre de modalités de la variable à
expliquer est J = 2. Les conseils donnés ici s’ajoutent donc à ceux figurant dans le document
traitant du logit dichotomique. 20

20
Voir Lollivier, Marpsat, Verger (1996) et Le Blanc, Lollivier, Marpsat, Verger (2001) pour une actualisation
récente.

37
II.1 - Remarques sur le choix des variables
Avant toute estimation, il faut avoir soigneusement spécifié son modèle, en particulier
avoir soigneusement choisi les variables explicatives. Ceci conditionne à la fois la robustesse
des résultats et la qualité de leur interprétation. Comme on va le voir, la principale difficulté
provient des variables qui décrivent, directement ou indirectement, un comportement.
En fait, le choix des variables explicatives dépend en grande partie de l’utilisation que
l’on fait du modèle. Si son objectif est de rendre compte, de manière essentiellement
descriptive, d’un état de fait, s’il s’agit d’analyser ce qui distingue les différentes catégories
définies par la variable dépendante, de rechercher leurs traits distinctifs, alors on pourra plus
facilement justifier l’introduction des variables de comportement parmi les variables
explicatives. Car un des produits attendus de l’analyse descriptive est de formuler des
hypothèses de travail sur les comportements des individus, davantage que de conclure
définitivement sur ces comportements. Ces hypothèses devront être testées avec d’autres
outils ou modèles. En revanche, si l’ambition du modèle est d’expliquer des comportements,
d’établir des relations causales, alors la sélection des variables devra être menée avec le plus
grand soin. Le cas échéant, on pourra être conduit à repenser le modèle, introduire par
exemple des équations annexes prenant en compte le caractère comportemental de la variable,
avec le risque d’aboutir à des modèles très difficiles à estimer.
Les exemples qui suivent vont illustrer ces différents points.

Une des premières précautions à prendre est de s’assurer que les variables explicatives
retenues sont bien … des variables explicatives. Supposons que, comme Schmidt et Strauss
(voir partie I, introduction), on ait à expliquer l’appartenance d’un salarié à une catégorie
professionnelle par un certain nombre de descripteurs socio-démographiques. Supposons que
l’on dispose du montant du salaire perçu par l’individu. Son introduction en variable
explicative n’a a priori pas de sens, puisque le montant est déterminé par le poste occupé,
donc par la catégorie professionnelle. Ce n’est pas le salaire qui explique l’appartenance à la
catégorie, mais la catégorie qui explique le montant du salaire. Deux remarques cependant.
Supposons que l’on connaisse les descripteurs socio-démographiques de tous les
individus de l’échantillon, mais que l’information sur la catégorie professionnelle à laquelle
appartient l’individu ait été perdue pour une partie de l’échantillon. On en a pourtant besoin.
La solution est de la « deviner » à partir des autres informations disponibles. Pour ce faire, on
l’« explique » au moyen d’un logit polytomique par les autres variables, sur la partie de
l’échantillon où on a toute l’information. Parmi ces autres variables, doit figurer notamment le
niveau de salaire. Sinon ce serait se priver d’une source d’information qui augmente la
capacité prédictive du modèle. Puis, sur l’autre partie de l’échantillon, on impute la catégorie
professionnelle à partir des valeurs prises par les autres variables, en utilisant les résultats du
modèle. Même s’il s’agit là d’un cas extrême, celui de l’imputation, cet exemple montre bien
que la sélection des variables dépend (aussi) de l’objectif de la modélisation.
Deuxième remarque, Boskin (1976) a bien utilisé le salaire comme variable explicative
(voir partie I). Mais il s’agissait - différence fondamentale - du salaire espéré, qui a été estimé
par une équation de gains annexe. C’est le salaire que l’employeur offre en moyenne, sur le
marché du travail, à un individu en fonction de sa qualification, son expérience, etc.
L’individu utilise cette information pour arbitrer entre les différents choix qui lui sont offerts.
Ce n’est pas donc pas une caractéristique de l’individu.

Bien d’autres exemples ne sont pas aussi simplistes que celui- là. Celui du mode de garde
d’un enfant en bas-âge est assez instructif.

38
On s’intéresse donc aux modes de garde utilisés par les mères actives occupées ayant un
jeune enfant à leur charge. Elles ont a priori plusieurs possibilités : le faire garder par une
assistante maternelle, en crêche, par une nourrice à domicile, ou utiliser un mode plus
informel (parents, autres membres du ménage). La variable « mode de garde » est une
variable discrète ayant, dans cet exemple, 4 modalités. On peut donc l’analyser au moyen
d’un modèle logit polytomique. Supposons alors que l’on connaisse le type d’activité de la
mère, que l’on sache si elle occupée à temps plein ou à temps partiel. Faut- il retenir le statut
d’occupation comme variable explicative du modèle ?
Si l’objectif est de caractériser finement les femmes selon le mode de garde qu’elles
utilisent, il n’y a pas a priori de raison d’exclure le type d’activité des variables explicatives.
On saura si, « toutes choses égales d’ailleurs », c’est-à-dire à même niveau de qualification,
même statut matrimonial, même lieu de résidence, etc, le fait de travailler ou non à temps
plein est lié à l’utilisation de tel mode de garde plutôt qu’un autre. Mais on s’interdira, avec
ce seul modèle, d’interpréter les résultats en termes de causalité, d’en déduire par exemple
que l’occupation à temps partiel expliquerait le choix d’un mode de garde particulier.
En effet, supposons, pour fixer les idées, qu’un des résultats du modèle soit que le travail
à temps partiel soit positivement corrélé à la probabilité d’utiliser un mode de garde informel
de préférence à tout autre mode. La tentation est de transformer cette corrélation en relation
causale et d’en déduire des préconisations du type : puisque le travail à temps plein favorise
les modes de garde non informels, il faut limiter les emplois à temps partiel au profit
d’emplois à temps plein pour les femmes, car cela amènera une plus forte utilisation des
modes de garde rémunérés, susceptible de créer de l’emploi dans ces services.
Ce type de préconisations repose sur des hypothèses implicites de comportement, qui
sont extrêmement fortes. Il suppose en particulier que la mère choisit d’abord son emploi
indépendamment de la question de la garde de son enfant, puis, une fois sa décision prise de
travailler ou non à temps partiel, choisit le mode de garde. En d’autres termes, il repose sur
l’hypothèse d’un processus séquentiel de décision. Or, la décision de travailler que la femme
va prendre à l’issue de son congé de maternité, va dépendre des possibilités de garde qui lui
seront offertes. Notamment, si elle n’a pas la possibilité, pour diverses raisons, de faire garder
son enfant par une nourrice ou dans une crêche, elle sera amenée à le confier à des proches.
Inversement, les différents modes de garde sont plus ou moins onéreux, et le choix va
dépendre des ressources financières du ménage, et en particulier du (futur) salaire de la
femme. Par conséquent, les choix du mode de garde et de l’emploi se font simultanément.
On voit bie n que le logit multinomial n’est pas adapté à cette hypothèse de décisions
jointes. Tout ce qu’il permet, à ce stade de l’analyse, est de formuler des hypothèses sur les
comportements d’activité et de choix de mode de garde. Pour les tester, il faudra alors utiliser
une autre modélisation. Une possibilité est de spécifier un modèle dont la variable dépendante
serait le croisement des deux choix discrets, « type d’activité » et « mode de garde ».

Autre exemple. On cherche à expliquer l’activité des individus, mesurée par une variable
discrète à 3 modalités (inactivité, chômage, emploi), grâce à des données d’enquête ayant
notamment recueilli l’opinion de ces individus sur leur état de santé. L’introduction de cette
variable comme facteur explicatif de la situation d’activité doit être discutée.
D’un côté, cette introduction paraît tout à fait justifiée. C’est a priori un déterminant fort
de l’activité. On peut être inactif pour raison (grave) de santé. Omettre cette variable risque de
produire des résultats biaisés. De l’autre côté, elle pose certains problèmes. Certains auteurs21
21
Voir, par exemple, Butler, Burkhauser, Mitchell, Pincus (1987), « Measurement error in self-reported health
variable », Review of Economics and Statistics, 69.

39
ont montré que les réponses fournies par les individus sur leur état de santé sont influencées
par la situation qu’ils vivent notamment sur le marché du travail. Ceux qui connaissent des
problèmes d’emploi auraient ainsi tendance à donner une image plus négative de leur état de
santé. D’autres auteurs 22 relativisent fortement ce biais potentiel et montrent que cette variable
déclarative est, tout compte fait, une bonne approximation d’un état de santé « objectif ».
Dans ces conditions, que faire ? Dans une optique descriptive, la réponse ne fait aucun
doute : il faut introduire la variable dans le modèle. Dans une optique plus explicative et
causale, l’introduction dépend de la problématique de l’étude. Si l’étude porte sur les relations
(structurelles) entre activité et, par exemple, consommation médicale, alors il faudra très
certainement spécifier un modèle plus complexe, traitant l’état de santé comme résultat d’un
comportement partiellement déterminé par l’activité. Si, par contre, l’état de santé est une
question relativement annexe par rapport à celle de l’activité, alors on pourra retenir la
variable, quitte à comparer les estimations des modèles avec et sans la variable « santé », en
arguant que, comme on l’a vu, il n’y a pas consensus sur les biais potentiels de l’état de santé
déclaré.

Les problèmes examinés précédemment sont, pour la plupart, liés à ce qu’on appelle
l’endogénéité de la variable explicative, susceptibles de se produire lorsque la variable décrit
un comportement ou le résultat d’un comportement 23 . A ce titre, il peut s’agir tout aussi bien
d’un comportement actuel et susceptible d’évoluer, que d’un comportement qui a eu lieu dans
le passé. Ainsi, le diplôme est potentiellement endogène, car son obtention est le résultat d’un
choix, contraint ou non, que l’individu a fait, dans le passé, pour se former, choix qui a été
déterminé par des facteurs plus ou moins identifiables (les capacités de l’individu, le contexte
familial, l’offre de formation disponible, etc).
Retenir une variable endogène comme variable explicative risque de biaiser les
paramètres estimés du modèle et de conduire à des erreurs, parfois lourdes, dans
l’interprétation des effets des différentes variables.
Vu sous cet angle, le problème est alors que (presque) toute variable individuelle est
potentiellement endogène : mis à part l’âge et le genre de l’individu (qui s’imposent et se sont
toujours imposés à lui !), on est bien en peine de fournir des exemples de variables exogènes.
Il n’est pas envisageable de ne retenir que des variables strictement exogènes dans un modèle,
car son pouvoir explicatif serait alors (extrêmement) médiocre. Il faut donc se résoudre à
introduire des variables potentiellement endogènes. Mais il faut le faire en connaissance de
cause, eu égard à la problématique de l’étude et à l’objectif du modèle. Par exemple, sauf si
l’étude est centrée sur les « rendements de l’éducation », c’est-à-dire les effets du diplôme
(sur le niveau d’activité, ou, dans le cadre linéaire, sur le salaire), on considèrera le diplôme
comme exogène. Autre exemple, la taille de l’agglomération de résidence de l’individu est
une variable potentiellement endogène, puisque la résidence actuelle de l’individu résulte
d’un choix, contraint ou non, de mobilité géographique. Toutefois, si la taille d’agglomération
est une variable de contrôle d’un phénomène plus central dans l’étude que la mobilité, cette
endogénéité potentielle n’est pas gênante.

22
Pour une revue de la littérature, voir Currie et Mondrian (1999), « Health, health insurance and the labor
market », in Ashenfelter and Card (eds), Handbook of Labor Economics, vol 3, Elsevier Science.
23
Pour une présentation plus complète et très pédagogique de ces problèmes, voir Robin (2000), et tout
particulièrement la partie 3 de son document. Voir aussi Lo llivier (2004).

40
II.2 - Remarques préliminaires sur la présentation des résultats d’un logit
multinomial
Il y a deux manières, non exclusives l’une de l’autre, de présenter les résultats. La
première consiste à transcrire les sorties imprimées des procédures en un tableau où sont
reportées les valeurs estimées des paramètres accompagnées d’indicateurs sur leur précision.
L’inconvénient de ce mode de présentation est qu’il faut un minimum de connaissances
statistiques et économétriques pour le lire facilement. Il est donc peu accessible à un large
public. De plus, les commentaires des résultats ainsi produits sont nécessairement assez lourds
puisqu’on doit faire mention, systématiquement, de la catégorie de référence (voir I.1.a).
Ainsi, on ne peut pas dire, par exemple, que « l’âge a un effet positif sur la probabilité d’être
cadres ». Il faut faire référence, dans l’interprétation des résultats, à la catégorie choisie
précisément comme référence. On dira ainsi, si on a pris les ouvriers comme catégorie de
référence, que « l’âge a un effet positif sur la probabilité d’être cadres plutôt qu’ouvriers ».
On peut fournir alors un deuxième type de tableau, celui donnant les effets estimés, par le
modèle, des variables explicatives sur les probabilités d’appartenance aux différentes
catégories. Ce tableau est plus “parlant” que le tableau des paramètres. Autre avantage, il ne
fait plus apparaître la catégorie qui a été choisie comme référence pour l’estimation. On peut
donc s’en passer pour le commenter. En revanche, il ne renseigne pas directement sur la
précision de la mesure de ces effets.

Comme pour les autres modèles économétriques, le calcul des effets et la lecture des
résultats dépendent du type de variable. Ce ne seront pas les mêmes selon que la variable est
continue (l’âge), binaire (le genre), polytomique ordonnée (le diplôme) ou polytomique non
ordonnée (la configuration familiale).
Les variables continues soulèvent a priori le moins de difficultés. Elles posent toutefois
un problème qui leur sont propre. En effet, supposons, par exemple, que l’âge se révèle avoir
un effet sur la variable à expliquer, effet qu’on peut calculer par les dérivées partielles des
probabilités (voir I.6). Mais avoir introduit uniquement la variable d’âge peut être insuffisant.
Car il se peut que l’âge ait un effet non linéaire sur les probabilités d’appartenance aux
différentes catégories. Il se peut, par exemple, que l’effet de l’âge sur l’appartenance à telle ou
telle catégorie soit important quand l’individu est jeune et qu’il le soit moins pour le s âges
plus élevés. Pour prendre en compte ce fait, on peut introduire dans le modèle, en plus de la
variable age, l’âge élevé au carré, age². Ce faisant, le calcul d’un effet moyen de l’âge n’a
plus de sens puisqu’on veut mettre en évidence le fait que l’effet dépend de l’âge. Il existe
toutefois une solution alternative, qui est de discrétiser la variable d’âge, de la découper en
tranches. On la transforme en variable polytomique ordonnée. Mais cette solution a aussi des
inconvénients. D’abord, le choix des tranches n’est pas toujours évident. Ensuite, puisqu’il
s’agit d’un variable polytomique, on est obligé de définir une modalité de référence (voir
section I.1.a), et on se retrouve alors à « gérer » deux références : la catégorie de référence, et
la modalité de référence de la variable explicative. Enfin, une troisième solution existe, qui
consiste à transformer la variable en une fonction linéaire par morceaux (voir Le Blanc,
Lollivier, Marpsat , Verger (2001), p 50).
Les variables polytomiques posent le problème du choix de leur modalité de référence.
Lorsqu’elles sont ordonnées, le choix est moins difficile. Dans ce cas, en effet, on a très
souvent intérêt à prendre comme référence la modalité la plus basse. On peut alors commenter
les résultats concernant les variables polytomiques comme s’il s’agissait de variables
continues. Dans le cas de variables non ordonnées, ceci n’est pas possible, puisque leurs
modalités ne présentent pas d’ordre « naturel ». Il faut alors essayer de choisir une modalité

41
de référence qui ait un sens comme point de comparaison pour les autres modalités. Le choix
se fera notamment en fonction de la problématique de l’étude. Mais cela n’est
malheureusement pas toujours possible.

42
II.3 - Brève présentation des procédures SAS
II.3.a - Version 6 de SAS
La procédure Catmod (CATegorical data MODeling) est la seule procédure de la version
6 de SAS qui puisse estimer un logit multinomial. Bien qu’elle soit dédiée à l’analyse de
données catégorielles et particulièrement à l’estimation de modèles log-linéaires, elle peut être
adaptée à moindre coût pour le logit multinomial (Allison, 1999).
Dans la table en entrée de la procédure, l’individu est décrit par une seule observation. La
variable à expliquer (la catégorie socio-professionnelle par exemple) peut prendre n’importe
quelle valeur, numérique ou caractère. Les variables explicatives doivent être continues ou
binaires.
Les paramètres estimés peuvent être conservés dans une table créée par une option de la
procédure.
Un des ses inconvénients est qu’elle ne fournit pas d’indicateurs de qualité de
l’ajustement du modèle aux données.
II.3.b - Version 8 de SAS
La version 8 de SAS apporte deux nouvelles procédures. La première, Qlim (pour
qualitative limited dependent variable), est disponible dès la version 8.01 de SAS. Elle a
vocation à estimer d’autres modèles que les logit polytomiques, notamment des modèles
Tobit simples ou généralisés (Amemiya, 1985). Toutefois, son exécution se heurte, en tout cas
dans les versions 8.01 et 8.02, à plusieurs problèmes techniques, si bien qu’elle est toujours
expérimentale dans la version 8.02. La seconde procédure est Mdc (multinomial discrete
choice). Elle est, comme son nom l’indique, spécifiquement dédiée aux modèles de choix
discrets. Elle permet d’en estimer de nombreux types. Elle n’est cependant disponible qu’à
partir de la version 8.02.
Si leurs syntaxes se ressemblent, les deux procédures diffèrent sur les types de modèles
qu’elles sont capables d’estimer, sur leur facilité d’utilisation et sur leur mode de sortie des
résultats.
Les différents modèles estimables
Ils sont définis par l’option type de l’instruction model de chacune des deux procédures :
• pour estimer un logit multinomial (au sens strict), on prend type = mlogit avec Qlim et
type = clogit avec Mdc.
• pour estimer un logit conditionnel, type = clogit avec Qlim (version 8.01) et avec Mdc. La
version 8.02 de Qlim n’estime plus de logit conditionnel.
• pour estimer un logit emboîté, type = nlogit pour Mdc. La procédure Qlim n’estime pas
de logit emboîté.
• pour estimer un logit à coefficients aléatoires, type = mixedlogit uniquement avec Mdc.
Toutefois, sur le plan pratique l’estimation n’est possible qu’avec des échantillons de
toute petite taille, car la procédure est excessivement gourmande en mémoire.
Les modalités d’utilisation
Sur le plan de la facilité d’utilisation, la grande différence entre les deux procédures
concerne l’estimation du logit multinomial (au sens strict). La procédure Qlim est la plus
aisée d’emploi. Si l’individu est décrit par une seule observation, il n’y a pas de tranformation
majeure à faire des données. En revanche, la procédure Mdc exige une préparation
particulière des données. Il faut pour chaque individu créer autant d’observations qu’il y a de
choix possibles. Cela provient du fait que la procédure Mdc estime indifféremment un logit
conditionnel et un logit multinomial par la même instruction type = mlogit. Autrement dit, elle

43
estime un logit multinomial sous forme d’un logit conditionnel (voir I.1.c). On trouvera en
annexe une macro permettant de le faire automatiquement.
Les résultats de l’estimation
Les deux procédures, Qlim (version 8.02) et Mdc impriment par défaut des données
générales sur l’exécution de la procédure, des indicateurs de qualité du modèle estimé et les
paramètres estimés avec leurs écarts-type et leur significativité. La version 8.01 de Qlim
n’imprime pas les différents indicateurs de qualité.
Pour ce qui est des tables SAS en sortie de procédure, l’inconvénient majeur de Qlim est
que l’option outest (qui permet de conserver, dans une table SAS, les valeurs estimées des
paramètres) et l’instruction output (qui crée une copie de la table en entrée de procédure,
enrichie de variables issues de l’estimation - par exemple les probabilités prédites par le
modèle pour chaque individu) sont inopérantes. Il faut alors utiliser des commandes du
système ODS (Output Delivery System). En revanche, l’option outest et l’instruction output
sont utilisables avec Mdc.

Pour avoir davantage de précisions sur ces deux procédure que ce qui est indiqué dans ce
document, on pourra se reporter à la documentation disponible en ligne sur le site de SAS
Institute :
• pour Qlim : http://support.sas.com/rnd/app/papers/qlim.pdf,
• pour Mdc : http://support.sas.com/rnd/app/papers/mdc.pdf.

44
Etude de cas I : le logit multinomial

45
III.1 - Les données ; sélection et codification des variables
Toute la partie III est consacrée à la spécification et l’estimation d’un logit multinomial
sur un échantillon extrait du fichier de l’enquête Emploi de mars 2002.
On cherche ici à répliquer l’étude de Schmidt et Strauss présentée en introduction
générale du document. On se limite à un secteur d’activité particulier, celui des services aux
entreprises ou aux particuliers. La question posée est l’existence de phénomènes de
discrimination sur le marché du travail : peut-on constater, dans ce secteur, des inégalités
individuelles de situation professionnelle qui ne seraient pas seulement imputables à des
différences de niveau de formation et d’expérience professionnelle 24 , c’est-à-dire à des
différences de « capital humain » ?
On s’est restreint aux salariés âgés de 25 à 54 ans en décembre 2002, appartenant à une
des quatre catégories suivantes : cadres, professions intermédiaires, ouvriers et employés.
L’échantillon, qui est une partie de celui de l’enquête Emploi de mars 2002, compte 2 102
individus.
La variable à expliquer est donc la catégorie professionnelle, qui comporte quatre
modalités. Il y a quatre variables explicatives. Deux sont continues : l’âge en décembre 2002
et l’âge de fin d’études. Les deux autres sont binaires : le sexe et la nationalité (française ou
étrangère). Ces variables ne posent pas réellement de problèmes d’endogénéité. L’âge et le
sexe sont exogènes. En toute rigueur, la nationalité ne l’est pas puisqu’on peut en changer.
Néanmoins, on pourra sans aucun problème la considèrer ici comme exogène. La seule
difficulté peut venir de l’âge de fin d’études, qui reflète un comportement passé. La
discussion est de même nature que celle qui a porté sur le diplôme (voir II.1 supra). Cette
endogénéité potentielle n’est pas gênante, surtout avec le point de vue adopté ici qui reste
somme toute descriptif.

Avant d’utiliser toute procédure, on a tout intérêt à recoder les variables de la manière
suivante.
Les modalités de la variable à expliquer prendront les valeurs 1 à J, où J est le nombre de
de modalités différentes de la variable (ici, J = 4). Toutefois, si on estime le modèle avec les
procédures Catmod ou Qlim, cette (re)codification n’est pas nécessaire. Il suffit que les
modalités de la variable à expliquer soient ordonnées, peu importe leurs valeurs. En revanche,
si on estime le modèle avec la procédure Mdc et si on souhaite utiliser la macro de
préparation préalable des données (voir II.3 supra), il est indispensable de respecter cette
codification, car la macro a été écrite avec cette contrainte.
La recodification des variables explicatives dépend de leur nature. Si la variable est
continue, elle reste en l’état. Si la variable est binaire, on a tout intérêt à la recoder en 0 et 1.
On verra - section III.8 - que ceci facilite la présentation des résultats. Le cas d’une variable
qualitative à plus de deux modalités, plus problématique, est traité en section III.7.

Dans l’exemple qui nous occupe, la variable à expliquer, c’est-à-dire la catégorie


professionnelle cs, a été recodée comme suit :
cs = 1, si le salarié est cadre ;
cs = 2, s’il exerce une profession intermédiaire ;
cs = 3, s’il est employé ;
cs = 4, s’il est ouvrier.

24
Par défaut, l’expérience professionnelle est approchée par la différence entre l’âge et l’âge de fin d’études. Il
revient donc au même d’introduire dans un modèle l’âge et l’âge de fin d’études, ou l’âge et l’expérience
professionnelle.

46
Les quatre variables explicatives ont été nommées et définies de la manière suivante :
age : âge de l’individu en années révolues (variable continue)
afinet : âge de fin d’études en années révolues (variable continue)
fem : variable binaire qui vaut 1 s’il s’agit d’une femme, 0 sinon
etr : variable binaire valant 1 si l’individu est de nationalité étrangère, 0 sinon.

L’encadré suivant liste les trois premières observations de la table SAS. La variable ident
identifie l’individu.

Les 3 premières observations de la table en entrée

ident cs age afinet fem etr

1 1 52 19 0 0
2 3 36 17 1 0
3 4 54 14 0 1

47
III.2 - Quelques statistiques descriptives
On calcule maintenant plusieurs statistiques descriptives sur la population échantillonnée.
Ceci a un double intérêt. Ces statistiques préliminaires permettent d’abord de vérifier que les
effectifs des différents groupes de population sont suffisamment nombreux, qu’il n’y a pas de
case quasi- vide qui risquerait de fragiliser les estimations. Le deuxième intérêt est de pouvoir
apprécier la plus- value apportée par la modélisation. Les procédures SAS de statistique
descrip tive à mettre en œuvre sont, selon les cas, Freq, Summary ou Means 25 .
La répartition des salariés selon leur catégorie professionnelle (tableau infra) montre que
la catégorie « employés » est la plus nombreuse (41,6 % du total).
Répartition des salariés selon la catégorie professionnelle

Cumulative Cumulative
cs Frequency Percent Frequency Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 367 17.46 367 17.46
2 382 18.17 749 35.63

3 874 41.58 1623 77.21


4 479 22.79 2102 100.00

On croise maintenant la variable cs avec les variables sexe et nationalité (tableau infra).
Les femmes occupent beaucoup plus souvent que les hommes des postes d’employé(e)s
(60,19 % vs 18,08 %). Les étrangers ont plutôt des emplois d’ouvriers (37,43 % vs 21,42 %).
Les femmes comme les étrangers sont nettement sous-représentés chez les cadres.
Répartitions catégorie professionnelle x sexe, et catégorie professionnelle x nationalité

cs fem cs etr

Frequency‚ Frequency‚
Percent ‚ Percent ‚
Row Pct ‚ Row Pct ‚
Col Pct ‚ 0‚ 1‚ Total Col Pct ‚ 0‚ 1‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 252 ‚ 115 ‚ 367 1 ‚ 353 ‚ 14 ‚ 367
‚ 11.99 ‚ 5.47 ‚ 17.46 ‚ 16.79 ‚ 0.67 ‚ 17.46
‚ 68.66 ‚ 31.34 ‚ ‚ 96.19 ‚ 3.81 ‚
‚ 27.13 ‚ 9.80 ‚ ‚ 18.36 ‚ 7.82 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 214 ‚ 168 ‚ 382 2 ‚ 367 ‚ 15 ‚ 382
‚ 10.18 ‚ 7.99 ‚ 18.17 ‚ 17.46 ‚ 0.71 ‚ 18.17
‚ 56.02 ‚ 43.98 ‚ ‚ 96.07 ‚ 3.93 ‚
‚ 23.04 ‚ 14.32 ‚ ‚ 19.08 ‚ 8.38 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3 ‚ 168 ‚ 706 ‚ 874 3 ‚ 791 ‚ 83 ‚ 874
‚ 7.99 ‚ 33.59 ‚ 41.58 ‚ 37.63 ‚ 3.95 ‚ 41.58
‚ 19.22 ‚ 80.78 ‚ ‚ 90.50 ‚ 9.50 ‚
‚ 18.08 ‚ 60.19 ‚ ‚ 41.13 ‚ 46.37 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
4 ‚ 295 ‚ 184 ‚ 479 4 ‚ 412 ‚ 67 ‚ 479
‚ 14.03 ‚ 8.75 ‚ 22.79 ‚ 19.60 ‚ 3.19 ‚ 22.79
‚ 61.59 ‚ 38.41 ‚ ‚ 86.01 ‚ 13.99 ‚
‚ 31.75 ‚ 15.69 ‚ ‚ 21.42 ‚ 37.43 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 929 1173 2102 Total 1923 179 2102
44.20 55.80 100.00 91.48 8.52 100.00

25
Pour leur présentation complète, voir O. Sautory, La statistique descriptive avec le système SAS, Insee guides
N°1-2.

48
Le calcul de l’âge moyen (age_moy) et de l’âge moyen de fin d’études (afinet_moy) par
catégorie (tableau infra) montre que, toutes catégories confondues, l’âge moyen des salariés
est de 37,9 ans, et qu’ils ont terminé leurs études à 19 ans en moyenne. Il n’y a apparemment
pas de relation claire entre l’âge et la catégorie. En revanche, les ouvriers ont fait les études
les plus courtes (âge moyen de 16,9 ans à la sortie du système scolaire) et les cadres les études
les plus longues (22,5 ans à la sortie).
Age et âge de fin d’études moyens
par catégorie professionnelle

cs age_moy afinet_moy

. 37.9 19.0

1 37.4 22.5
2 36.6 20.5
3 38.8 18.0

4 37.6 16.9

Si ces statistiques précédentes indiquent une inégale répartition des emplois selon le sexe
et la nationalité, elles restent insuffisantes pour répondre à la question que nous nous sommes
posée. Le tableau suivant permet de comprendre pourquoi.
Age moyen de fin d’études
des femmes et des étrangers

fem afinet_moy etr afinet_moy

. 19.0 . 19.0

0 19.6 0 19.2
1 18.5 1 16.6

On a calculé l’âge moyen de fin d’études par sexe d’un côté et par nationalité de l’autre.
Les femmes ont fait des études moins longues que les hommes : l’âge moyen de fin d’études
est respectivement de 18,5 ans et de 19,4 ans. Or, on a vu que des études plus longues
conduisent plus fréquement à des postes de cadre. On peut donc se demander si le fait que les
femmes occupent moins souvent que les hommes des emplois de cadres n’est pas dû, au
moins en partie, au fait qu’elles ont eu un cursus scolaire plus court. La question se pose
encore plus nettement pour les salariés de nationalité étrangère, qui sont sortis du système
éducatif beaucoup plus tôt que les salariés français.
Pour y répondre, il faut pouvoir contrôler l’effet de l’âge de fin d’études sur
l’appartenance à telle ou telle catégorie. En d’autres termes, si on prend un homme et une
femme, ou un salarié français et un salarié étranger, qui ont suivi le même nombre d’années
d’études (même valeur de afinet), leurs probabilités d’occuper un emploi de cadre seront-elles
encore différentes ? Si oui, c’est qu’il y a d’autres facteurs que le niveau d’études qui sont
responsables de l’inégalité d’accès aux professions entre les hommes et les femmes, entre les
français et les étrangers.
Pour le savoir, il faut estimer un logit multinomial, ce qui fait l’objet des sections
suivantes.

49
III.3 - Estimation du logit multinomial par la procédure Catmod
On cherche donc à estimer un logit multinomial expliquant l’appartenance à la catégorie
professionnelle par les 4 variables age, afinet, fem et etr. On doit ajouter une autre variable,
qui permet de prendre en compte le fait que les catégories ne sont pas également représentées,
que, par exemple, les employés sont plus de deux fois plus nombreux que les cadres. Cette
variable, qui formellement vaut toujours 1, est le terme constant du modèle 26 .
A chaque variable explicative sont associés a priori quatre paramètres, chacun mesurant
l’effet de la variable sur l’appartenance à l’une des quatre catégories professionnelles.
Toutefois, on a vu en section I.1.a qu’on est obligé d’annuler tous les paramètres associés à
une catégorie, appelée catégorie de référence, c’est-à-dire servant à la comparaison. C’est la
condition d’identification du modèle. Le choix de cette catégorie de référence est largement
arbitraire. On décide ici que ce sont les ouvriers (cs = 4). La conséquence principale de devoir
imposer cette condition est que le modèle mesure l’effet d’une variable explicative non pas
sur la probabilité d’appartenir à une catégorie donnée, mais sur la probabilité d’appartenir à la
catégorie plutôt qu’à la catégorie de référence, ou, plus précisément, sur le rapport entre la
probabilité d’appartenir à la catégorie et la probabilité d’appartenir à la catégorie de référence.
Par exemple, pour la catégorie des cadres, le modèle s’écrit :
ln[ P(cs = 1) / P (cs = 4)] = βc 0 + βc1age + βc 2afinet + βc 3 fem + βc 4etr
C’est l’expression (4) de la partie I. Le fait d’avoir à comparer systématiquement chaque
catégorie à la catégorie de référence complique la lecture des résultats, comme on le verra.

Si on ne dispose que de la version 6 de SAS, on n’a pas d’autre choix que d’utiliser la
procédure Catmod. On le fait de la manière suivante :

proc catmod data=emp ;


direct age afinet fem etr;
model cs = age afinet fem etr / noiter noprofile;
response logits / outest=param(where=(_type_=’PARMS’));
run;
quit;

L’instruction direct doit contenir toutes les variables explicatives du modèle. Elle indique
qu’elles doivent être considérées comme continues. L’instruction model spécifie le modèle à
estimer. Ses instructions noiter et noprofile sont ici indispensables pour ne pas imprimer
par défaut le détail des itérations du modèle et toutes les observations de la table d’entrée.
Enfin, l’instruction response permet, grâce à son option outest, de conserver dans une table,
ici nommée param, la valeur des paramètres estimés. L’instruction where permet à la table
param de n’avoir qu’une observation regroupant les paramètres estimés (voir infra).

Le tableau de la page suivante reproduit l’impression des résultats. Pour chaque variable,
y compris le terme constant nommé intercept, ne figurent que trois paramètres. Celui relatif à
la catégorie de référence a été omis puisqu’on sait qu’il vaut 0. Par défaut, la procédure prend
comme catégorie de référence celle qui a la modalité la plus élevée. La catégorie de référence
est donc ici les ouvriers (cs = 4). Les trois paramètres de chaque variable sont associés aux
trois catégories cs, hors la catégorie de référence, classées dans l’ordre croissant des modalités
de la variable cs. Par exemple, le paramètre n° 4 (0.0873) mesure l’effet de âge sur
l’appartenance à la catégorie des cadres (plutôt qu’à celle des ouvriers), le paramètre n° 5
26
Ce terme est souvent nommé intercept dans les procédures SAS.

50
(0.0595) mesure l’effet de âge sur l’appartenance à la catégorie des professions intermédiaires
(plutôt qu’à celle des ouvriers), et ainsi de suite.

Résultats de l’estimation

Analysis of Maximum Likelihood Estimates

Standard Chi-
Effect Parameter Estimate Error Square Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Intercept 1 -15.3794 0.8790 306.14 <.0001
2 -10.5093 0.7887 177.56 <.0001
3 -4.5683 0.6318 52.29 <.0001
age 4 0.0873 0.0112 60.84 <.0001
5 0.0595 0.0103 33.42 <.0001
6 0.0375 0.00862 18.88 <.0001
afinet 7 0.6157 0.0315 381.08 <.0001
8 0.4285 0.0286 224.20 <.0001
9 0.1485 0.0227 42.65 <.0001
fem 10 -0.2628 0.1737 2.29 0.1303
11 0.2758 0.1535 3.23 0.0723
12 1.9408 0.1310 219.54 <.0001
etr 13 -1.5110 0.3991 14.34 0.0002
14 -1.1147 0.3283 11.53 0.0007
15 -0.3242 0.1998 2.63 0.1045

Le tableau donne la valeur estimée de chaque paramètre (Estimate ), son écart-type


(Standard Error), la statistique du Chi-2 (C hi-Square ), qui est une statistique de test de la nullité
du paramètre, et la significativité (Prob). On reviendra en détail, dans la section III.6, sur ces
différentes notions.

L’encadré suivant donne le contenu de la table param créée par l’option outest.

Table créée par l’option outest de la procédure Catmod

_ METHOD_ _TYPE_ _NAME_ B1 B2 B3 B4 B5 B6

ML PARMS -15.3794 -10.5093 -4.56833 0.087327 0.059497 0.037478

(suite)

B7 B8 B9 B10 B11 B12 B13 B14 B15

0.61572 0.42847 0.14849 -0.26283 0.27579 1.94078 -1.51105 -1.11474 -0.32425

51
III.4 - Estimation du logit multinomial par la procédure Qlim
On cherche toujours à estimer un logit multinomial expliquant l’appartenance à la
catégorie professionnelle par les 4 variables age, afinet, fem et etr. On le fait ici par la
procédure Qlim, qu’on aura toujours intérêt à utiliser si on dispose de la version 8 de SAS, vu
sa simplicité d’emploi. Avant de la lancer, il faut recoder la variable cs, car la procédure prend
par défaut comme catégorie de référence celle qui a la modalité la plus basse. Si on souhaite
avoir les ouvriers en référence, on procède comme suit, en créant une nouvelle variable
repérant la catégorie, appelée csb, et codée différemment :

data emp ;
set emp ;
csb=cs ; if csb=4 then csb=0 ;

On peut alors exécuter la procédure, avec l’option type=mlogit, qui indique que l’on estime
un logit multinomial. Par défaut, le terme constant fait partie des variables explicatives. Il
n’est pas nécessaire de l’inclure dans la liste.

proc qlim data=emp ;


model csb = age afinet fem etr / type=mlogit ;
run;

La procédure imprime d’abord des résumés sur l’estimation (Model Fit Summary ).
L’algorithme a bien convergé (Algorithm converged ), au bout de 6 itérations (Number of
Iterations ). La méthode d’optimisation utilisée est Newton-Raphson (qui est la méthode
utilisée par défaut par Qlim). La partie Discrete Response Profile donne la répartition de
l’échantillon selon les valeurs prises par al variable dépendante csb. La colonne Index est
systématiquement 0, 1, 2, 3.

Données générales sur l’exécution de la procédure

The QLIM Procedure

Multinomial Logit Estimates

Algorithm converged.

Model Fit Summary

Dependent Variable csb


Number of Observations 2102
Log Likelihood -2205
Maximum Absolute Gradient 5.99425E-6
Number of Iterations 6
Optimization Method Newton-Raphson
AIC 4441
Schwarz Criterion 4526

Discrete Response Profile

Index csb Frequency Percent

0 0 479 22.79
1 1 367 17.46
2 2 382 18.17
3 3 874 41.58

52
Puis la procédure imprime les indicateurs de qualité du modèle (Goodness-of-Fit Measures).

Indicateurs de qualité du modèle estimé

Goodness-of-Fit Measures for Discrete Choice Models

Measure Value Formula

Likelihood Ratio (R) 1123.7 2 * (LogL - LogL0)


Upper Bound of R (U) 5534.6 - 2 * LogL0
Aldrich-Nelson 0.3484 R / (R+N)
Cragg-Uhler 1 0.4141 1 - exp(-R/N)
Cragg-Uhler 2 0.4462 (1-exp(-R/N)) / (1-exp(-U/N))
Estrella 0.4498 1 - (1-R/U)^(U/N)
Adjusted Estrella 0.4399 1 - ((LogL-K)/LogL0)^(-2/N*LogL0)
McFadden's LRI 0.2030 R / U
Veall-Zimmermann 0.4807 (R * (U+N)) / (U * (R+N))
McKelvey-Zavoina 0.6172

N = # of observations, K = # of regressors

Les indicateurs qui nous intéressent sont, d’une part, le « ρ2 de McFadden » (McFadden's
LRI - voir (21) partie I) appelé parfois « pseudo R² », d’autre part, l’indicateur d’Estrella
(Estrella - voir (22) partie I). On note que le premier est plus de deux fois plus faible que le
second. L’indicateur est plus proche, dans l’esprit, du coefficient de détermination R2 du
modèle linéaire (voir section I.4). On notera aussi que l’indicateur d’Estrella ajusté (Adjusted
Estrella - voir (23) partie I) est très peu différent de l’indicateur d’Estrella.
Attention ! Cette sortie n’est possible qu’avec la version 8.02 de SAS. Elle n’existe pas
dans la version 8.01. Cela étant, on peut tout de même calculer, dans la version 8.01, les
indicateurs de McFadden et d’Estrella. La procédure 8.01 fournit, en effet, la log-
vraisemblance (Log Likelihood) dans son résumé sur l’estimation (encadré précédent). Elle
correspond à la valeur de LogL. Pour avoir la valeur LogL0 , on relance la procédure Qlim sans
mettre de variable explicative :

proc qlim data=emp ;


model csb = / type=mlogit ;
run;

et on récupère la log-vraisemblance (Log Likelihood ) de ce modèle avec le seul terme constant.


En utilisant les expressions de la section I.4, on en déduit les valeurs des indicateurs
souhaités.

L’encadré suivant, issu de la version 8.02 de la procédure, donne les résultats de


l’estimation, c’est-à-dire la valeur estimée (Estimation) de chaque paramètre (Parameter)
accompagnée de son écart-type (Standard Error), ainsi que sa significativité (Approx Pr >
27
|t| ) . Ne sont pas reproduits les 5 paramètres correspondant à la catégorie de référence
(csb=0 : catégorie des ouvriers), puisqu’on sait qu’ils sont tous nuls. Les autres paramètres
sont nommés à partir du nom de la variable explicative auquel a été ajouté le numéro de la

27
La colonne Gradient donne les valeurs des composantes du vecteur gradient (dérivées de la log-
vraisemblance) au point final de la maximisation de la vraisemblance (i.e. aux valeurs estimées des paramètres).

53
catégorie. Par exemple, afinet_3 est le paramètre de la variable « âge de fin d’études » pour la
catégorie des employés. La variable « terme constant » est nommée Intercept .

Résultats de l’estimation

Parameter Estimates

Standard Approx
Parameter DDL Estimation Error t Value Pr > |t| Gradient

Intercept_1 1 -15.3794 0.8790 -17.50 <.0001 1.65E-7


age_1 1 0.0873 0.0112 7.80 <.0001 5.994E-6
afinet_1 1 0.6157 0.0315 19.52 <.0001 2.982E-6
fem_1 1 -0.2628 0.1737 -1.51 0.1303 7.393E-8
etr_1 1 -1.5110 0.3991 -3.79 0.0002 1.662E-7
Intercept_2 1 -10.5093 0.7887 -13.33 <.0001 -4.75E-8
age_2 1 0.0595 0.0103 5.78 <.0001 -1.73E-6
afinet_2 1 0.4285 0.0286 14.97 <.0001 -9.57E-7
fem_2 1 0.2758 0.1535 1.80 0.0723 -3.07E-8
etr_2 1 -1.1147 0.3283 -3.40 0.0007 -2.51E-8
Intercept_3 1 -4.5683 0.6318 -7.23 <.0001 -1.15E-7
age_3 1 0.0375 0.008625 4.35 <.0001 -4.25E-6
afinet_3 1 0.1485 0.0227 6.53 <.0001 -2.48E-6
fem_3 1 1.9408 0.1310 14.82 <.0001 -8.98E-8
etr_3 1 -0.3242 0.1998 -1.62 0.1045 -6.42E-8

Deux remarques concernant les deux versions 8.01 et 8.02 de SAS. Dans les tableaux qui
sont produits par la version 8.01, les paramètres sont indexés par 2, 3 et 4, au lieu de l’être par
1, 2 et 3 (version 8.02). Ces indexations sont systématiques, quelles que soient les valeurs
prises par les quatre modalités de la variable dépendante, et une fois choisie la catégorie de
référence. Pour s’assurer de l’indexation retenue, on s’aidera de la partie Discrete Response
Profile du tableau concernant les données générales sur l’exécution de la procédure (voir
supra), où sont mises en regard les valeurs prises par l’index et celles prises par la variable à
expliquer. Deuxième remarque, les valeurs des écarts-type des paramètres, données par Qlim
dans la version 8.01, sont calculées par défaut avec l’estimateur BHHH (dû à Berndt, Hall,
Hall et Hausman). Pour récupérer ceux calculés à partir de l’inverse de la matrice hessienne, il
faut ajouter l’option covest=hess à côté de l’option type=mlogit dans l’instruction model.
Dans la version 8.02, Qlim, comme Mdc, utilise par défaut l’inverse de la matrice hessienne
(voir I.3).

54
III.5 - Estimation du logit multinomial par la procédure Mdc
Si on dispose de la version 8.02 de SAS, on peut préférer utiliser la procédure Mdc, car
certaines options de Qlim, annoncées dans la documentation SAS et qui seraient utiles, sont
inopérantes dans les versions 8.01 et 8.02 (voir supra II.3). L’inconvénient avec Mdc est qu’il
faut au préalable transformer les données et les configurer en un format compatible avec la
procédure. Cette procédure, en effet, est d’abord faite pour estimer des modèles logit
conditionnels, selon la terminologie retenue dans la première partie. Elle peut aussi estimer un
logit multinomial, à condition de l’écrire sous la forme d’un logit conditionnel (voir I.1.c). Il
faut donc répliquer les observations de la table originelle emp et créer des variables. Dans
notre exemple d’application, chaque individu ident sera reproduit 4 fois, car il y a quatre
catégories professionnelles possibles. La table transformée sera constituée de
2 104 « paquets » de 4 observations, et les observations de chaque « paquet » seront indicées
par une variable catégorielle, appelée csp, indexée de 1 à 4. Chaque variable explicative, y
compris le terme constant qu’il faut créer sous la forme d’une variable (appelée un dans
l’exemple qui suit), doit aussi être répliquée en 4 variables. L’étape de préparation des
données peut s’écrire comme suit :

data emps(keep=ident csp decis un_1--etr_4) ;


set emp ;
un=1 ;
array un_(i) un_1-un_4 ;
array age_(i) age_1-age_4 ;
array afinet_(i) afinet_1-afinet_4 ;
array fem_(i) fem_1-fem_4 ;
array etr_(i) etr_1-etr_4 ;
do j=1 to 4 ;
csp=j ; decis=(cs=csp) ;
do i=1 to 4 ;
un_=(csp=i) ;
age_=age*(csp=i) ;
afinet_=afinet*(csp=i) ;
fem_=fem*(csp=i) ;
etr_=etr*(csp=i) ;
end;
output emps ;
end;
run;

Ce programme crée, dans l’ordre, les variables un_1, un_2, un_3, un_4, puis age_1,
age_2, age_3, age_4 , etc…, jusqu’à etr_1, etr_2 , etr_3 et etr_4.
Pour éviter d’avoir à écrire un programme ad hoc à chaque changement de spécification
du modèle (ajout ou retrait de variables, par exemple), on a écrit une macro qui facilite la
tâche. Elle est reproduite et commentée en annexe de ce document. Attention ! Il est
indispensable que la variable dépendante prenne les valeurs, 1, 2, …, J, où J est le nombre de
catégories possibles (J = 4, ici). La valeur 0 est exclue. La macro a 7 paramètres :

prepa_mdc(tab_ent=,tab_sort=,identif=,categ=,decision=,
var_explic=,nom_cstante=)

tab_ent est le nom de la table en entrée (ici : emp) ;


tab_sort nomme la table transformée ;
identif nomme la variable de la table de sortie qui identifie l’individu ;

55
categ nomme la variable catégorielle servant à indicer les observations de la table de sortie
correspondant au même individu ;
decision définit une variable binaire, qui vaut 1 si la valeur de la variable à expliquer du
modèle (ici : cs) correspond à la valeur de l’indice categ, et 0 sinon ;
var_explic est la liste des variables explicatives, hors terme constant ;
nom_cstante nomme la variable du modèle représentant le terme constant.

L’exécution de la macro :

%prepa_mdc(tab_ent=emp,tab_sort=emps,identif=iden,categ=csp,
decision=decis,var_explic=age afinet fem etr,
nom_cstante=un) ;

produit une table, nommée ici emps, dont on a listé ci-dessous les 8 premières observations,
qui correspondent aux 2 premiers individus de la table emp (voir l’encadré figurant au III.1).

Les 8 premières observations de la table en entrée de la procédure Mdc

IDEN CSP DECIS UN_1 AGE_1 AFINET_1 FEM_1 ETR_1 UN_2 AGE_2 AFINET_2 FEM_2 ETR_2

1 1 1 1 52 19 0 0 0 0 0 0 0
1 2 0 0 0 0 0 0 1 52 19 0 0
1 3 0 0 0 0 0 0 0 0 0 0 0
1 4 0 0 0 0 0 0 0 0 0 0 0
2 1 0 1 36 17 1 0 0 0 0 0 0
2 2 0 0 0 0 0 0 1 36 17 1 0
2 3 1 0 0 0 0 0 0 0 0 0 0
2 4 0 0 0 0 0 0 0 0 0 0 0

(suite des observations)

UN_3 AGE_3 AFINET_3 FEM_3 ETR_3 UN_4 AGE_4 AFINET_4 FEM_4 ETR_4

0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
1 52 19 0 0 0 0 0 0 0
0 0 0 0 0 1 52 19 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
1 36 17 1 0 0 0 0 0 0
0 0 0 0 0 1 36 17 1 0

Pour estimer le modèle par la procédure Mdc, on écrit les instructions suivantes. Dans la
liste des variables explicatives, on omet le « paquet » des variables qui correspond à la
catégorie choisie comme référence (ici : les variables indicées par 4 correspondant à la
catégorie « ouvriers »).

proc mdc data=emps outest=mdce ;


id iden ;
model decis = un_1--etr_3
/type=clogit choice=(csp);

56
run;

L’option outest permet de conserver, dans une table nommée ici mdce, les valeurs
estimées des paramètres. L’instruction id définit le nom de la variable qui repère l’individu.
La variable explicative du modèle est la variable binaire decis. Contrairement à Qlim, le terme
constant du modèle doit figurer explicitement dans la liste des variables explicatives. L’option
clogit de l’instruction model indique que c’est un logit conditionnel qui est estimé, puisque,
rappelons- le, la procédure Mdc ne peut estimer un logit multinomial que sous la forme d’un
logit conditionnel. L’option choice nomme la variable qui définit les catégories possibles (les
parenthèses sont obligatoires).
Les deux encadrés suivants donnent les indicateurs de qualité et les paramètres estimés.

Indicateurs de qualité du modèle estimé (procédure Mdc)

Goodness-of-Fit Measures for Discrete Choice Models

Measure Value Formula

Likelihood Ratio (R) 1417.1 2 * (LogL - LogL0)


Upper Bound of R (U) 5828.0 - 2 * LogL0
Aldrich-Nelson 0.4027 R / (R+N)
Cragg-Uhler 1 0.4904 1 - exp(-R/N)
Cragg-Uhler 2 0.5231 (1-exp(-R/N)) / (1-exp(-U/N))
Estrella 0.5381 1 - (1-R/U)^(U/N)
Adjusted Estrella 0.5293 1 - ((LogL-K)/LogL0)^(-2/N*LogL0)
McFadden's LRI 0.2432 R / U
Veall-Zimmermann 0.5479 (R * (U+N)) / (U * (R+N))

N = # of observations, K = # of regressors

Résultats de l’estimation (procédure Mdc)

Parameter Estimates

Erreur Approx
Parameter DDL Estimation standard t Value Pr > |t| Gradient

UN_1 1 -15.3794 0.8790 -17.50 <.0001 -124E-12


AGE_1 1 0.0873 0.0112 7.80 <.0001 -4.6E-9
AFINET_1 1 0.6157 0.0315 19.52 <.0001 -2.34E-9
FEM_1 1 -0.2628 0.1737 -1.51 0.1303 -717E-13
ETR_1 1 -1.5110 0.3991 -3.79 0.0002 -108E-12
UN_2 1 -10.5093 0.7887 -13.33 <.0001 1.93E-11
AGE_2 1 0.0595 0.0103 5.78 <.0001 7.06E-10
AFINET_2 1 0.4285 0.0286 14.97 <.0001 3.73E-10
FEM_2 1 0.2758 0.1535 1.80 0.0723 1.23E-11
ETR_2 1 -1.1147 0.3283 -3.40 0.0007 1.87E-11
UN_3 1 -4.5683 0.6318 -7.23 <.0001 6.15E-11
AGE_3 1 0.0375 0.008625 4.35 <.0001 2.272E-9
AFINET_3 1 0.1485 0.0227 6.53 <.0001 1.185E-9
FEM_3 1 1.9408 0.1310 14.82 <.0001 4.76E-11
ETR_3 1 -0.3242 0.1998 -1.62 0.1045 5.16E-11

Attention ! Concernant les indicateurs de qualité, leurs valeurs diffèrent sensiblement de


celles fournies par la procédure Qlim. Cela semble dû à une erreur de la procédure Mdc dans

57
le calcul de LogL0 dans sa version actuelle. On vérifie d’ailleurs que la valeur de LogL récupérée
à partir des deux premiers indicateurs du tableau (Likelihood Ratio et Upper Bound of R) sont les
mêmes pour Qlim et Mdc : elle vaut -2205.45.
En revanche, les valeurs des paramètres estimés sont bien les mêmes.

Pour terminer, l’encadré suivant donne le contenu de la table mdce créée par l’option
outest=, sans l’option supplémentaire covout. Il n’y a qu’une seule observation. Seules les
variables à partir de UN_1 , qui donnent les valeurs estimées des paramètres, nous intéressent.

Table créée par l’option outest de la procédure Mdc

_MODEL_ _TYPE_ _STATUS_ _DEPVAR_ _METHOD_ _NAME_ _LIKLHD_ UN_1 AGE_1 AFINET_1 FEM_1

PARMS 0 Converged DECIS ML -2205.45 -15.3794 0.087327 0.61572 -0.26283

(suite)

ETR_1 UN_2 AGE_2 AFINET_2 FEM_2 ETR_2 UN_3 AGE_3 AFINET_3 FEM_3 ETR_3

-1.51105 -10.5093 0.059497 0.42847 0.27579 -1.11474 -4.56833 0.037478 0.14849 1.94078 -0.32425

58
III.6 - Les paramètres estimés et leur significativité
Le tableau ci-dessous reproduit l’impression des résultats par la procédure Qlim, que l’on
va maintenant commenter en détail, en insistant sur la significativité des paramètres, notion
qui prête souvent à confusion.

Résultats de l’estimation

Parameter Estimates

Standard Approx
Parameter DDL Estimation Error t Value Pr > |t| Gradient

Intercept_1 1 -15.3794 0.8790 -17.50 <.0001 1.65E-7


age_1 1 0.0873 0.0112 7.80 <.0001 5.994E-6
afinet_1 1 0.6157 0.0315 19.52 <.0001 2.982E-6
fem_1 1 -0.2628 0.1737 -1.51 0.1303 7.393E-8
etr_1 1 -1.5110 0.3991 -3.79 0.0002 1.662E-7
Intercept_2 1 -10.5093 0.7887 -13.33 <.0001 -4.75E-8
age_2 1 0.0595 0.0103 5.78 <.0001 -1.73E-6
afinet_2 1 0.4285 0.0286 14.97 <.0001 -9.57E-7
fem_2 1 0.2758 0.1535 1.80 0.0723 -3.07E-8
etr_2 1 -1.1147 0.3283 -3.40 0.0007 -2.51E-8
Intercept_3 1 -4.5683 0.6318 -7.23 <.0001 -1.15E-7
age_3 1 0.0375 0.008625 4.35 <.0001 -4.25E-6
afinet_3 1 0.1485 0.0227 6.53 <.0001 -2.48E-6
fem_3 1 1.9408 0.1310 14.82 <.0001 -8.98E-8
etr_3 1 -0.3242 0.1998 -1.62 0.1045 -6.42E-8

Les deux colonnes qu’il faut d’abord regarder sont celles donnant la valeur estimée du
paramètre (Estimation) et sa significativité (Approx Pr > |t| )28 . La valeur estimée nous
renseigne sur le signe de cet effet et nous donne une indication sur son amplitude. La
significativité nous indique si, selon toute vraisemblance, le paramètre est non nul, c’est-à-
dire si la variable associée a réellement un effet 29 (sur l’appartenance à une catégorie plutôt
qu’à la catégorie de référence).
Plus précisément, la significativité mesure la confiance que l’on peut accorder à
l’affirmation consistant à dire qu’une variable explicative a un effet sur la variable à expliquer
(voir l’encadré ci-dessous). Par exemple, le paramètre etr_1 est significatif au seuil de 1 % :
on a moins de 1 % de risques de se tromper en affirmant qu’il n’est pas nul, c’est-à-dire que la
variable de nationalité a un effet 30 sur l’appartenance à la catégorie des cadres plutôt qu’à
celle des ouvriers.

La significativité d’un paramètre


Prenons l’exemple du paramètre etr_1. Son estimation sur l’échantillon de 2 102 individus a donné la
valeur βˆ = −1 .5110 . Si on tirait un autre échantillon de 2102 salariés, l’estimation donnerait très
probablement une autre valeur, certes peu différente. Avec un troisième échantillon, toujours de
2 102 individus, on aurait une troisième valeur, etc. En continuant de la sorte, et en reportant à chaque
tirage la valeur du paramètre, on s’apercevrait au bout d’un certain nombre de tirages que les valeurs
du paramètre sont approximativement distribuées selon une loi normale. La vraie valeur β du
paramètre correspond alors au mode de la distribution. On ne connaît pas son écart-type, mais on peut

28
C’est la colonne Prob du tableau des résultats imprimé par la procédure Catmod de la version 6 de SAS.
29
L’emploi du terme effet est une facilité de langage. On prendra garde à ne pas y mettre d’interprétation causale
sans la justifier.
30
Voir la note précédente.

59
l’estimer par la valeur de la colonne Standard Error, c’est-à-dire 0.3991.
Le problème est qu’on ne fait qu’un seul tirage de 2 102 individus. On dispose uniquement de la
valeur estimée β̂ du paramètre sur ce seul échantillon, et il faut en inférer la (vraie) valeur β .
Ce qui nous intéresse dans un premier temps est de savoir si la variable associée au paramètre a un
effet sur l’appartenance à la catégorie (relativement à la référence), c’est-à-dire si le paramètre β est
différent de 0. On connaît β̂ et on sait que la différence entre β et β̂ suit une loi normale de moyenne
nulle : β = βˆ ± ε . On a une idée de la dispersion de ε car on connaît une valeur approchée de son
écart-type. La question est alors : la valeur β̂ est-elle suffisamment éloignée de 0 et ε est-il
suffisamment petit pour qu’on puisse en déduire, sans grand risque de se tromper, que β est non nul ?
Tout dépend donc de la valeur de β̂ et de la dispersion de ε . Les deux figures suivantes vont servir de
support à la discussion.

β̂ 0 β̂ 0
figure 1 figure 2

Toutes deux représentent, en abscisse, la plage des valeurs possibles de β et, en ordonnée, la
probabilité que β prenne une de ces valeurs. La probabilité est maximale pour β = βˆ . Sur la figure 1,
la probabilité diminue rapidement lorsque β s’éloigne de β̂ (ε est peu dispersé, relativement à la
distance de β̂ à 0, c’est-à-dire à la valeur absolue de β̂ ) et est très faible lorsque β approche 0. Il y a
donc très peu de chances que β soit (quasi)nul. Sur la figure 2, la probabilité diminue beaucoup moins
vite lorsque β s’éloigne de β̂ ( ε est bien plus dispersé, relativement à la valeur absolue de β̂ ). Il y a
de fortes chances que β soit nul ou positif.
Dans le premier cas, on a très peu de risques de se tromper en inférant, à partir de β̂ et de l’écart-type
de ε , que β est nul. Dans le second cas, le risque est beaucoup plus élevé. La prudence commande de
ne pas déduire, de la valeur β̂ , la non nullité de β .
Le paramètre etr_1 relève du premier cas de figure. En effet, ε étant distribuée selon la loi normale de
moyenne nulle et d’écart-type 0.3991, 99 % de ses valeurs sont dans l’intervalle
[ − 2 .57 × 0.3991 , 2 .57 × 0.3991 ], c’est-à-dire [ − 1.0257 , 1.0257 ]. La probabilité que β soit dans
l’intervalle [− 1.511 − 1.0257 , − 1.511 + 1 .0257 ] = [− 2 .5367 , − 0.4853 ] est donc de 99 % : on a très
peu de risques de se tromper en affirmant que β est non nul.
C’est précisément la significativité (colonne Approx Pr > |t|) qui nous donne l’information sur les
risques de se tromper. Dans le cas de etr_1, elle est égale à 0.0002 : on a 0.02 % de risques de se
tromper en affirmant que etr_1 est différent de 0. On dit que le paramètre est significativement
différent de 0 au seuil de 1 % (et même de 0.1 %), car le risque de se tromper est inférieur à 1 %. A
fortiori, il est significatif au seuil de 5 %. La significativité est ainsi une mesure relative. Un paramètre
est significatif ou ne l’est pas, non pas dans l’absolu, mais pour un seuil donné. Plus ce seuil est bas,
moins on prend de risques de se tromper en décrétant que le paramètre est non nul. Les seuils
conventionnellement retenus dans une étude économétrique sont 1 %, 5 % et 10 %.
La colonne t Value du tableau des résultats est le rapport de β̂ à l’écart-type de ε . Cet indicateur est
en réalité la statistique de Student (voir section I.5). C’est précisément l’indicateur qui nous a permis
de distinguer les deux cas de figure ci-dessus. On constate, à la lecture du tableau des résultats, qu’une
faible valeur de t Value est associée à une (relativement) forte valeur de Approx Pr > |t|.

Le paramètre fem_1 , quant à lui, n’est pas significativement différent de 0 au seuil de


10 %. On ne peut pas conclure qu’une femme a moins de chances d’être cadre qu’ouvrier, car
la probabilité de se tromper en l’affirmant est relativement élevée (environ 13 %). Mais, il est

60
tout aussi imprudent de conclure que le genre n’a pas d’effet sur l’appartenance à la catégorie
des cadres plutôt qu’à celle des ouvriers. En effet, il ne faut pas oublier que la significativité
dépend de la taille de l’échantillon, parce que l’écart-type de chaque paramètre diminue quand
la taille augmente. Pour s’en convaincre, on va réestimer le modèle sur un échantillon plus
gros. Car l’échantillon utilisé jusqu’à présent est un sondage au quart de l’échantillon de
l’enquête Emploi qui, sur le champ de l’étude, compte en réalité 8 409 salariés. Les résultats
de l’estimation effectuée sur cet échantillon « complet » de 8 409 salariés sont reportés dans
l’encadré ci-dessous 31 .

Résultats de l’estimation (échantillon « complet »)

Parameter Estimates

Standard Approx
Parameter DDL Estimation Error t Value Pr > |t| Gradient

Intercept_1 1 -15.7266 0.4417 -35.60 <.0001 5.407E-6


age_1 1 0.0899 0.005513 16.30 <.0001 0.000103
afinet_1 1 0.6250 0.0158 39.63 <.0001 0.000027
fem_1 1 -0.2278 0.0861 -2.64 0.0082 -0.00001
etr_1 1 -1.4838 0.1848 -8.03 <.0001 0.000015
Intercept_2 1 -9.9518 0.3913 -25.43 <.0001 -0.00002
age_2 1 0.0523 0.005083 10.28 <.0001 -0.00087
afinet_2 1 0.4125 0.0142 29.04 <.0001 -0.00044
fem_2 1 0.1331 0.0770 1.73 0.0838 -0.00002
etr_2 1 -0.9606 0.1509 -6.37 <.0001 -3.61E-6
Intercept_3 1 -4.3196 0.3070 -14.07 <.0001 -0.00008
age_3 1 0.0320 0.004231 7.56 <.0001 -0.00331
afinet_3 1 0.1417 0.0110 12.88 <.0001 -0.00153
fem_3 1 1.9663 0.0651 30.20 <.0001 -0.00008
etr_3 1 -0.1588 0.0971 -1.64 0.1019 -5.41E-6

L’écart-type de chaque paramètre (colonne Standard Error ) a diminué. Pour le paramètre


fem_1 , la situation a évolué, puisqu’il est maintenant significativement différent de 0 au seuil
de 1 %. Par conséquent, il aurait été imprudent d’affirmer, sur la base du seul échantillon de
2 102 salariés, que le fait d’être une femme n’a pas d’effet sur l’accès à la fonction de cadre
(par rapport à un emploi d’ouvrier), puisque l’échantillon de 8 409 salariés nous indique, sans
ambiguïté, le contraire. Ceci illustre l’idée générale que la significativité mesure aussi la
capacité d’un échantillon à établir l’existence d’un effet.

Dernière remarque : lors de la présentation des résultats, on évitera de qualifier un


paramètre de «très significatif », « significatif » ou « peu significatif ». On évitera aussi de
parler d’« effet significatif ». Il y a deux raisons à cela. La première est que la significativité
est une mesure relative, comme on vient de le voir. La seconde est que cela évite de confondre
significativité et importance de l’effet de la variable. Ce sont deux notions très différentes. Un
paramètre peut être significatif au seuil de 1 %, et, dans le même temps, la variable avoir un
effet faible. Inversement, la valeur estimée β̂ du paramètre peut conduire à un fort effet de la
variable, alors que le paramètre n’est pas significatif au seuil de 5 % parce que l’estimation est
peu précise (i.e. l’interva lle où peut se trouver β est grand). L’importance de l’effet est
mesurée par d’autres statistiques, que l’on calculera dans la section III.8.

31
Les statistiques descriptives changent très peu d’un échantillon à l’autre. Le coefficient d’Estrella vaut 0.4498.

61
III.7 - Le cas des variables explicatives polytomiques à plus de 2 modalités ;
exemple de test entre deux modèle emboîtés
Jusqu’à présent, les variables qualitatives introduites en explicatives étaient toutes des
variables binaires. On examine maintenant le cas d’une variable qualitative ayant plus de deux
modalités. Cette section va aussi nous donner l’occasion de faire un test d’hypothèse.
On a pris l’exemple de la taille de l’agglomération où réside l’individu. On ne reviendra
pas sur son caractère potentiellement endogène (section II.1). Il n’est pas gênant ici puisque
l’analyse n’est pas centrée sur les phénomènes de mobilité géographique. Cette variable a
4 modalités, codées comme suit :
tail_agglo = 1, communes rurales (23,2 % de l’échantillon)
tail_agglo = 2, unités urbaines de moins de 200 000 habitants (31,5 %)
tail_agglo = 3, unités urbaines de plus de 200 000 habitants (19,9 %)
tail_agglo = 4, agglomération parisienne (25,4 %)
Pour introduire cette variable dans le modèle, il faut d’abord créer autant de variables binaires
qu’il y a de modalités (4 en l’occurrence). On écrit donc dans une étape data :

array agglo(i) agglo1-agglo4;


do i=1 to 4;agglo=(i=tail_agglo);end;

La table SAS contient 4 nouvelles variables binaires, nommées agglo1, agglo2, agglo3 et
agglo4, qui valent 1 si l’individu habite dans une agglomération dont la taille (i.e. la valeur de
la variable tail_agglo) correspond à l’indice de la variable binaire, 0 sinon.
On l’a dit (voir I.1.a), on ne peut pas introduire ces 4 variables binaires dans le modèle,
sinon l’estimation est impossible. On doit en écarter une. Dans le cas présent, on choisit celle
correspondant à la modalité la plus basse (voir II.2) de tail_agglo, c’est-à-dire les communes
rurales. Elle devra figurer comme référence dans le tableau des résultats.
L’estimation du modèle se fait avec Qlim en écrivant les instructions suivantes :

proc qlim data=emp ;


model csb = age afinet fem etr agglo2-agglo4
/ type=mlogit covest = hess;
run;

L’encadré suivant donne les indicateurs de qualité du modèle estimé.

Indicateurs de qualité du modèle estimé avec les variables agglo2 à agglo4

Goodness-of-Fit Measures for Discrete Choice Models

Measure Value Formula

Likelihood Ratio (R) 5074.2 2 * (LogL - LogL0)


Upper Bound of R (U) 22163 - 2 * LogL0
Aldrich-Nelson 0.3763 R / (R+N)
Cragg-Uhler 1 0.4531 1 - exp(-R/N)
Cragg-Uhler 2 0.4880 (1-exp(-R/N)) / (1-exp(-U/N))
Estrella 0.4960 1 - (1-R/U)^(U/N)
Adjusted Estrella 0.4923 1 - ((LogL-K)/LogL0)^(-2/N*LogL0)
McFadden's LRI 0.2290 R / U
Veall-Zimmermann 0.5191 (R * (U+N)) / (U * (R+N))
McKelvey-Zavoina 0.6637

N = # of observations, K = # of regressors

62
L’encadré suivant en fournit les résultats. La modalité de référence, agglo1, n’y figure
évidemment pas. Mais elle doit être mentionnée dans les commentaires. Par exemple, le
paramètre agglo2_1 s’interprète de la manière suivante. Comparativement au fait d’habiter une
commune rurale, vivre dans une agglomération de moins de 200 000 habitants diminue
significativement (au seuil de 5 %) la probabilité d’être cadre plutôt qu’ouvrier.

Résultats de l’estimation avec les variables agglo2 à agglo4

Parameter Estimates

Standard Approx
Parameter DDL Estimation Error t Value Pr > |t| Gradient

Intercept_1 1 -15.8639 0.4606 -34.44 <.0001 -3.71E-9


age_1 1 0.0914 0.005696 16.04 <.0001 -2.09E-8
afinet_1 1 0.6025 0.0161 37.36 <.0001 4.444E-8
fem_1 1 -0.1762 0.0897 -1.96 0.0494 1.565E-8
etr_1 1 -2.1835 0.1899 -11.50 <.0001 -1.55E-8
agglo2_1 1 -0.2863 0.1274 -2.25 0.0246 -6.52E-9
agglo3_1 1 0.4686 0.1317 3.56 0.0004 -2.3E-9
agglo4_1 1 2.0493 0.1337 15.33 <.0001 4.999E-9
Intercept_2 1 -10.0914 0.4005 -25.20 <.0001 1.229E-8
age_2 1 0.0530 0.005133 10.32 <.0001 4.105E-7
afinet_2 1 0.4069 0.0144 28.30 <.0001 2.017E-7
fem_2 1 0.1830 0.0781 2.34 0.0192 6.246E-9
etr_2 1 -1.4011 0.1575 -8.90 <.0001 2.589E-9
agglo2_2 1 -0.0532 0.1004 -0.53 0.5963 6.44E-9
agglo3_2 1 0.2416 0.1123 2.15 0.0314 4.719E-9
agglo4_2 1 1.1342 0.1225 9.26 <.0001 -3.11E-9
Intercept_3 1 -4.5022 0.3149 -14.30 <.0001 9.483E-8
age_3 1 0.0326 0.004262 7.66 <.0001 3.87E-6
afinet_3 1 0.1453 0.0111 13.08 <.0001 1.779E-6
fem_3 1 2.0012 0.0660 30.34 <.0001 9.414E-8
etr_3 1 -0.4654 0.1042 -4.47 <.0001 6.444E-9
agglo2_3 1 -0.0629 0.0792 -0.79 0.4274 2.545E-8
agglo3_3 1 0.009655 0.0936 0.10 0.9179 1.513E-8
agglo4_3 1 0.7942 0.1057 7.52 <.0001 2.524E-8

En comparant ce tableau avec celui de la section précédente, on constate que le fait


d’avoir introduit la taille d’agglomération parmi les variables du modèle n’a pas modifié
substantiellement les valeurs des paramètres estimés, à l’exception notable des paramètres de
la variable etr. Par exemple, l’écart étrangers/français dans l’accès à des emplois de cadres
(plutôt que des emplois d’ouvriers) est maintenant beaucoup plus important : le paramètre
etr_1 vaut -2.184 au lieu de -1.489. Ceci s’explique. Les salariés étrangers habitent beaucoup
plus souvent dans l’agglomération parisienne. En effet, en croisant les variables de nationalité
et de taille d’agglomération, on montre que la part des étrangers dans l’ensemble des salariés
est, dans les agglomérations de moins de 200 000 habitants, dans celles ayant entre 200 000 et
2 millions d’habitants et dans l’agglomération parisienne, respectivement de 5.0 %, 8.4 % et
20.2 %. Or les habitants de Paris ou de sa banlieue sont plus souvent des cadres. Par
conséquent, oublier la variable d’agglomération sous-estime l’inégalité d’accès entre
étrangers et français. Ceci illustre bien - et c’est important de toujours l’avoir à l’esprit - que
les résultats d’un modèle sont conditionnels aux variables qui y ont été introduites.

63
Dans le cas d’une variable explicative polytomique à plus de 2 modalités, on voit que les
commentaires sont assez compliqués, à cause précisément de la double référence (ouvriers
d’une part, communes rurales d’autre part) imposée par le modèle. Pour essayer de les alléger,
on va simplifier un peu le modèle. On constate, en effet, que les paramètres agglo2_2 et
agglo2_3 ne sont pas significatifs au seuil de 10 %. On peut alors se demander s’il était
nécessaire de distinguer les communes rurales et les communes d’une agglomération de
moins de 200 000 habitants.
Pour répondre à la question, on procède de la manière suivante. On crée une nouvelle
variable de taille d’agglomération qui distingue seulement 3 tailles de communes : on
regroupe les communes rurales et les agglomérations de moins de 200 000 habitants et on
laisse en l’état les deux autres modalités. Le groupe des communes rurales et des
agglomérations de moins de 200 000 habitants constitue la modalité de référence de la
nouvelle variable de taille d’agglomération. On réestime le modèle avec cette nouvelle
variable, et on compare les résultats de l’estimation avec ceux du premier modèle. Ce faisant,
on évalue si le fa it d’avoir regroupé les deux premières modalités de tail_agglo a changé
quelque chose aux estimations.
On réestime donc le modèle en ne faisant pas figurer, dans la liste des explicatives, la
modalité de référence de la nouvelle variable de taille d’agglo mération :

proc qlim data=emp ;


model csb = age afinet fem etr agglo3 agglo4
/ type=mlogit ;
run;

Les indicateurs de qualité du modèle réestimé sont les suivants :

Indicateurs de qualité du modèle estimé avec les variables agglo3 et agglo4

Goodness-of-Fit Measures for Discrete Choice Models

Measure Value Formula

Likelihood Ratio (R) 5069.0 2 * (LogL - LogL0)


Upper Bound of R (U) 22163 - 2 * LogL0
Aldrich-Nelson 0.3761 R / (R+N)
Cragg-Uhler 1 0.4527 1 - exp(-R/N)
Cragg-Uhler 2 0.4877 (1-exp(-R/N)) / (1-exp(-U/N))
Estrella 0.4956 1 - (1-R/U)^(U/N)
Adjusted Estrella 0.4924 1 - ((LogL-K)/LogL0)^(-2/N*LogL0)
McFadden's LRI 0.2287 R / U
Veall-Zimmermann 0.5188 (R * (U+N)) / (U * (R+N))
McKelvey-Zavoina 0.6633

N = # of observations, K = # of regressors

On constate, en comparant les deux valeurs de Likelihood Ratio, que la log-vraisemblance


LogL a légèrement diminué. C’est normal, la vraisemblance d’un modèle diminue lorsqu’on
retire des variables explicatives, en l’occurrence agglo2 . La diminution est cependant très
faible. Plus précisément, la différence entre les deux valeurs de Likelihood Ratio est égale à
5.2. Or, cette différence n’est rien d’autre que la statistique de test de la nullité des trois
paramètres du modèle attachés à agglo2 (voir section I.5). Tester cette nullité, c’est évaluer si
le fait de supprimer la variable agglo2 diminue la qualité du modèle. On sait - section I.5 - que

64
la statistique de test suit la loi χ 2 (3) (loi du χ 2 à 3 degrés de liberté). Il faut donc situer la
valeur 5.2 dans la distribution de la loi χ 2 (3) . Pour ce faire, on écrit :

data t;
p=1-probchi(5.2,3);
proc print;
run;

La procédure print imprime une valeur de p égale à 0.158. Cela signifie qu’on a près de 16 %
de chances de se tromper en affirmant que le modèle avec la variable de taille
d’agglomération à 4 modalités est meilleur que le modèle avec la variable à 3 modalités. On
préfère être prudent et ne pas l’affirmer, c’est-à-dire considérer que les 2 modèles sont
équivalents. Quel modèle alors chois ir ? Si on préfère un modèle parcimonieux, c’est-à-dire
qui explique la même chose avec moins de variables, on retiendra le second modèle. Si, en
revanche, on considère que le constat selon lequel la différence entre communes rurales et
agglomérations de moins de 200 000 habitants ne joue pas sur l’appartenance catégorielle32
est, en lui- même, une information importante, alors on optera pour le premier modèle.
La variable de taille d’agglomération a maintenant trois modalités. Ceci simplifie (un
peu) les commentaires. En effet, on constate - voir l’encadré ci-après où n’ont été reportées
que les valeurs des paramètres correspondant à la variable de taille d’agglomération - que les
valeurs des paramètres correspondant à la deuxième modalité sont toutes positives. Elles sont
de plus (nettement) inférieures à celles correspondant à la troisième modalité. On peut dès
lors commenter les résultats relatifs à la taille d’agglomération, en disant, par exemple, que la
taille d’agglomération augmente la probabilité d’être cadre plutôt qu’ouvrier. Finalement, on
a fait comme si la variable de taille était continue ; on a supprimé, dans le commentaire, la
comparaison à la modalité de référence de la variable. On a gagné en lisibilité, mais perdu en
précision du commentair e. Cet arbitrage se justifie dans le cas présent où la taille
d’agglomération n’est pas centrale dans la problématique de l’étude. Elle est avant tout une
variable de contrôle.

Parameter Estimates

Standard Approx
Parameter DDL Estimation Error t Value Pr > |t| Gradient

( )
agglo3_1 1 0.6361 0.1096 5.81 <.0001 3.003E-6
agglo4_1 1 2.2177 0.1117 19.85 <.0001 -2.32E-6
( )
agglo3_2 1 0.2722 0.0949 2.87 0.0041 -4.87E-6
agglo4_2 1 1.1659 0.1061 10.99 <.0001 4.211E-7
( )
agglo3_3 1 0.0471 0.0812 0.58 0.5621 -0.00001
agglo4_3 1 0.8334 0.0939 8.88 <.0001 -0.00002

32
en tout cas sur cet échantillon.

65
III.8 - Présentation et interprétation des résultats
Dans cette section, on va présenter les résultats de deux manières. La première consiste à
transcrire directement les résultats de l’estimation, c’est-à-dire à regrouper dans un tableau les
valeurs des paramètres accompagnées de leur écart-type et d’une indication sur la
significativité. La seconde nécessite des calculs supplémentaires, permettant d’évaluer plus
directement les effets moyens des différentes variables explicatives sur l’appartenance à une
catégorie. Ces deux présentations sont complémentaires. La seconde, d’une lecture plus aisée,
oblige néanmoins à mettre en œuvre des techniques moins immédiates pour estimer la
précision des calculs.

III.8.a - Le tableau des paramètres estimés


Le tableau suivant est la transcription des résultats imprimés par la procédure exécutée
sur l’échantillon de 8 409 salariés avec les variables d’âge, d’âge de fin d’études, de genre et
de nationalité et de taille d’agglomération.
Le tableau est présenté dans la forme généralement adoptée par les économètres. Il
reprend pour chaque catégorie comparée à la catégorie de référence (les ouvriers), les valeurs
des paramè tres attachés à chaque variable explicative, leurs écarts-type (entre parenthèses) et
une indication de leur significativité (les astérisques, placés en exposant de la valeur du
paramètre). On a indiqué les seuils de significativité traditionnellement retenus dans les
publications. On constate que tous les paramètres sont significatifs au seuil de 1 %, sauf celui
attaché à la variable sexe pour la catégorie professions intermédiaires (seuil de 5 %) et celui
attaché aux agglomérations entre 200 000 et 2 000 000 habitants pour la catégorie employé
(non significatif au seuil de 10 %).

Variable Cadre1 Prof intermédiaire 1 Employé1


Constante -16.019*** (0.456) -10.124*** (0.396) -4.544*** (0.311)
Age 0.092*** (0.006) 0.053*** (0.005) 0.033*** (0.004)
Age de fin d’études 0.601*** (0.016) 0.407*** (0.014) 0.145*** (0.011)
Genre
Homme ref ref ref
*** **
Femme -0.170 (0.086) 0.186 (0.078) 2.004*** (0.066)
Nationalité
Français ref ref ref
*** *** ***
Etranger -2.191 (0.185) -1.407 (0.157) -0.472 (0.104)
Taille d’agglomération
< 200 000 hab ref ref ref
200 000-2 000 000 hab 0.636*** (0.110) 0.272*** (0.095) 0.047 (0.081)
Agglo parisienne 2.218*** (0.112) 1.166*** (0.106) 0.833*** (0.094)
Nombre d’observations 8 409
Log-vraisemblance -8 547
R2 de McFadden 22.87
coefficient d’Estrella 49.54
1
la catégorie ouvrière est la référence.
Ecart -type entre parenthèses.
*** : significatif au seuil de 1 % ; ** : significatif au seuil de 5 % ; * : significatif au seuil de 10 %.

Les paramètres de la variable Constante prennent en compte le fait que les catégories ne
sont pas également représentées. Par exemple, le paramètre des cadres (-16.02) est nettement

66
inférieur à celui des employés, en conformité avec le fait que les premiers sont deux fois
moins nombreux, en proportion, que les seconds (voir les statistiques descriptives en III.2).
Pour interpréter les autres paramètres, on utilise l’expression (4) du modèle, reprise supra
dans la section III.3. Prenons, par exemple, la première colonne du tableau ci-dessus. En
remplaçant les paramètres figurant dans (4) par leurs valeurs estimées, on a :
ln[ P(cs = 1) / P( cs = 4)] = − 16.019 + 0.092 age + 0.601afinet − 0.170 fem − 2.191etr
+ 0.636 agglo 3 + 2.218 agglo 4
Pour interpréter le paramètre attaché à la variable sexe, on fixe les autres variables age, afinet,
etr, agglo3 et agglo4 à des valeurs quelconques age0 , afinet 0 , etr0 , agglo 30 et agglo 40 .
L’équation précédente s’écrit pour les femmes d’une part, pour les hommes d’autre part :
ln[ P(cs = 1 fem = 1) / P(cs = 4 fem = 1)]

 = −16.019 + 0.092 age0 + 0.601 afinet0 − 0.170 − 2.191etr0 + 0.636 agglo 30 + 2.218 agglo 4 0

ln[ P(cs = 1 fem = 0) / P(cs = 4 fem = 0)]
 = −16.019 + 0.092 age + 0.601 afinet − 0 − 2.191etr0 + 0.636 agglo 30 + 2.218 agglo 4 0
 0 0

En soustrayant les deux expressions, on obtient :


 P( cs = 1 fem = 1) / P (cs = 4 fem = 1) 
ln   = −0.170 .
 P( cs = 1 fem = 0) / P (cs = 4 fem = 0) 
On retrouve bien la valeur du paramètre fem_1. Ceci équivaut à :
P( cs = 1 fem = 1) / P( cs = 4 fem = 1)
= exp[ −0.170] = 0.844
P( cs = 1 fem = 0) / P( cs = 4 fem = 0)
C’est l’expression (27) de la première partie. Ce rapport de probabilités relatives est appelé
odds ratio (« rapport des risques relatifs »). Il s’interprète de la manière suivante : une femme
a environ 15,6 % (= 1 - 0.844) de chances de moins qu’un homme d’occuper un emploi de
cadre plutôt qu’un emploi d’ouvrier, toutes choses égales d’ailleurs (c’est-à-dire à mêmes âge,
niveau d’études et nationalité).
Pour interpréter le paramètre attaché à la variable de nationalité, on procède de la même
manière. Le odds ratio vaut maintenant exp[ −2.191] = 0.112 : un salarié étranger a environ
89 % de chances de moins qu’un salarié français d’occuper un emploi de cadre plutôt qu’un
emploi d’ouvrier, toutes choses égales d’ailleurs.
Les deux autres variables, age et afinet, sont des variables continues, à la différence de
fem et etr. Toutefois, l’interprétation des paramètres qui leur sont attachés est similaire.
Prenons l’exemple de l’âge. On fixe les autres variables à afinet 0 , fem0 , etr0 , agglo 30 et
agglo 40 . On calcule le logarithme du rapport de probabilités pour les valeurs age = a + 1
d’une part, et age = a d’autre part. En soustrayant les deux rapports, on obtient :
P(cs = 1 age = a + 1) / P(cs = 4 age = a + 1)
ln = 0.092 .
P( cs = 1 age = a ) / P(cs = 4 age = a )
C’est bien la valeur de age_1 . Le rapport des probabilités relatives 33 est égal à
exp[ 0.092] = 1.096 . Une année de plus augmente de 9,6 % la probabilité d’avoir un emploi de
cadre plutôt que d’être ouvrier.

33
L’appellation odds ratio est réservée aux variables qualitatives.

67
L’interprétation des paramètres du modèle est assez compliquée, car elle fait intervenir un
ratio de rapports de probabilités. C’est la conséquence de la nécessité de fixer une catégorie
de référence. Rappelons au passage que ceci vaut aussi pour le logit dichotomique (J = 2),
même si, dans ce cas, la catégorie de référence est implicite. Par exemple, dans un modèle qui
distingue seulement les cadres et les non cadres, le rôle de la variable de genre sur
l’appartenance à la catégorie des cadres se mesure par le odds ratio, qui s’écrit :
P( cadre fem = 1) /[1 − P(cadre fem = 1)]
,
P( cadre fem = 0) /[1 − P(cadre fem = 0)]
P(cadre fem = 1)
et non pas : .
P (cadre fem = 0)

Le tableau des paramètres ci-dessus présente l’inconvénient d’être tributaire de la


définition de la catégorie de référence. Il ne nous permet pas d’avoir tous les résultats de
l’estimation du modèle avec une autre catégorie de référence. Certes, on peut calculer les
valeurs des nouveaux paramètres en faisant la différence des paramètres ci-dessus (voir
expression (5) section I.1.a). Mais il reste à calculer les écarts-type.
Pour ne plus faire dépendre les résultats du choix de la référence, une solution est de
comparer systématiquement les catégories deux à deux. Ceci n’est possible que si le nombre
total de catégories est limité. Dans le cas contraire, le nombre de comparaisons à faire est très
élevé et la présentation des résultats gagne peu en lisibilité.
On relance donc autant de fois que nécessaire la procédure SAS d’estimation, en
changeant de catégorie de référence. Par exemple, si on prend la catégorie des employés
comme (nouvelle) référence et qu’on estime le modèle par Qlim, on recode la variable
catégorielle de la manière suivante :
data emp ;
set emp ;
cs_emp=cs;
if cs_emp=3 then cs_emp=0;

Puis on écrit :
proc qlim data=emp ;
model cs_emp = age afinet fem etr agglo3 agglo4
/ type=mlogit covest=hess;
run;

Après les exécutions successives de la procédure, on rassemble les résultats dans le


tableau de la page suivante 34 . Les probabilités sont indicées par la catégorie. Par exemple, Pint
est la probabilité d’exercer une profession intermédiaire. On vérifie que les trois premières
lignes du tableau correspondent aux trois colonnes du tableau des paramètres. Les astériques
ont la même signification. Pour les variables de genre ou de nationalité, on a omis, parce qu’il
n’y a pas d’ambiguïté, la modalité de référence de la variable (respectivement homme et
nationalité française). En revanche, avec la variable de taille d’agglomération, on est obligé
d’indiquer la modalité prise en référence (en l’occurrence, communes rurales ou
agglomération de moins de 200 000 hab).
Ceci permet de faire une présentation synthétique des résultats. Considérons d’abord
l’effet du sexe sur l’appartenance à une des catégories professionnelles. Classons les catégo-
ries dans l’ordre suivant : 1 - employé ; 2 - profession intermédiaire ; 3 - ouvrier ; 4 - cadre.

34
La présentation s’inspire de Schmidt et Strauss (1975).

68
Alors, toutes choses égales d’ailleurs, être une femme rend plus probable d’appartenir à une
des catégories plutôt qu’à toute autre située, dans la liste, après cette catégorie. Par exemple,
une femme appartiendra plus probablement à la catégorie employés qu’à une autre (les
paramètres de ln( Pemp / Pouv ) est positif, les paramètres de ln( Pcad / Pemp ) et de ln( Pint / Pemp ) sont
négatifs), plus probablement à la catégorie ouvrier qu’aux catégories profession intermédiaire
ou cadre. Corrélativement, être un homme rend plus probable d’appartenir à une des
catégories plutôt qu’à toute autre située avant cette catégorie dans la liste.

Variable Constante Age Age de fin Femme Etranger Agglomération1


dépendante d’études 200 000 à agglo
2 000 000 h parisienne
Pcad -16.019*** 0.092*** 0.601*** -0.170*** -2.191*** 0.636*** 2.218***
ln (0.456) (0.006) (0.016) (0.089) (0.189) (0.110) (0.112)
Pouv
P -10.124*** 0.0532*** 0.407*** 0.186** -1.407*** 0.272*** 1.166***
ln int (0.396) (0.005) (0.014) (0.078) (0.157) (0.095) (0.106)
Pouv
P -4.544*** 0.033*** 0.145*** 2.004*** -0.472*** 0.047 0.833***
ln emp (0.311) (0.004) (0.011) (0.066) (0.104) (0.091) (0.094)
Pouv
P -11.476*** 0.059*** 0.456*** -2.173*** -1.719*** 0.589*** 1.384***
ln cad (0.414) (0.005) (0.014) (0.083) (0.183) (0.103) (0.092)
Pemp
P -5.580*** 0.020*** 0.262*** -1.818*** -0.935*** 0.225** 0.333***
ln int (0.356) (0.005) (0.013) (0.072) (0.151) (0.088) (0.086)
Pemp
P -5.896*** 0.039*** 0.195*** -0.355*** -0.784*** 0.364*** 1.052***
ln cad (0.386) (0.005) (0.013) (0.081) (0.189) (0.103) (0.091)
Pint
(1) Référence : communes rurales ou agglomérations de moins de 200 000 hab.

On obtient le même type de résultats avec la variable de nationalité. On classe les


catégories dans l’ordre suivant : 1 - ouvrier ; 2 - employé ; 3 - profession intermédiaire ; 4 -
cadre. Toutes choses égales d’ailleurs, être étranger rend plus probable d’appartenir à une des
catégories plutôt qu’à toute autre située après cette catégorie dans la liste.
En ce qui concerne les deux variables continues, avoir suivi de plus longues études rend
plus probable d’être cadre plutôt que d’exercer une profession intermédiaire, plus probable
d’exercer une profession intermédiaire plutôt qu’être un(e) employé(e), et plus probable d’être
un(e) employé(e) plutôt que d’avoir un emploi d’ouvrier. Ceci corrobore les résultats obtenus
précédemment par les statistiques descriptives. On obtient le même résultat avec la variable
d’âge, ce que les seules statistiques descriptives, cette fois-ci, ne permettaient pas de voir.

III.8.b - Le tableau des effets moyens des variables


Le principe est le suivant. On fixe toutes les variables explicatives sauf une. En la faisant
varier, on cherche à estimer de combien de points augmente ou diminue la probabilité
d’appartenir à telle ou telle catégorie professionnelle. Par exemple, de combien de points
augmente la probabilité d’être cadre lorsqu’on a retardé d’un an la fin de ses études, les autres
variables (âge, genre, nationalité et taille de commune) restant constantes ? Ou encore :
quelles sont les chances respectives, pour un homme et une femme ayant les mêmes
caractéristiques, d’exercer une profession intermédiaire ?

69
On présente donc des différences de probabilités prédites par le modèle, au lieu des
paramètres estimés35 . Ce mode de présentation a au moins deux avantages. D’abord, il
n’oblige pas à faire systématiquement mention de la catégorie de référence. Elle n’apparaît
plus en tant que telle dans les résultats, ce qui allège considérablement les commentaires.
Ensuite, chiffrer l’effet de chaque variable par un nombre de points de probabilités permet
d’avoir une évaluation, plus directe que celle donnée par les paramètres, des poids respectifs
des facteurs explicatifs 36 . En contrepartie, il est plus difficile d’estimer la précision des
valeurs ainsi obtenues (les écarts de probabilités).
On a grandement intérêt, en commentant les résultats, à faire référence aux poids
respectifs des différentes catégories analysées. Par exemple, trouver un effet moyen d’une
variable de 10 points sur la probabilité d’appartenir à une catégorie qui ne représente que
10 % de la population totale, n’a pas la même signification que trouver un effet de 10 % sur la
probabilité d’appartenir à une catégorie qui représente 60 % de la population.
Techniquement, le type de calculs à effectuer dépend de la nature de la variable :
• Si la variable est continue, on calcule les dérivées des 4 probabilités. Chacune mesure
l’impact, sur la probabilité d’appartenir à une catégorie, de l’augmentation d’une unité de
la variable explicative. Comme elles dépendent des valeurs prises par les autres variables
explicatives du modèle (voir (26) partie I), on les calcule pour chaque individu de
l’échantillon. Puis on fait la moyenne de ces dérivées calculées individuellement. Ce
faisant, on obtient un impact moyen de la variable sur les probabilités d’appartenance
catégorielle.
• Si la variable est binaire, la notion de dérivée n’existe évidemment pas. Pour en obtenir
l’équivalent, on calcule pour chaque individu, d’une part la probabilité prédite par le
modèle lorsque la variable binaire prend la valeur 1, les autres variables explicatives
restant fixées à leurs valeurs, d’autre part la probabilité prédite lorsque la variable binaire
prend la valeur 0, les autres variables restant fixées à leurs valeurs. On fait la différence de
ces deux quantités. On en prend la moyenne sur l’échantillon.
• Si la variable est polytomique à M modalités (M > 2), on fait un calcul du même type que
précédemment avec une variable binaire. On commence par calculer, pour chaque
individu, la probabilité prédite par le modèle pour la modalité de référence, les autres
variables restant fixées à leurs valeurs. Puis on calcule, pour chacune des M-1 autres
modalités de la variable, la probabilité prédite par le modèle (les autres variables gardant
leurs valeurs), dont on prend la différence avec la probabilité prédite pour la modalité de
référence. On obtient ainsi, pour chaque individu, M-1 différences de probabilités prédites.
On en prend la moyenne sur l’échantillon.

1 - Calcul des dérivées moyennes (variables continues)


Pour les calculer, on utilise la formule (26) de la partie I. Le moyen le plus simple, mais
le plus fastidieux, est de programmer la formule dans une étape data en prenant les valeurs
estimées des paramètres imprimées par la procédure. Par exemple, pour la variable age, on
écrit le programme suivant :
data deriv;
set emp;
exp_1=exp(-16.019+0.092*age+0.601*afinet-0.170*fem-2.191*etr
+0.636*agglo3+2.218*agglo4);
exp_2=exp(-10.124+0.053*age+0.407*afinet+0.186*fem-1.407*etr
+0.272*agglo3+1.166*agglo4);

35
Michalopoulos et Robins (2000) est un exemple récent où ce type de présentation a été retenu.
36
… évaluation, rappelons-le, que ne peuvent en aucun pas fournir les seuils de significativité.

70
exp_3=exp(-4.544+0.033*age+0.145*afinet+2.004*fem-0.472*etr
+0.047*agglo3+0.833*agglo4);
exp_1_4=exp_1+exp_2+exp_3+1;
p_1=exp_1/exp_1_4;
p_2=exp_2/exp_1_4;
p_3=exp_3/exp_1_4;
d_age_1=(0.092-(0.092*p_1+0.053*p_2+0.033*p_3))*p_1;
d_age_2=(0.053-(0.092*p_1+0.053*p_2+0.033*p_3))*p_2;
d_age_3=(0.033-(0.092*p_1+0.053*p_2+0.033*p_3))*p_3;
d_age_4=-(d_age_1+d_age_2+d_age_3);

Le programme calcule d’abord les probabilités prédites (p_1, etc.), puis les dérivées par
rapport à la variable age (d_age_1 , etc). Pour obtenir leur moyenne sur l’échantillon, on
utilise une des procédure SAS la calculant (la procédure Means, par exemple).
L’autre moyen de calculer les effets moyens est d’utiliser une macro. Ceci nécessite de
récupérer automatiquement les valeurs estimées des paramètres. On peut le faire facilement
avec Catmod ou Mdc grâce à l’option outest. Avec Qlim, il faut utiliser une commande du
système ODS (Output Delivery System), qui doit être exécutée juste avant la procédure et qui
permet de créer une table SAS contenant, entre autres, les valeurs des paramètres.
Avec Qlim, on écrit donc :
ods output ParameterEstimates = param ;

La commande crée la table param qui, grâce à l’option ParameterEstimates contient


notamment les valeurs des paramètres (variable Estimate de la table). Puis on exécute Qlim :
proc qlim data=emp ;
model csb = age afinet fem etr agglo3 agglo4
/ type=mlogit covest=hess ;
run;

On utilise ensuite la macro :


deriv_proba(tab_ent=,var_explic=,param_ent=,noms_categ=);

qui calcule les dérivées moyennes des probabilités par rapport aux variables continues du
modèle. Elle figure in extenso à la fin du document (annexe 2). La table en entrée tab_ent est
la table d’origine. Le paramètre var_explic est la liste des variables explicatives du modèle
(hors terme constant). La table en entrée param_ent est celle des paramètres, table créée par
ods. Le paramètre noms_categ donne les labels attribués aux différentes catégories. Il faut
s’assurer que l’ordre des variables explicatives de la liste var_explic est celui des variables
de l’instruction model de la procédure. L’ordre des labels noms_categ doit correspondre aux
modalités de la variable dépendante cs (et non csb) : le dernier label de la liste est celui de la
catégorie de référence. On notera que la macro a été écrite pour être exécutée après la
procédure Qlim. Toutefois, elle peut très facilement être modifiée pour être exécutée après
Catmod ou Mdc (voir annexe 2).
L’exécution de la macro :
%deriv_proba( tab_ent=emp,var_explic=age afinet fem etr,
param_ent=param,noms_categ="cad" "prof_int" "emp" "ouv");

donne le tableau suivant. On y lit, par exemple, que l’augmentation d’un an de l’âge de fin
d’études augmente de 3,70 points, en moyenne, la probabilité d’être cadre, mais diminue de
1,89 points celle d’être employé. On vérifie que la somme, en ligne, des effets est bien nulle
(voir I.1).

71
effets moyens des variables continues
sur les probabilités

cad prof_int emp ouv

AGE 0.56 0.13 -0.04 -0.65


AFINET 3.70 2.05 -1.89 -3.86

2 - Calcul des différences moyennes (variables qualitatives)


Dans le cas de variables qualitatives binaires ou polytomiques à plus de deux modalités,
on peut aussi écrire un programme pour calculer les probabilités prédites. Par exemple, pour
estimer l’impact de la variable fem sur les probabilités, on écrit :
data diff;
set emp;
exp_1_0=exp(-16.019+0.092*age+0.601*afinet -2.191*etr
+0.636*agglo3+2.218*agglo4);
exp_1_1=exp(-16.019+0.092*age+0.601*afinet-0.170-2.191*etr
+0.636*agglo3+2.218*agglo4);
exp_2_0=exp(-10.124+0.053*age+0.407*afinet-1.407*etr
+0.272*agglo3+1.166*agglo4);
exp_2_1=exp(-10.124+0.053*age+0.407*afinet+0.186-1.407*etr
+0.272*agglo3+1.166*agglo4);
exp_3_0=exp(-4.544+0.033*age+0.145*afinet-0.472*etr
+0.047*agglo3+0.833*agglo4);
exp_3_1=exp(-4.544+0.033*age+0.145*afinet+2.004-0.472*etr
+0.047*agglo3+0.833*agglo4);
exp_14_0=exp_1_0+exp_2_0+exp_3_0+1;
exp_14_1=exp_1_1+exp_2_1+exp_3_1+1;
d_p_1=(exp_1_1/exp_14_1) - (exp_1_0/exp_14_0);
d_p_2=(exp_2_1/exp_14_1) - (exp_2_0/exp_14_0);
d_p_3=(exp_3_1/exp_14_1) - (exp_3_0/exp_14_0);
d_p_4=(d_p_1+d_p_2+d_p_3);

On prend ensuite la moyenne des quantités calculées d_p_1 à d_p_4, en utilisant par exemple
la procédure Means.
La seconde solution est d’utiliser la macro :
diff_proba( tab_ent=, param_ent=,
var_explic=, var_qual=,noms_categ=);

qui est reproduite en annexe 3 du document. Elle donne les probabilités prédites par le modèle
pour les valeurs 0 et les valeurs 1 de la variable binaire. La table en entrée de la macro
tab_ent est la table d’origine (c’est-à-dire emp ). La table en entrée param_ent est celle des
paramètres, créée par la commande ods output (procédure Qlim) ou par l’option outest
(procédures Catmod ou Mdc). Le paramètre var_explic est la liste des variables explicatives
du modèle (hors terme constant). Le paramètre var_qual donne le nom de la variable binaire
dont on souhaite estimer l’effet sur l’appartenance aux catégories. Enfin, le paramètre
noms_categ donne les labels attribués aux différentes catégories. Les précautions d’utilisation
sont les mêmes que pour deriv_proba (supra).
L’exécution de la macro pour la variable fem :
%diff_proba( tab_ent=emp, param_ent=param,
var_explic= age afinet fem etr agglo3 agglo4,
var_qual=fem,noms_categ="cad" "prof_int" "emp" "ouv");

donne les résultats suivants reportés dans le tableau ci-après. La ligne REF du tableau indique
la modalité de référence de la variable (ici homme).

72
différences des probabilités prédites
pour la variable (fem)

cad prof_int emp ouv

REF 0.00 0.00 0.00 0.00


FEM -10.94 -8.89 40.29 -20.47

On y lit par exemple que, toutes choses égales d’ailleurs, la probabilité d’une femme d’être
cadre est inférieure de 10.94 points à celle d’un homme d’être cadre.
On effectue le même genre de calculs pour les deux autres variables qualitatives. Si on a
choisi d’utiliser la macro, on écrit, dans le cas de la variable etr :
%diff_proba( tab_ent=emp, param_ent=param,
var_explic= age afinet fem etr agglo3 agglo4,
var_qual=etr,noms_categ="cad" "prof_int" "emp" "ouv");
Puis, pour la taille d’agglomération, on entre les modalités de la variable qui ne correspondent
pas à la modalité de référence :
%diff_proba( tab_ent=emp, param_ent=param,
var_explic= age afinet fem etr agglo3 agglo4,
var_qual= agglo3 agglo4,
noms_categ="cad" "prof_int" "emp" "ouv");

Puis on rassemble les résultats dans un seul tableau.

Effets(1) moyens des différentes caractéristiques


sur les probabilités d’appartenance aux différentes catégories
(pourcentages)

Variable Cadre Prof Employé Ouvrier


intermédiaire
Age +0.56 +0.13 -0.04 -0.65
Age de fin d’études +3.70 +2.05 -1.89 -3.86
Genre
Homme ref ref ref ref
Femme -10.94 -8.89 +40.29 -20.47
Nationalité
Français ref ref ref ref
Etranger -10.95 -6.96 +4.25 13.66
Taille d’agglomération
< 200 000 hab ref ref ref ref
200 000 - 2 000 000 hab +4.72 +0.93 -2.81 -2.85
agglo parisienne +16.03 +0.54 -2.03 -14.53
(1) dérivées moyennes pour les variables age et age de fin d’études ; différences moyennes des probabi-
lités prédites pour les variables genre, nationalité et taille d’agglomération.

On y lit par exemple qu’un habitant de l’agglomération parisienne a, sur un habitant d’une
agglomération de moins de 200 000 habitants, un avantage de 16,03 points dans la probabilité
d’être cadre, toutes choses (observées) égales d’ailleurs. Sur ce point, il ne faut pas faire dire à
ces résultats davantage que ce qu’ils sont censés dire. Par exemple, on ne peut déduire de ce

73
tableau qu’un habitant d’une agglomération de moins de 200 000 habitants déménageant à
Paris verrait ses chances d’être cadre augmenter de 15.93 points. Dire ceci, c’est introduire
l’idée de mobilité géographique, de comportement individuel de mobilité, alors que la
variable de taille est supposée ici être exogène. Pour parler de mobilité, il faudrait prendre
explicitement en compte le caractère comportemental de la variable (voir II.1).

3 - La prise en compte d’effets non linéaires des variables explicatives continues


L’âge a-t- il un effet non linéaire sur l’appartenance catégorielle ? Autrement dit, passer
de 45 à 46 ans a-t- il le même effet sur la probabilité d’être cadre que de passer de 25 à 26
ans ? Comme on l’a déjà noté (section II.2), il y a deux manières de prendre en compte un
effet non linéaire : introduire l’âge et son carré dans le modèle ; découper la variable d’âge en
tranches. La seconde solution a l’avantage de pouvoir présenter les résultats sous la forme
d’un effet moyen de chaque tranche d’âge et de vérifier, s’il est différent d’une tranche d’âge
à l’autre, qu’il y a bien non linéarité 37 .
Au lieu donc d’introduire les variables continues age et afinet dans le modèle, on les a
remplacées par des tranches d’âge. Pour la variable d’âge, on en a retenu trois : 25-34 ans
(39,8 % des effectifs) ; 35-44 ans (34,9 %) ; 45 ans ou plus (25,3 %). Pour la variable d’âge
de fin d’études, on a retenu 4 tranches et choisi leurs bornes de manière à obtenir à peu près
l’équi-répartition des effectifs. Le découpage conduit à : 16 ans ou moins (25,2 % des
effectifs) ; 17 ou 18 ans (26,5 %) ; 19-21 ans (22,5 %) ; 22 ans ou plus.
On procède ensuite comme avec la variable de taille d’agglomération (section III.7).
Après avoir créé les variables de tranches d’âge (tr_age prenant les valeurs 1 à 3) et de
tranches d’âge de fin d’études (tr_afinet prenant les valeurs 1 à 4), on le s remplace par les
variables binaires, nommées respectivement tage1-tage3 et tafinet1-tafinet4. Puis on
estime le modèle par la procédure Qlim, après la commande ods :
ods output ParameterEstimates = paramb ;
proc qlim data=emp ;
model csb = tage2 tage3 tafinet2-tafinet4 fem etr agglo3 agglo4
/ type=mlogit covest=hess ;
run;

On a exclu les modalités de référence des deux variables, c’est-à-dire tage1 et tafinet1. On
calcule ensuite les différences de probabilité prédites. Avec la macro diff_proba, ceci donne
pour la variable d’âge :
%diff_proba( tab_ent=emp, param_ent=paramb,
var_explic= tage2 tage3 tafinet2 tafinet3 tafinet4 fem etr
agglo3 agglo4,
var_qual= tage2 tage3,
noms_categ="cad" "prof_int" "emp" "ouv");

On obtient :

différences des probabilités prédites


pour la variable (tage2 tage3)

cad prof_int emp ouv


REF 0.00 0.00 0.00 0.00
TAGE2 8.71 1.54 -2.67 -7.58
TAGE3 11.45 1.80 -1.49 -11.75

37
On renvoie à Le Blanc, Lollivier, Marpsat, Verger (2001, p 50) pour une troisième solution consistant à
remplacer la variable d’âge par une focntion linéaire par morceaux.

74
Il est intéressant de comparer ce dernier tableau à celui de la section précédente qui donne
les dérivées moyennes par rapport à l’âge. On remarque d’abord que l’âge n’a pas un effet
uniforme sur l’appartenance à la catégorie des cadres. En effet, être âgé de 35 à 44 ans (plutôt
qu’avoir moins de 35 ans) augmente la probabilité d’être cadre de 8.71 points (21.90 - 13.19).
En revanche, la probabilité n’augmente plus que de 2.74 points quand on passe de la tranche
35-44 ans à la tranche supérieure. Par conséquent, la valeur de 0.56 points qui mesure
l’impact d’une année supplémentaire sur la probabilité d’être cadre, est une valeur moyenne,
qui ne tient pas compte du fait que, par exemple, passer de 29 à 30 ans a un impact plus
important sur la probabilité d’être cadre que de passer de 50 à 51 ans.

III.8.c - L’estimation des écarts-type par bootstrap


Le désavantage des tableaux donnant les effets des variables par le modèle est qu’ils ne
fournissent auc une indication sur la précision des quantités calculées. On ne sait pas dire si
l’écart constaté entre deux d’entre elles est significatif ou non. Par exemple, les effets des
deux tailles d’agglomération sur la probabilité d’exercer une profession intermédiaire sont
très faibles (moins de 1 % : voir tableau de la section précédente). Mais peut-être sont-ils
mesurés avec suffisamment de précision pour qu’on puisse dire que, malgré leurs faibles
valeurs, ils indiquent tout de même un effet de la taille d’agglomération sur l’appartenance
aux professions intermédiaires ?
Si on savait écrire la variance de ces quantités, qui est fonction des paramètres du modèle,
on saurait calculer leurs écarts-type en remplaçant les paramètres par leurs valeurs estimées.
On ne l’a pas. Une solution est alors d’estimer les écarts-type par bootstrap.
D’une manière générale, la technique du bootstrap permet d’obtenir empiriquement la loi
de distribution des estimateurs (ici les dérivées des probabilités, ou bien les différences de
probabilités prédites) afin d’en estimer les caractéristiques et notamment son moment d’ordre
deux (sa variance) 38 . Son principe est le suivant. On tire avec remise, dans l’échantillon
d’étude, un échantillon de même taille sur lequel on estime le modèle. Puis, avec les valeurs
estimées des paramètres, on calcule les quantités qui nous intéressent (les dérivées des
probabilités, ou bien les différences de probabilités prédites). On obtient ainsi un premier jeu
de valeurs de ces quantités. On tire avec remise, toujours dans l’échantillon de l’étude, un
deuxième échantillon, sur lequel on réestime le modèle. Avec les nouvelles valeurs estimées
des paramètres, on obtient une deuxième jeu de valeurs des quantités d’intérêt, qui sont
(légèrement) différentes des valeurs obtenues à l’issue du premier tirage.
On réitère cette séquence d’opérations (tirage avec remise, estimation des paramètres,
calcul des quantités d’intérêt) un certain nombre de fois, mettons 10039 . On obtient au final
100 jeux de valeurs des quantités d’intérêt. On dispose donc d’une distribution empirique de
ces quantités. Il suffit alors d’en calculer la variance empirique.

L’ossature du programme permettant de faire du bootstrap est la suivante. La table


d’origine, qui contient l’échantillon d’étude de n individus (appelée ici tab_ent), est supposée
triée selon ident, variable qui identifie l’individu.
%do i =1 %to 100 ;
data tab_boot ;
retain ii 0;

38
Efron (1979) et Efron et Tibshirani (1986) sont des références classiques en la matière.
39
Efron et Tibshirani (1986) considèrent que 100 tirages sont suffisants pour calculer des écarts-type. En
revanche, il en faut beaucoup plus si on souhaite faire des tests d’hypothèse.

75
num_obs=int(ranuni(12345+&i)*tot_obs)+1;
set tab_ent(keep=ident) point=num_obs nobs=tot_obs;
ii+1;if ii>tot_obs then stop;
run;
data tab_boot ;
merge tab_boot(in=ib) tab_ent ;
by ident;
if ib;
run;

[procédure d’estimation des paramètres


et calculs des quantités d’intérêt]

proc append data=tab base=tab_param;


run;
%end;

Le programme est une succession de trois étapes :


• La première consiste à tirer avec remise, dans la table d’origine tab_ent, un échantillon
« bootstrap » de n individus et de le conserver dans une table SAS, appelée ici tab_boot,
qui ne contient que la variable d’identification de l’individu. La variable num_obs est le
numéro de l’observation de la table d’entrée, tiré aléatoirement par la fonction ranuni (qui
a nécessairement comme argument 0 ou un entier de longueur 5 à 7). La variable tot_obs,
créée par l’option nobs, contient le nombre d’individus de l’échantillon de départ.
L’option point indique le nom de la variable repérant l’observation.
Puis, par appariement entre tab_boot et tab_ent, on récupère toutes les informations sur
les individus tirés qui figurent dans tab_ent.
• La deuxième étape est celle de l’estimation du modèle sur cet échantillon « bootstrap » et
du calcul des quantités qui nous intéressent et qui sont conservées dans une table SAS
(appelée ici tab).
• Troisième étape, on ajoute - procédure append - ces quantités à la table tab_param. Si le
nombre d’itérations est de 100 comme dans cet exemple, la table tab_param contiendra
donc 100 observations.

Pour calculer l’écart-type « bootstrap » de chaque quantité q, on procède comme suit.


Soit q̂ la valeur de q calculée sur l’échantillon d’étude. Soit q(b) la valeur de q calculée sur
l’échantillon «bootstrap » n° b (b est ici compris entre 1 et 100). On calcule la somme des
carrés des différences q (b) − qˆ , que l’on divise par le nombre total de tirages (c’est-à-dire
100). L’écart-type s’obtient en en prenant la racine carrée.

76
III.9 - Choix entre deux modèles non emboîtés
Jusqu’à présent, on a choisi de mesurer le niveau d’éducation par l’âge de fin d’études au
lieu du diplôme. Un des arguments en faveur de la variable d’âge est la lisibilité des résultats.
Avec le niveau de diplôme, qui est une variable qualitative à plus de deux modalités, la
lecture est plus difficile. Il est cependant possible que le modèle avec la variable de diplôme à
la place de l’âge de fin d’études soit mieux ajusté aux données.
Pour le savoir, on a réestimé le modèle avec les variables age, fem, etr et dipl, où dipl est
la variable de diplô me comptant 5 modalités (aucun diplôme ou CEP ; BEPC, CAP, BEP ou
diplôme de ce niveau ; bac ou équivalent ; bac+ 2 ; diplôme supérieur). L’indicateur d’Estrella
vaut maintenant 0.6495, contre 0.4598 pour le modèle avec la variable d’âge de fin d’études à
la place du diplôme. L’augmentation est sensible. Le modèle avec la variable de diplôme a de
fortes chances d’être mieux ajusté aux données.
Pour le confirmer, on mène le test départageant les deux modèles (voir I.5). Avec la
valeur de z égale à 0.19 (c’est-à-dire à peu près l’écart entre les indicateurs d’Estrella ajustés
des deux modèles), la quantité à droite du signe ≤ de l’expression (24) est égale à :
{ }
Φ − [ −2 × 8409 × 0.19 × ln 4 + (12 − 3)]1/ 2 = Φ{− 40.51}
C’est un nombre infinitésimal. Par conséquent, on n’a quasiment pas de risque de se tromper
en affirmant que le modèle avec la variable de diplôme est meilleur que le modèle avec la
variable d’âge de fin d’études. On retrouve d’ailleurs le fait que c’est le diplôme, davantage
que l’âge de fin d’études, qui a une valeur sur le marché du travail.
Par conséquent, il est préférable de retenir ce modèle.

77
Etude de cas II : le logit conditionnel
le logit emboîté (nested logit)

78
IV.1 - Spécification et estimation d’un logit conditionnel
On va spécifier et estimer un logit conditionnel sur des données utilisées par Hensher et
Bradley (1993), puis réutilisées par Allison (1999) et par Hensher et Greene (2002). Il s’agit
d’une enquête sur les modes de transports reliant trois villes, qui a été menée en Australie en
1986 auprès de 210 personnes. Celles-ci pouvaient choisir entre l’avion, le train, le bus ou la
voiture. L’enquête leur demandait d’indiquer, pour chaque mode à leur disposition, le temps
de transfert entre leur domicile et le lieu de départ (ce temps est nul dans le cas de la voiture),
le temps de trajet et le coût du voyage. L’enquête demandait aussi le revenu du ménage et le
nombre de personnes devant voyager. Toutes ces variables sont supposées influencer le choix
du moyen de transport pour se déplacer d’une ville à l’autre.
La table en entrée doit, pour chaque individu, comporter autant d’observations qu’il y a
de possibilités de transport, c’est-à-dire 4. Elle contient donc 840 observations au total.
L’encadré suivant en reproduit le s 8 premières observations, qui concernent les deux premiers
individus de l’enquête.

Les 8 premières observations de la table en entrée

ident mode choix tps_transf tps_trajet cout revenu nbre

1 1 0 69 100 59 35 1
1 2 0 34 372 31 35 1
1 3 0 35 417 25 35 1
1 4 1 0 180 10 35 1
2 1 0 64 68 58 30 2
2 2 0 44 354 31 30 2
2 3 0 53 399 25 30 2
2 4 1 0 255 11 30 2

Les variables tps_transf, tps_trajet et cout sont des caractéristiques des choix. Elles
varient pour un même individu ident d’un mode de transport à l’autre, le mode étant identifié
par la variable mode. Cette variable vaut 1 pour l’avion, 2 pour le train, 3 pour le bus et 4 pour
la voiture. Les variables revenu (en milliers de dollars australiens) et nbre (de personnes devant
voyager) sont des caractéristiques individuelles. Elles ne varient pas selon les modes de
transport. La variable choix indique le mode qui a été utilisé.
On va d’abord spécifier et estimer un modèle logit conditionnel au sens strict du terme
(I.1.b), c’est-à-dire ne prendre que les trois caractéristiques de choix comme variables
explicatives. Pour ce faire, on utilise la procédure Mdc. La procédure Qlim ne permet
d’estimer un logit conditionnel que dans la version expérimentale 8.01. On écrit les
instructions suivantes :

proc mdc data=trav ;


id ident;
model choix = tps_transf tps_trajet cout
/ type=clogit choice=(mode) ;
run;

La syntaxe ressemble à celle utilisée dans la partie précédente pour estimer un logit
multinomial. Les résultats figurent dans l’encadré ci-après.

Résultats de l’estimation

79
The MDC Procedure

Conditional Logit Estimates

Model Fit Summary

Dependent Variable choix


Number of Observations 210
Number of Cases 840
Log Likelihood -246.85867
Maximum Absolute Gradient 7.09508E-9
Number of Iterations 4
Optimization Method Newton-Raphson
AIC 499.71734
Schwarz Criterion 509.75866

Discrete Response Profile

Index mode Frequency Percent

0 1 58 27.62
1 2 63 30.00
2 3 30 14.29
3 4 59 28.10

Goodness-of-Fit Measures for Discrete Choice Models

Measure Value Formula

Likelihood Ratio (R) 88.526 2 * (LogL - LogL0)


Upper Bound of R (U) 582.24 - 2 * LogL0
Aldrich-Nelson 0.2965 R / (R+N)
Cragg-Uhler 1 0.3440 1 - exp(-R/N)
Cragg-Uhler 2 0.3669 (1-exp(-R/N)) / (1-exp(-U/N))
Estrella 0.3670 1 - (1-R/U)^(U/N)
Adjusted Estrella 0.3454 1 - ((LogL-K)/LogL0)^(-2/N*LogL0)
McFadden's LRI 0.1520 R / U
Veall-Zimmermann 0.4035 (R * (U+N)) / (U * (R+N))

N = # of observations, K = # of regressors

Parameter Estimates

Erreur Approx
Parameter DDL Estimation standard t Value Pr > |t| Gradient

tps_transf 1 -0.0340 0.004643 -7.32 <.0001 -978E-12


tps_trajet 1 -0.002193 0.000458 -4.79 <.0001 -7.1E-9
cout 1 0.008891 0.004877 1.82 0.0683 5.31E-10

Un seul paramètre est estimé pour chaque variable caractéristique du choix. Les deux
paramètres des variables « temps de transfert » et « temps de transport » sont significatifs au
seuil de 1 %. Ils sont négatifs, conformément à l’intuition : un temps de transfert trop long, un
temps passé dans les transports trop élevé désincitent d’une manière générale à voyager. En
revanche, on constate que le coût a un effet positif sur le choix d’un mode de transport, même

80
si le paramètre est significatif seulement au seuil de 10 %, mais pas à celui de 5 %. Ceci est
surprenant. On y revient plus loin.
La syntaxe pour la procédure Qlim (version 8.01) est la suivante :

proc qlim data=trav ;


model mode = tps_transf tps_transp cout
/ type=clogit choice=choix id=identcovest=hess ;
run;

Telle quelle, elle donne les mêmes résultats que la procédure Mdc. On notera l’utilisation
de l’option covest qui garantit que les écarts-type des paramètres sont estimés à partir de
l’inverse de la matrice hessienne, comme pour Mdc. On notera aussi que les variables mode et
choix ne figurent pas aux mêmes places dans la syntaxe des deux procédures.

On introduit ensuite des constantes spécifiques à chaque mode de transport. Pour éviter la
colinéarité, on en a exclu une, celle relative à la voiture. On crée ces constantes dans une
étape data préalable, puis on exécute à nouveau la procédure.

data trav ;
set trav ;
avion=(mode=1);
train=(mode=2);
bus=(mode=3);
proc mdc data=trav ;
id ident;
model choix = avion train bus tps_transf tps_trajet cout
/ type=clogit choice=(mode) ;
run;

Les résultats de l’estimation des paramètres figurent dans l’encadré ci-dessous :

Résultats de l’estimation

Parameter Estimates

Erreur Approx
Parameter DDL Estimation standard t Value Pr > |t| Gradient

avion 1 4.7399 0.8675 5.46 <.0001 3.43E-10


train 1 3.9532 0.4686 8.44 <.0001 2.8E-10
bus 1 3.3062 0.4583 7.21 <.0001 -609E-12
tps_transf 1 -0.0969 0.0103 -9.37 <.0001 -1.88E-8
tps_trajet 1 -0.003995 0.000849 -4.70 <.0001 -2.08E-7
cout 1 -0.0139 0.006651 -2.09 0.0365 1.643E-8

Deux enseignements. D’abord, une fois pris en compte le temps de transfert, le temps de
trajet et le coût, les individus préfèrent tout moyen de transport à la voiture : les paramètres
des trois constantes spécifiques aux choix sont tous significatifs au seuil de 1 % et positifs.
Ensuite, le paramètre de la variable de coût a changé de signe par rapport à l’estimation
précédente. Il est maintenant plus conforme à l’intuition. Le modèle avec constantes est donc
mieux adapté. D’ailleurs, le coefficient d’Estrella passe de 0.345 à 0.652. Avoir ajouté des
termes constants spécifiques aux choix a sensiblement amélioré la qualité du modèle (son

81
ajustement aux données). Ces constantes captent les effets de variables inobservables (le
confort, etc) qui sont très liées aux choix.
On introduit enfin les variables individuelles dans le modèle. A chacune d’elles sont
attachés quatre paramètres. Pour les raisons d’identification examinées en I.1.a ou en I.2, il
faut en annuler un. On choisit d’annuler celui attaché à la voiture. Avant d’exécuter la
procédure Mdc, il faut transformer ces variables de la même manière que pour le logit
multinomial. La transformation est la même si on utilise Qlim (version 8.01).

data trav ;
set trav ;
revenu_avion=revenu*avion;
revenu_train=revenu*train;
revenu_bus=revenu*bus;
nbre_avion=nbre*avion;
nbre_train=nbre*train;
nbre_bus=nbre*bus;
proc mdc data=trav ;
id ident;
model choix = avion train bus tps_transf tps_trajet cout
revenu_avion revenu_train revenu_bus
nbre_avion nbre_train nbre_bus
/ type=clogit choice=(mode) ;
run;

L’encadré suivant donne les valeurs estimées des paramètres. Le coefficient d’Estrella
ajusté vaut maintenant 0.7178.

Résultats de l’estimation

Parameter Estimates

Erreur Approx
Parameter DDL Estimation standard t Value Pr > |t| Gradient

avion 1 6.0352 1.1382 5.30 <.0001 3.73E-8


train 1 5.5735 0.7113 7.84 <.0001 2.6E-8
bus 1 4.5047 0.7958 5.66 <.0001 -8.25E-8
tps_transf 1 -0.1012 0.0111 -9.08 <.0001 -3.38E-6
tps_trajet 1 -0.004131 0.000893 -4.63 <.0001 -0.00003
cout 1 -0.008670 0.007876 -1.10 0.2710 1.516E-6
revenu_avion 1 0.007481 0.0132 0.57 0.5710 2.201E-6
revenu_train 1 -0.0592 0.0149 -3.98 <.0001 -3.49E-8
revenu_bus 1 -0.0209 0.0164 -1.28 0.2012 -3.22E-6
nbre_avion 1 -0.9224 0.2585 -3.57 0.0004 7.452E-8
nbre_train 1 0.2163 0.2336 0.93 0.3546 7.809E-8
nbre_bus 1 -0.1479 0.3428 -0.43 0.6661 -2.61E-7

Les valeurs des trois paramètres attachés aux caractéristiques des choix changent, à
l’exception de la variable de coût dont le paramètre, s’il garde son signe, n’est plus significatif
au seuil de 10 %. La faible taille de l’échantillon explique très probablement l’absence de
significativité au seuil de 10 % de plusieurs paramètres estimés du modèle. En ne tenant pas
compte de ce problème de significativité, les derniers paramètres no us enseignent que l’avion
est le moyen de transport préféré des ménages à haut revenu et qu’il est utilisé lorsque peu de
personnes ont à voyager ensemble.

82
IV.2 - Test de la propriété IIA
Avant de proposer une autre spécification du modèle de choix, on teste la propriété dite
IIA (voir I.7) que doit vérifier le logit conditionnel. Elle suppose que les individus choisissent
entre deux moyens de transport quelconques en faisant abstraction des autres moyens qui leur
sont offerts. Par exemple, ils arbitreraient de la même manière entre la voiture et le train,
qu’ils aient ou non un aéroport à proximité. De même, leur choix entre l’avion et le train ne
dépendrait pas de l’existence d’une compagnie de bus dans leur ville.
On va tester la propriété IIA, en examinant si le fait de retirer le bus comme mode de
transport possible influe sur les autres choix. On procède comme suit :
• Après avoir estimé le modèle sur l’échantillon total où les quatre possibilités de transport
sont offertes (voir la section précédente), on exclut les paramètres attachés au bus.
• On sélectionne un sous-échantillon en excluant le bus comme possibilité, et en excluant
les individus qui l’ont choisi pour voyager. On estime, sur ce sous-échantillon, le modèle
de choix entre les trois modes de transport restants.
• On compare les valeurs des paramètres obtenues dans ces deux estimations. Si la
propriété IIA est valide, elles doivent être proches les unes des autres. L’écart entre les
deux ensembles de paramètres s’estime en calculant la statistique de test (28).
Le programme SAS comporte donc plusieurs étapes. On estime d’abord le modèle complet.

proc mdc data=trav outest=tab_est covout ;


id ident;
model choix = avion train bus tps_transf tps_trajet cout
revenu_avion revenu_train revenu_bus
nbre_avion nbre_train nbre_bus
/ type=clogit choice=(mode) ;

On a ajouté les options outest= et covout de la procédure pour conserver les valeurs des
paramètres estimés d’une part, et la matrice de variance covariance d’autre part, que l’on met
séparément dans deux tables en écrivant les instructions suivantes

data param(drop=_model_--_stderr_ bus revenu_bus nbre_bus)


cov(drop=_model_--_method_ _liklhd_ _stderr_
bus revenu_bus nbre_bus);
set tab_est;
if upcase(_type_)='PARMS' then output param;
else output cov;
proc transpose data=cov
out=tcov(drop=_name_ _label_ bus revenu_bus nbre_bus);

On a exclu de la table param des paramètres et de al table tcov contenant la matrice de


variance covariance, non seulement les variables automatiquement créées par les procédures
utilisées ( _MODEL_, _TYPE_, _STATUS_ , etc : voir section III.5), mais aussi les valeurs des
paramètres et des variances ou covariances concernant le bus. On exclut ensuite de
l’échantillon les individus ayant utilisé le bus.

data t_id(keep=ident);
set trav ;
if mode=3 and choix=1;
data trav_b;
merge trav t_id(in=i);
by ident;
if i=0 and mode ne 3;

83
Puis on estime le modèle sur ce sous-échantillon.

proc mdc data=trav_b outest=tab_est_b covout ;


id ident;
model choix = avion train tps_transf tps_trajet cout
revenu_avion revenu_train nbre_avion
nbre_train
/ type=clogit choice=(mode) ;

On récupère ensuite les paramètres et la matrice de variance-covariance.

data param_b(drop=_model_--_stderr_)
cov_b(drop=_model_--_stderr_);
set tab_est_b;
if upcase(_type_)='PARMS' then output param_b;
else output cov_b;

Enfin, on calcule la statistique de test et on situe sa valeur dans la distribution de la loi du χ 2


à 9 degrés de liberté (voir I.7).

proc iml;
start test_iia;
use param;read all into par;
use param_b;read all into parb;
use tcov;read all into covar;
use cov_b;read all into covarb;
s=(par-parb)*inv(covarb-covar)*t(par-parb);
if s<0 then print "statistique de test négative";
else do;
pvalue=1-probchi(s,ncol(parb));
print "statistique de test = " s,
"p-value = " pvalue;
end;
finish test_iia;
run test_iia;
quit;
run;

On notera que le programme de calcul traite le cas particulier d’une statistique de test
négative. Comme l’ont noté Hausman et McFadden (1984, p 1226), cette anomalie peut se
produire avec de petits échantillons. Lorsque c’est le cas, elle n’invalide pas la propriété IIA.
La valeur de la statistique est 38.72. Or le dernier centile de la fonction de répartition de
la loi χ 2 (9) est égale à 21.67. Par conséquent, l’hypothèse selon laquelle la propriété IIA est
valide doit être rejetée.

84
IV.3 - Spécification et estimation d’un logit emboîté (nested logit)
Les modèles logit emboîtés constituent une des alternatives possibles au logit
multinomial/conditionnel, lorsque les données rejettent la propriété IIA. Ces modèles reposent
sur le fait que certains choix offerts à l’agent se ressemblent. Ils ont en commun une ou
plusieurs qualités qui les distinguent des autres. L’agent prend alors sa décision en
considérant à la fois ces qualités communes et les caractéristiques particulières de chacun des
choix possibles. Par exemple, le bus, le train et la voiture sont des moyens terrestres de
transport. Ceci constitue un trait commun à ces trois modes, qu’une personne qui se sentirait
davantage en sécurité en voyageant sur terre plutôt que dans les airs prendra en compte dans
son choix.
Dans ce contexte, la démarche du modélisateur consiste d’abord à partitionner l’ensemble
des choix en sous-ensembles regroupant des choix qui se ressemblent. Il n’est pas toujours
facile de déterminer quelle est la partition pertinente. Souvent, plusieurs sont possibles, et il
n’y a pas de critère simple permettant de les départager. Supposons, pour revenir à l’exemple
des modes de transport, que l’on distingue les moyens terrestres et l’avion. On a un modèle à
deux niveaux, qui peut être schématisé par l’arbre suivant :

niveau 2 air terre

niveau 1 avion train bus voiture

Le niveau 1 définit l’ensemble des choix possibles. Le niveau 2 définit la partition des choix
qui a été réalisée en les rassemblant par groupes (nests). De ce fait, un tel modèle peut être
qualifié de hiérarchique. Par contre, on évitera le qualificatif de séquentiel au sens d’un
processus temporel, qui est trop restrictif. Il n’y a en effet aucune nécessité que le choix soit
séquentiel. On notera que la branche « air » de l’arbre contient un seul choix possible ; on dit
alors que le modèle est partiellement dégénéré.

Une fois cette partition effectuée, il faut déterminer à quel(s) niveau(x) interviennent les
variables socio-démographiques censées influencer les choix. Les variables du niveau 2, qui
mesurent les qualités communes aux choix d’un même groupe, ne doivent pas varier d’un
choix à l’autre du groupe. Les variables de niveau 1 sont des caractéristiques qui varient d’un
choix à l’autre.
La sélection des variables et leur affectation à un niveau plutôt qu’à l’autre n’est pas
toujours très simple à fair e. Plusieurs spécifications sont possibles sans que l’une soit
meilleure qu’une autre. Dans le cas présent, on a retenu les variables tps_transf,
tps_trajet et cout comme déterminants de niveau 1, et les deux variables revenu_avion
et nbre_avion comme déterminants de niveau 2. On a aussi introduit des termes constants à
chacun de ces niveaux.
Le graphique suivant complète l’arbre précédent en représentant les variables explicatives
qui ont été retenues à chacun des deux niveaux du modèle.

85
niveau 2 air terre variables : avion, revenu_avion,
nbre_avion

niveau 1 avion train bus voiture variables : train, bus,


tps_transf, ps_trajet,
cout

Le modèle s’estime par le maximum de vraisemblance. Pour ce faire, on utilise la


procédure Mdc. L’option type=nlogit de l’instruction model signifie qu’on estime un
modèle emboîté (nested logit). La procédure Qlim de la version 8.02 n’estime plus de logit
emboîté.
On écrit les instructions suivantes :

proc mdc data=trav ;


id ident;
model choix = avion train bus tps_transf tps_trajet cout
revenu_avion nbre_avion
/ type=nlogit choice=(mode) ;
nest level(1) = (1 @ 1, 2 3 4 @ 2),
level(2) = (1 2 @ 1) ;
utility u(1,2 3 4 ) = train bus cout tps_transf tps_trajet;
utility u(2,1 2 ) = avion revenu_avion nbre_avion;
restrict fixedparm=(. . . . . . . . 1 .);
run;

L’instruction model doit contenir toutes les variables explicatives intervenant dans le
modèle.
L’instruction nest définit l’arbre de décision au niveau 1 (level(1) ) et au niveau 2
(level(2)) :
• pour le niveau 1, le choix mode=1, c’est-à-dire l’avion, est mis dans le groupe 1 : 1 @ 1 ;
les choix mode=2, mode=3 et mode=4, sont rassemblés dans le groupe 2 : 2 3 4 @ 2.
• pour le niveau 2, les deux groupes air et terre sont rassemblés en un seul : 1 2 @ 1. Bien
que cette instruction paraisse superfétatoire, elle est nécessaire.
Les deux instructions utility spécifient les variables intervenant au niveau 1 (u(1, 2 3
4 )) sur les choix 2, 3 et 4 (u(1, 2 3 4)), et au niveau 2 (u(2,1 2 ) ) sur les deux choix de
ce niveau (u(2,1 2 )). Notons que pour le niveau 2, on aurait pu écrire simplement u(2, ),
puisqu’il n’y a pas d’ambiguïté. Il est inutile d’entrer la spécification correspondant au
groupe 1, qui ne contient qu’un seul choix.

On attend du modèle l’estimation des 8 paramètres attachés aux 8 variables retenues dans
l’instruction model. Deux autres paramètres sont aussi estimés, ceux attachés aux deux
« variables d’inclusion » (voir I.8) associées aux deux groupes. Chacun de ces deux
paramètres λ1 et λ 2 mesure un degré de corrélation des choix à l’intérieur du groupe
correspondant. Comme le groupe 1 ne contient qu’un seul choix, la notion de corrélation ne
s’y applique pas. Il faut alors fixer la valeur du paramètre λ1 à 1. C’est le sens de l’instruction
restrict. Son option fixedparm laisse libre les 8 premiers paramètres, fixe à 1 le neuvième
paramètre (c’est-à-dire λ1 ) et laisse libre le dixième (c’est-à-dire λ 2 ).

86
L’encadré suivant donne les résultats de l’estimation. Les paramètres attachés aux
variables explicatives sont indicés par leur niveau d’affectation (L1 ou L2 ), et, pour le
niveau 1, leur numéro de groupe (G2). Les deux derniers sont les paramètres λ1 et λ 2 . On
vérifie que λ1 a bien été fixé à 1. Par ailleurs, on a bien 0 < λˆ 2 ≤ 1 . λˆ 2 > 1 aurait indiqué un
problème de spécification (voir I.8).
Si on compare les valeurs des paramètres avec celles résultant de l’estimation du logit
conditionnel (section IV.1), on note leur grande proximité, à l’exception des paramètres du
temps de trajet et du coût, dont les valeurs absolues sont maintenant plus élevées. Pour
apprécier véritablement le changement, il faudrait calculer les élasticités des probabilités de
choix, en partant de la formule (37) de la partie I. On obtiendrait des tableaux d’effets moyens
du même type que ceux de la partie III.8.b, ce qui permettrait une évaluation plus « lisible »
que les valeurs des paramètres du rôle joué par les différentes variables sur le choix du mode
de transport.

Résultats de l’estimation

The MDC Procedure

Nested Logit Estimates

Model Fit Summary

Dependent Variable choix


Number of Observations 210
Number of Cases 840
Log Likelihood -162.50015
Maximum Absolute Gradient 5.19533E-6
Number of Iterations 17
Optimization Method Newton-Raphson
AIC 343.00029
Schwarz Criterion 373.12426

Discrete Response Profile

Index mode Frequency Percent

0 1 58 27.62
1 2 63 30.00
2 3 30 14.29
3 4 59 28.10

Parameter Estimates

Erreur Approx
Parameter DDL Estimation standard t Value Pr > |t| Gradient

train_L1G2 1 3.8476 0.5506 6.99 <.0001 2.215E-6


bus_L1G2 1 3.3358 0.5477 6.09 <.0001 1.952E-6
cout_L1G2 1 -0.005767 0.008078 -0.71 0.4753 -1.71E-7
tps_transf_L1G2 1 -0.0865 0.0112 -7.73 <.0001 -3.75E-7
tps_trajet_L1G2 1 -0.0160 0.002354 -6.80 <.0001 -4.59E-7
avion_L2 1 4.9733 1.0980 4.53 <.0001 5.195E-6
revenu_avion_L2 1 0.0288 0.0107 2.69 0.0072 -6.33E-8
nbre_avion_L2 1 -0.6675 0.2367 -2.82 0.0048 -4.85E-7
INC_L2G1C1 0 1.0000 . . .
INC_L2G1C2 1 0.2370 0.0625 3.79 0.0001 1.798E-8

87
Bibliographie

Cette liste bibliographique commence par les ouvrages généraux qui ont largement fourni
la matière au présent document. Elle est suivie par la liste des autres références citées.

Ouvrages généraux
Ben-Akiva M., Lerman S., Discrete Choice Analysis : Theory and Application to Travel
Demand, MIT Press, 1985.
Maddala G., Limited-dependent and qualitative variables in econometrics, Cambridge
University Press, 1983.
Gouriéroux C., Econométrie des variables qualitatives, Economica, 1989.
Greene W., Econometric Analysis, Prentice-Hall, 1997.
Long J., Regression Models for Categorical and Limited Dependent Variables, Advanced
Quantitative Techniques in the Social Sciences Series, vol. 7, Sage Publications, 1997.
Louviere J., Hensher D., Swait J., Stated Choice Methods. Analysis and Application,
Cambridge University Press, 2000.
Ruud P., An Introduction to Classical Econometric Theory, Oxford University Press, 2000.
Thomas A., Econométrie des variables qualitatives, Dunod, 2000.
Train K., Qualitative Choice Analysis, The MIT Press, 1986.
Train K., Discrete Choice Methods with Simulation, Cambridge University Press, 2002.
Wooldridge J., Econometric Analysis of Cross Section and Panel Data, MIT, 2002.
A ces ouvrages, on ajoutera le document suivant, spécifiquement orienté vers l’utilisation de
SAS (version 6) pour estimer certains modèles de choix discrets :
Allison P. (1999), Logistic Regression Using The SAS System. Theory and Application. SAS
Institute Inc.

Autres références
Amemiya T. (1981), « Qualitative Response Models : A Survey », Journal of Economic
Literature, Vol. 19, December.
Amemiya T. (1985), Advanced Econometrics, Cambridge : Harvard University Press.
Anderson S., de Palma A., Thisse J.-F. (1989), « Demand for Differentiated Products,
Discrete Choice Models and the Characteristics Approach », Review of Economic Studies, 56.
Bardos M. (2001), Analyse discriminante, Dunod.
Begg C.B., Gray R. (1984), «Calculation of polychotomous logistic regression parameters
using individualized regressions », Biometrika, Vol. 71, Issue 1.
Boskin M.J. (1974), « A Conditional Logit Model of Occupational Choice », Journal of
Political Economy, Vol. 82, Issue 2, Part 1, March-April.
Debreu G. (1960), « Review of R.D. Luce, Individual Choice Behavior : A Theoretical
Analysis », American Economic Review, 50.
Efron B. (1979) « Bootstrapping Methods : Another Look at the Jacknife », Annals of
Statistics, 7.
Efron B., Tibshirani R. (1986) « Bootstrap Methods for Standard Errors, Confidence
Intervals and Other Measures of Statistical Accuracy », Statistical Science, 1.

88
Estrella A. (1998), « A New Measure of Fit for Equations With Dichotomous Dependent
Variables », Journal of Business and Economic Statistics, Vol. 16, n° 2, April.
Greene W., Hensher D. (2002), «Specification and Estimation of Nested Logit Models »,
Transportation Research, B, 36, 1.
Hausman J., Wise D. (1978), « A Conditional Probit Model for Qualitative Choice : Discrete
Decisions Recognizing Interdependence and Heterogeneous Preferences », Econometrica,
Vol. 46, n° 2.
Hausman J., McFadden D. (1984), « Specification Tests for the Multinomial Logit Model »,
Econometrica, Vol. 52, n° 5.
Hensher D., Bradley M. (1993), « Using Stated Response Data to Enrich Revealed
Preference Discrete Choice Models », Marketing Letters, 4.
Hunt G. (2000), «Alternative nested logit model structures and the special case of partial
degeneracy », Journal of Regional Science, Vol. 40, n° 1.
Keane M. (1992), « A Note on Identification in the Multinomial Probit Model », Journal of
Business & Economic Statistics, Vol. 10, n° 2.
Lancaster K. (1966), « A New Approach of Consumer Theory », Journal of Political
Economy, Vol. 74, n° 2.
Le Blanc D., Lollivier S., Marpsat M., Verger D. (2001), L’économétrie et l’étude des
comportements. Présentation et mise en œuvre des modèles de régression qualitatifs. Les
modèles univariés à résidus logistiques ou normaux, Document n° 0001, Série des documents
de travail « Méthodologie Statistique ».
Lollivier S., Marpsat M., Verger D. (1996), L’économétrie et l’étude des comportements.
Présentation et mise en œuvre des modèles de régression qualitatifs. Les modèles univariés à
résidus logistiques ou normaux, Document n° 9606, Série des documents de travail
« Méthodologie Statistique ».
Lollivier S. (2004), « Endogénéité dans un système d’équations bivarié avec variables
qualitatives », Actes des Journées de Méthodologie Statistique 2002, à paraître.
Luce R. (1959), Individual Choice Behavior, New-York, Wiley.
Manski C. (1977), « The Structure of the Random Utility Models », Theory and Decision, 8.
Marschak J. (1960), « Binary Choices Constraints on Random Utility Indicators », publié
dans Arrow K. (ed), Stanford Symposium on Mathematical Methods in the Social Sciences,
Stanford University Press, Stanford, California.
McFadden D. (1968), « The Revealed Preferences of a Government Bureauc racy »,
Economic Growth Project, Technical Report n° 17, Berkeley. [Ce document a été remanié et
publié en 1975 et 1976, parus dans The Bell Journal of Economic and Management Science].
McFadden D. (1973), « Conditional logit analysis of qualitative choice behavior », publié
dans Zarembka P. (ed.), Frontiers in Econometrics, Academic Press, New York.
McFadden D. (1978), « Modelling the Choice of Residential Location », publié dans
Karlqvist A., Lundqvist L., Snickars F., Weibull J. (eds.), Spatial Interaction Theory and
Planning Models, North Holland : Amsterdam.
McFadden D. (2001), « Economic Choices », American Economic Review, Vol. 91, n° 3.
McFadden D., Train K. (2000), «Mixed multinomial logit models of discrete response »,
Journal of Applied Econometrics, 16.
Michalopoulos C., Robins P. (2000), « Employment and child-care choices in Canada and
the United States », Canadian Journal of Economics, vol. 33, n° 2.
de Palma A., Thisse J-F. (1987), « Les modèles de choix discrets », Annales d’Economie et
de Statistique, n° 9.

89
Revelt D., Train K. (1998), «Mixed Logit with Repeated Choices », Review of Economics
and Statistics, Vol.80, n° 4.
Robin J.M. (2000), Modèles structurels et variables explicatives endogènes, Document
n° 0002, Série des documents de travail « Méthodologie Statistique »
Sautory O., Vong C. (1992), « Une étude comparative des méthodes de discrimination et de
régression logistique », publié dans Actes des journées de méthodologie descriptive - 17 et
18 juin 1992, Insee Méthodes n° 46-47-48, INSEE.
Schmidt P., Strauss R.P. (1975), « The Prediction of Occupation Using Multiple Logit
Models », International Economic Review, Vol.16, n° 2, June.
Strauss D. (1979), «Some Results on Random Utility Model », Journal of Mathematical
Psychology, 20.
Theil H. (1969), « A Multinomial Extension of the Linear Logit Model », International
Economic Review, Vol. 10, Issue 3, October.
Thurstone L. (1927), « A Law of Comparative Judgement », Psychological Review, Vol. 34.
Walker J. (2002), «The Mixed Logit (or Logit Kernel) Model : Dispelling Misconceptions
of Identification », Transportation Research Record, 1805.

90
Annexe 1: Macro de préparation des données pour la procédure Mdc

Les paramètres de la macro prepa_mdc sont les suivants :


• tab_ent : nom de la table d’origine, qui contient autant d’observations que d’individus ;
• tab_sort : nom de la table en sortie de la macro, où pour chaque individu ont été créées
autant d’observations qu’il y a de choix ou de catégories d’appartenance possibles ;
• ident : nom de la variable qui identifie l’individu ;
• categ : nom de la variable à expliquer ;
• decision : nom de la variable donnant le choix fait par l’individu, c’est-à-dire la catégorie
à laquelle il appartient ;
• var_explic : liste des variables explicatives du modèle ;
• nom_cstante : nom donné à la variable « terme constant du modèle » (elle vaut
systématiquement 1).
La macro enchaîne deux procédures :
• la procédure univariate, qui crée une table, appelée nbchoix, contenant comme seule
variable le nombre total de choix ou de catégories possibles ; ce nombre, qui correspond à
la plus forte valeur de la variable categ, est ici nommé nbchoix.
• la procédure iml, qui prépare la table qui sera en entrée de la procédure mdc. La procédure
ne contient qu’un seul module, nommé creat_var.

%macro prepa_mdc(tab_ent=,tab_sort=,identif=,categ=,decision=,
var_explic=,nom_cstante=);
proc univariate data=&tab_ent(keep=&categ) noprint;
var &categ;
output out=nbchoix max=nbchoix;
proc iml;
start creat_var;
use &tab_ent;read all var {&var_explic &categ} into x;
u use nbchoix;read all into nbchoix;
n=nrow(x);k=ncol(x);
x=j(n,1,1)||x;
xx=j(n*nbchoix,3+k*nbchoix,0);
do i=1 to n;
decision=j(nbchoix,1,0);
do j=1 to nbchoix;
v decision[j]=(x[i,k+1]=j);
end;
xx[(i-1)*nbchoix+1:i*nbchoix, ] =
j(nbchoix,1,i)||t(do(1,nbchoix,1))||decision||(i(nbchoix)@x[i,1:k]);
end;
noms_col=char(j(k*nbchoix,1,0));
do j=1 to nbchoix;
noms_col[(j-1)*k+1:j*k,]=
w compress(t({&nom_cstante &var_explic})+j(k,1,'_')+char(j(k,1,j)));
end;
tnoms_col={&identif &categ &decision}||t(noms_col);
x create &tab_sort from xx[colname=tnoms_col];append from xx;
finish creat_var;
run creat_var;
quit;
%mend;

Commentaires de la partie iml :


u Lecture de la table en entrée et transformation de la table en matrice :
On utilise (use) la table en entrée, tab_ent, dont on lit toutes les observations (read all) et
une sélection de variables (en l’occurrence la liste des variables explicatives du modèle

91
var_explic et la variable à expliquer categ). Cette table est transformée en matrice nommée
x (into x ).
On fait de même avec la table nbchoix, dont on lit toutes les observations (en fait une
seule) et variables (une seule aussi). La table est transformée en matrice (de dimension
1×1 ).
n (resp k) est le nombre de lignes (resp de colonnes) de x.
On ajoute, « à gauche » de la matrice x, le terme constant. On utilise pour ce faire la
fonction j de iml. D’une manière générale, j(nlign,ncol,valeur) représente la matrice de
nlign lignes et de ncol colonnes dont tous les éléments sont égaux à valeur. j(n,1,1) est
donc le vecteur-colonne dont les n composantes sont toutes égales à 1. || est l’opérateur de
concaténation horizontale de deux matrices. On notera bien que k correspond au nombre de
variables explicatives du modèle y compris le terme constant.
v Création de la matrice des individus « démultipliés » :
On initialise cette matrice à 0 (grâce à la fo nction j ). La matrice des individus
« démultipliés », appelée xx, a n × nbchoix lignes. Son nombre de colonnes est
k × nbchoix + 3 . Les trois colonnes supplémentaires correspondent à l’identifiant
individuel qui est créé au cours de la procédure iml et prend les valeurs de 1 à n, à la
variable categ - valeurs de 1 à nbchoix, et à la variable binaire decision qui vaut 1 pour la
modalité de la variable choisie par l’individu.
Le « remplissage » de la matrice xx se fait individu par individu (do i = 1 to n). Pour
chaque individu :
• on initialise à 0 son « vecteur decision », comprenant nbchoix composantes ;
• pour chaque choix ou catégorie j possible, on regarde si la valeur, pour l’individu i, de
la (k+1)ième colonne de x, qui correspond à la variable categ, est égale à j ; si oui, le
j ième élément du vecteur decision vaut 1 ;
• on « remplit » les nbchoix lignes de la matrice xx concernant l’individu i. Elles
correspondent aux lignes situées entre (i-1)*nbchoix +1 et i*nbchoix. On met en
première colonne de xx l’identifiant individuel (égal à i), en seconde colonne le vecteur
des nbchoix possibles (i.e. la variable categ) [la fonction do(deb,fin,pas) crée la
matrice ligne dont le premier élément est deb, le dernier est fin, et chaque élément se
déduit du précédent en ajoutant la valeur pas ; la matrice t(m) est la transposée de la
matrice m], en troisième colonne le vecteur decision. Les k × nbchoix dernières
colonnes correspondent aux variables explicatives, qui sont « démultipliées » [la
fonction i(nbchoix) crée la matrice unité de dimension nbchoix, et l’opérateur @ est le
produit tensoriel de deux matrices].
w Création des noms des (futures) variables de la table de sortie :
On initialise le vecteur colonne des noms de variable s, déclaré en caractère (fonction
char).
On définit les noms des nouvelles variables de la manière suivante :
• on définit les vecteurs- ligne des noms des variables explicatives, y compris le terme
constant ({nom_cstante var_explic}) ; on en prend la transposée pour obtenir un
vecteur-colonne de k composantes ;
• à chaque nom de variable, on adjoint le caractère _ et le numéro du choix possible
(transformé en format caractère).
Par exemple, la variable age sera age_1 pour la catégorie 1, age_2 pour la catégorie 2,
etc. La fonction compress permet de supprimer les éventuels blancs entre les chaînes de
caractères.

92
On en déduit le vecteur- ligne final, nommé tnoms_col, des noms des variables de la table
SAS correspondant à la matrice xx.
x Création de la table SAS en sortie :
On crée (create) la table tab_sort, à partir (from) de la matrice xx, en nommant les
variables par le vecteur tnom_col. On la remplit (append) à partir des valeurs de la matrice
xx.
Les lignes start creat_var et finish creat_var délimitent le module creat_var. L’instruction
run creat_var l’exécute. On sort de la procédure iml par la commande quit.

93
Annexe 2 : Macro de calcul des dérivées des probabilités

La macro deriv_proba écrite ci-dessous doit être passée après la procédure Qlim. Elle est
facilement adaptable pour être exécutée après Mdc (voir infra). Les paramètres sont les
suivants :
• tab_ent : table SAS d’origine, avec une seule observation par individu, en entrée de la
macro ;
• var_explic : liste des variables explicatives du modèle ;
• param_ent : table SAS créée par la commande ods output exécutée juste avant Qlim ; la
table contient les valeurs estimées des paramètres ;
• noms_categ : liste des noms donnés aux catégories, en vue de l’impression des résultats.

%macro deriv_proba(tab_ent=,var_explic=,param_ent=,noms_categ=);
proc iml;
start d_prob;
use &tab_ent;read all var {&var_explic } into mat;
use &param_ent(keep=estimate);read all into param;
u x=j(nrow(mat),1,1)||mat;
n=nrow(x);nb_var=ncol(x);nb_categ=(nrow(param)/nb_var)+1;
b=t(shape(param,nb_categ-1,nb_var))||j(nb_var,1,0);
/** initialisations */
exp_xb=j(1,nb_categ,0);proba_pred=j(1,nb_categ,0);/* proba prédite */
v dp=j(nb_var,nb_categ,0); /* dérivée individuelle */
deriv_proba=j(nb_var-1,nb_categ,0); /* dérivée moyenne */
bin=j(nb_var-1,1,1);
/** calculs */
do i=1 to n;
exp_xb=exp(x[i,]*b);
proba_pred=exp_xb/exp_xb[+];
dp=( b - j(1,nb_categ,1)@(b*t(proba_pred)) )#proba_pred;
deriv_proba=deriv_proba+dp[2:nb_var,];
w do k=1 to nb_var-1;
if mat[i,k] ^= 0 & mat[i,k] ^= 1 then bin[k]=0;
end;
end;
deriv_proba=(deriv_proba*100/n);
/** impression */
deriv_proba=deriv_proba[loc(bin=0), ];
noms_lignes=t({&var_explic});
noms_cols={&noms_categ};
noms_lignes_c=noms_lignes[loc(bin=0)];
mattrib deriv_proba rowname=noms_lignes_c
x colname=noms_cols
format=10.2
label=" ";
print "effets moyens des variables continues",
" sur les probabilités ";
print deriv_proba;
finish d_prob;
run d_prob;
quit;
run;
%mend;

Commentaires:
u Lecture des tables en entrée du module d_prob ; la matrice b, de dimension ( K + 1) × J est
celle des paramètres du modèle ; les paramètres correspondant à la catégorie de référence, qui
sont tous nuls, ont été ajoutés.

94
v Initialisation à 0 les vecteurs et matrices intervenant dans les calculs. Tous ces vecteurs et
matrices sont des intermédiaires au sens où ils sont calculés individu par individu (voir w). Le
vecteur proba_pred contient les J valeurs des probabilités prédites. La matrice dp, de
dimension ( K + 1) × J , contient les dérivées calculées selon la formule (28) de la partie I du
document. On a temporairement inclus la variable explicative représentant le terme constant.
La matrice deriv_proba, de dimension K × J , contient les moyennes arithmétiques, sur
l’échantillon, des quantités figurant dans la matrice dp. Enfin, le vecteur bin est créé pour
distinguer les variables explicatives binaires (ne prenant que les valeurs 0 ou 1) et les
variables continues. Il est utilisé pour sélectionner les résultats des calculs en vue de leur
impression.
w Calculs, individu par individu, des différentes quantités initialisées précédemment. Les
dérivées sont calculées systématiquement pour toutes les variables, même les variables
binaires. On récupère, à l’issue des calculs, les dérivées moyennes sur l’échantillon. La
variable bin permet de savoir a posteriori si la variable est binaire ou continue.
x Impression des résultats. Grâce à la variable bin, les dérivées des probabilités sont
imprimées uniquement pour les variables continues.

Pour transformer cette macro en une macro exécutable après Mdc, il suffit de remplacer la
deuxième ligne du module d_prob de la procédure iml ci-dessus par :
use &param_ent(drop=_model_--_liklhd_);read all into param;
et la quatrième ligne par
n=nrow(x);nb_var=ncol(x);nb_categ=(ncol(param)/nb_var)+1;

Pour la transformer en une macro exécutable après Catmod (version 6), on remplace les lignes
2, 4 et 5 du module d_prob par :
use &param_ent(drop=_method_--_name_);read all into param;
n=nrow(x);nb_var=ncol(x);nb_categ=(ncol(param)/nb_var)+1;
b=shape(param,nb_var,nb_categ-1)||j(nb_var,1,0);

95
Annexe 3 : Macro de calcul des différences de probabilités prédites

Les paramètres de la macro diff_proba, exécutable après l’estimation des paramètres par
Qlim, sont les suivants :
• tab_ent : table SAS d’origine ;
• param_ent : table SAS créée par la commande ods output, exécutée juste avant Qlim. Elle
contient les valeurs estimées des paramètres ;
• var_explic : liste des variables explicatives du modèle ;
• var_qual : nom(s) de la (ou des) variable(s) explicative(s) qualitative(s) ;
• noms_categ : liste des noms donnés aux catégories, pour l’impression des résultats.

%macro diff_proba(tab_ent=,param_ent=,
var_explic=,var_qual=,noms_categ=);
proc iml;
start prob_qual;
use &tab_ent;read all var {&var_explic } into mat;
u use &param_ent(keep=estimate);read all into param;
x=j(nrow(mat),1,1)||mat;
n=nrow(x);nb_var=ncol(x);nb_categ=(nrow(param)/nb_var)+1;
b=t(shape(param,nb_categ-1,nb_var))||j(nb_var,1,0);
explic={&var_explic};qual={&var_qual};nb_qual=ncol(qual)+1;
r=0;
v do q=1 to ncol(explic);
if explic[q]=qual[1] then r=q;
end;
/** initialisations */
exp_xb_s=j(nb_qual,nb_categ,0);
p=j(nb_qual,nb_categ,0);
p_tot=j(nb_qual,nb_categ,0);
/** calculs */
d=j(1,nb_qual-1,0)//i(nb_qual-1);
if r<=ncol(explic)-nb_qual+1 then do;
do i=1 to n;
exp_xb_s=exp( ( repeat(x[i,1:r],nb_qual,1)||d
||repeat(x[i,r+nb_qual:nb_var],nb_qual,1) )*b );
p=exp_xb_s/repeat(exp_xb_s[,+],1,nb_categ);
p_tot=p_tot+p;
end;
w end;
else do;
do i=1 to n;
exp_xb_s=exp( ( repeat(x[i,1:r],nb_qual,1)||d )*b );
p=exp_xb_s/repeat(exp_xb_s[,+],1,nb_categ);
p_tot=p_tot+p;
end;
end;
p_tot=p_tot*100/n;
p_tot=p_tot-repeat(p_tot[1,],nb_qual,1);
/** impression */
noms_lignes=t({ref &var_qual});
noms_col={&noms_categ};
mattrib p_tot rowname=noms_lignes
colname=noms_col
x format=10.2
label=" ";
print "différences des probabilités prédites",
"pour la variable (&var_qual)";
print p_tot;
finish prob_qual;
run prob_qual;
quit;
run;
%mend;

96
Quelques commentaires :
u lecture des valeurs des paramètres estimés.
v repérage du rang de la variable qualitative dans la liste des variables explicatives.
w calcul des probabilités simulées pour toutes les valeurs possibles de la variable qualitative.
x impression des résultats.

L’adaptation de la macro aux procédures Mdc et Catmod (version 6) est exactement la même
que pour la macro deriv_proba (annexe 2).

97
Série des Documents de Travail
'Méthodologie Statistique'

9601 : ‘Une méthode synthétique, robuste et efficace pour réaliser des estimations
locales de population’
G. DECAUDIN, J.-C. LABAT

9602 : ‘Estimation de la précision d'un solde dans les enquêtes de conjoncture


auprès des entreprises’
N. CARON, P. RAVALET, O. SAUTORY

9603 : ‘La procédure FREQ de SAS - Tests d'indépendance et mesures


d'association dans
un tableau de contingence’
J. CONFAIS, Y. GRELET, M. LE GUEN

9604 : ‘Les principales techniques de correction de la non-réponse et les modèles


associés’
N. CARON

9605 : ‘L'estimation du taux d'évolution des dépenses d'équipement dans l'enquête


de conjoncture : analyse et voies d'amélioration’
P. RAVALET

9606 : ‘L'économétrie et l'étude des comportements. Présentation et mise en œuvre


de modèles de régression qualitatifs. Les modèles univariés à résidus logistiques ou
normaux (LOGIT, PROBIT)’
S. LOLLIVIER, M. MARPSAT, D. VERGER

9607 : ‘Enquêtes régionales sur les déplacements des ménages : l'expérience de


Rhône-Alpes’
N. CARON, D. LE BLANC

9701 : ‘Une bonne petite enquête vaut-elle mieux qu'un mauvais recensement ?’
J.C. DEVILLE

9702 : ‘Modèles univariés et modèles de durée sur données individuelles’


S. LOLLIVIER

9703 : ‘Comparaison de deux estimateurs par le ratio stratifiés et application aux


enquêtes auprès des entreprises’
N. CARON, J.C. DEVILLE

98
9704 : ‘La faisabilité d'une enquête auprès des ménages
1. au mois d'août. 2. à un rythme hebdomadaire’
C. LAGARENNE, C. THIESSET

9705 : ‘Méthodologie de l'enquête sur les déplacements dans l'agglomération


toulousaine’
P. GIRARD

9801 : ‘Les logiciels de désaisonnalisation TRAMO & SEATS : philosophie, principes


et mise en œuvre sous SAS’
K. ATTAL-TOUBERT, D. LADIRAY

9802 : ‘Estimation de variance pour des statistiques complexes : technique des


résidus et de linéarisation’
J.C. DEVILLE

9803 : ‘Pour essayer d'en finir avec l'individu Kish’


J.C. DEVILLE

9804 : ‘Une nouvelle (encore une !) méthode de tirage à probabilités inégales’


J.C. DEVILLE

9805 : ‘Variance et estimation de variance en cas d'erreurs de mesure non corrélées


ou de l'intrusion d'un individu Kish’
J.C. DEVILLE

9806 : ‘Estimation de précision de données issues d'enquêtes : document


méthodologique sur le logiciel POULPE’
N. CARON, J.C. DEVILLE, O. SAUTORY

9807 : ‘Estimation de données régionales à l'aide de techniques d'analyse


multidimensionnelle’
K. ATTAL-TOUBERT, O. SAUTORY

9808 : ‘Matrices de mobilité et calcul de la précision associée’


N. CARON, C. CHAMBAZ

99
9809 : ‘Echantillonnage et stratification : une étude empirique des gains de précision’
J. LE GUENNEC

9810 : ‘Le Kish : les problèmes de réalisation du tirage et de son extrapolation’


C. BERTHIER, N. CARON, B. NÉROS

9811 : ‘Vocabulaire statistique Français - Chinois - Anglais’


LIU Xiaoyue, CUI Bin

9901 : ‘Perte de précision liée au tirage d'un ou plusieurs individus Kish’


N. CARON

9902 : ‘Estimation de variance en présence de données imputées : un exemple à


partir de l’enquête Panel Européen’
N. CARON

0001 : ‘L’économétrie et l’étude des comportements. Présentation et mise en oeuvre


de modèles de régression qualitatifs. Les modèles univariés à résidus logistiques ou
normaux (LOGIT, PROBIT) ’ (version actualisée)
S. LOLLIVIER, M. MARPSAT, D. VERGER

0002 : ‘Modèles structurels et variables explicatives endogènes’


Jean-Marc Robin INRA-LEA et CREST-INSEE.

0003 : ‘L’enquête 1997-1998 sur le devenir des personnes sorties du RMI- Une
présentation de son déroulement’
D. ENEAU, D. GUILLEMOT

0004 : ‘Plus d’amis, plus proches? Essai de comparaison de deux enquêtes peu
comparables’
O. GODECHOT

0005 : ‘Estimation dans les enquêtes répétées : Application à l’Enquête Emploi en


Continu’
N. CARON, P. RAVALET

0006 : ‘Non-parametric approach to the cost-of-living index’


F. MAGNIEN, J. POUGNARD

0101 : ‘Diverses Macros SAS : Analyse exploratoire des données, Analyse des séries
temporelles’
D. LADIRAY

100
0102 : ‘Econométrie linéaire des panels : une introduction’
T. MAGNAC

0201 : ‘Application des méthodes de calage à l'enquête EAE-Commerce’


N. CARON

0203 : ‘General principles for data editing in business surveys ans how to optimise it’
P. RIVIERE

0301 : ‘Les modèles logit polytomiques non ordonnés : théorie et applications’


C. AFSA ESSAFI

Série des Documents de Travail


'Méthodologie de Collecte'

C0201 : ‘Comportement face au risque et à l'avenir et accumulation patrimoniale -


Bilan d'une expérimentation’
L. ARRONDEL, A. MASSON, D. VERGER

0202 : ‘Enquête Méthodologique Information et Vie Quotidienne - Tome 1 : bilan du


test 1, novembre 2002’
L-A. VALLET, G. BONNET, J-C. EMIN, J. LEVASSEUR, T. ROCHER,
P. VRIGNAUD, X. D’HAULTFOEUILLE, F. MURAT, D. VERGER, P. ZAMORA

101