Vous êtes sur la page 1sur 38

MODELISATION DE DONNÉES

QUALITATIVES

PREMIÈRE PARTIE

Pierre-Louis Gonzalez 1
I INTRODUCTION

1 variable qualitative

. Tri à plat

. Représentations graphiques

. Modélisation : loi binomiale


loi multinomiale

2
2 variables qualitatives

. Tri croisé
. Indépendance ?
. Khi-deux ...
. Description du tableau de contingence par analyse des
correspondances simples.

x
x x x
x
x x x
x x x
x
x x

3
Plus de deux variables qualitatives

. Tris croisés pour tous les couples de variables


(tableau de Burt)

. Analyse des correspondances multiples


But de l’étude ?

. Modélisation
.. Expliquer une variable à l’aide d’autres variables ...
4
ƒ Effets de structure

Le recours à l’utilisation de modèles ( linéaires, logistiques )


est nécessaire pour isoler les effets propres.

¾ Séparation des effets


¾ Effet d’une variable toutes choses égales par ailleurs
¾ Effet d’une variable conditionnellement aux variables
introduites dans le modèle

5
Exemple Vocations spécifiques de deux approches : description
modélisation

Correspondances multiples Modèle log linéaire (EXPLORATION DE


(DESCRIPTION) L’UNIVERS DES MODÈLES)

Description des liaisons entre les Description des interactions entre


variables prises deux à deux sous plus de deux variables dans un
forme essentiellement graphique. cadre inférentiel.

N’impose aucune hypothèse sur


Des hypothèses sur les liaisons
les liaisons, mais impose une
doivent être formulées au
certaine homogénéité de
préalable.
l’ensemble des variables actives.

N’est pas limitée dans le nombre Est limité à peu de variables (en
de variables. pratique moins de 5).

6
Correspondances multiples Modèle log linéaire (EXPLORATION DE
(DESCRIPTION) L’UNIVERS DES MODELES)

Met seulement en jeu les faces de Met en jeu toutes les cases d’un
l’hypercube représentées par le hypercube de contingence.
tableau de Burt.
i j l
l
i kij kil j kjl
kil
j kjl kijl
i
kij
l

Les individus peuvent jouer un


rôle central. L’analyse sert à
Les individus n’apparaissent pas.
produire des typologies d’individus.

7
II LES MÉTHODES EXPLICATIVES

VARIABLE À
EXPLIQUER
VARIABLES EXPLICATIVES X1, ... , XK

Y Numériques Nominales Mixte

Numérique Régression Analyse de Analyse de


multiple la variance la covariance
REG GLM GLM
GLM ANOVA

Qualitative Analyse DISQUAL


discriminante Analyse
CANDISC discriminante
STEPDISC sur variables
DISCRIM qualitatives

8
VARIABLE À
EXPLIQUER
VARIABLES EXPLICATIVES X1, ... , XK

Y Numériques Nominales Mixte

Nominale à RÉGRESSION LOGISTIQUE


deux
modalités LOGISTIC GENMOD

MODÈLE LINÉAIRE GÉNÉRALISÉ


Nominale
LOGISTIC CATMOD GENMOD

Ordinale RÉGRESSION LOGISTIQUE


ou
MODÈLE LINÉAIRE GÉNÉRALISÉ

LOGISTIC
CATMOD

9
III VARIABLE QUALITATIVE À EXPLIQUER

1 Variable dichotomique : Y ∈ {0,1}

Exemple 1 Soit P la population des ménages :

⎧⎪ 1 si le ménage i ∈ P , possède un bien durable


Yi = ⎨
⎪⎩ 0 sinon

X i = ( AGE, CSP, SALAIRE, HABITAT, ...) régresseurs

10
Exemple 2 Soit P la population des clients potentiels d’une banque :
«CREDIT SCORING»

⎧⎪ 1 si un crédit est accordé au client i


Yi = ⎨
⎪⎩ 0 sinon

X i = ( AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE, ...)

11
Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL»

⎧⎪ 1 si le sujet i ∈ P réagit au stimulus


Yi = ⎨
⎪⎩ 0 sinon

X i = ( NIVEAU DE LA DOSE, POIDS, AGE, ...)

La variable réponse à expliquer Y est une variable de Bernoulli de paramètre pi.

p i = Pr ( Yi = 1 X i ) = E( Yi X i )

Yi Xi → B (1 , pi )

OBJECTIF

Exprimer pi en fonction de Xi

12
2 Variable polytomique

Polytomique ordonnée

Exemple 1 Soit P la population d’étudiants :

⎧1 si l'étudiant i ∈ P pratique du sport tous les jours


⎪⎪
Yi = ⎨2 si l'étudiant i ∈ P pratique du sport une ou plusieurs fois par semaine

⎪⎩3 si l'étudiant i ∈ P pratique du sport plus rarement

La variable réponse Y : «pratique du sport» est codée

X i = ( AGE, SEXE, TYPE D' ETUDES, ...)

13
Exemple 2 Soit P la population de chômeurs à la date t :

⎧1 si l’individu i ∈ P est toujours au chômage à la date t + δ



⎪ 2 si l’individu i ∈ P est en formation (stage)
Yi = ⎨
⎪ 3 si l’individu i ∈ P a un contrat CDD
⎪⎩4 si l’individu i∈ P a un contrat CDI

X i = ( AGE, SEXE, DIPLOME, QUALIFICATION ...)

14
Polytomique non ordonnée

Yi «distraction du samedi soir»

⎧1 = télévision

⎪ 2 = théatre
Yi = ⎨
⎪ 3 = cinéma
⎪⎩4 = visite amis

X i = ( AGE, SEXE, CSP, HABITAT, ...)

OBJECTIF

(
Exprimer p ij = P Yi = j X i )
en fonction de X i pour j = 1, 2, 3 ...

15
IV POURQUOI DES MODÈLES PARTICULIERS ?

1 Cas de la régression linéaire classique

Yi = x iβ + εi 1

variable prédicteur variable


aléatoire linéaire aléatoire
quantitative (élément
déterminé)

16
E( ε i X i = x i ) = 0

Par la suite, on notera les espérances sans conditionnement X i = x i

ce qui revient à considérer Xi est non aléatoire. On notera


indifféremment Xi ou xi.

V(ε i ) = σ 2

Si de plus εi est supposée gaussienne, l’estimateur des moindres


carrés ordinaire :

β = ( X ′ X) X ′ y
−1

est l’estimateur du maximum de vraisemblance.

17
2 Cas de la régression d’une variable dichotomique

Si on modélise par 1 , on obtient un résidu qui est une v.a.r.


discrète prenant deux valeurs :

⎧ ε i = 1 − x iβ avec la probalilité p i = P( Yi = 1)
1 ⇒ ⎨
⎩ ε i = − x iβ avec la probalilité 1 − pi

Si on modélise par 1 l’estimateur β n’est plus efficace.

1 ⇒ E( Yi ) = x iβ

⎬ ⇒ p i = x iβ
Or Y i → B(1,pi ) ⇒E( Yi ) = pi ⎭
une valeur qui n’est pas
forcément entre 0 et 1

Le modèle 1 est donc inapproprié !


18
V NIVEAU D’UTILITÉ, VARIABLE LATENTE

1 Cas de variable latente

Zi «intensité du désir de posséder le bien»


pour le ménage i caractérisé par xi
Zi non
observable

⎧ Yi = 0 ⇔ Z i < s → ( seuil thérorique)



⎩ Yi = 1 ⇔ Z i ≥ s

c’est-à-dire Yi = 1I ( Z i ≥ s)

19
2 Fonction d’utilité

Soit u(1, x i ) le niveau d’utilité procuré par la possession du bien

u ( 0, x i ) le niveau d’utilité procuré par la non possession du bien

⎧ Yi = 0 ⇔ u( 0, x i ) > u(1, x i )

⎩ Yi = 1 ⇔ u(1, x i ) ≥ u( 0, x i )

c’est-à-dire :

Z i = u(1, x i ) − u( 0 , x i )
Yi = 1I( Z ≥ 0 )
i

20
Dans ces deux cas, on peut exprimer la probabilité

p i = P( Yi = 1 x i ) comme :

p i = P ( Z i ≥ s)

21
VI MODÈLE THÉORIQUE

1 Données statistiques

(Y ,
i x 1i , … , x pi ) i=1àn

variable taille de l’échantillon


dichotomique p variables explicatives
{0,1} quantitatives ou qualitatives

Xi vecteur de Rp
(On supposera ( x =1∀i )
1
i

de façon à définir un modèle avec constante)

22
En introduisant Z variable latente non observable telle que :

Z i = X iβ + ε i ⎫
⎬ p i = P( Yi = 1) = P( − ε i < X i β )
Yi = 1I Z > 0 ⎭
i

= F( X i β )

fonction de répartition
de − εi

23
2 Modèle stochastique général

( Yi , X i ) i = 1…n i.i.d tel que :

H1 : Yi | X i → B(1, pi )

H 2 : p i = P( Yi = 1 X i ) = F( X iβ )

où F : R → [ 0,1] fonction de répartition

Le paramètre β , vecteur de Rp formé des coefficients de régression


est inconnu.

24
3 Modèles PROBIT, LOGIT, ...

L’hypothèse H2 dépend du choix de la fonction F. Les modèles


paramétriques usuels sont :

3.1 Le modèle probit


ω 1 ⎛ t2 ⎞
F (ω) = Φ (ω) = ∫ exp ⎜ − ⎟ dt ∀ ω ∈ R
−∞ 2Π ⎝ 2⎠

Fonction de répartition de la loi normale centrée réduite N(0;1)

F − 1 = Φ − 1 probit

25
3.2 Le modèle logit

eω 1
F ( ω) = ω
= ∀ ω∈
1+ e 1 + e −ω
Fonction de répartition de la loi logistique
Π2
de moyenne 0 et de variance
3

t
F ( t ) = ln
−1
logit
1− t

26
3.3 Le modèle complémentaire log-log (ou modèle Gompit)

F ( ω ) = 1 − exp ( − eω ) ∀ ω∈

Fonction de répartition de la loi de Gompertz


de moyenne 0,577 (constante d’Euler) et de
variance
Π 2

F − 1 ( t ) = ln ( − l n (1 − t ))

Remarque Cette loi est dissymétrique.

27
4 Comparaison des modèles LOGIT et PROBIT

1
DENSITÉS f = F ′ -------- ≅ 0,4

0,3 f0 (ω )
0,2 f (ω )
0,1
f1 (ω )
-3 -2 -1 0 1 2 3 ω

ω 1
Modèle PROBIT Φ (ω ) =
1
∫− ∞ e−t dt ⇒ f 0 (ω ) = e−ω
2 2
/2 /2

2Π 2Π

1 eω
Modèle LOGIT F( ω ) = ⇒ f (ω ) =
( )
−ω
1+ e 1 + eω
2

1 Π e Πω / 3
Modèle LOGIT réduit F1 ω = ( ) f 1 (ω ) =
1 + e − Πω / (1 + e )
3 2
3 Πω / 3

28
Sur les extrêmes la loi logistique s’approche un peu plus
lentement de 0 ou de 1.
29
Comparaison des fonctions de répartition

30
DIFFÉRENCE

(F1 − Φ ) (ω )
0.02

0.01

0 1
1,8
2 ω

CONCLUSION

. Les lois F1 et Φ sont proches ⇒ modèles équivalents.

.. La précédure de SAS, «LOGISTIC» utilise F ou Φ .


⇒ Les estimateurs obtenus avec F (logit) seront Π / 3 fois
plus grands qu’avec Φ (probit).

... Le modèle LOGIT est préférable car les calculs sont plus simples.
31
Dans la plupart des cas pratiques, on peut donc choisir indifféremment l’un ou
l’autre modèle.

Le modèle LOGIT a l’avantage d’une plus grande simplicité numérique.

Le modèle PROBIT est en revanche plus proche du modèle habituel de


régression par les moindres carrés.

Avantages du modèle LOGIT

Les coefficients du modèle LOGIT sont interprétables en termes d’odds-ratio.

Un échantillonnage ne respectant pas les proportions réelles dans la population


des deux modalités de la variable à expliquer Y ne change que la constante dans
le modèle.

32
VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β

1 La méthode du maximum de vraisemblance

Échantillon x1 ... xn

Loi de probabilité de xi f ( x i , θ ) où θ = (θ 1 , … , θ k )′ ∈ Ω

Vraisemblance
n
L(θ ) = ∏ f ( x i , θ ) dépend des x i et des θ
i=1

Estimation du maximum de vraisemblance

θ ()
L θ = MAX L (θ )
θ ∈Ω

On obtient en général θ en annulant les dérivées premières


∂ Log L (θ )
∂ θi
33
Scores
∂ Log L (θ )
u i (θ ) =
∂ θi

u (θ ) = ( u 1 (θ ), … , u k (θ ))′ = vecteur score

On a : ()
u θ =0

Matrice d’information de Fisher

⎡ − ∂ 2 Log L (θ )⎤
I (θ ) = E ⎢ ⎥
⎣ ∂ θ 2

⎛ − ∂ 2 Log L(θ ) ⎞
()
estimée par : I θ = ⎜
⎝ ∂θ 2

⎠ θ=θ
34
Résultats

θ = vecteur des paramètres


θ = estimation du maximum de vraisemblance
⎛ −1⎞
1. θˆ → N θ ; I ⎛⎜⎝ θ⎟⎠


⎞ ⎟

⎜ ⎟
⎝ ⎠

2. u ( θ) → N( 0 ; I ( θ))

3. ( ′
) ( )
θ − θ I (θ ) θ − θ → χ (2k )

4. u (θ )′ I (θ )−1 u (θ ) → χ (2k )

L(θ )
5. Λ = −2 Log → χ (2k )
L (θˆ )
35
2 Test global
H0 : θ = θ 0

Statistiques

1. Statistique de Wald

( ) (
θ − θ 0 ′ I (θ 0 ) θ − θ 0 ) →χ 2 sous H
(k )
0

2. Statistique du score

u ( θ0 ) I ( θ0 ) u ( θ0 ) → χ (k )
−1
′ 2
sous H0 Avantage : pas de calcul de θ

3. Statistique des vraisemblances


L(θ 0 )
Λ = −2 Log → χ(k
2 sous H0
Lθ() )
36
3 Test partiel

θ = (θ 1 , θ 2 ) θ 1 a p coordonnées

( )
θ = θ 1 , θ 2 = estimation du M. V.

Test H 0 : θ 1 = θ 10

On calcule ( ~
θ H = θ 10 , θ 2
0 )
(~
)
avec L θ 10 , θ 2 = max L (θ 10 , θ 2 )
θ2
θ H = estimation de θ sous H 0
0

37
Statistiques utilisées

( ) Var ( ) ( θ ) →χ2
−1
1. Wald θˆ 1 − θ10 ′ θˆ 1 1 − θ10
sous H0
(p)

(θ ) est extrait de Var (θ ) = I (θ )


−1
Var 1

2. Score

( ) I (θ ) u (θ ) →χ(p)
′ −1
u θH 0
2
H0 H0 sous H0

3. Rapport de vraisemblance

Λ = −2 Log
( ) ~
L θ 10 , θ 2
→χ 2
sous H0
L (θ , θ )
1 2
(p)
38

Vous aimerez peut-être aussi