Vous êtes sur la page 1sur 143

Analyse des données discrètes

Fadoua BADAOUI

22 octobre 2017

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 1 / 142
Overview
1 Introduction et rappel

2 Tableau de fréquences univariées et loi multinomiale

La loi multinomiale

Test d'hypothéses dans une table à une entrée

3 Tableaux de fréquences à deux variables

Tests d'association entre deux variables nominales

4 Tableaux de fréquences à trois variables

Type et test d'indépendances entre 3 variables

5 Modèles log-linéaires

Modèles à 2 variables

Modèle à trois variables


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 2 / 142
Chap 1 :Introduction et rappel

Ce cours présente des méthodes statistiques usuelles pour l'analyse de

données discrètes. Des données peuvent résulter, par exemple :

d'un sondage d'opinion pour des consommateurs (ex. : niveau de

satisfaction pour un service reçu) ;

d'une étude dans le domaine de la santé cherchant à cerner les

facteurs d'une maladie (ex. : variable réponse prenant la valeur `oui'

pour les sujets malades, `non' sinon) ;

etc.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 3 / 142
Introduction et rappel

Plusieurs outils statistiques s'orent à nous pour analyser des données

discrètes. Ce cours visent à présenter les méthodes classiques et celles les

plus utilisées en pratique. Ce cours a pour objectif de cerner la bonne

méthode statistique à utiliser, de l'appliquer correctement en comprenant

les idées mathématiques de base derrière les méthodes et de bien

interpréter les résultats obtenus.

Les détails de certains calculs faits à la main pour de petits jeux de données

sont présentés, pour s'assurer de bien comprendre les formules. En

pratique, l'ordinateur fait pour nous tous ces calculs.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 4 / 142
Introduction et rappel

Avant d'entrer dans le vif du sujet, rappelons certaines notions de

statistiques souvent employées dans ce cours.

Données : Des données sont des valeurs numériques (des nombres)

ou alphanumériques (des chaînes de caractères) représentant les

observations de certaines variables sur certains individus.

Population : La population est l'ensemble de référence sur lequel

porte l'étude dans le cadre de laquelle les données ont été recueillies.

Individu ou unité statistique : Un individu est un élément de la

population. L'ensemble des individus constitue la population. Chaque

observation est associée à un individu.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 5 / 142
Introduction et rappel

Échantillon : L'échantillon est un sous-groupe de la population,

composé des individus pour lesquels des observations ont été

recueillies. Si des mesures ont été prises pour tous les individus de la

population, on parle de recensement.

Variable : Le terme variable désigne la représentation d'une

caractéristique des individus. Ainsi, une variable n'est pas la

caractéristique elle-même, mais plutôt une mesure de cette

caractéristique.

Observation : Une observation est l'ensemble des valeurs obtenues en

mesurant des variables sur un individu de la population.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 6 / 142
Échantillonnage

Lorsque l'on estime des paramètres de la population à l'étude à partir des

observations d'un échantillon aléatoire de cette population, on fait de l'

inférence statistique .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 7 / 142
Dénition

Une variable discrète ne peut prendre qu'un nombre ni de valeurs, ou bien

une innité de valeurs si ces valeurs peuvent s'écrire sous la forme d'une

suite a1 , a2 , a3 , . . ..
Ainsi une variable dont les valeurs sont 0, 1/5, 2/5, 3/5, 4/5, 1 est discrète ;

il en est de même d'une variable pouvant prendre comme valeurs tous les

entiers non négatifs 0, 1, 2, 3, . . ..

Le résultat du lancer d'un dé est une variable discrète (valeurs

1, 2, 3, 4, 5, 6).

Le nombre de personnes frappées par la méningite dans une grande

ville sur une période d'une année (valeurs 0, 1, 2, 3, . . .).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 8 / 142
Remarque

Les données numériques ne sont pas forcément des observations d'une

variable numérique. C'est le cas par exemple du niveau de satisfaction

représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie 

très insatisfait ,  insatisfait  est représenté par le chire 2 et ainsi de

suite.

Il n'est pas rare que des codes numériques soient utilisés pour représenter

des modalités catégoriques de variables, car ils sont plus rapides à écrire ou

taper que des chaînes de caractère.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 9 / 142
Expérience avec la loi Poisson

La loi de Poisson permet de modéliser le nombre de réalisations d'un

événement dans un intervalle de temps et/ou d'espace. Par exemple, la loi

Poisson serait une bonne candidate pour modéliser les dénombrements

suivants :

le nombre de clients se présentant à un guichet automatique d'une

banque en une heure ;

le nombre d'accidents par années à une intersection de la ville de

Québec ;

le nombre de centenaires dans une communauté.

On appelle parfois la loi Poisson  loi des évènements rares .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 10 / 142
Expérience avec la loi Poisson

La fonction de masse, aussi appelée fonction de probabilité, d'une variable

aléatoire Poisson, notée Y ∼ Poisson(λ), est

λy exp −λ
P(Y = y ) = y! y = 0, 1, 2, . . .

Le paramètre de la distribution est à la fois l'espérance et la variance de Y :

E [Y ] = Var [Y ] = λ.

Aussi, il est pertinent de noter que la distribution Poisson peut être

approximée par la loi normale lorsque λ est grand. Dans ce cas,

Poisson(λ) ∼ N(λ; λ).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 11 / 142
Expérience avec la loi Binomiale

Le contexte de la loi binomiale est le suivant :

On fait une expérience qui peut prendre 2 résultats possibles : succès ou

échec.

On répète cette expérience de façon indépendante n fois, et on note S le

nombre de succès obtenus.

Notez que chaque expérience a la même probabilité de succès π.


On dit alors que S suit une loi binomiale de paramètres n (nombre total

d'essais) et π (probabilité d'un succès).

On note S ∼ Bin(n, π).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 12 / 142
Expérience avec la loi Binomiale

En résumé, les conditions pour qu'il y ait une expérience binomiale sont les

suivantes :

n essais ;

deux résultats possibles pour chaque essai : succès et échec ;

toujours la même probabilité de succès =π

indépendance entre chacun des n essais ;

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 13 / 142
Expérience avec la loi Binomiale

Exemple : opinion sur l'avortement

Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ?

Pour répondre à cette question, on observe un échantillon de 1223

Américains interrogés en 2010 dans le cadre de l'Enquête Sociale Générale

aux États-Unis. On a posé la question suivante aux participants :

Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui

ne veut plus d'enfants de se faire avorter légalement ? Au total, 587

personnes ont répondu oui à cette question, et 636 personnes ont répondu

non.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 14 / 142
Expérience avec la loi Binomiale

Exemple : opinion sur l'avortement ... suite

Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées :

n = 1223 essais "individus sondés" ;

2 résultats possibles pour chaque essai : succès = oui, échec = non ;

la probabilité de succès π est ici la proportion dans la population des

Américains favorables à l'avortement ;

on peut supposer qu'il y a indépendance entre chacun des essais

puisque les individus participants à l'étude ont été sélectionnés avec un

plan de sondage se rapprochant beaucoup de l'échantillonnage

aléatoire simple.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 15 / 142
Expérience avec la loi Binomiale

La fonction de masse de la loi binomiale s'écrit de la façon suivante :



Cns π s (1 − π)n−s ,

pour s = 1, 2, . . . , n;
P(S = s) =

0, sinon .
L'espérance et la variance de S sont :

E [S] = nπ

Var [S] = nπ(1 − π) :

Remarque: observer une seule variable Bin(n; π) revient à observer n


variables 11 ; . . . ; 1n iid Bin(1; π), soit la loi Bernoulli(π). On a alors
Pn
S= u=1 1u , une somme de n variables iid Bin(1; π).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 16 / 142
Expérience avec la loi Binomiale

Notez aussi que si n → +∞(n > 30), π → 0 (p ≤ 0, 1) tels que

np(1 − p) ≤ 10, alors la loi Bin(n; π) tend vers la loi Poisson (nπ = λ).
En d'autres mots,

λs exp −λ
lim P(S = s) = s!
n → +∞, π → 0

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 17 / 142
Expérience avec la loi Binomiale

Notez que l'on peut approximer la loi binomiale par la loi normale lorsque n
est grand en utilisant le résultat du Théorème Limite Central.

Dans la pratique, lorsque n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5, l'erreur sur les

probabilités calculées est très faible.

asympt
S −−−−→ N(nπ; nπ(1 − π))

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 18 / 142
Méthode du maximum de vraisemblance

Etant donné un échantillon issu d'une loi dont la pdf est f (x, θ), on appelle

fonction de vraisemblance la quantité

Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).

An de bien comprendre la motivation derrière la MMV, considérons un

échantillon X1 , . . . , Xn issu d'une loi de probabilité discrète de fdf

f (x; θ) = Pθ {X1 = x} où θ est un paramètre inconnu. L'idée qui est à

l'origine de cette méthode est la suivante :

Si l'on observe (x1 , . . . , xn ) c'est que la Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )}


doit être assez grande. On prend alors comme estimateur de θ celui qui

maximise cette probabilité.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 19 / 142
Méthode du maximum de vraisemblance

Exemple

Soit θ ∈]0, 1[ la probabilité de succès d'une expérience à deux issues

possibles. On répète cette expérience n fois de manière à obtenir un

échantillon x1 , . . . , xn . On a f (x; θ) = P{X1 = x} = θx (1 − θ)1−x , avec

x =0 ou 1. L'estimateur θb de θ par la MMV est obtenu en maximisant, par

rapport à θ, la quantité

n
θxi (1 − θ)1−xi
Y
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =
i=1 (1)

= θnx (1 − θ)n(1−x)
où x = (x1 , . . . , xn ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 20 / 142
Exemple (suite)

En dérivant L(x , θ) par rapport à θ on obtient

dL(x , θ)
L0 (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .

En posant L0 (x , θ) = 0 on obtient

 nx n(1 − x) 
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ

et puisque 0 < θ < 1, on en déduit

nx n(1 − x)
− = 0,
θ 1−θ

ce qui donne θ = x. L'estimateur de θ par la MMV est alors θb = X .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 21 / 142
Tests d'hypothèses

Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux

sous-ensembles disjoints de Θ tels que Θ0 ∪ Θ1 = Θ. Les assertions

H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 sont appelées respectivement l'hypothèse

nulle et l'hypothèse alternative.

Un test d'hypothèse ou test statistique est une démarche conduisant à

élaborer une règle de décision permettant de faire un choix entre les deux

hypothèses statistiques H0 et H1 .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 22 / 142
introduction

La situation générale est celle où l'échantillon est issu d'une population

dont la loi dépend d'un paramètre θ ∈ Θ ⊂ Rd , d ∈ N, et on cherche à

conclure que θ ∈ Θ0 ou θ ∈ Θ1 , où Θ0 ⊂ Θ et Θ1 ⊂ Θ sont

complémentaires.

Dénition
Les hypothèses  H0 : θ ∈ Θ0  et  H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux

sous-ensembles complémentaires de Θ, s'appellent respectivement

l'hypothèses nulle et l'hypothèses alternative.

Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse

simple, sinon Hi est une hypothèse composite (pour i = 0, 1).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 23 / 142
Caractéristiques des tests d'hypothèses

On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses :

bilatéral ou unilatéral : Si l'hypothèse alternative H1 comporte une

direction particulière, le test est dit  unilatéral. Si au contraire

l'hypothèse alternative est le complément de l'hypothèse nulle, on qualie

le test de  bilatéral .

exact ou asymptotique : Si la distribution sous H0 de W, la statistique

du test, est vraie peu importe la taille de l'échantillon, le test peut être

qualié d' exact . À l'inverse, si la distribution sous H0 de W utilisée

pour le test est vraie seulement lorsque la taille de l'échantillon est grande,

on parlera d'un test  asymptotique .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 24 / 142
Caractéristiques des tests d'hypothèses

paramétrique ou non paramétrique : Un test est  paramétrique  si la

distribution de la statistique de test repose sur un postulat quant à la

distribution des observations. Sinon, il est  non paramétrique . Dans ce

cas, on doit typiquement seulement postuler l'indépendance des

observations.

Un test non paramétrique nécessite moins de postulats qu'un test

paramétrique, ce qui représente un avantage. Cependant, les tests non

paramétriques sont moins puissants que les tests paramétriques. Pour cette

raison, les tests paramétriques sont souvent préférés. Cependant, pour de

petits échantillons, ce sont les tests non paramétriques qui sont préférés.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 25 / 142
Types de tests d'hypothèses

Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en

fonction de l'objectif des tests.

Les tests de conformité

Les tests d'adéquation ou d'ajustement

Les tests d'homogénéité

Les tests d'association.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 26 / 142
Types de tests d'hypothèses

Les tests de conformité consistent à tester si un paramètre ou un vecteur

de paramètres θ est égal à un vecteur de valeurs préétablies θ0 . Par

exemple, si un seul paramètre θ est testé, les hypothèses d'un test de

conformité sont formulées comme suit :

Si θ est de dimension supérieure à 1, il est compliqué de formuler une

hypothèse alternative incluant une direction. Dans ce cas, les tests

bilatéraux sont plus simples.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 27 / 142
Types de tests d'hypothèses

Les tests d'adéquation ou d'ajustement (en anglais goodness of t tests)

permettent de tester si des observations s'ajustent bien à un certain modèle

ou à une certaine distribution. Par exemple, le test F global en régression et

en ANOVA teste l'ajustement du modèle, le test de Shapiro-Wilk teste

l'adéquation d'observations à une loi normale. Les hypothèses d'un test

d'adéquation sont typiquement formulées comme suit :

H0 : le modèle s'ajuste bien aux données

H1 : le modèle ne s'ajuste pas bien aux données

Ainsi formulé, il s'agit d'un test bilatéral.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 28 / 142
Types de tests d'hypothèses

Les tests d'homogénéité (ou de comparaison) visent à vérier si 2

échantillons ou plus proviennent d'une même population. Les tests de

comparaison de moyennes en sont des exemples. Si un seul paramètre est

comparé et qu'on a seulement deux échantillons, les hypothèses sont

formulées ainsi :

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 29 / 142
Types de tests d'hypothèses

Les tests d'association, en particulier les tests d'indépendance, servent à

tester la présence d'un lien entre deux variables. Rappelons que le terme

association est plus large que le terme dépendance.

Un test d'association courant consiste à vérier si un coecient de

corrélation ou encore un ou des paramètres d'un modèle sont nuls. Si on

note ρ la corrélation entre X et Y , les hypothèses du test peuvent être

formulées de façon équivalente comme suit :

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 30 / 142
introduction

Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de

rejeter H0 alors qu'elle est vraie. La décision de ne pas rejeter H0


alors qu'elle est fausse s'appelle l'appelle erreur de deuxième espèce ou

erreur de type 2.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 31 / 142
introduction

Le tableau ci-dessous résume la situation

H0 vraie H0 fausse

Rejeter H0 Mauvaise décision Bonne décision

Accepter H0 Bonne décision Mauvaise décision

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 32 / 142
introduction

Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées

• α = P{Rejeter H0 |H0 est vraie} > 0, et

• β = P{Ne pas rejeter H0 |H0 est fausse} > 0.

Elles s'appellent respectivement risque de première espèce et risque de

deuxième espèce.

La décision idéale est celle où ces deux risques seraient nuls, i.e.

α = β = 0. Mais cela est, sauf dans des situations triviales, impossible.

Comme il est impossible de contrôler en même temps α et β, on xe α et

on cherche la décision pour laquelle β est minimum.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 33 / 142
Dénition
Un test d'hypothèses est une procédure, basée sur l'échantillon observé

x1 , . . . , xn , qui permet de déterminer un sous ensemble R de Rn tel que

Si (x1 , . . . , xn ) ∈ R alors on décide de rejeter H0 et d'accepter H1 , et

Si (x1 , . . . , xn ) ∈
/R alors on décide de rejeter H1 et d'accepter H0 .

L'ensemble R est appelé  région critique  ou  région de rejet  .

La fonction φ(x) = IR (x), dénie à partir de la région critique d'un test,

s'appelle la fonction test. Par abus de langage on notera par φ le test et sa

fonction test.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 34 / 142
Puissance de test

Il est usuel de noter :

Le risque de première espèce la valeur α (la probabilité de rejeter H0


alors qu'elle est vraie) telle que : P(X ∈ R|H0 )

Le risque de deuxième espèce la valeur β (la probabilité d'accepter H0


alors que H1 est vraie) telle que : P(X ∈ R|H1 )

Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est

eectivement fausse soit, dans les notations précédentes : P(X ∈ R|H1 ) .

La puissance, qui est la capacité à détecter qu'une hypothèse nulle est

fausse, n'est rien d'autre que 1 − β.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 35 / 142
Tests d'hypothèses

Remarque : La statistique du test α = P{Rejeter H0 |H0 est vraie} >0 est

la même que celle utilisée pour l'intervalle de conance. En général pour les

lois discrètes il est dicile de trouver les valeurs critiques sur les tables des

lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la

taille de l'échantillon est assez grande.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 36 / 142
Tests asymptotiques usuels

Soit θ un paramètre scalaire. On cherche à mener le test suivant sur ce

paramètre :

Nous utilisons fréquemment dans ce cours trois types de test asymptotiques

usuels. Il s'agit des tests de Wald, score et du rapport de vraisemblance.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 37 / 142
Test du rapport de vraisemblance

Pour le test du rapport de vraisemblance, nous allons nous ramener à un

cas plus général où θ est un vecteur de paramètres. On cherche à tester :

H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0 avec (Θc0 = Θ Θ0 )

Notez que ce test possède uniquement une forme bilatérale. Le rapport de

vraisemblance est déni comme suit :

supθ∈Θ0 L(θ|x)
Λ= supθ∈Θ L(θ|x)

Si θb, le MV de θ existe, et que θb0 représente le MV sous l'espace Θ0 , alors

le rapport de vraisemblance peut s'écrire plus simplement :

L(θb0 |x)
Λ=
L(θ|x)
b

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 38 / 142
Test du rapport de vraisemblance

Pour eectuer un test de rapport de vraisemblance, on utilise la statistique

suivante :

LR = −2 ln(Λ) = −2 ln( L(θb0 |x) )


b
L(θ|x)

Sous H0 , lorsque n → ∞, cette statistique suit une loi du khi-deux à d


degrés de liberté (Casella et Berger, 2002) :

asympt
LR −−−−→ χ2d

Le nombre de degrés de liberté d est dénie par : d = dim Θ − dim Θ0 .


On rejette H0 au seuil α ssi LR > χ2d
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 39 / 142
Exemple : opinion sur l'avortement.

Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ?

Pour répondre à cette question, on observe un échantillon de 1223

Américains interrogés. On a posé la question suivante aux participants :

Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui

ne veut plus d'enfants de se faire avorter légalement ? Au total, 587

personnes ont répondu oui à cette question, et 636 personnes ont répondu

non.

Pour déterminer si les Américains manifestent majoritairement une pré-

férence pour ou contre l'avortement, nous pouvons tester H0 : π = 0.5


contre H1 : π 6= 0.5.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 40 / 142
Exemple : opinion sur l'avortement.

Nous avons s, une observation de la variable aléatoire S, qui suit une loi

Bin(n, π). La vraisemblance du paramètre π est :

L(π|s) = Cns π s (1 − π)n−s

La statistique du test de rapport de vraisemblance est :

0 |S)
LR = −2 ln( L(π
π |S) )
L(b

où π
b est l'estimateur du maximum de vraisemblance de π. Ainsi :

C s π s (1−π )n−s
LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π 0
π ))
−b
n

Sous H0 , lorsque n → ∞, cette statistique suit une loi du khi-deux à 1


asympt
degré de liberté : LR −−−−→ χ21
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 41 / 142
Exemple : opinion sur l'avortement.

La valeur observée de S est ici s = 587. La proportion d'Américains

favorables à l'avortement π est donc estimée par π


b = 587/1223 = 0.48.
Eectuons maintenant le test du maximum de vraisemblance pour illustrer

son fonctionnement.

La valeur observée de la statistique de test est

0.5
lr = −2(587 ln( 048 ) + (1223 − 587) ln( 11−−00..48
5
) = 1.9637

Le seuil observé du test (p-value) est

P(χ21 > 1.963730811) = 0.1611149

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 42 / 142
Test de Wald

H 0 : θ = θ0 contre H1 : θ 6= θ0

Le test de Wald compare l'écart entre le coecient théorique θ0 et sa

valeur estimée par l'estimateur du maximum de vraisemblance θb, sous

l'hypothèse que la diérence est distribuée approximativement selon une loi

de Gauss. En pratique le carré de la diérence est comparé à un seuil de la

loi du chi2. Dans le cas univarié, la statistique de Wald est

b 0 )2
(θ−θ
var (θ)
b

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 43 / 142
Test de Wald

Si on compare la diérence à un quantile de la loi de Gauss, la statistique

de test est

θ−θ
b 0
Se(θ)
b

où Se(θ)
b est l'écart-type de l'estimateur du maximum de vraisemblance.

√ 1
Un estimateur raisonnable de cet écart-type est donné par , où In
In (MLE )
est l'information de Fisher du paramètre.

Dans le cas univarié, un test sur plusieurs paramètres simultanément est

réalisé en utilisant une matrice de variance. Par exemple, on utilise ce test

pour une variable catégorielle recodée en plusieurs variables dichotomiques.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 44 / 142
Exemple (Suite) : opinion sur l'avortement.

Test de Wald sur une proportion


Le test de Wald se base sur la statistique suivante :

b−π0 asympt
Zw = qπ −−−−→ N(0; 1)
b(1−π
π b)
n

On voit que la variance de l'estimateur est estimée dans Zw .


La valeur observée de la statistique du test de Wald est :

zw = q 0.48−0.5 = −1.459625.
0.48(1−0.48)
1223

On a (1.459625)2 < χ21,0.05 = 3.84.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 45 / 142
Exemple (Suite) : opinion sur l'avortement.

Le seuil observé du test bilatéral est le suivant :

2P(N(0, 1) > | − 1.459625|) = 0.1443932.

Ce seuil observé étant supérieur au seuil théorique de 5%, on ne peut pas

rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question

de l'avortement.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 46 / 142
Test score

Les tests score (en anglais score tests), aussi appelés  tests du

multiplicateur de Lagrange , sont dus au statisticien C.R. Rao. Ils se

basent sur la statistique de test suivante :

S(θ0 ) asympt
√ −−−−→ N(0, 1)
I (θ0 )


où S(θ) = ∂θ ln L(θ|x) est la fonction score calculée au point θ = θ0 et

I (θ0 ) est la matrice d'information espérée (ici de dimension 1 × 1) calculée

au point θ = θ0 . Ce test comporte moins d'approximation que le test de

Wald puisque l'erreur-type se trouvant au dénominateur n'est pas estimée.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 47 / 142
Exemple (Suite) : opinion sur l'avortement.

on a

S(π) = ln L(π|x)
∂π

= (ln(Cns ) + ln(π s ) + ln((1 − π)n−s )
∂π
(2)
s n−s
= −
π 1−π
s − nπ n(bπ − π)
= = b = ns
avec π
π(1 − π) π(1 − π)
Donc
b−π0 )
n(π
S(π0 ) asympt
√ = √π0 (1−π0 ) −−−−→ N(0, 1)
I (π0 ) π0 (1−π0 )
n

ou encore

(S(π0 ))2 π −π0 )2 asympt


I (π0 ) = n(b
π0 (1−π0 ) −−−−→ χ21
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 48 / 142
Exemple (Suite) : opinion sur l'avortement.

La valeur observée de la statistique de test pour le test score est :

zw = q0.48−0.5 = −1.401144.
0.5(1−0.5)
1223

Le seuil observé du test bilatéral est le suivant :

2P(N(0, 1) > | − 1.459625|) = 0.1443932.

Le seuil observé du test unilatéral est le suivant :

P(N(0; 1) < −1.401144) = 0.08058547 > 5%

On ne peut donc pas conclure que les Américains sont, en 2010,

majoritairement contre l'avortement. On voit ici que le test unilatéral est

plus puissant que le test bilatéral.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 49 / 142
Remarques :

Les seuils observés dièrent un peu entre les tests score et de Wald,

mais l'inférence statistique est la même.

Le test du rapport de vraisemblance aboutit à la même conclusion que

le test score. Les seuils observés pour les 2 tests bilatéraux sont

pratiquement égaux.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 50 / 142
Chap 2 :Tables de contingence.

Pour représenter les observations d'une variable catégorique, le principal

outil est un tableau de fréquences, aussi appelé tableau de contingence. Ce

tableau peut présenter une seule variable ou en croiser plusieurs. Ce cours

présente plusieurs tests et mesures associés à des tableaux de fréquences à

une, deux ou trois variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 51 / 142
À quoi servent ces outils statistiques ?
Les outils statistiques présentés dans ce cours permettent de répondre à une

question de recherche du type : Quel est le lien entre les caractéristiques A

et B des individus de la population à l'étude ? Par exemple :

Quel est le lien entre la couleur des cheveux et la couleur des yeux ?

Est-ce que le niveau de scolarité est associé à la classe de revenu d'un

individu ? Si oui, cette association est-elle positive ou négative ?

Est-ce que le sexe d'une personne a une inuence sur son risque de

développer un cancer du poumon ? Si oui, de quelle façon ?

En termes statistiques, la question de recherche se traduit comme ceci :

Quel est le lien entre les variables X et Y ? en supposant que X représente

la caractéristique A et Y la caractéristique B.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 52 / 142
Tableau de fréquences univariées et loi multinomiale

Avant de présenter des méthodes qui permettent d'étudier le lien entre

deux variables, voyons comment étudier une seule variable catégorique.

Dans cette section, nous présenterons des outils permettant de répondre à

la question de recherche suivante : Quel est le portrait de la caractéristique

A dans la population à l'étude ? La reformulation statistique de cette

question est la suivante : De quoi ont l'air les observations de la variable

Y ? en supposant que la variable Y représente la caractéristique A.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 53 / 142
La loi multinomiale

Le contexte de la loi multinomiale est le suivant. On fait une expérience qui

peut prendre r résultats possibles (m1Y , . . . , mrY ). On répète cette

expérience de façon indépendante n fois, et on note Nj le nombre de

résultats mjY obtenus (j = 1, . . . , r ). En fait, on pourrait noter Y1 à Yn


l'échantillon découlant de ces n expériences (souvent n individus sondés).

Valeur de Y m1
Y ...
Y
mj ...
Y
mr

Fréquence N1 ... Nj ... Nr

On vient ainsi de créer un tableau de fréquences à une variable. Les

fréquences sont ici représentées par des Nj .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 54 / 142
La loi multinomiale

Une réalisation des variables aléatoires (N1 , . . . , Nr ) sera dans cette section

notée (n1 , . . . , nr ).
Pour chaque expérience, πj représente la probabilité d'obtenir le résultat

mjY : πj = P(Y = mjY ). Ce contexte est similaire à celui pour une

distribution binomiale, à la diérence que le nombre d'issues possibles à

l'expérience peut être supérieur à 2. On dit que le vecteur

N = (N1 , . . . , Nr ) suit une loi multinomiale de paramètres n (nombre total

d'essais) et (π1 , . . . , πr ) (probabilités des résultats de chacun des types).

On a bien sûr les 2 contraintes suivantes :

N1 + . . . + Nr = n et π1 + . . . + πr = 1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 55 / 142
La loi multinomiale

En raison de la première contrainte, les Nj ne sont pas des variables

indépendantes. On note

N ∼ Multinomiale(n; π1 , . . . , πr ).

De façon marginale, on a

Nj ∼ Bin(n, πj )

pour j = 1, . . . , r . Notez que lorsque r = 2, il devient inutile de travailler

avec le vecteur N = (N1 , N2 ) étant donné que la valeur d'une variable peut

être déduite de l'autre variable (N1 = n − N2 ). On dénit plutôt une des

deux modalités comme étant un succès (disons la modalité 1) et on

travaille avec N1 ∼ Bin(n; π1 ).


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 56 / 142
La loi multinomiale

La fonction de masse de la loi multinomiale s'écrit de la façon suivante :

n! n1
P(N1 = n1 , . . . , Nr = nr ) = n1 !,...,nr ! π1 . . . πrnr

pour (N1 , . . . , Nr ) ∈ Nr : n1 + . . . + nr = n, soit l'ensemble des nombres

naturels (entiers non négatifs) de dimension r, tel que la somme des nj


vaut n. L'espérance et la matrice de variance-covariance de N sont :

E [Nj ] = nπj pour j = 1, . . . , r


Var [Nj ] = nπj (1 − πj ) pour j = 1, . . . , r
0 0
Cov (Nj ; Nj ) = −nπj πj 0 pour j 6= j

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 57 / 142
La loi multinomiale

On veut répartir n objets dans r groupes E1 , . . . , Er , avec card(Ei ) = ni et


Pr
i=1 ni = n.
Question : Quel est le nombre de répartitions possibles ?

Etape 1 : Catégorie E1 ; choix de n1 parmi n (Cnn1 )


n2
Etape 2 : Catégorie E2 ; choix de n2 parmi n − n1 (Cn−n1
)
.
.
.

Etape r : Catégorie Er ; choix de nr parmi n − n1 − n2 − . . . − nr −1 (Cnnrr )


Le nombre de répartition possibles

n2 n!
Cnn1 Cn−n1
. . . Cnnrr = n1 !n2 !...nr !

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 58 / 142
La loi multinomiale

Cas particulier:
r = 2, où n = n1 + n2 et π1 + π2 = 1

n!
P(N1 = n1 , N2 = n2 ) = π n1 π n2
n1 !n2 ! 1 2
n!
= π n1 (1 − π1 )n−n1
n1 !(n − n1 )! 1
N1 ∼ Bin(n1 ; π1 ).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 59 / 142
La loi multinomiale

300 personnes ont été choisi au hasard. On a la répartition suivante selon

la couleur des yeux.

Ei Bleus Verts Maron Noirs

Ni 48 35 122 95

N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ).

n! n1 n2 n3 s4
P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) = n1 !n2 !n3 !n4 ! π1 π2 π3 π4

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 60 / 142
Regroupement

Exemple : reprenons l'exemple de la couleur des yeux.

E1∗ = E1 ∪ E2 (yeux clair) ; E2∗ = E3 ∪ E4 (yeux foncés)

Ei
∗ clairs Foncés

Nj
∗ 83 217


(N1 , N2 )
∗ ∼ M(300; π1∗ , π2∗ )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 61 / 142
Regroupement

Cas général :
Soient E1 , . . . , E r et E1∗ , . . . , Es∗ deux systèmes complets de catégories.

avec s ≤ r , Ej∗ = ∪i∈Ij Ei et I1 , . . . , Is est une répartition de 1, . . . , r .

On a bien sûr les 2 contraintes suivantes :

πj∗ = P(X ∈ Ij∗ ) = i∈Ij πi


P

Nj∗ = i∈Ij Ni
P

(N1∗ , . . . , Ns∗ ) ∼ M(n; π1∗ , . . . , π2∗ )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 62 / 142
Relation de la loi multinomiale avec la loi de poisson

Thèorème :

Soient N1 , N2 , . . . , Nr , r variables aléatoires discrétes indépendantes de loi


Pr
de Poisson Ni ∼ P(mi ), N = i=1 Ni , alors la distribution de

(N1 , N2 , . . . , Nr /N = n) ∼ M(n, π1 , π2 , . . . , πr ) avec πi = Prmi


i=1 mi

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 63 / 142
(mi )ni exp(−ni )
Démonstration : P(Ni = ni ) =
Pr
ni ! avec N= i=1 Ni ,
Pr
N ∼ P(m) et m= i=1 mi

Notons A = (N1 = n1 , . . . , Nr = nr ) et B = (N = n), on a A⊂B


Calculons
P(N1 = n1 , . . . , Nr = nr , N = n)
P(N1 = n1 , . . . , Nr = nr /N = n) =
P(N = n)
P(N1 = n1 , . . . , Nr = nr )
=
P(N = n)
Qr Qr mini exp(−mi )
P(N = n ) i=1
= i=1
i i ni !
= mn exp(−m)
P(N = n)
n!
r
Y mi n!
= [ ( )ni ] Qr
m i=1 ni !
i=1
r
n! Y mi
= ( )ni ∼ M(n, π1 , . . . , πr )
n1 ! . . . nr ! m
i=1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 64 / 142
Test d'hypothèses sur la valeur de π = (π1 , . . . , πr )

On cherche à tester ici les hypothèses suivantes.

H0 : π = π0 ou (π1 , . . . , πr ) = (π0,1 , . . . , π0,r )


H1 : π 6= π0 ou (π1 , . . . , πr ) 6= (π0,1 , . . . , π0,r )

Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses

avec un test de rapport de vraisemblance et un test qui reviendra à de

multiples reprises dans ce cours : le test du khi-deux de Pearson

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 65 / 142
Test de rapport de vraisemblance sur la valeur de π

Nous avons N = (N1 , . . . , Nr ), une observation de la variable aléatoire N,


qui suit une loi Multinomiale(n, π). La vraisemblance de paramètre π est

n! n1
L(π|N) = n1 !...nr ! π1 . . . πrnr

Le logarithme de cette valeur est :

Pr
ln(L(π|N)) = ln( n1n!
...nr ) + j=1 nj ln(πj )

La statistique du test du rapport des vraisemblances est donc :

LR = −2(ln L(π0 |N) − ln L(b π |N))


n! P r n! Pr
=-2(ln(
n1 !...nr ! ) + j=1 nj ln(π0,j ) − ln( n1 !...nr ! ) − j=1 nj ln(b
πj )
Pr π0,j asympt 2 2
=-2 j=1 nj ln( π bj ) −−−−→ χα,r −1 . On rejette H0 ssi LR > χα,r −1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 66 / 142
Test du khi-deux de Pearson sur la valeur de π

Dans le contexte d'un test sur les paramètres d'une loi multinomiale,

Pearson a proposé d'utiliser la statistique suivante :

(Nj −nπ0,j )2 asympt


χ2r −1
Pr
U= j=1 nπ0,j −−−−→

Il a prouvé que sous l'hypothèse nulle H0 : (π1 , . . . , πr ) = (π0,1 , . . . , π0,r ),


cette statistique suit asymptotiquement une loi du khi-deux à r −1 degrés

de liberté, tout comme la statistique du test de rapport de vraisemblance.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 67 / 142
Démonstration : On peut justier ce résultat de façon simple en considérant
qu'une loi binomiale peut être approximée par une loi Poisson sous certaines

conditions, d'où Nj ∼ P(λj ) avec λj = E [Nj ] = nπ0,j pour j = 1, . . . , r .


On sait que pour de grandes valeurs de λj , on peut supposer que
(Nj −λj ) (Nj −nπ0,j )
Zj = √ = √
nπ0,j suit une loi normale centrée réduite.
λj
Supposons pour l'instant que les r v.a. sont indépendantes. On aurait donc

la somme des Zj2 = U suit une loi asymptotique khi-deux à r degrés de

liberté. En réalité, les r v. a. ne sont pas indépendantes puisqu'elles sont


Pr
soumises à la contrainte j=1 Nj = n. On perd un degré de liberté à cause

de cette contrainte, qui représente la conversion de la loi Poisson à la loi

multinomiale.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 68 / 142
Exemple :

Le journal La Presse publiait, le 31 octobre 2007, un article de Denis

Lessard présentant les résultats d'un sondage sur les intentions de vote des

Québécois. À l'époque, les trois principaux partis se partageant les

intentions de vote étaient le Parti Québécois (PQ), le Parti libéral du

Québec (PLQ) et l'Action démocratique du Québec (ADQ). Considérons

ici uniquement ces partis. Les intentions de vote se répartissaient ainsi :

Parti politique PQ PLQ ADQ total

Fréquence observée 264 264 238 66

Tester si les votes sont vraiment répartis uniformément entre les partis

politiques :

H0 : (π1 ; π2 ; π3 ) = (1/3; 1/3; 1/3) vs H1 : (π1 ; π2 ; π3 ) 6= (1/3; 1/3; 1/3).


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 69 / 142
Exemple (Suite)

La statistique du test de rapport de vraisemblance prend la valeur suivante :

LRobs = −2(2 × 264 ln( 2641//766


3
+ 238 ln( 2381//3766 )) = 1.786

Le seuil observé de ce test est donc P(χ22 ≥ 1.786) = 0.40942.


Cette valeur est nettement plus grande que 0.05, on conclut donc au

non-rejet de H0 .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 70 / 142
Exemple (Suite)

La statistique du test du khi-deux de Pearson prend quant à elle la valeur

suivante :

(264−(733/3)) 238−(733/3)
Uobs = 2 × 733/3 + 733/3 = 1.765

Le seuil observé de ce test est donc P(χ22 ≥ 1.765) = 0.41375.


Cette valeur est aussi nettement plus grande que 0.05.

Les deux tests nous mènent donc à la conclusion que les votes sont

réellement répartis de façon uniforme entre les partis politiques.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 71 / 142
Chap 3 : Tableaux de fréquences à deux variables

Pour étudier le lien entre deux variables, il est bon de procéder en suivant

les étapes suivantes :

1 Visualiser les données : avec un tableau de fréquences à deux

variables et/ou des graphiques.

2 Tester l'association entre X et Y : on veut déterminer s'il existe un

lien entre les variables, on choisira le meilleur test en fonction du

caractère nominal ou ordinal des variables, de la taille de l'échantillon

et du nombre de modalités des variables.

3 Si elle est présente, décrire l'association : avec diérentes

statistiques et mesures d'association.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 72 / 142
Dénitions et outils descriptifs

Le contexte traité dans ce chapitre est celui où l'on étudie deux variables

catégoriques notées X et Y . Soit mX1 , . . . , mXI les modalités de la variable

X et mY1 , . . . , mYJ les modalités de Y. On possède un échantillon de n


observations indépendantes de ces deux variables. À partir de cet

échantillon, on calcule un certain nombre de fréquences, que l'on représente

dans un tableau comme suit :

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 73 / 142
Exemple d'emplacement de variables

Dans le cadre de l'Enquête Sociale Générale aux États-Unis, n = 980


personnes ont été interrogées à propos de leurs intentions de vote.

L'enquête a aussi permis d'identier le sexe des votons. On a donc deux

variables catégoriques nominales : X = le sexe d'une personne, soit mX1 =


 Femme , et mX2 =  Homme  et Y = le parti politique, soit mY1 = 

Démocrate , mY2 =  Indépendant  ou mY3 =  Républicain .

Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui

inuence les intentions de vote, et non l'inverse. Ainsi, on dirait que la

variable réponse est Y, et la variable explicative est X. La variable X sera

donc placée en lignes dans le tableau de fréquences, et Y en colonnes.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 74 / 142
Fréquences croisées

Pour i = 1, . . . , I et j = 1, . . . , J , la fréquence nij est le nombre total

d'observations dans l'échantillon pour lesquelles la valeur de X est mXi et

la valeur de Y est mYj simultanément. Les nij sont ce que l'on appelle les
PI PJ
fréquences croisées. On a toujours la relation suivante : n= i=1 j=1 nij

où n est le nombre total d'observations dans l'échantillon. Ainsi, n.. est la


PJ PI
même chose que n. Les ni. = j=1 nij et n.j = i=1 nij représentent les

fréquences marginales.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 75 / 142
Fréquences conditionnelles

Les fréquences des modalités d'une variable en xant l'autre variable à une

certaine modalité sont appelées fréquences conditionnelles. Par exemple, les

fréquences de X sachant que Y =2 sont n12 à nI 2 .


Exemple :

Les fréquences des modalités des intentions de vote Y en conditionnant par

rapport au fait d'être une femme sont (n11 = 279; n12 = 73; n13 = 225),
soit la première ligne du tableau de fréquences croisées.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 76 / 142
Fréquences relatives

Les fréquences relatives croisées sont dénies par fij = nij /n pour

i = 1, . . . , I et j = 1, . . . , J . La somme de ces I ×J fréquences vaut 1.

Les fréquences relatives marginales se calculent par fi. = ni. /n et

f.j = n.j /n. La somme des I fréquences relatives de la marge verticale

vaut 1, tout comme la somme des J fréquences relatives de la marge

horizontale.

les fréquences relatives conditionnelles de X par rapport à Y sont

dénies par fi|j = nij /n.j pour une valeur de j xe. De façon similaire,

les fréquences relatives conditionnelles de Y par rapport à X sont

dénies par fj|i = nij /ni. pour une valeur de i xe.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 77 / 142
Exemple de fréquences relatives :

Les fréquences relatives croisées (fij pour i = 1, 2 et j = 1, 2, 3) et

marginales (fi. pour i = 1, 2 et f.j pour j = 1, 2, 3) sont les suivantes :

La somme de toutes les fréquences relatives croisées vaut 1 et la somme

des fréquences relatives dans chacune des marges vaut aussi 1.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 78 / 142
Exemple de fréquences relatives :

Les fréquences relatives conditionnelles à la valeur de X, le sexe, sont les

suivantes :

La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes

de l'échantillon ont l'intention de voter démocrate. Ici, les fréquences

relatives de chaque ligne somment à 1, car ces fréquences sont calculées en

divisant les fréquences croisées par les fréquences dans la marge verticale.

Cette marge est celle de la variable X.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 79 / 142
Exemple de fréquences relatives :

Les fréquences relatives conditionnelles à la valeur de Y , les intentions de

vote, sont les suivantes :

Ici, les fréquences relatives de chaque colonne somment à 1, car ces

fréquences sont calculées en divisant les fréquences croisées par les

fréquences dans la marge horizontale. Cette marge est celle de la variable Y.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 80 / 142
Probabilités d'intérêt

Les probabilités en lien avec un tableau de fréquences à deux variables X et

Y sont les suivantes, pour i = 1, . . . , I et j = 1, . . . , J :

Probabilités conjointes :

πij = P(X = miX , Y = mjY )

Probabilités marginaless :

πi. = P(X = miX ) ; π.j = P(Y = mjY )

Probabilités conditionnelles :

πi|j = P(X = miX |Y = mjY ) ; πj|i = P(Y = mjY |X = miX )

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 81 / 142
Estimation des probabilités d'intérêt

Les πij sont facilement estimables si les données proviennent d'un

échantillonnage multinomial simple. Dans ce cas, le vecteur de toutes les

fréquences du tableau suit une loi multinomiale : [nij ] ∼ M(n, [πij ])


Probabilités conjointes :

nij
π
bij = n

Probabilités marginales :

ni. n.j
π
bi. = n ; π
b.j = n

Probabilités conditionnelles :

nij nij
π
bi|j = n. j ; π
bj|i = ni .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 82 / 142
Tests d'association entre deux variables nominales

La question principale d'intérêt lorsque l'on étudie conjointement 2

variables nominales X et Y est de savoir si X et Y sont associées.

De façon générale, on dira qu'il y a un lien ou une association entre deux

variables si modier la valeur d'une variable aecte la valeur de l'autre

variable. Le terme  association  est plutôt général. Pour des variables

catégoriques, si la fonction de densité d'une variable varie

conditionnellement à la valeur de l'autre variable, on peut dire que la valeur

d'une variable inuence la valeur de l'autre variable. Elles seraient donc

associées.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 83 / 142
Test d'indépendance et test d'homogénéité

Selon le mode d'échantillonnage, cette association entre X et Y est

représentée par diérentes hypothèses.

Échantillonnage multinomial simple : On suppose que les totaux

des lignes et colonnes du tableau de fréquences croisant X et Y ne sont

pas xés d'avance. Seul le total n est xé ici. On veut tester si X et Y sont

indépendantes.

=⇒ Ce type d'hypothèses requiert un test d'indépendance.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 84 / 142
Exemple

Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur

grossesse. Par un questionnaire, leur consommation d'alcool pendant le

premier trimestre de leur grossesse a été évaluée. Après la naissance des

enfants, des médecins ont vérié si ceux-ci présentaient des malformations.

Question : Les mères qui consomment de l'alcool durant la grossesse


augmentent-elles le risque de malformations de leurs enfants ?

Variable réponse Y : présence de malformations chez l'enfant à la naissance.


Variable explicative X : nombre moyen de verres d'alcool consommés par

jour par la mère.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 85 / 142
Exemple

Les observations recueillies sont les suivantes :

Pour répondre à la question, on pourrait d'abord tester l'association entre

les variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 86 / 142
Test d'indépendance et test d'homogénéité

Échantillonnage multinomial multiple : Supposons que

l'échantillonnage multiple a été eectué en stratiant selon la valeur de la

variable X. On considère donc que chaque valeur de X correspond à une

sous-population, c'est-à-dire que les totaux des rangées (les ni.) sont xes.

On veut tester si la distribution des valeurs de Y est la même ( homogène )


dans chacune des I sous-populations de X.

=⇒ Ce type d'hypothèses requiert un test d'homogénéité.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 87 / 142
Exemple

Une étude à propos de la relation entre la prise quotidienne d'aspirine et

l'infarctus du myocarde a été menée à l'école de médecine de l'Université

Harvard. Au total, 22071 médecins américains ont participé à l'étude, d'une

durée de 5 ans. Les participants ont été attribués de façon aléatoire, en

nombres presque égaux, à l'un des deux groupes d'exposition au facteur de

risque : ceux qui prennent de l'aspirine quotidiennement et ceux qui n'en

prennent pas. Pendant l'étude, tous les médecins devaient prendre une

pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On

a observé si les participants ont été victimes ou non d'un infarctus pendant

l'étude.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 88 / 142
Exemple

Voici les résultats obtenus :

Ici, la variable explicative X est la prise quotidienne d'aspirine ou non. La

variable réponse Y est la survenue ou non d'un infarctus. L'échantillonnage

est multiple, avec des sous-populations formées conditionnellement à la

variable explicative X.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 89 / 142
Dénition des concepts d'indépendance et d'homogénéité

En termes statistiques, dire que les variables aléatoires discrètes X et Y


sont indépendantes signie que :

πij = πi. × π.j pour tous i = 1, . . . , I et j = 1, . . . , J .

L'homogénéité des I sous-populations de X signie que les I fonctions de

masse conditionnelles de Y sachant X sont toutes égales. Ainsi,

l'homogénéité des populations signie que :

(π1|i=1 ; π2|i=1 , . . . , πJ|i=1 ) = . . . = (π1|i=I ; π2|i=I , . . . , πJ|i=I ).

Cette dénition correspond à :

πj|i = πj|i 0 pour toute paire ´ = 1, . . . , I


(i, i) et pour tout j = 1, . . . , J .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 90 / 142
Lien entre les concepts d'indépendance et d'homogénéité

Les concepts d'indép. et d'homog. sont en fait équivalents, on a que :

indépendance ⇒ homogénéité :

Par dénition des probabilités conditionnelles, on a que :

P(X = miX ; Y = mjY ) = P(Y = mjY |X = miX )P(X = miX ) :

Si X et Y sont indépendantes, on a donc :

P(Y = mjY |X = miX )P(X = miX ) = P(Y = mjY )P(X = miX )


P(Y = mjY |X = miX ) = P(Y = mjY )

Si les probabilités conditionnelles sont toutes égales aux probabilités

marginales, alors elles sont toutes égales entre elles.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 91 / 142
homogénéité ⇒ indépendance :

Par la loi des probabilités totales, on a :

PI
P(Y = mjY ) = i=1 P(Y = mjY |X = miX )P(X = miX )

Sous l'hypothèse que les I sous-populations formées par X sont

homogènes, tous les P(Y = mjY |X = miX ) sont égaux. Notons

P(Y = mjY |Xquelconque) la valeur commune de ces probabilités

conditionnelles. On a donc maintenant :


I
X
P(Y = mjY ) = P(Y = mjY |Xquelconque)P(X = miX )
i=1
I
X
= P(Y = mjY |Xquelconque) P(X = miX )
i=1

= P(Y = mjY |Xquelconque)


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 92 / 142
Lien entre les concepts d'indépendance et d'homogénéité

Remarque :

Ainsi, si les vecteurs de probabilités conditionnelles sont tous égaux entre

eux, ils sont forcément égaux au vecteur de probabilités marginales de Y.


En conséquence, P(Y = mjY |X = miX ) = P(Y = mjY ) pour tous

i = 1, . . . , I et j = 1, . . . , J , ce qui signie que X et Y sont indépendants.

Mathématiquement, il s'agit donc du même concept. On utilisera les

mêmes statistiques de test pour eectuer ces deux types de test,

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 93 / 142
Formulation des hypothèses des tests

Test d'indépendance :

H0 : X et Y sont indépendants ou

πij = πi. π.j ∀i, j


H1 : X et Y ne sont pas indépendants ou

πij 6= πi. π.j pour au moins un couple (i, j)

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 94 / 142
Formulation des hypothèses des tests

Test d'homogénéité de sous-populations :

H0 : Dans les I sous-populations déterminées par X;


Y suit la même distribution ou
0
πj|i = πj|i 0 ∀i 6= i , j ou

πj|i = π.j ∀i, j


H1 : Y ne suit pas la même distribution

dans les I sous-populations déterminées par X ou


0
πj|i 6= πj|i 0 pour au moins un couple (i, i ) ou

πj|i 6= π.j pour au moins un couple (i, j)

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 95 / 142
Construction des statistiques de test

Pour eectuer ces tests, nous allons utiliser les statistiques LR et U. Ici, on

a I ×J classes, les fréquences observées sont notées nij et les fréquences

espérées sous l'hypothèse nulle H0 doivent être estimées et sont notées ebij .

Les statistiques sont donc maintenant notées comme suit :

Statistique du khi-deux de Pearson :

PI PJ (nij −b eij )2
U= i=1 j=1 ebij

Statistique du rapport de vraisemblance :

PI PJ n
LR = 2 i=1 j=1 nij ln( ebijij )

Ces statistiques suivent, lorsque les fréquences du tableau sont grandes,

une loi du khi-deux.


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 96 / 142
Construction des statistiques de test

Rappelons que le nbre de ddl de cette khi-deux, notés d, sont dénis par :

d = dim de l'espace des paramètres - dim de l'espace des paramètres ss H0 ;


Test d'indépendance :

Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les

paramètres sont les probabilités πij . La dimension de l'espace des

paramètres est égale IJ − 1. Les paramètres libres sous H0 sont les πi. et les

π.j . Ces paramètres sont au nombre de I + J . Cependant, elles doivent


PI PJ
respecter les contraintes i=1 πi. et j=1 π.j . On se retrouve donc avec

I +J −2 paramètres libres sous H0 . Ainsi,

d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1)
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 97 / 142
Construction des statistiques de test

Test d'homogénéité de sous-populations :

Ici, à cause de l'échantillonnage multinomial multiple, les vecteurs

(ni 1 , . . . , niJ ) sont considérés indépendants et suivent une distribution

M(ni ; π1|i , . . . , πJ|i ). La dimension de l'espace des paramètres est égale au

nombre total de probabilités πj|i moins I parce que chacun de vecteurs

(π1|i , . . . , πJ|i ) est soumis à la contrainte que la somme de ses éléments

vaille 1. Sous H0 , tous les vecteurs (π1|i , . . . , πJ|i ) sont égaux aux

probabilités marginales (π.1 , . . . , π.J ), aussi soumises à la meme contrainte.

La dimension de l'espace des paramètres sous H0 est donc J − 1. Ainsi,

d = (IJ − I ) − (J − 1) = I (J − 1) − (J − 1) = (I − 1)(J − 1).


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 98 / 142
Construction des statistiques de test

Voyons maintenant comment estimer les fréquences espérées sous

l'hypothèse nulle formulée.

Test d'indépendance :

eij = nπij = nπi. π.j par indépendance sous H0

On estime donc les fréquences espérées par :

n.j ni. n.j


ebij = nb b.j = n( nni. )(
πi. π n ) = n

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 99 / 142
Construction des statistiques de test

Test d'homogénéité de sous-populations :

eij = ni πi|j où ni est xe à cause de l'échantillonnage multiple

= ni π.j par homogénéité des sous-populations sous H0

On estime donc les fréquences espérées par :

n.j ni n.j
ebij = ni π
b.j = ni ( n ) = n

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 100 / 142
Construction des statistiques de test

On notera les statistiques de test, peu importe que l'on mène un test

d'indépendance ou d'homogénéité des populations, par :

PI PJ (nij −ni. n.j /n)2


U= i=1 j=1 ni. n.j /n

PI PJ n
LR = 2 i=1 j=1 nij ln( ni. n.jij /n )

Les statistiques U et LR suivent asymptotiquement une distribution

χ2(I −1)(J−1) . Ainsi, au seuil α , H0 est rejetée si les valeurs observées de ces

statistiques sont grandes, c'est-à-dire si Uobs > χ2α,(I −1)(J−1) ou

LRobs > χ2α,(I −1)(J−1) .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 101 / 142
Remarques :

On a présenté deux types de test d'association, on a cependant

constaté que le test d'indépendance (motivé par l'échantillonnage

multinomial simple) et le test d'homogénéité (motivé par

l'échantillonnage multinomial multiple) sont, à un détail près,

mathématiquement équivalents.

Il est intéressant de formuler le test d'association en terme

d'homogénéité de populations lorsque l'on soupçonne un lien de

causalité entre les variables. Dans ce cas, on tend intuitivement à

étiqueter l'une des variables comme étant explicative et l'autre comme

étant une variable réponse.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 102 / 142
Exemple de test d'association

on s'interesse au nombre d'enfants (S) issus d'un pére en fonction du

nombre de frères et soeurs (R) qu'il y a dans la famille. Peut-on dire que R

et S sont indépendantes ?

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 103 / 142
Cas particulier des tableaux 2 × 2

Un tableau de fréquences 2 ×2 est celui pour lequel les variables X et Y


n'ont que 2 modalités possibles. C'est donc un cas particulier des tableaux

I ×J lorsque I =2 et J = 2. Un tableau 2 ×2 a la forme suivante :

n(N11 N22 −N12 N21 )2


Montrer que U= n1. n2. n.1 n.2

Rq : Ici, les degrés de liberté de la distribution asymptotique de U valent 1,

car (I − 1) × (J − 1) = 1 × 1 = 1.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 104 / 142
Exemple de test d'association pour un tableau 2 × 2 :

Rappelons que les données sont les suivantes :

Dans cette étude, la question de recherche était la suivante :

−→ Est-ce que l'aspirine réduit les risques d'infarctus ?


ou encore :

−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris
quotidiennement de l'aspirine et ceux qui n'en ont pas pris ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 105 / 142
Exemple de test d'association pour un tableau 2 × 2 :

Les hypothèses du test sont :

H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 )


H1 : (π1|i=1 , π2|i=1 ) 6= (π1|i=2 , π2|i=2 )

22071(239×10898−10795×139)2
Uobs = 11034×11037×378×21693 = 26.9437.

On a Uobs  χ20.05,1 = 3.84. On rejette donc l'hypothèse nulle. Il y a une

grande diérence de risque d'infarctus entre ceux qui prennent

quotidiennement de l'aspirine et ceux qui n'en prennent pas.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 106 / 142
Test de comparaison de deux proportions

Pour un tableau 2 × 2, l'hypothèse nulle du test d'homogénéité des deux

sous-populations formées par la variable X s'écrit :

H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ).

Puisque π1|i + π2|i = 1 pour i = 1, 2, cette hypothèse est équivalente à :

H0 : π1|i=1 = π1|i=2 .

Le modèle statistique de l'échantillonnage multinomial multiple revient à

dire qu'on a 2 v. a. binomiales indépendantes. On a donc :

n11 ∼ Bin(n1 = n1. , π1 = π1|i=1 ) nbre de succès dans la 1 ere population

n21 ∼ Bin(n2 = n2. , π2 = π1|i=2 ) nbre de succès dans la 2 eme population

Avec π
b1 = n11 /n1 et π
b2 = n21 /n2 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 107 / 142
Test de Wald de comparaison de deux proportions

La statistique du test de Wald de comparaison de deux proportions est la

suivante (Agresti, 2002) :

b1 −b
π π2 asympt
Zw = r −−−−→ N(0, 1)
b1 (1−π
π b (1−π
b1 ) π b )
n1
+ 2 n 2
2

où π
bi = ni 1 /ni pour i = 1, 2.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 108 / 142
Exemple de test de Wald

An de répondre à la question  Est-ce que l'aspirine réduit les risques

d'infarctus ? , nous pouvons tester l'égalité des proportions :

π1 = π1|i=1 = P(infarctus | placebo) et

π2 = π1|i=2 = P(infarctus | aspirine)

contre une hypothèse alternative unilatérale à droite :

H0 : π1 = π2 , l'aspirine n'a pas d'eet

H1 : π1 > π2 , l'aspirine réduit le risque d'infarctus.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 109 / 142
Exemple de test de Wald

La statistique du test de Wald pour confronter ces hypothèses prend la

valeur observée suivante :

0.02166−0.01259
Zw = q
0.02166(1−0.02166) 0.01259(1−0.01259)
= 5.193717.
11304
+ 11307

Cette valeur est beaucoup plus grande que la valeur critique du test :

z0.05 = 1.645. On peut donc encore conclure que l'aspirine réduit les

risques d'infarctus.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 110 / 142
Test score de comparaison de deux proportions

Le test de comparaison de proportions le plus souvent présenté dans un

cours d'introduction à la statistique (Hines et al. (2012), Agresti (2002))

est le test score se basant sur la statistique suivante :

b1 −b
π π2 asympt
Zs = q
1 1
−−−−→ N(0, 1)
πb(1−bπ )( n + n )
1 2

n1 π
b1 +n2 π
b2 n11 +n21
où π
bi = ni 1 /ni pour i = 1, 2 et π= n1 +n2 = n1 +n2 est utilisé pour

calculer une variance groupée.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 111 / 142
Exemple de test score

Une statistique similaire à la statistique de Wald que l'on vient de calculer

est la statistique score suivante :

Zs = q 0.02166−0.01259 = 5.190729
1 1
b(1−b
π π )( 11304 + 11307 )

11304×0.02166+11307×0.01259 378
car π
b= 11304+11307 = 22071 = 0.01712655.
La valeur observée de la statistique du test score zs = 5.190729 est très

proche, mais pas tout à fait égale à celle de la statistique du test de Wald

zw = 5.193717. Remarquez qu'en élevant au carré zs , on retombe

exactement sur la statistique


2
Uobs de Pearson

2
(zs = 5.1907292 = 26.94367 = Uobs
2 ).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 112 / 142
Chap 4 : Tableaux de fréquences à trois variables

Dans ce chapitre, on s'intéresse encore au lien entre deux variables

catégoriques X et Y. La nouveauté par rapport au précédent est que l'on

va maintenant tenir compte d'une troisième variable catégorique, notée Z.


Cette variable est peut-être liée à X et Y, mais on ne s'intéresse pas

vraiment à ces liens. On cherche plutôt à étudier le lien entre X et Y en

corrigeant pour l'eet confondant potentiel de Z sur ce lien.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 113 / 142
Tableaux de fréquences à trois variables

Un tableau de fréquences à trois variables est en fait représenté par une

série de tableaux de fréquences à deux variables, soit un tableau pour

chacune des modalités de la troisième variable, notée Z. Les modalités de

cette variable seront notées mkZ avec k = 1, . . . , K .

Dans ces tableaux, nijk représente le nombre d'individus dans l'échantillon


PI PJ
pour lesquels X = miX , Y = mjY et Z = mkZ . Ainsi, n..k = i=1 j=1 nijk
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 114 / 142
Tableaux de fréquences à trois variables

Ces données se présentent sous forme d'un tableau de contingence croisant

ces trois variables de terme général nijk .


On s'intéresse aux relations existant entre ces trois variables : sont-elles

indépendantes ou non dans leur ensemble ou une variable est-elle

indépendante conditionnellement à une ou aux deux autres ? Autrement

dit, on cherche à connaître la structure des liaisons entre ces données en

tenant compte des interactions entre les 3 variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 115 / 142
Exemple de tableaux de fréquences à trois variables

Aux États-Unis, le Département de Transport demande aux compagnies

aériennes de recueillir les données concernant les vols d'avions qu'ils

orent. Parmi les informations recueillies, pour 11 000 vols d'avions on

retrouve, les variables suivantes : X : le nom de la compagnie aérienne ; Y :

une indicatrice de départ en retard pour le vol ; Z : la ville de l'aéroport.

Deux compagnies aériennes seront à l'étude : Alaska et America West

Airlines. Les vols d'avions considérés partaient de 5 villes : Los Angeles,

Phoenix, San Diego, San Francisco ou Seattle.

Question : Est-ce qu'il y a une diérence entre les compagnies aériennes en

ce qui concerne le respect des heures de départ prévues de leurs vols ?

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 116 / 142
Exemple de tableaux de fréquences à trois variables

Voici les tableaux conditionnels de fréquences observées pour cet exemple :

Il s'agit de 5 tableaux de fréquences croisées entre X et Y , conditionnels à

la valeur de Z.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 117 / 142
Deux critères X et Y sont indépendants ssi

P(Xi , Yj ) = P(Xi )(Yj ), on note Pij = Pi Pj , ∀i, j

Trois critères X, Y et Z sont indépendant, X ⊥Y ⊥Z ssi

P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj )P(Zk ), on note Pi,j,k = Pi Pj Pk , ∀i, j, k

X est partiellement indépendant du couple (Y , Z ), X ⊥(Y , Z ) ssi

P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj ∩ Zk ),on note Pi,j,k = Pi.. P.jk , ∀i, j, k

X et Y sont indépendants conditionnellement à Z , (X ⊥Y )/Z ssi

P(Xi ∩ Yj /Zk ) = P(Xi /Zk )P(Yj /Zk ), ∀i, j, k


ou encore Pijk = Pi../k P.j./k
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 118 / 142
Relations entre les types d'indépendances

1

 X ⊥(Y , Z )
X ⊥Y ⊥Z ⇔
 Y ⊥Z

2
 
 X ⊥Y  X ⊥Z
X ⊥(Y , Z ) ⇔ ⇔
 X ⊥Z /Y  X ⊥Y /Z

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 118 / 142
Test d'indépendance

Pour tester l'indépendance entre 3 variables, soit la statistique de test du

khi-deux de Pearson, dénie par :

eijk )2
∼ χ2ddl
PI PJ PK (nijk −b
U= i=1 j=1 k=1 ebijk

On test les hypothèses :

H0 : Pijk = Pi.. P.j. P..k vs H1 : Pijk 6= Pi.. P.j. P..k

Hypothèses ebijk = nb
pijk ddl de χ2ddl
Ni.. N.j. N..k
X ⊥Y ⊥Z n2
IJK − I − J − K + 2
Ni.. N.jk
X ⊥(Y , Z ) n (I − 1)(Jk − 1)
Ni.k N.jk
(X ⊥Y )/Z N..k (I − 1)(J − 1)k

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 119 / 142
Exemple

Une enquête réalisée auprès de 97 étudiants classés selon 3 critères : R :

comportement, S : Existence d'un risque familial et T : l'adversité du milieu

scolaire.

Peut-on supposé l'indépendance de ces trois critères ?


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 120 / 142
Exemple

Pour 2121 personnes classées selon leur taux de cholestérol (R) leur

pression sanguine (S) et leur type de personnalité (T).

Peut-on supposé l'indépendance conditionnelle de R et S par rapport à T ?

H0 : Pij./k = Pi../k × P.j./k vs H1 : Pij./k 6= Pi../k × P.j./k

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 121 / 142
Chap 5 : Modèles log-linéaires

Le principe général de l'analyse log-linéaire est proche de celui de l'analyse

de variance, en ce qu'elle permet de tester des eets de modalités de

variables et d'interactions entre des modalités de deux ou plusieurs

variables, mais elle en dière aussi fondamentalement, puisque ce ne sont

pas des moyennes de variables qui sont prises en compte, mais des eectifs.

Le point de départ est toujours un tableau de contingence, à deux ou

plusieurs critères. Ce qu'on va expliquer, c'est l'eectif de chaque cellule.

Deux aspects principaux se partagent l'attention de l'utilisateur : les tests

de signication, et la modélisation.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 122 / 142
Modèles log-linéaires

Les modèles log-linéaires permettent d'étudier et de modéliser les liaisons

entre plusieurs variables nominales en tenant compte de leurs éventuelles

interactions. Celui-ci a la particularité de ne pas nécessiter, a priori, de

distinction entre la variable à expliquer et les variables explicatives. Pour

cela, on ne parlera pas d'un modèle de régression, mais d'un modèle

d'association.

Soit nijk les eectifs observés de la table de contingence. La modélisation

log-linéaire vise à exprimer le logarithme de ces valeurs par une somme

d'eets propres et d'interactions d'ordre 2 ou supérieur des variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 123 / 142
Modèles à 2 variables

Soit une table de contingence (I × J) issue du croisement de deux variables

qualitatives X à I modalités et Y à J modalités et dont l'eectif total n est

xé.

La loi conjointe des eectifs nij de chaque cellule est une loi multinomiale

de paramètre πij nij ∼ M(n, πij ) et d'espérance :

eij = E (nij ) = nπij

Par dénition, les variables X et Y sont indépendantes si et seulement si :

πij = πi. π.j

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 124 / 142
Modèles à 2 variables

le modèle log-linéaire décompose le logarithme népérien de l'espérance eij


sous la forme :

ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) = µ + αi + βj

Le modèle se décompose en une somme de coecients décrivant plusieurs

eets :

µ, l'eet global ;

αi , l'eet dû à la variable X,

βj , l'eet dû à la variable Y,

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 125 / 142
Modèles à 2 variables

Si l'indépendance n'est pas vériée, on peut décomposer :

π
eij = nπij = nπi. π.j πi. πij .j

L'intervention de la fonction logarithme permet de linéariser la

décomposition précédente autour du modèle d'indépendance :

π
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij

Le terme (αβ)ij est l'eet dû à l'interaction entre les variables X et Y.


Ce modèle est dit saturé car, présentant autant de paramètres que de

données, il explique exactement celles-ci.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 126 / 142
Modèles à 2 variables

An d'identier tous les paramètres, on ajoute les contraintes :


PI PJ
i=1 αi = j=1 βj = 0. Ces contraintes garantissent l'unicité.

Il est intéressent d'illustrer la notation matricielle du modèle dans le cas, par

exemple, où I =2 et J = 3. Le vecteur des paramètres inconnues est donné

par θ = (µ, α1 , β1 , β2 ), étant donné que α2 = −α1 et β3 = −β1 − β2 .


Ecrivez le modèle sous sa forme matricielle.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 127 / 142
Exemple

Le modèle se réécrit comme :

   
ln(e11 ) 1 1 1 0
     
ln(e12 ) 1 1 0 1  µ
   
     
ln(e13 ) 1 1 −1 −1 α1 
     
  =   
1 −1 1
     
ln(e21 ) 0   β1 
     
   
ln(e22 ) 1 −1 0 1  β2
   
ln(e23 ) 1 −1 −1 −1

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 128 / 142
Le modèle saturé pour une table I × J

Ce modèle s'écrit :

ln(eij ) = µ + αi + βj + (αβ)ij

Il est indispensable, à présent, d'ajouter les contraintes :

PI PJ
i=1 αβij = j=1 αβij =0

Ecrivez le modèle sous sa forme matricielle, pour I =2 et J = 3. Le vecteur

des paramètres inconnues est donné par θ = (µ, α1 , β1 , β2 , (αβ)11 , (αβ)12 )


qui est de la même dimension que µ. Vu que le nombre de paramètres

indépendants est équivalent au nombre de cellules, on aura un ajustement

parfait du tableau de contingence et donc un modèle saturé.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 129 / 142
Exemple

Le modèle se réécrit comme :

     
ln(e11 ) 1 1 1 0 1 0 µ
     
ln(e12 ) 1 1 0 1 0 1   α1 
     
     
ln(e13 ) 1 1 −1 −1 −1 −1  β1 
     
  =   
1 −1 1 −
     
ln(e21 ) 0 1 0   β2 
     
     
ln(e22 ) 1 −1 0 1 0 −1 (αβ)11 
     
ln(e23 ) 1 −1 −1 −1 1 1 (αβ)12

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 130 / 142
Modèle à 2 critères non indépendants et tests d'ajustement

Le modèle s'écrit comme suit :

ln(eij ) = µ + αi + βj + (αβ)ij

avec les contraintes :

PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0

En pratique, on s'intéresse essentiellement à l'étude de l'indépendance

entre les deux critères de classication et on test l'hypothèse nulle :

H0 : X ⊥Y

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 131 / 142
Condition d'indépendance

Proposition :

Soit le modèle log-linéaire saturé suivant :

ln(eij ) = µ + αi + βj + (αβ)ij

satisfaisant les contraintes

PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0

alors X ⊥Y ⇔ (αβ)ij = 0, ∀i, j

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 132 / 142
Modèle à 2 critères non indépendants et tests d'ajustement

Le rejet de l'hypothèse nulle (H0 = (αβ)ij = 0) s'eectue comme suit :

RH0 si LRobs ou Uobs ≥ χ2ddl où le

ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1)

avec

n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P

(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P

Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle

non saturé suivant :

ln(eij ) = µ + αi + βj
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 133 / 142
Modèle à trois variables

On considère une table de contingence (I × J × K ) obtenue par croisement

de trois variables qualitatives X,Y et Z. Le modèle saturé s'écrie :

ln(eijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk

Les termes αi , βj et γk représentent les eets principaux de X,Y et Z.


->Le nombre de paramètres : (I − 1), (J − 1), (K − 1)
Les termes (αβ)ij , (αγ)ik et (βγ)jk sont les intéractions du 1
er ordre.

->Le nombre de paramètres : (I − 1)(J − 1), (I − 1)(K − 1), (J − 1)(K − 1)


Les termes (αβγ)ijk sont les intéractions du second ordre.

-> Le nombre de paramètres : IJK − 1


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 134 / 142
Types et tests d'indépendances

-> Le modèle d'indépendance conditionnelle s'écrit :

ln(eijk ) = µ + αi + βj + γk + (αγ)ik + (βγ)jk

L'hypothèse nulle à tester est : H0 : X ⊥Y /Z ⇔ H0 : (αβ)ij = 0


-> Le modèle d'indépendance partielle s'écrit :

ln(eijk ) = µ + αi + βj + γk + (βγ)jk

L'hypothèse nulle à tester est : H0 : X ⊥(Y , Z ) ⇔ H0 : (αβ)ij = (αγ)ik = 0


-> Le modèle d'indépendance totale s'écrit :

ln(eijk ) = µ + αi + βj + γk

on teste H0 : X ⊥Y ⊥Z ⇔ H0 : (αβ)ij = (αγ)ik = (βγ)jk = 0


Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 135 / 142
Relation entre les types d'indépendance

Soit le test d'indépendance mutuelle suivant : H0,m : X ⊥Y ⊥Z

Si on rejette H0,m , on teste l'indépendance partielle

H0,p : X ⊥(Y ∩ Z ), H0,p : Y ⊥(X ∩ Z ), H0,p : Z ⊥(X ∩ Y )

Si on rejette H0,p , on teste l'indépendance conditionnelle

H0,c : (X ⊥Y )/Z , H0,c : (X ⊥Z )/Y , H0,c : (Y ⊥Z )/X

Si on rejette H0,c aucune simplication n'est possible, on garde le

modèle saturé.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 136 / 142
Modèles hiérarchiques

Un modèle log-linéaire est dit hiérarchique si la condition suivante est

vériée : quand un coecient d'interaction est présent dans le modèle, les

coecients des variables mises en jeu et toutes les interactions d'ordre

inférieur sont aussi dans le modèle.

Par exemple, si dans un modèle à 5 variables on trouve l'interaction Xl 35 ,


alors le modèle, pour être hiérarchique, doit contenir au moins Xl , X3 et X5
ainsi que les interactions d'ordre inférieur X13 , X15 et X35 .

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 137 / 142
Modèles hiérarchiques

Parmi les modèles log-linéaires possibles dans le cas d'un tableau de

contingence à deux variables, certains modèles sont hiérarchiques :

ln(eij ) = µ + αi + βj + (αβ)ij
ln(eij ) = µ + αi + βj

et d'autres ne le sont pas :

ln(eij ) = µ + αi + (αβ)ij
ln(eij ) = µ + βj + (αβ)ij
ln(eij ) = µ + (αβ)ij

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 138 / 142
Estimation des paramètres

Les fréquences théoriques espérées eijk sont en général estimées par la

méthode du maximum de vraisemblance. Elle consiste à rechercher les

paramètres qui maximisent la fonction de vraisemblance `(nijk , eijk ). Pour

cela, on suppose que les variables aléatoires nijk suivent une loi

multinomiale.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 139 / 142
Tests d'ajustement

Pour comparer le tableau des fréquences estimées avec le tableau des

fréquences observées, deux tests (voisins) sont généralement utilisés :

n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P

(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P

Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles

sont nulles pour le modèle saturé. On recherche le modèle le plus simple

(peu de paramètres) et qui reste acceptable (bon ajustement).

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 140 / 142
Choix du modèle

Le choix du modèle log-linéaire est d'autant plus dicile que le nombre de

variables est élevé. La méthode dite "combinatoire" est une des méthodes

possibles pour obtenir un "bon" modèle. A partir du modèle saturé, on

construit des modèles plus simples en retirant un à un les termes

d'interaction. La statistique LR croît progressivement et l'on peut arrêter la

procédure lorsqu'elle augmente plus rapidement. On retiendra alors le

modèle correspondant et l'on en déduira les liaisons importantes entre les

variables.

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 141 / 142
Choix du modèle

Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 142 / 142

Vous aimerez peut-être aussi