Académique Documents
Professionnel Documents
Culture Documents
Fadoua BADAOUI
22 octobre 2017
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 1 / 142
Overview
1 Introduction et rappel
La loi multinomiale
5 Modèles log-linéaires
Modèles à 2 variables
etc.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 3 / 142
Introduction et rappel
Les détails de certains calculs faits à la main pour de petits jeux de données
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 4 / 142
Introduction et rappel
porte l'étude dans le cadre de laquelle les données ont été recueillies.
recueillies. Si des mesures ont été prises pour tous les individus de la
caractéristique.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 6 / 142
Échantillonnage
inférence statistique .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 7 / 142
Dénition
Une variable discrète ne peut prendre qu'un nombre ni de valeurs, ou bien
une innité de valeurs si ces valeurs peuvent s'écrire sous la forme d'une
suite a1 , a2 , a3 , . . ..
Ainsi une variable dont les valeurs sont 0, 1/5, 2/5, 3/5, 4/5, 1 est discrète ;
il en est de même d'une variable pouvant prendre comme valeurs tous les
1, 2, 3, 4, 5, 6).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 8 / 142
Remarque
suite.
Il n'est pas rare que des codes numériques soient utilisés pour représenter
des modalités catégoriques de variables, car ils sont plus rapides à écrire ou
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 9 / 142
Expérience avec la loi Poisson
suivants :
Québec ;
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 10 / 142
Expérience avec la loi Poisson
λy exp −λ
P(Y = y ) = y! y = 0, 1, 2, . . .
E [Y ] = Var [Y ] = λ.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 11 / 142
Expérience avec la loi Binomiale
échec.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 12 / 142
Expérience avec la loi Binomiale
En résumé, les conditions pour qu'il y ait une expérience binomiale sont les
suivantes :
n essais ;
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 13 / 142
Expérience avec la loi Binomiale
Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui
personnes ont répondu oui à cette question, et 636 personnes ont répondu
non.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 14 / 142
Expérience avec la loi Binomiale
Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées :
aléatoire simple.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 15 / 142
Expérience avec la loi Binomiale
E [S] = nπ
np(1 − p) ≤ 10, alors la loi Bin(n; π) tend vers la loi Poisson (nπ = λ).
En d'autres mots,
λs exp −λ
lim P(S = s) = s!
n → +∞, π → 0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 17 / 142
Expérience avec la loi Binomiale
Notez que l'on peut approximer la loi binomiale par la loi normale lorsque n
est grand en utilisant le résultat du Théorème Limite Central.
asympt
S −−−−→ N(nπ; nπ(1 − π))
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 18 / 142
Méthode du maximum de vraisemblance
Etant donné un échantillon issu d'une loi dont la pdf est f (x, θ), on appelle
Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).
Exemple
rapport à θ, la quantité
n
θxi (1 − θ)1−xi
Y
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =
i=1 (1)
= θnx (1 − θ)n(1−x)
où x = (x1 , . . . , xn ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 20 / 142
Exemple (suite)
dL(x , θ)
L0 (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .
dθ
En posant L0 (x , θ) = 0 on obtient
nx n(1 − x)
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ
nx n(1 − x)
− = 0,
θ 1−θ
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 21 / 142
Tests d'hypothèses
Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux
élaborer une règle de décision permettant de faire un choix entre les deux
hypothèses statistiques H0 et H1 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 22 / 142
introduction
complémentaires.
Dénition
Les hypothèses H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux
Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 23 / 142
Caractéristiques des tests d'hypothèses
On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses :
le test de bilatéral .
du test, est vraie peu importe la taille de l'échantillon, le test peut être
pour le test est vraie seulement lorsque la taille de l'échantillon est grande,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 24 / 142
Caractéristiques des tests d'hypothèses
observations.
paramétriques sont moins puissants que les tests paramétriques. Pour cette
petits échantillons, ce sont les tests non paramétriques qui sont préférés.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 25 / 142
Types de tests d'hypothèses
Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 26 / 142
Types de tests d'hypothèses
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 27 / 142
Types de tests d'hypothèses
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 28 / 142
Types de tests d'hypothèses
formulées ainsi :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 29 / 142
Types de tests d'hypothèses
tester la présence d'un lien entre deux variables. Rappelons que le terme
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 30 / 142
introduction
Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de
erreur de type 2.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 31 / 142
introduction
H0 vraie H0 fausse
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 32 / 142
introduction
Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées
deuxième espèce.
La décision idéale est celle où ces deux risques seraient nuls, i.e.
Si (x1 , . . . , xn ) ∈
/R alors on décide de rejeter H1 et d'accepter H0 .
fonction test.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 34 / 142
Puissance de test
Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est
la même que celle utilisée pour l'intervalle de conance. En général pour les
lois discrètes il est dicile de trouver les valeurs critiques sur les tables des
lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 36 / 142
Tests asymptotiques usuels
paramètre :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 37 / 142
Test du rapport de vraisemblance
supθ∈Θ0 L(θ|x)
Λ= supθ∈Θ L(θ|x)
L(θb0 |x)
Λ=
L(θ|x)
b
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 38 / 142
Test du rapport de vraisemblance
suivante :
asympt
LR −−−−→ χ2d
Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui
personnes ont répondu oui à cette question, et 636 personnes ont répondu
non.
Nous avons s, une observation de la variable aléatoire S, qui suit une loi
0 |S)
LR = −2 ln( L(π
π |S) )
L(b
où π
b est l'estimateur du maximum de vraisemblance de π. Ainsi :
C s π s (1−π )n−s
LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π 0
π ))
−b
n
son fonctionnement.
0.5
lr = −2(587 ln( 048 ) + (1223 − 587) ln( 11−−00..48
5
) = 1.9637
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 42 / 142
Test de Wald
H 0 : θ = θ0 contre H1 : θ 6= θ0
b 0 )2
(θ−θ
var (θ)
b
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 43 / 142
Test de Wald
de test est
θ−θ
b 0
Se(θ)
b
où Se(θ)
b est l'écart-type de l'estimateur du maximum de vraisemblance.
√ 1
Un estimateur raisonnable de cet écart-type est donné par , où In
In (MLE )
est l'information de Fisher du paramètre.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 44 / 142
Exemple (Suite) : opinion sur l'avortement.
b−π0 asympt
Zw = qπ −−−−→ N(0; 1)
b(1−π
π b)
n
zw = q 0.48−0.5 = −1.459625.
0.48(1−0.48)
1223
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 45 / 142
Exemple (Suite) : opinion sur l'avortement.
rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question
de l'avortement.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 46 / 142
Test score
Les tests score (en anglais score tests), aussi appelés tests du
S(θ0 ) asympt
√ −−−−→ N(0, 1)
I (θ0 )
∂
où S(θ) = ∂θ ln L(θ|x) est la fonction score calculée au point θ = θ0 et
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 47 / 142
Exemple (Suite) : opinion sur l'avortement.
on a
∂
S(π) = ln L(π|x)
∂π
∂
= (ln(Cns ) + ln(π s ) + ln((1 − π)n−s )
∂π
(2)
s n−s
= −
π 1−π
s − nπ n(bπ − π)
= = b = ns
avec π
π(1 − π) π(1 − π)
Donc
b−π0 )
n(π
S(π0 ) asympt
√ = √π0 (1−π0 ) −−−−→ N(0, 1)
I (π0 ) π0 (1−π0 )
n
ou encore
zw = q0.48−0.5 = −1.401144.
0.5(1−0.5)
1223
Les seuils observés dièrent un peu entre les tests score et de Wald,
le test score. Les seuils observés pour les 2 tests bilatéraux sont
pratiquement égaux.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 50 / 142
Chap 2 :Tables de contingence.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 51 / 142
À quoi servent ces outils statistiques ?
Les outils statistiques présentés dans ce cours permettent de répondre à une
Quel est le lien entre la couleur des cheveux et la couleur des yeux ?
Est-ce que le sexe d'une personne a une inuence sur son risque de
la caractéristique A et Y la caractéristique B.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 52 / 142
Tableau de fréquences univariées et loi multinomiale
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 53 / 142
La loi multinomiale
Valeur de Y m1
Y ...
Y
mj ...
Y
mr
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 54 / 142
La loi multinomiale
Une réalisation des variables aléatoires (N1 , . . . , Nr ) sera dans cette section
notée (n1 , . . . , nr ).
Pour chaque expérience, πj représente la probabilité d'obtenir le résultat
N1 + . . . + Nr = n et π1 + . . . + πr = 1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 55 / 142
La loi multinomiale
indépendantes. On note
N ∼ Multinomiale(n; π1 , . . . , πr ).
De façon marginale, on a
Nj ∼ Bin(n, πj )
avec le vecteur N = (N1 , N2 ) étant donné que la valeur d'une variable peut
n! n1
P(N1 = n1 , . . . , Nr = nr ) = n1 !,...,nr ! π1 . . . πrnr
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 57 / 142
La loi multinomiale
n2 n!
Cnn1 Cn−n1
. . . Cnnrr = n1 !n2 !...nr !
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 58 / 142
La loi multinomiale
Cas particulier:
r = 2, où n = n1 + n2 et π1 + π2 = 1
n!
P(N1 = n1 , N2 = n2 ) = π n1 π n2
n1 !n2 ! 1 2
n!
= π n1 (1 − π1 )n−n1
n1 !(n − n1 )! 1
N1 ∼ Bin(n1 ; π1 ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 59 / 142
La loi multinomiale
Ni 48 35 122 95
N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ).
n! n1 n2 n3 s4
P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) = n1 !n2 !n3 !n4 ! π1 π2 π3 π4
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 60 / 142
Regroupement
Ei
∗ clairs Foncés
Nj
∗ 83 217
∗
(N1 , N2 )
∗ ∼ M(300; π1∗ , π2∗ )
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 61 / 142
Regroupement
Cas général :
Soient E1 , . . . , E r et E1∗ , . . . , Es∗ deux systèmes complets de catégories.
Nj∗ = i∈Ij Ni
P
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 62 / 142
Relation de la loi multinomiale avec la loi de poisson
Thèorème :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 63 / 142
(mi )ni exp(−ni )
Démonstration : P(Ni = ni ) =
Pr
ni ! avec N= i=1 Ni ,
Pr
N ∼ P(m) et m= i=1 mi
Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 65 / 142
Test de rapport de vraisemblance sur la valeur de π
n! n1
L(π|N) = n1 !...nr ! π1 . . . πrnr
Pr
ln(L(π|N)) = ln( n1n!
...nr ) + j=1 nj ln(πj )
Dans le contexte d'un test sur les paramètres d'une loi multinomiale,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 67 / 142
Démonstration : On peut justier ce résultat de façon simple en considérant
qu'une loi binomiale peut être approximée par une loi Poisson sous certaines
multinomiale.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 68 / 142
Exemple :
Lessard présentant les résultats d'un sondage sur les intentions de vote des
Tester si les votes sont vraiment répartis uniformément entre les partis
politiques :
non-rejet de H0 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 70 / 142
Exemple (Suite)
suivante :
(264−(733/3)) 238−(733/3)
Uobs = 2 × 733/3 + 733/3 = 1.765
Les deux tests nous mènent donc à la conclusion que les votes sont
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 71 / 142
Chap 3 : Tableaux de fréquences à deux variables
Pour étudier le lien entre deux variables, il est bon de procéder en suivant
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 72 / 142
Dénitions et outils descriptifs
Le contexte traité dans ce chapitre est celui où l'on étudie deux variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 73 / 142
Exemple d'emplacement de variables
Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 74 / 142
Fréquences croisées
la valeur de Y est mYj simultanément. Les nij sont ce que l'on appelle les
PI PJ
fréquences croisées. On a toujours la relation suivante : n= i=1 j=1 nij
fréquences marginales.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 75 / 142
Fréquences conditionnelles
Les fréquences des modalités d'une variable en xant l'autre variable à une
rapport au fait d'être une femme sont (n11 = 279; n12 = 73; n13 = 225),
soit la première ligne du tableau de fréquences croisées.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 76 / 142
Fréquences relatives
Les fréquences relatives croisées sont dénies par fij = nij /n pour
horizontale.
dénies par fi|j = nij /n.j pour une valeur de j xe. De façon similaire,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 77 / 142
Exemple de fréquences relatives :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 78 / 142
Exemple de fréquences relatives :
suivantes :
La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes
divisant les fréquences croisées par les fréquences dans la marge verticale.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 80 / 142
Probabilités d'intérêt
Probabilités conjointes :
Probabilités marginaless :
Probabilités conditionnelles :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 81 / 142
Estimation des probabilités d'intérêt
nij
π
bij = n
Probabilités marginales :
ni. n.j
π
bi. = n ; π
b.j = n
Probabilités conditionnelles :
nij nij
π
bi|j = n. j ; π
bj|i = ni .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 82 / 142
Tests d'association entre deux variables nominales
associées.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 83 / 142
Test d'indépendance et test d'homogénéité
pas xés d'avance. Seul le total n est xé ici. On veut tester si X et Y sont
indépendantes.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 84 / 142
Exemple
Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 85 / 142
Exemple
les variables.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 86 / 142
Test d'indépendance et test d'homogénéité
sous-population, c'est-à-dire que les totaux des rangées (les ni.) sont xes.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 87 / 142
Exemple
prennent pas. Pendant l'étude, tous les médecins devaient prendre une
pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On
a observé si les participants ont été victimes ou non d'un infarctus pendant
l'étude.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 88 / 142
Exemple
variable explicative X.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 89 / 142
Dénition des concepts d'indépendance et d'homogénéité
indépendance ⇒ homogénéité :
PI
P(Y = mjY ) = i=1 P(Y = mjY |X = miX )P(X = miX )
Remarque :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 93 / 142
Formulation des hypothèses des tests
Test d'indépendance :
H0 : X et Y sont indépendants ou
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 94 / 142
Formulation des hypothèses des tests
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 95 / 142
Construction des statistiques de test
Pour eectuer ces tests, nous allons utiliser les statistiques LR et U. Ici, on
espérées sous l'hypothèse nulle H0 doivent être estimées et sont notées ebij .
PI PJ (nij −b eij )2
U= i=1 j=1 ebij
PI PJ n
LR = 2 i=1 j=1 nij ln( ebijij )
Rappelons que le nbre de ddl de cette khi-deux, notés d, sont dénis par :
Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les
paramètres est égale IJ − 1. Les paramètres libres sous H0 sont les πi. et les
d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1)
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 97 / 142
Construction des statistiques de test
vaille 1. Sous H0 , tous les vecteurs (π1|i , . . . , πJ|i ) sont égaux aux
Test d'indépendance :
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 99 / 142
Construction des statistiques de test
n.j ni n.j
ebij = ni π
b.j = ni ( n ) = n
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 100 / 142
Construction des statistiques de test
On notera les statistiques de test, peu importe que l'on mène un test
PI PJ n
LR = 2 i=1 j=1 nij ln( ni. n.jij /n )
χ2(I −1)(J−1) . Ainsi, au seuil α , H0 est rejetée si les valeurs observées de ces
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 101 / 142
Remarques :
mathématiquement équivalents.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 102 / 142
Exemple de test d'association
nombre de frères et soeurs (R) qu'il y a dans la famille. Peut-on dire que R
et S sont indépendantes ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 103 / 142
Cas particulier des tableaux 2 × 2
car (I − 1) × (J − 1) = 1 × 1 = 1.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 104 / 142
Exemple de test d'association pour un tableau 2 × 2 :
−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris
quotidiennement de l'aspirine et ceux qui n'en ont pas pris ?
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 105 / 142
Exemple de test d'association pour un tableau 2 × 2 :
22071(239×10898−10795×139)2
Uobs = 11034×11037×378×21693 = 26.9437.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 106 / 142
Test de comparaison de deux proportions
H0 : π1|i=1 = π1|i=2 .
Avec π
b1 = n11 /n1 et π
b2 = n21 /n2 .
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 107 / 142
Test de Wald de comparaison de deux proportions
b1 −b
π π2 asympt
Zw = r −−−−→ N(0, 1)
b1 (1−π
π b (1−π
b1 ) π b )
n1
+ 2 n 2
2
où π
bi = ni 1 /ni pour i = 1, 2.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 108 / 142
Exemple de test de Wald
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 109 / 142
Exemple de test de Wald
0.02166−0.01259
Zw = q
0.02166(1−0.02166) 0.01259(1−0.01259)
= 5.193717.
11304
+ 11307
Cette valeur est beaucoup plus grande que la valeur critique du test :
z0.05 = 1.645. On peut donc encore conclure que l'aspirine réduit les
risques d'infarctus.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 110 / 142
Test score de comparaison de deux proportions
b1 −b
π π2 asympt
Zs = q
1 1
−−−−→ N(0, 1)
πb(1−bπ )( n + n )
1 2
n1 π
b1 +n2 π
b2 n11 +n21
où π
bi = ni 1 /ni pour i = 1, 2 et π= n1 +n2 = n1 +n2 est utilisé pour
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 111 / 142
Exemple de test score
Zs = q 0.02166−0.01259 = 5.190729
1 1
b(1−b
π π )( 11304 + 11307 )
11304×0.02166+11307×0.01259 378
car π
b= 11304+11307 = 22071 = 0.01712655.
La valeur observée de la statistique du test score zs = 5.190729 est très
proche, mais pas tout à fait égale à celle de la statistique du test de Wald
2
(zs = 5.1907292 = 26.94367 = Uobs
2 ).
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 112 / 142
Chap 4 : Tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 113 / 142
Tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 115 / 142
Exemple de tableaux de fréquences à trois variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 116 / 142
Exemple de tableaux de fréquences à trois variables
la valeur de Z.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 117 / 142
Deux critères X et Y sont indépendants ssi
1
X ⊥(Y , Z )
X ⊥Y ⊥Z ⇔
Y ⊥Z
2
X ⊥Y X ⊥Z
X ⊥(Y , Z ) ⇔ ⇔
X ⊥Z /Y X ⊥Y /Z
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 118 / 142
Test d'indépendance
eijk )2
∼ χ2ddl
PI PJ PK (nijk −b
U= i=1 j=1 k=1 ebijk
Hypothèses ebijk = nb
pijk ddl de χ2ddl
Ni.. N.j. N..k
X ⊥Y ⊥Z n2
IJK − I − J − K + 2
Ni.. N.jk
X ⊥(Y , Z ) n (I − 1)(Jk − 1)
Ni.k N.jk
(X ⊥Y )/Z N..k (I − 1)(J − 1)k
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 119 / 142
Exemple
scolaire.
Pour 2121 personnes classées selon leur taux de cholestérol (R) leur
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 121 / 142
Chap 5 : Modèles log-linéaires
pas des moyennes de variables qui sont prises en compte, mais des eectifs.
de signication, et la modélisation.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 122 / 142
Modèles log-linéaires
d'association.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 123 / 142
Modèles à 2 variables
xé.
La loi conjointe des eectifs nij de chaque cellule est une loi multinomiale
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 124 / 142
Modèles à 2 variables
eets :
µ, l'eet global ;
αi , l'eet dû à la variable X,
βj , l'eet dû à la variable Y,
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 125 / 142
Modèles à 2 variables
π
eij = nπij = nπi. π.j πi. πij .j
π
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 126 / 142
Modèles à 2 variables
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 127 / 142
Exemple
ln(e11 ) 1 1 1 0
ln(e12 ) 1 1 0 1 µ
ln(e13 ) 1 1 −1 −1 α1
=
1 −1 1
ln(e21 ) 0 β1
ln(e22 ) 1 −1 0 1 β2
ln(e23 ) 1 −1 −1 −1
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 128 / 142
Le modèle saturé pour une table I × J
Ce modèle s'écrit :
ln(eij ) = µ + αi + βj + (αβ)ij
PI PJ
i=1 αβij = j=1 αβij =0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 129 / 142
Exemple
ln(e11 ) 1 1 1 0 1 0 µ
ln(e12 ) 1 1 0 1 0 1 α1
ln(e13 ) 1 1 −1 −1 −1 −1 β1
=
1 −1 1 −
ln(e21 ) 0 1 0 β2
ln(e22 ) 1 −1 0 1 0 −1 (αβ)11
ln(e23 ) 1 −1 −1 −1 1 1 (αβ)12
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 130 / 142
Modèle à 2 critères non indépendants et tests d'ajustement
ln(eij ) = µ + αi + βj + (αβ)ij
PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0
H0 : X ⊥Y
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 131 / 142
Condition d'indépendance
Proposition :
ln(eij ) = µ + αi + βj + (αβ)ij
PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 132 / 142
Modèle à 2 critères non indépendants et tests d'ajustement
ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1)
avec
n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P
(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P
Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle
ln(eij ) = µ + αi + βj
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 133 / 142
Modèle à trois variables
ln(eijk ) = µ + αi + βj + γk + (βγ)jk
ln(eijk ) = µ + αi + βj + γk
modèle saturé.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 136 / 142
Modèles hiérarchiques
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 137 / 142
Modèles hiérarchiques
ln(eij ) = µ + αi + βj + (αβ)ij
ln(eij ) = µ + αi + βj
ln(eij ) = µ + αi + (αβ)ij
ln(eij ) = µ + βj + (αβ)ij
ln(eij ) = µ + (αβ)ij
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 138 / 142
Estimation des paramètres
cela, on suppose que les variables aléatoires nijk suivent une loi
multinomiale.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 139 / 142
Tests d'ajustement
n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P
(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P
Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 140 / 142
Choix du modèle
variables est élevé. La méthode dite "combinatoire" est une des méthodes
variables.
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 141 / 142
Choix du modèle
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 142 / 142