Analyse Des Donnees

Analyse des données discrètes
Fadoua BADAOUI
22 octobre 2017
Fadoua BADAOUI (INSEA) Analyse des données discrètes 22 octobre 2017 1 / 142
Overview
1 Introduction et rappel
2 Tableau de fréquences univariées et loi multinomiale
La loi multinomiale
Test d'hypothéses dans une table à une entrée
3 Tableaux de fréquences à deux variables
Tests d'association entre deux variables nominales
4 Tableaux de fréquences à trois variables
Type et test d'indépendances entre 3 variables
5 Modèles log-linéaires
Modèles à 2 variables
Modèle à trois variables

Chap 1 :Introduction et rappel
Ce cours présente des méthodes statistiques usuelles pour l'analyse de
données discrètes. Des données peuvent résulter, par exemple :
d'un sondage d'opinion pour des consommateurs (ex. : niveau de
satisfaction pour un service reçu) ;
d'une étude dans le domaine de la santé cherchant à cerner les
facteurs d'une maladie (ex. : variable réponse prenant la valeur `oui'
pour les sujets malades, `non' sinon) ;
etc.
Introduction et rappel
Plusieurs outils statistiques s'orent à nous pour analyser des données
discrètes. Ce cours visent à présenter les méthodes classiques et celles les
plus utilisées en pratique. Ce cours a pour objectif de cerner la bonne
méthode statistique à utiliser, de l'appliquer correctement en comprenant
les idées mathématiques de base derrière les méthodes et de bien
interpréter les résultats obtenus.
Les détails de certains calculs faits à la main pour de petits jeux de données
sont présentés, pour s'assurer de bien comprendre les formules. En
pratique, l'ordinateur fait pour nous tous ces calculs.
Avant d'entrer dans le vif du sujet, rappelons certaines notions de
statistiques souvent employées dans ce cours.
Données : Des données sont des valeurs numériques (des nombres)
ou alphanumériques (des chaînes de caractères) représentant les
observations de certaines variables sur certains individus.
Population : La population est l'ensemble de référence sur lequel
porte l'étude dans le cadre de laquelle les données ont été recueillies.
Individu ou unité statistique : Un individu est un élément de la
population. L'ensemble des individus constitue la population. Chaque
observation est associée à un individu.

Échantillon : L'échantillon est un sous-groupe de la population,
composé des individus pour lesquels des observations ont été
recueillies. Si des mesures ont été prises pour tous les individus de la
population, on parle de recensement.
Variable : Le terme variable désigne la représentation d'une
caractéristique des individus. Ainsi, une variable n'est pas la
caractéristique elle-même, mais plutôt une mesure de cette
caractéristique.
Observation : Une observation est l'ensemble des valeurs obtenues en
mesurant des variables sur un individu de la population.
Échantillonnage
Lorsque l'on estime des paramètres de la population à l'étude à partir des
observations d'un échantillon aléatoire de cette population, on fait de l'
inférence statistique .
Dénition
Une variable discrète ne peut prendre qu'un nombre ni de valeurs, ou bien
une innité de valeurs si ces valeurs peuvent s'écrire sous la forme d'une
suite a1 , a2 , a3 , . . ..
Ainsi une variable dont les valeurs sont 0, 1/5, 2/5, 3/5, 4/5, 1 est discrète ;
il en est de même d'une variable pouvant prendre comme valeurs tous les
entiers non négatifs 0, 1, 2, 3, . . ..
Le résultat du lancer d'un dé est une variable discrète (valeurs
1, 2, 3, 4, 5, 6).
Le nombre de personnes frappées par la méningite dans une grande
ville sur une période d'une année (valeurs 0, 1, 2, 3, . . .).
Remarque
Les données numériques ne sont pas forcément des observations d'une
variable numérique. C'est le cas par exemple du niveau de satisfaction
représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie
très insatisfait , insatisfait est représenté par le chire 2 et ainsi de
suite.
Il n'est pas rare que des codes numériques soient utilisés pour représenter
des modalités catégoriques de variables, car ils sont plus rapides à écrire ou
taper que des chaînes de caractère.
Expérience avec la loi Poisson
La loi de Poisson permet de modéliser le nombre de réalisations d'un
événement dans un intervalle de temps et/ou d'espace. Par exemple, la loi
Poisson serait une bonne candidate pour modéliser les dénombrements
suivants :
le nombre de clients se présentant à un guichet automatique d'une
banque en une heure ;
le nombre d'accidents par années à une intersection de la ville de
Québec ;
le nombre de centenaires dans une communauté.
On appelle parfois la loi Poisson loi des évènements rares .
Expérience avec la loi Poisson
La fonction de masse, aussi appelée fonction de probabilité, d'une variable
aléatoire Poisson, notée Y ∼ Poisson(λ), est
λy exp −λ
P(Y = y ) = y! y = 0, 1, 2, . . .
Le paramètre de la distribution est à la fois l'espérance et la variance de Y :
E [Y ] = Var [Y ] = λ.
Aussi, il est pertinent de noter que la distribution Poisson peut être
approximée par la loi normale lorsque λ est grand. Dans ce cas,
Poisson(λ) ∼ N(λ; λ).
Expérience avec la loi Binomiale
Le contexte de la loi binomiale est le suivant :
On fait une expérience qui peut prendre 2 résultats possibles : succès ou
échec.
On répète cette expérience de façon indépendante n fois, et on note S le
nombre de succès obtenus.
Notez que chaque expérience a la même probabilité de succès π.

On dit alors que S suit une loi binomiale de paramètres n (nombre total
d'essais) et π (probabilité d'un succès).
On note S ∼ Bin(n, π).
En résumé, les conditions pour qu'il y ait une expérience binomiale sont les
suivantes :
n essais ;
deux résultats possibles pour chaque essai : succès et échec ;
toujours la même probabilité de succès =π
indépendance entre chacun des n essais ;
Exemple : opinion sur l'avortement
Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ?
Pour répondre à cette question, on observe un échantillon de 1223
Américains interrogés en 2010 dans le cadre de l'Enquête Sociale Générale
aux États-Unis. On a posé la question suivante aux participants :
Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui
ne veut plus d'enfants de se faire avorter légalement ? Au total, 587
personnes ont répondu oui à cette question, et 636 personnes ont répondu
non.
Exemple : opinion sur l'avortement ... suite
Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées :
n = 1223 essais "individus sondés" ;
2 résultats possibles pour chaque essai : succès = oui, échec = non ;
la probabilité de succès π est ici la proportion dans la population des
Américains favorables à l'avortement ;
on peut supposer qu'il y a indépendance entre chacun des essais
puisque les individus participants à l'étude ont été sélectionnés avec un
plan de sondage se rapprochant beaucoup de l'échantillonnage
aléatoire simple.
La fonction de masse de la loi binomiale s'écrit de la façon suivante :


Cns π s (1 − π)n−s ,

pour s = 1, 2, . . . , n;
P(S = s) =

0, sinon .
L'espérance et la variance de S sont :
E [S] = nπ
Var [S] = nπ(1 − π) :
Remarque: observer une seule variable Bin(n; π) revient à observer n

variables 11 ; . . . ; 1n iid Bin(1; π), soit la loi Bernoulli(π). On a alors
Pn
S= u=1 1u , une somme de n variables iid Bin(1; π).
Notez aussi que si n → +∞(n > 30), π → 0 (p ≤ 0, 1) tels que
np(1 − p) ≤ 10, alors la loi Bin(n; π) tend vers la loi Poisson (nπ = λ).
En d'autres mots,
λs exp −λ
lim P(S = s) = s!
n → +∞, π → 0
Notez que l'on peut approximer la loi binomiale par la loi normale lorsque n
est grand en utilisant le résultat du Théorème Limite Central.
Dans la pratique, lorsque n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5, l'erreur sur les
probabilités calculées est très faible.
asympt
S −−−−→ N(nπ; nπ(1 − π))
Méthode du maximum de vraisemblance
Etant donné un échantillon issu d'une loi dont la pdf est f (x, θ), on appelle
fonction de vraisemblance la quantité
Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).
An de bien comprendre la motivation derrière la MMV, considérons un
échantillon X1 , . . . , Xn issu d'une loi de probabilité discrète de fdf
f (x; θ) = Pθ {X1 = x} où θ est un paramètre inconnu. L'idée qui est à
l'origine de cette méthode est la suivante :
Si l'on observe (x1 , . . . , xn ) c'est que la Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )}

doit être assez grande. On prend alors comme estimateur de θ celui qui
maximise cette probabilité.

Méthode du maximum de vraisemblance
Exemple
Soit θ ∈]0, 1[ la probabilité de succès d'une expérience à deux issues
possibles. On répète cette expérience n fois de manière à obtenir un
échantillon x1 , . . . , xn . On a f (x; θ) = P{X1 = x} = θx (1 − θ)1−x , avec
x =0 ou 1. L'estimateur θb de θ par la MMV est obtenu en maximisant, par
rapport à θ, la quantité
n
θxi (1 − θ)1−xi
Y
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =
i=1 (1)
= θnx (1 − θ)n(1−x)
où x = (x1 , . . . , xn ).
Exemple (suite)
En dérivant L(x , θ) par rapport à θ on obtient
dL(x , θ)
L0 (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .
dθ
En posant L0 (x , θ) = 0 on obtient
nx n(1 − x)
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ
et puisque 0 < θ < 1, on en déduit
nx n(1 − x)
− = 0,
θ 1−θ
ce qui donne θ = x. L'estimateur de θ par la MMV est alors θb = X .
Tests d'hypothèses
Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux
sous-ensembles disjoints de Θ tels que Θ0 ∪ Θ1 = Θ. Les assertions
H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 sont appelées respectivement l'hypothèse
nulle et l'hypothèse alternative.
Un test d'hypothèse ou test statistique est une démarche conduisant à
élaborer une règle de décision permettant de faire un choix entre les deux
hypothèses statistiques H0 et H1 .
introduction
La situation générale est celle où l'échantillon est issu d'une population
dont la loi dépend d'un paramètre θ ∈ Θ ⊂ Rd , d ∈ N, et on cherche à
conclure que θ ∈ Θ0 ou θ ∈ Θ1 , où Θ0 ⊂ Θ et Θ1 ⊂ Θ sont
complémentaires.
Dénition
Les hypothèses H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux
sous-ensembles complémentaires de Θ, s'appellent respectivement
l'hypothèses nulle et l'hypothèses alternative.
Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse
simple, sinon Hi est une hypothèse composite (pour i = 0, 1).
Caractéristiques des tests d'hypothèses
On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses :
bilatéral ou unilatéral : Si l'hypothèse alternative H1 comporte une
direction particulière, le test est dit unilatéral. Si au contraire
l'hypothèse alternative est le complément de l'hypothèse nulle, on qualie
le test de bilatéral .
exact ou asymptotique : Si la distribution sous H0 de W, la statistique
du test, est vraie peu importe la taille de l'échantillon, le test peut être
qualié d' exact . À l'inverse, si la distribution sous H0 de W utilisée
pour le test est vraie seulement lorsque la taille de l'échantillon est grande,
on parlera d'un test asymptotique .
Caractéristiques des tests d'hypothèses
paramétrique ou non paramétrique : Un test est paramétrique si la
distribution de la statistique de test repose sur un postulat quant à la
distribution des observations. Sinon, il est non paramétrique . Dans ce
cas, on doit typiquement seulement postuler l'indépendance des
observations.
Un test non paramétrique nécessite moins de postulats qu'un test
paramétrique, ce qui représente un avantage. Cependant, les tests non
paramétriques sont moins puissants que les tests paramétriques. Pour cette
raison, les tests paramétriques sont souvent préférés. Cependant, pour de
petits échantillons, ce sont les tests non paramétriques qui sont préférés.
Types de tests d'hypothèses
Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en
fonction de l'objectif des tests.
Les tests de conformité
Les tests d'adéquation ou d'ajustement
Les tests d'homogénéité
Les tests d'association.
Les tests de conformité consistent à tester si un paramètre ou un vecteur
de paramètres θ est égal à un vecteur de valeurs préétablies θ0 . Par
exemple, si un seul paramètre θ est testé, les hypothèses d'un test de
conformité sont formulées comme suit :
Si θ est de dimension supérieure à 1, il est compliqué de formuler une
hypothèse alternative incluant une direction. Dans ce cas, les tests
bilatéraux sont plus simples.
Les tests d'adéquation ou d'ajustement (en anglais goodness of t tests)
permettent de tester si des observations s'ajustent bien à un certain modèle
ou à une certaine distribution. Par exemple, le test F global en régression et
en ANOVA teste l'ajustement du modèle, le test de Shapiro-Wilk teste
l'adéquation d'observations à une loi normale. Les hypothèses d'un test
d'adéquation sont typiquement formulées comme suit :
H0 : le modèle s'ajuste bien aux données
H1 : le modèle ne s'ajuste pas bien aux données
Ainsi formulé, il s'agit d'un test bilatéral.
Les tests d'homogénéité (ou de comparaison) visent à vérier si 2
échantillons ou plus proviennent d'une même population. Les tests de
comparaison de moyennes en sont des exemples. Si un seul paramètre est
comparé et qu'on a seulement deux échantillons, les hypothèses sont
formulées ainsi :
Les tests d'association, en particulier les tests d'indépendance, servent à
tester la présence d'un lien entre deux variables. Rappelons que le terme
association est plus large que le terme dépendance.
Un test d'association courant consiste à vérier si un coecient de
corrélation ou encore un ou des paramètres d'un modèle sont nuls. Si on
note ρ la corrélation entre X et Y , les hypothèses du test peuvent être
formulées de façon équivalente comme suit :
introduction
Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de
rejeter H0 alors qu'elle est vraie. La décision de ne pas rejeter H0

alors qu'elle est fausse s'appelle l'appelle erreur de deuxième espèce ou
erreur de type 2.
introduction
Le tableau ci-dessous résume la situation
H0 vraie H0 fausse
Rejeter H0 Mauvaise décision Bonne décision
Accepter H0 Bonne décision Mauvaise décision
introduction
Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées
• α = P{Rejeter H0 |H0 est vraie} > 0, et
• β = P{Ne pas rejeter H0 |H0 est fausse} > 0.
Elles s'appellent respectivement risque de première espèce et risque de
deuxième espèce.
La décision idéale est celle où ces deux risques seraient nuls, i.e.
α = β = 0. Mais cela est, sauf dans des situations triviales, impossible.
Comme il est impossible de contrôler en même temps α et β, on xe α et
on cherche la décision pour laquelle β est minimum.

Dénition
Un test d'hypothèses est une procédure, basée sur l'échantillon observé
x1 , . . . , xn , qui permet de déterminer un sous ensemble R de Rn tel que
Si (x1 , . . . , xn ) ∈ R alors on décide de rejeter H0 et d'accepter H1 , et
Si (x1 , . . . , xn ) ∈
/R alors on décide de rejeter H1 et d'accepter H0 .
L'ensemble R est appelé région critique ou région de rejet .
La fonction φ(x) = IR (x), dénie à partir de la région critique d'un test,
s'appelle la fonction test. Par abus de langage on notera par φ le test et sa
fonction test.
Puissance de test
Il est usuel de noter :
Le risque de première espèce la valeur α (la probabilité de rejeter H0

alors qu'elle est vraie) telle que : P(X ∈ R|H0 )
Le risque de deuxième espèce la valeur β (la probabilité d'accepter H0

alors que H1 est vraie) telle que : P(X ∈ R|H1 )
Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est
eectivement fausse soit, dans les notations précédentes : P(X ∈ R|H1 ) .
La puissance, qui est la capacité à détecter qu'une hypothèse nulle est
fausse, n'est rien d'autre que 1 − β.

Tests d'hypothèses
Remarque : La statistique du test α = P{Rejeter H0 |H0 est vraie} >0 est
la même que celle utilisée pour l'intervalle de conance. En général pour les
lois discrètes il est dicile de trouver les valeurs critiques sur les tables des
lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la
taille de l'échantillon est assez grande.
Tests asymptotiques usuels
Soit θ un paramètre scalaire. On cherche à mener le test suivant sur ce
paramètre :
Nous utilisons fréquemment dans ce cours trois types de test asymptotiques
usuels. Il s'agit des tests de Wald, score et du rapport de vraisemblance.
Test du rapport de vraisemblance
Pour le test du rapport de vraisemblance, nous allons nous ramener à un
cas plus général où θ est un vecteur de paramètres. On cherche à tester :
H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0 avec (Θc0 = Θ Θ0 )
Notez que ce test possède uniquement une forme bilatérale. Le rapport de
vraisemblance est déni comme suit :
supθ∈Θ0 L(θ|x)
Λ= supθ∈Θ L(θ|x)
Si θb, le MV de θ existe, et que θb0 représente le MV sous l'espace Θ0 , alors
le rapport de vraisemblance peut s'écrire plus simplement :
L(θb0 |x)
Λ=
L(θ|x)
b
Test du rapport de vraisemblance
Pour eectuer un test de rapport de vraisemblance, on utilise la statistique
suivante :
LR = −2 ln(Λ) = −2 ln( L(θb0 |x) )

b
L(θ|x)
Sous H0 , lorsque n → ∞, cette statistique suit une loi du khi-deux à d

degrés de liberté (Casella et Berger, 2002) :
asympt
LR −−−−→ χ2d
Le nombre de degrés de liberté d est dénie par : d = dim Θ − dim Θ0 .

On rejette H0 au seuil α ssi LR > χ2d
Exemple : opinion sur l'avortement.
Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ?
Pour répondre à cette question, on observe un échantillon de 1223
Américains interrogés. On a posé la question suivante aux participants :
Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui
ne veut plus d'enfants de se faire avorter légalement ? Au total, 587
personnes ont répondu oui à cette question, et 636 personnes ont répondu
non.
Pour déterminer si les Américains manifestent majoritairement une pré-
férence pour ou contre l'avortement, nous pouvons tester H0 : π = 0.5

contre H1 : π 6= 0.5.
Nous avons s, une observation de la variable aléatoire S, qui suit une loi
Bin(n, π). La vraisemblance du paramètre π est :
L(π|s) = Cns π s (1 − π)n−s
La statistique du test de rapport de vraisemblance est :
0 |S)
LR = −2 ln( L(π
π |S) )
L(b
où π
b est l'estimateur du maximum de vraisemblance de π. Ainsi :
C s π s (1−π )n−s
LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π 0
π ))
−b
n
Sous H0 , lorsque n → ∞, cette statistique suit une loi du khi-deux à 1

asympt
degré de liberté : LR −−−−→ χ21
La valeur observée de S est ici s = 587. La proportion d'Américains
favorables à l'avortement π est donc estimée par π

b = 587/1223 = 0.48.
Eectuons maintenant le test du maximum de vraisemblance pour illustrer
son fonctionnement.
La valeur observée de la statistique de test est
0.5
lr = −2(587 ln( 048 ) + (1223 − 587) ln( 11−−00..48
5
) = 1.9637
Le seuil observé du test (p-value) est
P(χ21 > 1.963730811) = 0.1611149
Test de Wald
H 0 : θ = θ0 contre H1 : θ 6= θ0
Le test de Wald compare l'écart entre le coecient théorique θ0 et sa
valeur estimée par l'estimateur du maximum de vraisemblance θb, sous
l'hypothèse que la diérence est distribuée approximativement selon une loi
de Gauss. En pratique le carré de la diérence est comparé à un seuil de la
loi du chi2. Dans le cas univarié, la statistique de Wald est
b 0 )2
(θ−θ
var (θ)
b
Test de Wald
Si on compare la diérence à un quantile de la loi de Gauss, la statistique
de test est
θ−θ
b 0
Se(θ)
b
où Se(θ)
b est l'écart-type de l'estimateur du maximum de vraisemblance.
√ 1
Un estimateur raisonnable de cet écart-type est donné par , où In
In (MLE )
est l'information de Fisher du paramètre.
Dans le cas univarié, un test sur plusieurs paramètres simultanément est
réalisé en utilisant une matrice de variance. Par exemple, on utilise ce test
pour une variable catégorielle recodée en plusieurs variables dichotomiques.
Exemple (Suite) : opinion sur l'avortement.
Test de Wald sur une proportion

Le test de Wald se base sur la statistique suivante :
b−π0 asympt
Zw = qπ −−−−→ N(0; 1)
b(1−π
π b)
n
On voit que la variance de l'estimateur est estimée dans Zw .

La valeur observée de la statistique du test de Wald est :
zw = q 0.48−0.5 = −1.459625.
0.48(1−0.48)
1223
On a (1.459625)2 < χ21,0.05 = 3.84.
Le seuil observé du test bilatéral est le suivant :
2P(N(0, 1) > | − 1.459625|) = 0.1443932.
Ce seuil observé étant supérieur au seuil théorique de 5%, on ne peut pas
rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question
de l'avortement.
Test score
Les tests score (en anglais score tests), aussi appelés tests du
multiplicateur de Lagrange , sont dus au statisticien C.R. Rao. Ils se
basent sur la statistique de test suivante :
S(θ0 ) asympt
√ −−−−→ N(0, 1)
I (θ0 )
∂
où S(θ) = ∂θ ln L(θ|x) est la fonction score calculée au point θ = θ0 et
I (θ0 ) est la matrice d'information espérée (ici de dimension 1 × 1) calculée
au point θ = θ0 . Ce test comporte moins d'approximation que le test de
Wald puisque l'erreur-type se trouvant au dénominateur n'est pas estimée.
on a
∂
S(π) = ln L(π|x)
∂π
∂
= (ln(Cns ) + ln(π s ) + ln((1 − π)n−s )
∂π
(2)
s n−s
= −
π 1−π
s − nπ n(bπ − π)
= = b = ns
avec π
π(1 − π) π(1 − π)
Donc
b−π0 )
n(π
S(π0 ) asympt
√ = √π0 (1−π0 ) −−−−→ N(0, 1)
I (π0 ) π0 (1−π0 )
n
ou encore
(S(π0 ))2 π −π0 )2 asympt

I (π0 ) = n(b
π0 (1−π0 ) −−−−→ χ21
La valeur observée de la statistique de test pour le test score est :
zw = q0.48−0.5 = −1.401144.
0.5(1−0.5)
1223
Le seuil observé du test bilatéral est le suivant :
2P(N(0, 1) > | − 1.459625|) = 0.1443932.
Le seuil observé du test unilatéral est le suivant :
P(N(0; 1) < −1.401144) = 0.08058547 > 5%
On ne peut donc pas conclure que les Américains sont, en 2010,
majoritairement contre l'avortement. On voit ici que le test unilatéral est
plus puissant que le test bilatéral.

Remarques :
Les seuils observés dièrent un peu entre les tests score et de Wald,
mais l'inférence statistique est la même.
Le test du rapport de vraisemblance aboutit à la même conclusion que
le test score. Les seuils observés pour les 2 tests bilatéraux sont
pratiquement égaux.
Chap 2 :Tables de contingence.
Pour représenter les observations d'une variable catégorique, le principal
outil est un tableau de fréquences, aussi appelé tableau de contingence. Ce
tableau peut présenter une seule variable ou en croiser plusieurs. Ce cours
présente plusieurs tests et mesures associés à des tableaux de fréquences à
une, deux ou trois variables.
À quoi servent ces outils statistiques ?
Les outils statistiques présentés dans ce cours permettent de répondre à une
question de recherche du type : Quel est le lien entre les caractéristiques A
et B des individus de la population à l'étude ? Par exemple :
Quel est le lien entre la couleur des cheveux et la couleur des yeux ?
Est-ce que le niveau de scolarité est associé à la classe de revenu d'un
individu ? Si oui, cette association est-elle positive ou négative ?
Est-ce que le sexe d'une personne a une inuence sur son risque de
développer un cancer du poumon ? Si oui, de quelle façon ?
En termes statistiques, la question de recherche se traduit comme ceci :
Quel est le lien entre les variables X et Y ? en supposant que X représente
la caractéristique A et Y la caractéristique B.
Tableau de fréquences univariées et loi multinomiale
Avant de présenter des méthodes qui permettent d'étudier le lien entre
deux variables, voyons comment étudier une seule variable catégorique.
Dans cette section, nous présenterons des outils permettant de répondre à
la question de recherche suivante : Quel est le portrait de la caractéristique
A dans la population à l'étude ? La reformulation statistique de cette
question est la suivante : De quoi ont l'air les observations de la variable
Y ? en supposant que la variable Y représente la caractéristique A.
La loi multinomiale
Le contexte de la loi multinomiale est le suivant. On fait une expérience qui
peut prendre r résultats possibles (m1Y , . . . , mrY ). On répète cette
expérience de façon indépendante n fois, et on note Nj le nombre de
résultats mjY obtenus (j = 1, . . . , r ). En fait, on pourrait noter Y1 à Yn

l'échantillon découlant de ces n expériences (souvent n individus sondés).
Valeur de Y m1
Y ...
Y
mj ...
Y
mr
Fréquence N1 ... Nj ... Nr
On vient ainsi de créer un tableau de fréquences à une variable. Les
fréquences sont ici représentées par des Nj .
La loi multinomiale
Une réalisation des variables aléatoires (N1 , . . . , Nr ) sera dans cette section
notée (n1 , . . . , nr ).
Pour chaque expérience, πj représente la probabilité d'obtenir le résultat
mjY : πj = P(Y = mjY ). Ce contexte est similaire à celui pour une
distribution binomiale, à la diérence que le nombre d'issues possibles à
l'expérience peut être supérieur à 2. On dit que le vecteur
N = (N1 , . . . , Nr ) suit une loi multinomiale de paramètres n (nombre total
d'essais) et (π1 , . . . , πr ) (probabilités des résultats de chacun des types).
On a bien sûr les 2 contraintes suivantes :
N1 + . . . + Nr = n et π1 + . . . + πr = 1
La loi multinomiale
En raison de la première contrainte, les Nj ne sont pas des variables
indépendantes. On note
N ∼ Multinomiale(n; π1 , . . . , πr ).
De façon marginale, on a
Nj ∼ Bin(n, πj )
pour j = 1, . . . , r . Notez que lorsque r = 2, il devient inutile de travailler
avec le vecteur N = (N1 , N2 ) étant donné que la valeur d'une variable peut
être déduite de l'autre variable (N1 = n − N2 ). On dénit plutôt une des
deux modalités comme étant un succès (disons la modalité 1) et on
travaille avec N1 ∼ Bin(n; π1 ).

La loi multinomiale
La fonction de masse de la loi multinomiale s'écrit de la façon suivante :
n! n1
P(N1 = n1 , . . . , Nr = nr ) = n1 !,...,nr ! π1 . . . πrnr
pour (N1 , . . . , Nr ) ∈ Nr : n1 + . . . + nr = n, soit l'ensemble des nombres
naturels (entiers non négatifs) de dimension r, tel que la somme des nj

vaut n. L'espérance et la matrice de variance-covariance de N sont :
E [Nj ] = nπj pour j = 1, . . . , r

Var [Nj ] = nπj (1 − πj ) pour j = 1, . . . , r
0 0
Cov (Nj ; Nj ) = −nπj πj 0 pour j 6= j
La loi multinomiale
On veut répartir n objets dans r groupes E1 , . . . , Er , avec card(Ei ) = ni et

Pr
i=1 ni = n.
Question : Quel est le nombre de répartitions possibles ?
Etape 1 : Catégorie E1 ; choix de n1 parmi n (Cnn1 )

n2
Etape 2 : Catégorie E2 ; choix de n2 parmi n − n1 (Cn−n1
)
.
.
.
Etape r : Catégorie Er ; choix de nr parmi n − n1 − n2 − . . . − nr −1 (Cnnrr )

Le nombre de répartition possibles
n2 n!
Cnn1 Cn−n1
. . . Cnnrr = n1 !n2 !...nr !
La loi multinomiale
Cas particulier:
r = 2, où n = n1 + n2 et π1 + π2 = 1
n!
P(N1 = n1 , N2 = n2 ) = π n1 π n2
n1 !n2 ! 1 2
n!
= π n1 (1 − π1 )n−n1
n1 !(n − n1 )! 1
N1 ∼ Bin(n1 ; π1 ).
La loi multinomiale
300 personnes ont été choisi au hasard. On a la répartition suivante selon
la couleur des yeux.
Ei Bleus Verts Maron Noirs
Ni 48 35 122 95
N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ).
n! n1 n2 n3 s4
P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) = n1 !n2 !n3 !n4 ! π1 π2 π3 π4
Regroupement
Exemple : reprenons l'exemple de la couleur des yeux.
E1∗ = E1 ∪ E2 (yeux clair) ; E2∗ = E3 ∪ E4 (yeux foncés)
Ei
∗ clairs Foncés
Nj
∗ 83 217
∗
(N1 , N2 )
∗ ∼ M(300; π1∗ , π2∗ )
Regroupement
Cas général :
Soient E1 , . . . , E r et E1∗ , . . . , Es∗ deux systèmes complets de catégories.
avec s ≤ r , Ej∗ = ∪i∈Ij Ei et I1 , . . . , Is est une répartition de 1, . . . , r .
On a bien sûr les 2 contraintes suivantes :
πj∗ = P(X ∈ Ij∗ ) = i∈Ij πi

P
Nj∗ = i∈Ij Ni
P
(N1∗ , . . . , Ns∗ ) ∼ M(n; π1∗ , . . . , π2∗ )
Relation de la loi multinomiale avec la loi de poisson
Thèorème :
Soient N1 , N2 , . . . , Nr , r variables aléatoires discrétes indépendantes de loi

Pr
de Poisson Ni ∼ P(mi ), N = i=1 Ni , alors la distribution de
(N1 , N2 , . . . , Nr /N = n) ∼ M(n, π1 , π2 , . . . , πr ) avec πi = Prmi

i=1 mi
(mi )ni exp(−ni )
Démonstration : P(Ni = ni ) =
Pr
ni ! avec N= i=1 Ni ,
Pr
N ∼ P(m) et m= i=1 mi
Notons A = (N1 = n1 , . . . , Nr = nr ) et B = (N = n), on a A⊂B

Calculons
P(N1 = n1 , . . . , Nr = nr , N = n)
P(N1 = n1 , . . . , Nr = nr /N = n) =
P(N = n)
P(N1 = n1 , . . . , Nr = nr )
=
P(N = n)
Qr Qr mini exp(−mi )
P(N = n ) i=1
= i=1
i i ni !
= mn exp(−m)
P(N = n)
n!
r
Y mi n!
= [ ( )ni ] Qr
m i=1 ni !
i=1
r
n! Y mi
= ( )ni ∼ M(n, π1 , . . . , πr )
n1 ! . . . nr ! m
i=1
Test d'hypothèses sur la valeur de π = (π1 , . . . , πr )
On cherche à tester ici les hypothèses suivantes.
H0 : π = π0 ou (π1 , . . . , πr ) = (π0,1 , . . . , π0,r )

H1 : π 6= π0 ou (π1 , . . . , πr ) 6= (π0,1 , . . . , π0,r )
Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses
avec un test de rapport de vraisemblance et un test qui reviendra à de
multiples reprises dans ce cours : le test du khi-deux de Pearson
Test de rapport de vraisemblance sur la valeur de π
Nous avons N = (N1 , . . . , Nr ), une observation de la variable aléatoire N,

qui suit une loi Multinomiale(n, π). La vraisemblance de paramètre π est
n! n1
L(π|N) = n1 !...nr ! π1 . . . πrnr
Le logarithme de cette valeur est :
Pr
ln(L(π|N)) = ln( n1n!
...nr ) + j=1 nj ln(πj )
La statistique du test du rapport des vraisemblances est donc :
LR = −2(ln L(π0 |N) − ln L(b π |N))

n! P r n! Pr
=-2(ln(
n1 !...nr ! ) + j=1 nj ln(π0,j ) − ln( n1 !...nr ! ) − j=1 nj ln(b
πj )
Pr π0,j asympt 2 2
=-2 j=1 nj ln( π bj ) −−−−→ χα,r −1 . On rejette H0 ssi LR > χα,r −1
Test du khi-deux de Pearson sur la valeur de π
Dans le contexte d'un test sur les paramètres d'une loi multinomiale,
Pearson a proposé d'utiliser la statistique suivante :
(Nj −nπ0,j )2 asympt

χ2r −1
Pr
U= j=1 nπ0,j −−−−→
Il a prouvé que sous l'hypothèse nulle H0 : (π1 , . . . , πr ) = (π0,1 , . . . , π0,r ),

cette statistique suit asymptotiquement une loi du khi-deux à r −1 degrés
de liberté, tout comme la statistique du test de rapport de vraisemblance.
Démonstration : On peut justier ce résultat de façon simple en considérant
qu'une loi binomiale peut être approximée par une loi Poisson sous certaines
conditions, d'où Nj ∼ P(λj ) avec λj = E [Nj ] = nπ0,j pour j = 1, . . . , r .

On sait que pour de grandes valeurs de λj , on peut supposer que
(Nj −λj ) (Nj −nπ0,j )
Zj = √ = √
nπ0,j suit une loi normale centrée réduite.
λj
Supposons pour l'instant que les r v.a. sont indépendantes. On aurait donc
la somme des Zj2 = U suit une loi asymptotique khi-deux à r degrés de
liberté. En réalité, les r v. a. ne sont pas indépendantes puisqu'elles sont

Pr
soumises à la contrainte j=1 Nj = n. On perd un degré de liberté à cause
de cette contrainte, qui représente la conversion de la loi Poisson à la loi
multinomiale.
Exemple :
Le journal La Presse publiait, le 31 octobre 2007, un article de Denis
Lessard présentant les résultats d'un sondage sur les intentions de vote des
Québécois. À l'époque, les trois principaux partis se partageant les
intentions de vote étaient le Parti Québécois (PQ), le Parti libéral du
Québec (PLQ) et l'Action démocratique du Québec (ADQ). Considérons
ici uniquement ces partis. Les intentions de vote se répartissaient ainsi :
Parti politique PQ PLQ ADQ total
Fréquence observée 264 264 238 66
Tester si les votes sont vraiment répartis uniformément entre les partis
politiques :
H0 : (π1 ; π2 ; π3 ) = (1/3; 1/3; 1/3) vs H1 : (π1 ; π2 ; π3 ) 6= (1/3; 1/3; 1/3).

Exemple (Suite)
La statistique du test de rapport de vraisemblance prend la valeur suivante :
LRobs = −2(2 × 264 ln( 2641//766

3
+ 238 ln( 2381//3766 )) = 1.786
Le seuil observé de ce test est donc P(χ22 ≥ 1.786) = 0.40942.

Cette valeur est nettement plus grande que 0.05, on conclut donc au
non-rejet de H0 .
Exemple (Suite)
La statistique du test du khi-deux de Pearson prend quant à elle la valeur
suivante :
(264−(733/3)) 238−(733/3)
Uobs = 2 × 733/3 + 733/3 = 1.765
Le seuil observé de ce test est donc P(χ22 ≥ 1.765) = 0.41375.

Cette valeur est aussi nettement plus grande que 0.05.
Les deux tests nous mènent donc à la conclusion que les votes sont
réellement répartis de façon uniforme entre les partis politiques.
Chap 3 : Tableaux de fréquences à deux variables
Pour étudier le lien entre deux variables, il est bon de procéder en suivant
les étapes suivantes :
1 Visualiser les données : avec un tableau de fréquences à deux
variables et/ou des graphiques.
2 Tester l'association entre X et Y : on veut déterminer s'il existe un
lien entre les variables, on choisira le meilleur test en fonction du
caractère nominal ou ordinal des variables, de la taille de l'échantillon
et du nombre de modalités des variables.
3 Si elle est présente, décrire l'association : avec diérentes
statistiques et mesures d'association.
Dénitions et outils descriptifs
Le contexte traité dans ce chapitre est celui où l'on étudie deux variables
catégoriques notées X et Y . Soit mX1 , . . . , mXI les modalités de la variable
X et mY1 , . . . , mYJ les modalités de Y. On possède un échantillon de n

observations indépendantes de ces deux variables. À partir de cet
échantillon, on calcule un certain nombre de fréquences, que l'on représente
dans un tableau comme suit :
Exemple d'emplacement de variables
Dans le cadre de l'Enquête Sociale Générale aux États-Unis, n = 980

personnes ont été interrogées à propos de leurs intentions de vote.
L'enquête a aussi permis d'identier le sexe des votons. On a donc deux
variables catégoriques nominales : X = le sexe d'une personne, soit mX1 =

Femme , et mX2 = Homme et Y = le parti politique, soit mY1 =
Démocrate , mY2 = Indépendant ou mY3 = Républicain .
Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui
inuence les intentions de vote, et non l'inverse. Ainsi, on dirait que la
variable réponse est Y, et la variable explicative est X. La variable X sera
donc placée en lignes dans le tableau de fréquences, et Y en colonnes.
Fréquences croisées
Pour i = 1, . . . , I et j = 1, . . . , J , la fréquence nij est le nombre total
d'observations dans l'échantillon pour lesquelles la valeur de X est mXi et
la valeur de Y est mYj simultanément. Les nij sont ce que l'on appelle les
PI PJ
fréquences croisées. On a toujours la relation suivante : n= i=1 j=1 nij
où n est le nombre total d'observations dans l'échantillon. Ainsi, n.. est la

PJ PI
même chose que n. Les ni. = j=1 nij et n.j = i=1 nij représentent les
fréquences marginales.
Fréquences conditionnelles
Les fréquences des modalités d'une variable en xant l'autre variable à une
certaine modalité sont appelées fréquences conditionnelles. Par exemple, les
fréquences de X sachant que Y =2 sont n12 à nI 2 .

Exemple :
Les fréquences des modalités des intentions de vote Y en conditionnant par
rapport au fait d'être une femme sont (n11 = 279; n12 = 73; n13 = 225),
soit la première ligne du tableau de fréquences croisées.
Fréquences relatives
Les fréquences relatives croisées sont dénies par fij = nij /n pour
i = 1, . . . , I et j = 1, . . . , J . La somme de ces I ×J fréquences vaut 1.
Les fréquences relatives marginales se calculent par fi. = ni. /n et
f.j = n.j /n. La somme des I fréquences relatives de la marge verticale
vaut 1, tout comme la somme des J fréquences relatives de la marge
horizontale.
les fréquences relatives conditionnelles de X par rapport à Y sont
dénies par fi|j = nij /n.j pour une valeur de j xe. De façon similaire,
les fréquences relatives conditionnelles de Y par rapport à X sont
dénies par fj|i = nij /ni. pour une valeur de i xe.
Exemple de fréquences relatives :
Les fréquences relatives croisées (fij pour i = 1, 2 et j = 1, 2, 3) et
marginales (fi. pour i = 1, 2 et f.j pour j = 1, 2, 3) sont les suivantes :
La somme de toutes les fréquences relatives croisées vaut 1 et la somme
des fréquences relatives dans chacune des marges vaut aussi 1.
Les fréquences relatives conditionnelles à la valeur de X, le sexe, sont les
suivantes :
La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes
de l'échantillon ont l'intention de voter démocrate. Ici, les fréquences
relatives de chaque ligne somment à 1, car ces fréquences sont calculées en
divisant les fréquences croisées par les fréquences dans la marge verticale.
Cette marge est celle de la variable X.

Les fréquences relatives conditionnelles à la valeur de Y , les intentions de
vote, sont les suivantes :
Ici, les fréquences relatives de chaque colonne somment à 1, car ces
fréquences sont calculées en divisant les fréquences croisées par les
fréquences dans la marge horizontale. Cette marge est celle de la variable Y.
Probabilités d'intérêt
Les probabilités en lien avec un tableau de fréquences à deux variables X et
Y sont les suivantes, pour i = 1, . . . , I et j = 1, . . . , J :
Probabilités conjointes :
πij = P(X = miX , Y = mjY )
Probabilités marginaless :
πi. = P(X = miX ) ; π.j = P(Y = mjY )
Probabilités conditionnelles :
πi|j = P(X = miX |Y = mjY ) ; πj|i = P(Y = mjY |X = miX )
Estimation des probabilités d'intérêt
Les πij sont facilement estimables si les données proviennent d'un
échantillonnage multinomial simple. Dans ce cas, le vecteur de toutes les
fréquences du tableau suit une loi multinomiale : [nij ] ∼ M(n, [πij ])

Probabilités conjointes :
nij
π
bij = n
Probabilités marginales :
ni. n.j
π
bi. = n ; π
b.j = n
Probabilités conditionnelles :
nij nij
π
bi|j = n. j ; π
bj|i = ni .
Tests d'association entre deux variables nominales
La question principale d'intérêt lorsque l'on étudie conjointement 2
variables nominales X et Y est de savoir si X et Y sont associées.
De façon générale, on dira qu'il y a un lien ou une association entre deux
variables si modier la valeur d'une variable aecte la valeur de l'autre
variable. Le terme association est plutôt général. Pour des variables
catégoriques, si la fonction de densité d'une variable varie
conditionnellement à la valeur de l'autre variable, on peut dire que la valeur
d'une variable inuence la valeur de l'autre variable. Elles seraient donc
associées.
Test d'indépendance et test d'homogénéité
Selon le mode d'échantillonnage, cette association entre X et Y est
représentée par diérentes hypothèses.
Échantillonnage multinomial simple : On suppose que les totaux
des lignes et colonnes du tableau de fréquences croisant X et Y ne sont
pas xés d'avance. Seul le total n est xé ici. On veut tester si X et Y sont
indépendantes.
=⇒ Ce type d'hypothèses requiert un test d'indépendance.
Exemple
Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur
grossesse. Par un questionnaire, leur consommation d'alcool pendant le
premier trimestre de leur grossesse a été évaluée. Après la naissance des
enfants, des médecins ont vérié si ceux-ci présentaient des malformations.
Question : Les mères qui consomment de l'alcool durant la grossesse

augmentent-elles le risque de malformations de leurs enfants ?
Variable réponse Y : présence de malformations chez l'enfant à la naissance.

Variable explicative X : nombre moyen de verres d'alcool consommés par
jour par la mère.
Exemple
Les observations recueillies sont les suivantes :
Pour répondre à la question, on pourrait d'abord tester l'association entre
les variables.
Test d'indépendance et test d'homogénéité
Échantillonnage multinomial multiple : Supposons que
l'échantillonnage multiple a été eectué en stratiant selon la valeur de la
variable X. On considère donc que chaque valeur de X correspond à une
sous-population, c'est-à-dire que les totaux des rangées (les ni.) sont xes.
On veut tester si la distribution des valeurs de Y est la même ( homogène )

dans chacune des I sous-populations de X.
=⇒ Ce type d'hypothèses requiert un test d'homogénéité.
Exemple
Une étude à propos de la relation entre la prise quotidienne d'aspirine et
l'infarctus du myocarde a été menée à l'école de médecine de l'Université
Harvard. Au total, 22071 médecins américains ont participé à l'étude, d'une
durée de 5 ans. Les participants ont été attribués de façon aléatoire, en
nombres presque égaux, à l'un des deux groupes d'exposition au facteur de
risque : ceux qui prennent de l'aspirine quotidiennement et ceux qui n'en
prennent pas. Pendant l'étude, tous les médecins devaient prendre une
pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On
a observé si les participants ont été victimes ou non d'un infarctus pendant
l'étude.
Exemple
Voici les résultats obtenus :
Ici, la variable explicative X est la prise quotidienne d'aspirine ou non. La
variable réponse Y est la survenue ou non d'un infarctus. L'échantillonnage
est multiple, avec des sous-populations formées conditionnellement à la
variable explicative X.
Dénition des concepts d'indépendance et d'homogénéité
En termes statistiques, dire que les variables aléatoires discrètes X et Y

sont indépendantes signie que :
πij = πi. × π.j pour tous i = 1, . . . , I et j = 1, . . . , J .
L'homogénéité des I sous-populations de X signie que les I fonctions de
masse conditionnelles de Y sachant X sont toutes égales. Ainsi,
l'homogénéité des populations signie que :
(π1|i=1 ; π2|i=1 , . . . , πJ|i=1 ) = . . . = (π1|i=I ; π2|i=I , . . . , πJ|i=I ).
Cette dénition correspond à :
πj|i = πj|i 0 pour toute paire ´ = 1, . . . , I

(i, i) et pour tout j = 1, . . . , J .
Lien entre les concepts d'indépendance et d'homogénéité
Les concepts d'indép. et d'homog. sont en fait équivalents, on a que :
indépendance ⇒ homogénéité :
Par dénition des probabilités conditionnelles, on a que :
P(X = miX ; Y = mjY ) = P(Y = mjY |X = miX )P(X = miX ) :
Si X et Y sont indépendantes, on a donc :
P(Y = mjY |X = miX )P(X = miX ) = P(Y = mjY )P(X = miX )

P(Y = mjY |X = miX ) = P(Y = mjY )
Si les probabilités conditionnelles sont toutes égales aux probabilités
marginales, alors elles sont toutes égales entre elles.

homogénéité ⇒ indépendance :
Par la loi des probabilités totales, on a :
PI
P(Y = mjY ) = i=1 P(Y = mjY |X = miX )P(X = miX )
Sous l'hypothèse que les I sous-populations formées par X sont
homogènes, tous les P(Y = mjY |X = miX ) sont égaux. Notons
P(Y = mjY |Xquelconque) la valeur commune de ces probabilités
conditionnelles. On a donc maintenant :

I
X
P(Y = mjY ) = P(Y = mjY |Xquelconque)P(X = miX )
i=1
I
X
= P(Y = mjY |Xquelconque) P(X = miX )
i=1
= P(Y = mjY |Xquelconque)

Lien entre les concepts d'indépendance et d'homogénéité
Remarque :
Ainsi, si les vecteurs de probabilités conditionnelles sont tous égaux entre
eux, ils sont forcément égaux au vecteur de probabilités marginales de Y.

En conséquence, P(Y = mjY |X = miX ) = P(Y = mjY ) pour tous
i = 1, . . . , I et j = 1, . . . , J , ce qui signie que X et Y sont indépendants.
Mathématiquement, il s'agit donc du même concept. On utilisera les
mêmes statistiques de test pour eectuer ces deux types de test,
Formulation des hypothèses des tests
Test d'indépendance :
H0 : X et Y sont indépendants ou
πij = πi. π.j ∀i, j

H1 : X et Y ne sont pas indépendants ou
πij 6= πi. π.j pour au moins un couple (i, j)
Formulation des hypothèses des tests
Test d'homogénéité de sous-populations :
H0 : Dans les I sous-populations déterminées par X;

Y suit la même distribution ou
0
πj|i = πj|i 0 ∀i 6= i , j ou
πj|i = π.j ∀i, j

H1 : Y ne suit pas la même distribution
dans les I sous-populations déterminées par X ou

0
πj|i 6= πj|i 0 pour au moins un couple (i, i ) ou
πj|i 6= π.j pour au moins un couple (i, j)
Construction des statistiques de test
Pour eectuer ces tests, nous allons utiliser les statistiques LR et U. Ici, on
a I ×J classes, les fréquences observées sont notées nij et les fréquences
espérées sous l'hypothèse nulle H0 doivent être estimées et sont notées ebij .
Les statistiques sont donc maintenant notées comme suit :
Statistique du khi-deux de Pearson :
PI PJ (nij −b eij )2
U= i=1 j=1 ebij
Statistique du rapport de vraisemblance :
PI PJ n
LR = 2 i=1 j=1 nij ln( ebijij )
Ces statistiques suivent, lorsque les fréquences du tableau sont grandes,
une loi du khi-deux.

Rappelons que le nbre de ddl de cette khi-deux, notés d, sont dénis par :
d = dim de l'espace des paramètres - dim de l'espace des paramètres ss H0 ;

Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les
paramètres sont les probabilités πij . La dimension de l'espace des
paramètres est égale IJ − 1. Les paramètres libres sous H0 sont les πi. et les
π.j . Ces paramètres sont au nombre de I + J . Cependant, elles doivent

PI PJ
respecter les contraintes i=1 πi. et j=1 π.j . On se retrouve donc avec
I +J −2 paramètres libres sous H0 . Ainsi,
d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1)
Ici, à cause de l'échantillonnage multinomial multiple, les vecteurs
(ni 1 , . . . , niJ ) sont considérés indépendants et suivent une distribution
M(ni ; π1|i , . . . , πJ|i ). La dimension de l'espace des paramètres est égale au
nombre total de probabilités πj|i moins I parce que chacun de vecteurs
(π1|i , . . . , πJ|i ) est soumis à la contrainte que la somme de ses éléments
vaille 1. Sous H0 , tous les vecteurs (π1|i , . . . , πJ|i ) sont égaux aux
probabilités marginales (π.1 , . . . , π.J ), aussi soumises à la meme contrainte.
La dimension de l'espace des paramètres sous H0 est donc J − 1. Ainsi,
d = (IJ − I ) − (J − 1) = I (J − 1) − (J − 1) = (I − 1)(J − 1).

Voyons maintenant comment estimer les fréquences espérées sous
l'hypothèse nulle formulée.
eij = nπij = nπi. π.j par indépendance sous H0
On estime donc les fréquences espérées par :
n.j ni. n.j

ebij = nb b.j = n( nni. )(
πi. π n ) = n
eij = ni πi|j où ni est xe à cause de l'échantillonnage multiple
= ni π.j par homogénéité des sous-populations sous H0
On estime donc les fréquences espérées par :
n.j ni n.j
ebij = ni π
b.j = ni ( n ) = n
On notera les statistiques de test, peu importe que l'on mène un test
d'indépendance ou d'homogénéité des populations, par :
PI PJ (nij −ni. n.j /n)2

U= i=1 j=1 ni. n.j /n
PI PJ n
LR = 2 i=1 j=1 nij ln( ni. n.jij /n )
Les statistiques U et LR suivent asymptotiquement une distribution
χ2(I −1)(J−1) . Ainsi, au seuil α , H0 est rejetée si les valeurs observées de ces
statistiques sont grandes, c'est-à-dire si Uobs > χ2α,(I −1)(J−1) ou
LRobs > χ2α,(I −1)(J−1) .
Remarques :
On a présenté deux types de test d'association, on a cependant
constaté que le test d'indépendance (motivé par l'échantillonnage
multinomial simple) et le test d'homogénéité (motivé par
l'échantillonnage multinomial multiple) sont, à un détail près,
mathématiquement équivalents.
Il est intéressant de formuler le test d'association en terme
d'homogénéité de populations lorsque l'on soupçonne un lien de
causalité entre les variables. Dans ce cas, on tend intuitivement à
étiqueter l'une des variables comme étant explicative et l'autre comme
étant une variable réponse.
Exemple de test d'association
on s'interesse au nombre d'enfants (S) issus d'un pére en fonction du
nombre de frères et soeurs (R) qu'il y a dans la famille. Peut-on dire que R
et S sont indépendantes ?
Cas particulier des tableaux 2 × 2
Un tableau de fréquences 2 ×2 est celui pour lequel les variables X et Y

n'ont que 2 modalités possibles. C'est donc un cas particulier des tableaux
I ×J lorsque I =2 et J = 2. Un tableau 2 ×2 a la forme suivante :
n(N11 N22 −N12 N21 )2

Montrer que U= n1. n2. n.1 n.2
Rq : Ici, les degrés de liberté de la distribution asymptotique de U valent 1,
car (I − 1) × (J − 1) = 1 × 1 = 1.
Exemple de test d'association pour un tableau 2 × 2 :
Rappelons que les données sont les suivantes :
Dans cette étude, la question de recherche était la suivante :
−→ Est-ce que l'aspirine réduit les risques d'infarctus ?

ou encore :
−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris
quotidiennement de l'aspirine et ceux qui n'en ont pas pris ?
Exemple de test d'association pour un tableau 2 × 2 :
Les hypothèses du test sont :
H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 )

H1 : (π1|i=1 , π2|i=1 ) 6= (π1|i=2 , π2|i=2 )
22071(239×10898−10795×139)2
Uobs = 11034×11037×378×21693 = 26.9437.
On a Uobs χ20.05,1 = 3.84. On rejette donc l'hypothèse nulle. Il y a une
grande diérence de risque d'infarctus entre ceux qui prennent
quotidiennement de l'aspirine et ceux qui n'en prennent pas.
Test de comparaison de deux proportions
Pour un tableau 2 × 2, l'hypothèse nulle du test d'homogénéité des deux
sous-populations formées par la variable X s'écrit :
H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ).
Puisque π1|i + π2|i = 1 pour i = 1, 2, cette hypothèse est équivalente à :
H0 : π1|i=1 = π1|i=2 .
Le modèle statistique de l'échantillonnage multinomial multiple revient à
dire qu'on a 2 v. a. binomiales indépendantes. On a donc :
n11 ∼ Bin(n1 = n1. , π1 = π1|i=1 ) nbre de succès dans la 1 ere population
n21 ∼ Bin(n2 = n2. , π2 = π1|i=2 ) nbre de succès dans la 2 eme population
Avec π
b1 = n11 /n1 et π
b2 = n21 /n2 .
Test de Wald de comparaison de deux proportions
La statistique du test de Wald de comparaison de deux proportions est la
suivante (Agresti, 2002) :
b1 −b
π π2 asympt
Zw = r −−−−→ N(0, 1)
b1 (1−π
π b (1−π
b1 ) π b )
n1
+ 2 n 2
2
où π
bi = ni 1 /ni pour i = 1, 2.
Exemple de test de Wald
An de répondre à la question Est-ce que l'aspirine réduit les risques
d'infarctus ? , nous pouvons tester l'égalité des proportions :
π1 = π1|i=1 = P(infarctus | placebo) et
π2 = π1|i=2 = P(infarctus | aspirine)
contre une hypothèse alternative unilatérale à droite :
H0 : π1 = π2 , l'aspirine n'a pas d'eet
H1 : π1 > π2 , l'aspirine réduit le risque d'infarctus.
Exemple de test de Wald
La statistique du test de Wald pour confronter ces hypothèses prend la
valeur observée suivante :
0.02166−0.01259
Zw = q
0.02166(1−0.02166) 0.01259(1−0.01259)
= 5.193717.
11304
+ 11307
Cette valeur est beaucoup plus grande que la valeur critique du test :
z0.05 = 1.645. On peut donc encore conclure que l'aspirine réduit les
risques d'infarctus.
Test score de comparaison de deux proportions
Le test de comparaison de proportions le plus souvent présenté dans un
cours d'introduction à la statistique (Hines et al. (2012), Agresti (2002))
est le test score se basant sur la statistique suivante :
b1 −b
π π2 asympt
Zs = q
1 1
−−−−→ N(0, 1)
πb(1−bπ )( n + n )
1 2
n1 π
b1 +n2 π
b2 n11 +n21
où π
bi = ni 1 /ni pour i = 1, 2 et π= n1 +n2 = n1 +n2 est utilisé pour
calculer une variance groupée.
Exemple de test score
Une statistique similaire à la statistique de Wald que l'on vient de calculer
est la statistique score suivante :
Zs = q 0.02166−0.01259 = 5.190729
1 1
b(1−b
π π )( 11304 + 11307 )
11304×0.02166+11307×0.01259 378
car π
b= 11304+11307 = 22071 = 0.01712655.
La valeur observée de la statistique du test score zs = 5.190729 est très
proche, mais pas tout à fait égale à celle de la statistique du test de Wald
zw = 5.193717. Remarquez qu'en élevant au carré zs , on retombe
exactement sur la statistique

2
Uobs de Pearson
2
(zs = 5.1907292 = 26.94367 = Uobs
2 ).
Chap 4 : Tableaux de fréquences à trois variables
Dans ce chapitre, on s'intéresse encore au lien entre deux variables
catégoriques X et Y. La nouveauté par rapport au précédent est que l'on
va maintenant tenir compte d'une troisième variable catégorique, notée Z.

Cette variable est peut-être liée à X et Y, mais on ne s'intéresse pas
vraiment à ces liens. On cherche plutôt à étudier le lien entre X et Y en
corrigeant pour l'eet confondant potentiel de Z sur ce lien.
Tableaux de fréquences à trois variables
Un tableau de fréquences à trois variables est en fait représenté par une
série de tableaux de fréquences à deux variables, soit un tableau pour
chacune des modalités de la troisième variable, notée Z. Les modalités de
cette variable seront notées mkZ avec k = 1, . . . , K .
Dans ces tableaux, nijk représente le nombre d'individus dans l'échantillon

PI PJ
pour lesquels X = miX , Y = mjY et Z = mkZ . Ainsi, n..k = i=1 j=1 nijk
Tableaux de fréquences à trois variables
Ces données se présentent sous forme d'un tableau de contingence croisant
ces trois variables de terme général nijk .

On s'intéresse aux relations existant entre ces trois variables : sont-elles
indépendantes ou non dans leur ensemble ou une variable est-elle
indépendante conditionnellement à une ou aux deux autres ? Autrement
dit, on cherche à connaître la structure des liaisons entre ces données en
tenant compte des interactions entre les 3 variables.
Exemple de tableaux de fréquences à trois variables
Aux États-Unis, le Département de Transport demande aux compagnies
aériennes de recueillir les données concernant les vols d'avions qu'ils
orent. Parmi les informations recueillies, pour 11 000 vols d'avions on
retrouve, les variables suivantes : X : le nom de la compagnie aérienne ; Y :
une indicatrice de départ en retard pour le vol ; Z : la ville de l'aéroport.
Deux compagnies aériennes seront à l'étude : Alaska et America West
Airlines. Les vols d'avions considérés partaient de 5 villes : Los Angeles,
Phoenix, San Diego, San Francisco ou Seattle.
Question : Est-ce qu'il y a une diérence entre les compagnies aériennes en
ce qui concerne le respect des heures de départ prévues de leurs vols ?
Exemple de tableaux de fréquences à trois variables
Voici les tableaux conditionnels de fréquences observées pour cet exemple :
Il s'agit de 5 tableaux de fréquences croisées entre X et Y , conditionnels à
la valeur de Z.
Deux critères X et Y sont indépendants ssi
P(Xi , Yj ) = P(Xi )(Yj ), on note Pij = Pi Pj , ∀i, j
Trois critères X, Y et Z sont indépendant, X ⊥Y ⊥Z ssi
P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj )P(Zk ), on note Pi,j,k = Pi Pj Pk , ∀i, j, k
X est partiellement indépendant du couple (Y , Z ), X ⊥(Y , Z ) ssi
P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj ∩ Zk ),on note Pi,j,k = Pi.. P.jk , ∀i, j, k
X et Y sont indépendants conditionnellement à Z , (X ⊥Y )/Z ssi
P(Xi ∩ Yj /Zk ) = P(Xi /Zk )P(Yj /Zk ), ∀i, j, k

ou encore Pijk = Pi../k P.j./k
Relations entre les types d'indépendances
1

 X ⊥(Y , Z )
X ⊥Y ⊥Z ⇔
 Y ⊥Z
2
 
 X ⊥Y  X ⊥Z
X ⊥(Y , Z ) ⇔ ⇔
 X ⊥Z /Y  X ⊥Y /Z
Test d'indépendance
Pour tester l'indépendance entre 3 variables, soit la statistique de test du
khi-deux de Pearson, dénie par :
eijk )2
∼ χ2ddl
PI PJ PK (nijk −b
U= i=1 j=1 k=1 ebijk
On test les hypothèses :
H0 : Pijk = Pi.. P.j. P..k vs H1 : Pijk 6= Pi.. P.j. P..k
Hypothèses ebijk = nb
pijk ddl de χ2ddl
Ni.. N.j. N..k
X ⊥Y ⊥Z n2
IJK − I − J − K + 2
Ni.. N.jk
X ⊥(Y , Z ) n (I − 1)(Jk − 1)
Ni.k N.jk
(X ⊥Y )/Z N..k (I − 1)(J − 1)k
Exemple
Une enquête réalisée auprès de 97 étudiants classés selon 3 critères : R :
comportement, S : Existence d'un risque familial et T : l'adversité du milieu
scolaire.
Peut-on supposé l'indépendance de ces trois critères ?

Exemple
Pour 2121 personnes classées selon leur taux de cholestérol (R) leur
pression sanguine (S) et leur type de personnalité (T).
Peut-on supposé l'indépendance conditionnelle de R et S par rapport à T ?
H0 : Pij./k = Pi../k × P.j./k vs H1 : Pij./k 6= Pi../k × P.j./k
Chap 5 : Modèles log-linéaires
Le principe général de l'analyse log-linéaire est proche de celui de l'analyse
de variance, en ce qu'elle permet de tester des eets de modalités de
variables et d'interactions entre des modalités de deux ou plusieurs
variables, mais elle en dière aussi fondamentalement, puisque ce ne sont
pas des moyennes de variables qui sont prises en compte, mais des eectifs.
Le point de départ est toujours un tableau de contingence, à deux ou
plusieurs critères. Ce qu'on va expliquer, c'est l'eectif de chaque cellule.
Deux aspects principaux se partagent l'attention de l'utilisateur : les tests
de signication, et la modélisation.
Modèles log-linéaires
Les modèles log-linéaires permettent d'étudier et de modéliser les liaisons
entre plusieurs variables nominales en tenant compte de leurs éventuelles
interactions. Celui-ci a la particularité de ne pas nécessiter, a priori, de
distinction entre la variable à expliquer et les variables explicatives. Pour
cela, on ne parlera pas d'un modèle de régression, mais d'un modèle
d'association.
Soit nijk les eectifs observés de la table de contingence. La modélisation
log-linéaire vise à exprimer le logarithme de ces valeurs par une somme
d'eets propres et d'interactions d'ordre 2 ou supérieur des variables.
Soit une table de contingence (I × J) issue du croisement de deux variables
qualitatives X à I modalités et Y à J modalités et dont l'eectif total n est
xé.
La loi conjointe des eectifs nij de chaque cellule est une loi multinomiale
de paramètre πij nij ∼ M(n, πij ) et d'espérance :
eij = E (nij ) = nπij
Par dénition, les variables X et Y sont indépendantes si et seulement si :
πij = πi. π.j
le modèle log-linéaire décompose le logarithme népérien de l'espérance eij

sous la forme :
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) = µ + αi + βj
Le modèle se décompose en une somme de coecients décrivant plusieurs
eets :
µ, l'eet global ;
αi , l'eet dû à la variable X,
βj , l'eet dû à la variable Y,
Si l'indépendance n'est pas vériée, on peut décomposer :
π
eij = nπij = nπi. π.j πi. πij .j
L'intervention de la fonction logarithme permet de linéariser la
décomposition précédente autour du modèle d'indépendance :
π
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij
Le terme (αβ)ij est l'eet dû à l'interaction entre les variables X et Y.

Ce modèle est dit saturé car, présentant autant de paramètres que de
données, il explique exactement celles-ci.
An d'identier tous les paramètres, on ajoute les contraintes :

PI PJ
i=1 αi = j=1 βj = 0. Ces contraintes garantissent l'unicité.
Il est intéressent d'illustrer la notation matricielle du modèle dans le cas, par
exemple, où I =2 et J = 3. Le vecteur des paramètres inconnues est donné
par θ = (µ, α1 , β1 , β2 ), étant donné que α2 = −α1 et β3 = −β1 − β2 .

Ecrivez le modèle sous sa forme matricielle.
Exemple
Le modèle se réécrit comme :
   
ln(e11 ) 1 1 1 0
     
ln(e12 ) 1 1 0 1  µ
   
     
ln(e13 ) 1 1 −1 −1 α1 
     
  =   
1 −1 1
     
ln(e21 ) 0   β1 
     
   
ln(e22 ) 1 −1 0 1  β2
   
ln(e23 ) 1 −1 −1 −1
Le modèle saturé pour une table I × J
Ce modèle s'écrit :
ln(eij ) = µ + αi + βj + (αβ)ij
Il est indispensable, à présent, d'ajouter les contraintes :
PI PJ
i=1 αβij = j=1 αβij =0
Ecrivez le modèle sous sa forme matricielle, pour I =2 et J = 3. Le vecteur
des paramètres inconnues est donné par θ = (µ, α1 , β1 , β2 , (αβ)11 , (αβ)12 )

qui est de la même dimension que µ. Vu que le nombre de paramètres
indépendants est équivalent au nombre de cellules, on aura un ajustement
parfait du tableau de contingence et donc un modèle saturé.
Exemple
Le modèle se réécrit comme :
     
ln(e11 ) 1 1 1 0 1 0 µ
     
ln(e12 ) 1 1 0 1 0 1   α1 
     
     
ln(e13 ) 1 1 −1 −1 −1 −1  β1 
     
  =   
1 −1 1 −
     
ln(e21 ) 0 1 0   β2 
     
     
ln(e22 ) 1 −1 0 1 0 −1 (αβ)11 
     
ln(e23 ) 1 −1 −1 −1 1 1 (αβ)12
Modèle à 2 critères non indépendants et tests d'ajustement
Le modèle s'écrit comme suit :
avec les contraintes :
PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0
En pratique, on s'intéresse essentiellement à l'étude de l'indépendance
entre les deux critères de classication et on test l'hypothèse nulle :
H0 : X ⊥Y
Condition d'indépendance
Proposition :
Soit le modèle log-linéaire saturé suivant :
satisfaisant les contraintes
PI PJ PI PJ
i=1 αi = j=1 βj = i=1 αβi. = j=1 αβ.j =0
alors X ⊥Y ⇔ (αβ)ij = 0, ∀i, j
Modèle à 2 critères non indépendants et tests d'ajustement
Le rejet de l'hypothèse nulle (H0 = (αβ)ij = 0) s'eectue comme suit :
RH0 si LRobs ou Uobs ≥ χ2ddl où le
ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1)
avec
n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P
(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P
Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle
non saturé suivant :
ln(eij ) = µ + αi + βj
Modèle à trois variables
On considère une table de contingence (I × J × K ) obtenue par croisement
de trois variables qualitatives X,Y et Z. Le modèle saturé s'écrie :
ln(eijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk
Les termes αi , βj et γk représentent les eets principaux de X,Y et Z.

->Le nombre de paramètres : (I − 1), (J − 1), (K − 1)
Les termes (αβ)ij , (αγ)ik et (βγ)jk sont les intéractions du 1
er ordre.
->Le nombre de paramètres : (I − 1)(J − 1), (I − 1)(K − 1), (J − 1)(K − 1)

Les termes (αβγ)ijk sont les intéractions du second ordre.
-> Le nombre de paramètres : IJK − 1

Types et tests d'indépendances
-> Le modèle d'indépendance conditionnelle s'écrit :
ln(eijk ) = µ + αi + βj + γk + (αγ)ik + (βγ)jk
L'hypothèse nulle à tester est : H0 : X ⊥Y /Z ⇔ H0 : (αβ)ij = 0

-> Le modèle d'indépendance partielle s'écrit :
ln(eijk ) = µ + αi + βj + γk + (βγ)jk
L'hypothèse nulle à tester est : H0 : X ⊥(Y , Z ) ⇔ H0 : (αβ)ij = (αγ)ik = 0

-> Le modèle d'indépendance totale s'écrit :
ln(eijk ) = µ + αi + βj + γk
on teste H0 : X ⊥Y ⊥Z ⇔ H0 : (αβ)ij = (αγ)ik = (βγ)jk = 0

Relation entre les types d'indépendance
Soit le test d'indépendance mutuelle suivant : H0,m : X ⊥Y ⊥Z
Si on rejette H0,m , on teste l'indépendance partielle
H0,p : X ⊥(Y ∩ Z ), H0,p : Y ⊥(X ∩ Z ), H0,p : Z ⊥(X ∩ Y )
Si on rejette H0,p , on teste l'indépendance conditionnelle
H0,c : (X ⊥Y )/Z , H0,c : (X ⊥Z )/Y , H0,c : (Y ⊥Z )/X
Si on rejette H0,c aucune simplication n'est possible, on garde le
modèle saturé.
Modèles hiérarchiques
Un modèle log-linéaire est dit hiérarchique si la condition suivante est
vériée : quand un coecient d'interaction est présent dans le modèle, les
coecients des variables mises en jeu et toutes les interactions d'ordre
inférieur sont aussi dans le modèle.
Par exemple, si dans un modèle à 5 variables on trouve l'interaction Xl 35 ,

alors le modèle, pour être hiérarchique, doit contenir au moins Xl , X3 et X5
ainsi que les interactions d'ordre inférieur X13 , X15 et X35 .
Modèles hiérarchiques
Parmi les modèles log-linéaires possibles dans le cas d'un tableau de
contingence à deux variables, certains modèles sont hiérarchiques :
ln(eij ) = µ + αi + βj
et d'autres ne le sont pas :
ln(eij ) = µ + αi + (αβ)ij
ln(eij ) = µ + βj + (αβ)ij
ln(eij ) = µ + (αβ)ij
Estimation des paramètres
Les fréquences théoriques espérées eijk sont en général estimées par la
méthode du maximum de vraisemblance. Elle consiste à rechercher les
paramètres qui maximisent la fonction de vraisemblance `(nijk , eijk ). Pour
cela, on suppose que les variables aléatoires nijk suivent une loi
multinomiale.
Tests d'ajustement
Pour comparer le tableau des fréquences estimées avec le tableau des
fréquences observées, deux tests (voisins) sont généralement utilisés :
n
LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij )
P P
(n −nb π )2
Uobs = Ii=1 Jj=1 ij nbπij ij
P P
Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles
sont nulles pour le modèle saturé. On recherche le modèle le plus simple
(peu de paramètres) et qui reste acceptable (bon ajustement).
Choix du modèle
Le choix du modèle log-linéaire est d'autant plus dicile que le nombre de
variables est élevé. La méthode dite "combinatoire" est une des méthodes
possibles pour obtenir un "bon" modèle. A partir du modèle saturé, on
construit des modèles plus simples en retirant un à un les termes
d'interaction. La statistique LR croît progressivement et l'on peut arrêter la
procédure lorsqu'elle augmente plus rapidement. On retiendra alors le
modèle correspondant et l'on en déduira les liaisons importantes entre les
variables.
Choix du modèle

Analyse Des Donnees

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Donnees

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données discrètes

2 Tableau de fréquences univariées et loi multinomiale

Test d'hypothéses dans une table à une entrée

3 Tableaux de fréquences à deux variables

Tests d'association entre deux variables nominales

4 Tableaux de fréquences à trois variables

Type et test d'indépendances entre 3 variables

Modèle à trois variables

Ce cours présente des méthodes statistiques usuelles pour l'analyse de

données discrètes. Des données peuvent résulter, par exemple :

d'un sondage d'opinion pour des consommateurs (ex. : niveau de

satisfaction pour un service reçu) ;

d'une étude dans le domaine de la santé cherchant à cerner les

facteurs d'une maladie (ex. : variable réponse prenant la valeur `oui'

pour les sujets malades, `non' sinon) ;

Plusieurs outils statistiques s'orent à nous pour analyser des données

discrètes. Ce cours visent à présenter les méthodes classiques et celles les

plus utilisées en pratique. Ce cours a pour objectif de cerner la bonne

méthode statistique à utiliser, de l'appliquer correctement en comprenant

les idées mathématiques de base derrière les méthodes et de bien

interpréter les résultats obtenus.

sont présentés, pour s'assurer de bien comprendre les formules. En

pratique, l'ordinateur fait pour nous tous ces calculs.

Avant d'entrer dans le vif du sujet, rappelons certaines notions de

statistiques souvent employées dans ce cours.

Données : Des données sont des valeurs numériques (des nombres)

ou alphanumériques (des chaînes de caractères) représentant les

observations de certaines variables sur certains individus.

Population : La population est l'ensemble de référence sur lequel

Individu ou unité statistique : Un individu est un élément de la

population. L'ensemble des individus constitue la population. Chaque

observation est associée à un individu.

Échantillon : L'échantillon est un sous-groupe de la population,

composé des individus pour lesquels des observations ont été

population, on parle de recensement.

Variable : Le terme variable désigne la représentation d'une

caractéristique des individus. Ainsi, une variable n'est pas la

caractéristique elle-même, mais plutôt une mesure de cette

Observation : Une observation est l'ensemble des valeurs obtenues en

mesurant des variables sur un individu de la population.

Lorsque l'on estime des paramètres de la population à l'étude à partir des

observations d'un échantillon aléatoire de cette population, on fait de l'

entiers non négatifs 0, 1, 2, 3, . . ..

Le résultat du lancer d'un dé est une variable discrète (valeurs

Le nombre de personnes frappées par la méningite dans une grande

ville sur une période d'une année (valeurs 0, 1, 2, 3, . . .).

Les données numériques ne sont pas forcément des observations d'une

variable numérique. C'est le cas par exemple du niveau de satisfaction

représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie 

très insatisfait ,  insatisfait  est représenté par le chire 2 et ainsi de

taper que des chaînes de caractère.

La loi de Poisson permet de modéliser le nombre de réalisations d'un

événement dans un intervalle de temps et/ou d'espace. Par exemple, la loi

Poisson serait une bonne candidate pour modéliser les dénombrements

le nombre de clients se présentant à un guichet automatique d'une

banque en une heure ;

le nombre d'accidents par années à une intersection de la ville de

le nombre de centenaires dans une communauté.

On appelle parfois la loi Poisson  loi des évènements rares .

La fonction de masse, aussi appelée fonction de probabilité, d'une variable

aléatoire Poisson, notée Y ∼ Poisson(λ), est

Le paramètre de la distribution est à la fois l'espérance et la variance de Y :

Aussi, il est pertinent de noter que la distribution Poisson peut être

Plusieurs outils statistiques s'orent à nous pour analyser des données

observations d'un échantillon aléatoire de cette population, on fait de l'

représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie

très insatisfait , insatisfait est représenté par le chire 2 et ainsi de

On appelle parfois la loi Poisson loi des évènements rares .

An de bien comprendre la motivation derrière la MMV, considérons un

direction particulière, le test est dit unilatéral. Si au contraire

l'hypothèse alternative est le complément de l'hypothèse nulle, on qualie

qualié d' exact . À l'inverse, si la distribution sous H0 de W utilisée

on parlera d'un test asymptotique .

paramétrique ou non paramétrique : Un test est paramétrique si la

distribution des observations. Sinon, il est non paramétrique . Dans ce