Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUES INFERETIELLES
CHAPITRE 2 - INFERENCE
SUR
UNIVARIE NON STRUCTURE
1.
UN
PROTOCOLE
Les combinaisons
Dans ce chapitre, nous allons traiter de linfrence sur les protocoles univari non structur.
Avec ce type de protocole, lobjectif est de situer le protocole dans lensemble des protocoles
possibles, cest--dire dans lespace des chantillons. Quelle que soit lchelle de mesure de
la variable, on peut dterminer celui-ci par combinatoire en calculant lensemble des
combinaisons possibles.
N
N!
CnN = =
n n!(N n)!
Le symbole gauche de lgalit se lit nombre de combinaisons de n lments dans N
lments . La formule de droite nous permet de la calculer. Par exemple, si on cherche
savoir combien de couples sont possibles dans une population de 5 lments, on peut se
reprsenter intuitivement que chacun des individus peut tre associs chacun des quatre
autres. On a donc 20 paires. Lordre des lments dans les couples nayant pas
dimportance, on a 10 couples possibles. Mettons en application la formule de calcul du
nombre de combinaisons de deux lments dans un ensemble de 5 lments.
5
5!
5 * 4 * 3* 2 *1
C25 = =
=
= 10
2 2!(5 2)! 2 *1* 3* 2 *1
Ici N =5 et n=2. N suivi dun point dexclamation se lit factoriel de 5 et se dveloppe en
multipliant le nombre par tous les entiers infrieurs. La factorielle de 5 est donc 5*4*3*2*1.
De la mme manire, la factorielle de 2 est gale 2*1 et la factorielle de 5-2, cest--dire la
factorielle de 3 se dveloppe en 3*2*1. Il ne reste plus qu simplifier la fraction en
supprimant les facteurs communs. Dans cet exemple, le nombre de combinaisons possibles
est donc de 10.
Version 10/11/08
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
Version 10/11/08
10
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
11
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
chantillons possibles de taille 10, il ne pourra pas tre dclar atypique, la frquence
minimale quon peut obtenir dans la distribution dchantillonnage tant de 0,1.
Il faut souligner, ici, le fait que les mthodes statistiques sont avant tout des mthodes pour
les grands nombres. En pratique, le calcul de lensemble des combinaisons possibles est
peu utilis car le nombre dchantillons possibles croit trs rapidement avec la taille de
lchantillon, mme pour une population de faible taille et peu de logiciels permettent de le
calculer. Ainsi, pour un chantillon de 3 sujets dans une population de 20, on a 1140
combinaisons possibles. Dans la mme population, si lchantillon est de taille 4, le nombre
de combinaisons passe 4854. Pour un chantillon de taille 5, il est de 15504.
Cest donc avant tout la dmarche et le principe gnral de ce type danalyse quil faut
retenir et qui vous aiderons mieux comprendre les autres types de distributions
dchantillonnage, notamment les distributions dchantillonnage approches.
2.
A N A
Version 10/11/08
12
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
faut maintenant calculer les paramtres de la formule. Pour des raisons de simplicit de mise
en uvre, cest la formule dveloppe que nous allons appliquer.
n
pk = P k Qn k
k
13
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
On se demande dans ce cas, si notre chantillon est atypique dune distribution de rfrence
o la frquence des russites est de 0,5.
Nous allons calculer la proportion pk, pour chacune des valeurs de k. Les valeurs possibles
de k vont de 0 n. Dans notre exemple n=5.
5
5!
5 * 4 * 3* 2 *1
C05 = =
=
=1
0 0!(5 0)! 1* 5 * 4 * 3* 2 *1
Rappelons que par convention, la factorielle de 0 est gale 1. Nous obtenons donc le
dveloppement ci-dessus. P tant de 0,5, nous avons ensuite Pk=0,50=1 et Qn-k=0,55=0,031.
On peut alors calculer pk en faisant le produit des trois valeurs que nous venons de calculer.
P0=1*1*0,031=0,031. On procde ainsi pour toutes les valeurs de p. La dernire colonne
constitue la distribution dchantillonnage.
Dans notre chantillon, nous avons observ 3 russites sur 5. On peut voir sur la distribution
dchantillonnage que la proportion dchantillons pour lesquels le nombre de russites est
suprieur ou gal au nombre de russites observ dans notre chantillon est de
0,313+0,156+0,031=0,5. Cette proportion tant trs largement suprieur au seuil repre de
.025, on ne peut pas considrer notre chantillon comme atypique dune distribution o la
frquence des russites est de 0,5. Autrement dit, les frquences des russites dans cet
chantillon ne diffrent pas du hasard.
2 =
(eobs etho ) 2
etho
Version 10/11/08
14
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
Son utilisation dans le cas de linfrence sur une frquence est soumise deux conditions :
(i) les effectifs thoriques doivent tre suprieurs 5. En effet, la distribution de 2[1] suit une
loi normale et les distributions hypergomtriques et binomiales tendent vers une distribution
normale pour les grands effectifs. (ii) il faut appliquer une correction de continuit. Les
distributions hypergomtriques et binomiales sont en effet des distributions sur des valeurs
discrtes, alors que 2[1] est continue. La formule de calcul est alors la suivante :
2
corr
etho
Prenons un exemple pour illustrer la mise en uvre du test. Imaginons que nous fassions
passer un test de raisonnement comme la tche de Wason1 50 sujets, mathmaticiens de
leur tat. On s'intresse dans cette exprience uniquement la russite ou lchec des
sujets la tche. On observe, dans cet chantillon, une frquence de russite de 20 %.
Sachant que dautres recherches ont montr que la frquence de russite cette tche est
de 12%, peut-on dire que les mathmaticiens russissent plus souvent ce test de
raisonnement que le reste de la population ?
2
corr
Dans le cas de linfrence avec une distribution de X2 sur un protocole univari non structur
sur une variable nominal, seule la distribution de X2 un degr de libert nous intresse. Elle
est indique en rouge dans le tableau ci-dessous. Cette distribution nous indique, pour
chaque valeur de X2, la proportion dchantillons qui dpassent cette valeur. On peut lire
cette proportion dans la premire ligne du tableau. La proportion signale dans ce tableau
est une proportion bilatrale.
Voir le cours EL411 Activits mentales finalises pour une description de la tche.
15
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
3.
Version 10/11/08
16
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
Plus n est grand, plus la forme de la distribution dchantillonnage est proche dune
distribution normale.
Pour illustrer ce thorme, imaginons que nous ayons une population dans laquelle la
distribution des observations est uniforme. Pour des raisons de commodits, nous
considrerons une population trs rduite de 8 individus dans laquelle on tire un chantillon
de 3 individus. Le tableau ci-dessous, donne lespace des 56 chantillons possibles.
17
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
Bien que la distribution des valeurs dans la population soit plate, la distribution
dchantillonnage tend vers une distribution normale, malgr la petite taille de notre
population (voir le graphique ci-dessous).
Version 10/11/08
18
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
Notre population parente est constitue des 300 lves de 3me. Notre chantillon est
constitu des lves latinistes quon cherche situer dans la population. Dun point de vue
psychologique, on se demande si ltude du latin favorise le dveloppement des
comptences verbales mesures par le test. Si tel est le cas, la performance des latinistes
ce test devrait tre suprieure celles du reste de la population. La moyenne obtenue par
les latinistes est une des moyennes possibles dans la distribution dchantillonnage. Mais si
le nombre dchantillons prsentant une moyenne suprieure ou gale celle de nos
latinistes est suffisamment faible, on pourra considrer que les latinistes font exception dans
la distribution des moyennes au test. Autrement dit, que les latinistes sont atypiques, du ct
des valeurs leves, de la population ayant pass le test.
Concrtement, la distribution dchantillonnage sur les moyennes est dtermine par la
moyenne et lcart-type. Cest pourquoi on parle parfois propos des tests dinfrences sur
la moyenne ayant recours une distribution approche normale, de tests paramtriques.
Dans cet exemple, On en connat la moyenne et la variance qui sont respectivement de 28
et 25, et on sait que les 25 latinistes ont obtenu une moyenne de 30 au test. La mise en
uvre de ce test commence par le calcul de la valeur de z correspondant notre
chantillon. Cette valeur est appele zobs. La formule est la suivante :
zobs =
(m 0 )
0 / n
zobs =
(m 0 ) = (30 28) = 2
0 / n
5 / 25
Si au contraire lhypothse situe lchantillon du cot des valeurs hautes, il faut alors
utiliser la table cumule droite.
Dans notre exemple, nous faisons lhypothse que les latinistes ont une meilleure
performance au test. On cherche donc savoir sils se situent du cot des valeurs hautes. Il
faut donc regarder la distribution cumule droite.
La proportion que nous lisons dans la table en regard de 2 est de .022. Elle reprsente la
proportion des chantillons dans lesquels la valeur de Z est suprieure 2. Cette proportion
tant infrieure au seuil repre de .025, le test peut tre dclar significatif.
Linterprtation du test dpend du modle dchantillonnage. Dans lapproche combinatoire,
il sagit de tester la typicit du groupe d'observations dans la population. Autrement dit, il
sagit de savoir si les latinistes sont ou non typiques de la population des lves de
troisime du point de vue de ce test de comprhension verbale. Le rsultat tant significatif,
lchantillon doit tre dclar atypique de la population.
On ne peut gure se placer du point de vue frquentiste dans cette recherche, dans la
mesure o les sujets composant lchantillon ne peuvent pas tre considrs comme
19
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
slectionns au hasard. On ne peut pas non plus considrs que toutes choses gales par
ailleurs, ces lves se diffrencient des autres uniquement par ltude du latin. La proportion
ne peut donc pas tre interprte comme une probabilit dobtenir un tel chantillon dans la
population.
Dun point de vue psychologique, la diffrence significative nous conduit affirmer que les
comptences verbales cible par le test de comprhension sont plus importantes dans le cas
de ltude du latin en 3me.
3.2.2 Situer un chantillon dans une distribution
Lorsquon cherche situer un chantillon dans une distribution, deux cas peuvent se
prsenter :
soit la variance parente est connue et dans ce cas on est ramen au cas prcdent
dans lequel la distribution approche utiliser est celle de Z.
soit la distribution parente nest pas connue et dans ce cas, la distribution approche
utiliser est la distribution de T de Student.
En effet, dans le cas o la variance parente nest pas connue, le test du Z nest pas
utilisable. On peut cependant estimer la variance parente en calculant la variance corrige.
On peut alors remplacer la variance parente dans la formule par la variance corrige.
Rappelons que la variance corrige est la somme des carrs des carts la moyenne
divise par n-1. On obtient donc la formule suivante :
tobs
(m 0 )
=
s/ n
avec s
(x m)
=
n 1
La dmarche est alors la mme que dans le cas du Z. La statistique ainsi calcule est la
statistique T. Il sagit galement dun cart rduit. La distribution de la statistique T est un
peu diffrente de celle du Z. Elle suit une distribution de t de Student (nu) gal n-1
degrs de libert. Les degrs de libert correspondent au nombre de comparaisons binaires
quon peut faire sur un groupe dobservations. Dans ce cas, est gale au nombre
dobservations moins 1. Nous reviendrons sur cette notion dans le cours troisime anne.
On estimera la proportion recherche laide de la table de la distribution du t de Student.
Pour illustrer lapplication du test du t de Student, nous allons reprendre lexemple de J-F
Richard (1999) sur ltude de lillusion de Muller-Lyer. Cette illusion consiste percevoir plus
grand un segment encadr par des chevrons intrieurs quun segment de mme longueur
encadr par des chevrons extrieurs, comme le montre la Figure 2.2.
Version 10/11/08
20
STATISTIQUES INFERENTIELLES
JEAN-MARC MEUNIER
longueur relle, avec un cart-type corrig de 1,8. Nous allons dans un premier temps
calculer la valeur de tobs sur les donnes observes.
tobs =
(m 0 ) = (2,6 0) = 4,09
s/ n
1,8 / 8
La moyenne observe est de 2,6. La moyenne thorique correspond au cas o les sujets
estimeraient correctement la longueur du second segment, cest--dire ajusteraient un
second segment de mme longueur que le premier. Dans ce cas, lcart observ serait de 0.
Lcart-type corrig est de 1,8, et le nombre dobservations est de 8, puisque nous avons 8
sujets et une seule variable. Ce qui nous fait un tobs de 4,09. Il faut ensuite lire la proportion
recherche dans la table du t de Student. En tte de colonne de cette table, on trouve les
proportions dchantillons. La distribution du t de Student tant peu prs normale, comme
celle du Z, la distribution est symtrique. Les proportions bilatrales sont donc du double des
proportions unilatrales et la table ne signale que les valeurs absolues du t de Student. La
table nous prsente, pour un nombre de degrs de libert donn la valeur de t qui est
dpasse pour chaque proportion.
21
Version 10/11/08
JEAN-MARC MEUNIER
STATISTIQUES INFERETIELLES
Version 10/11/08
22