Vous êtes sur la page 1sur 15

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

CHAPITRE 2 - INFERENCE
SUR
UNIVARIE NON STRUCTURE
1.

UN

PROTOCOLE

Les combinaisons

Dans ce chapitre, nous allons traiter de linfrence sur les protocoles univari non structur.
Avec ce type de protocole, lobjectif est de situer le protocole dans lensemble des protocoles
possibles, cest--dire dans lespace des chantillons. Quelle que soit lchelle de mesure de
la variable, on peut dterminer celui-ci par combinatoire en calculant lensemble des
combinaisons possibles.

1.1. Calcul de la taille de lespace des chantillons


Lensemble des combinaisons de n lments dans une population de N lments est
lensemble des sous-ensembles de n lments dans une population de N lments. Le
nombre de combinaisons possibles est donn par la formule du nombre de combinaisons :

N
N!
CnN = =
n n!(N n)!
Le symbole gauche de lgalit se lit nombre de combinaisons de n lments dans N
lments . La formule de droite nous permet de la calculer. Par exemple, si on cherche
savoir combien de couples sont possibles dans une population de 5 lments, on peut se
reprsenter intuitivement que chacun des individus peut tre associs chacun des quatre
autres. On a donc 20 paires. Lordre des lments dans les couples nayant pas
dimportance, on a 10 couples possibles. Mettons en application la formule de calcul du
nombre de combinaisons de deux lments dans un ensemble de 5 lments.

5
5!
5 * 4 * 3* 2 *1
C25 = =
=
= 10
2 2!(5 2)! 2 *1* 3* 2 *1
Ici N =5 et n=2. N suivi dun point dexclamation se lit factoriel de 5 et se dveloppe en
multipliant le nombre par tous les entiers infrieurs. La factorielle de 5 est donc 5*4*3*2*1.
De la mme manire, la factorielle de 2 est gale 2*1 et la factorielle de 5-2, cest--dire la
factorielle de 3 se dveloppe en 3*2*1. Il ne reste plus qu simplifier la fraction en
supprimant les facteurs communs. Dans cet exemple, le nombre de combinaisons possibles
est donc de 10.

1.2. Dtermination de lespace des chantillons


Pour dterminer lespace des chantillons, nous allons rechercher lensemble des
combinaisons possibles. Pour viter den oublier, nous allons procder par ordre. Reprenons
notre exemple prcdent et posons un tableau comportant 11 lignes, la premire indiquant
lidentifiant de nos individus.

IED Universit de Paris 8

Version 10/11/08

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

Tableau 2.1 Dtermination de l'ensemble des combinaisons possibles


Le premier couple sera compos des deux premiers sujets. Pour le couple suivant, on
dcalera la croix du sujet 2 dune case vers la droite, et on continuera de mme pour le
troisime couple jusqu atteindre la dernire colonne, celle du sujet 5, pour le quatrime
couple. Cest ensuite la croix du sujet 1 quon dcale dune case vers la droite, le second
individu du couple tant dans la case juste droite, et on recommence dcaler la croix du
second individu, jusquau bout du tableau. On recommence alors dcaler la croix
correspondant au premier individu du couple, et on dcale nouveau le dernier. Le dernier
couple correspond, bien entendu, aux deux derniers sujets.
Une fois quon a dtermin lensemble des combinaisons, il faut calculer pour chaque
protocole possible la statistique dchantillonnage. Dans le cas des variables nominales ou
catgorises, la statistique dchantillonnage est la frquence. Dans le cas des variables
numriques, la statistique dchantillonnage est la moyenne.

1.3. Calcul de la distribution dchantillonnage


Une fois quon a dtermin lensemble des combinaisons, il faut calculer pour chaque
protocole possible la statistique dchantillonnage. Dans le cas des variables nominales ou
catgorises, la statistique dchantillonnage est la frquence. Dans le cas des variables
numriques, la statistique dchantillonnage est la moyenne.
1.3.1 Application une variable nominale ou catgorise
Imaginons que nous ayons fait passer un test nos sujets. La variable dans ce test est la
russite ou lchec. Les observations pour la population sont donnes dans la seconde ligne.
Les combinaisons ont t dtermines comme prcdemment.

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

Tableau 2.2 Calcul de la frquence sur l'espace des chantillons


La variable tant nominale, on calculera la frquence des russites. On aurait pu calculer
galement la frquence des checs qui est le complmentaire des russites. Dans le
premier couple, la frquence est de un demi. Elle est de 1 pour le couple suivant. On
continue ainsi pour tous les protocoles possibles.

Tableau 2.3 Exemple de distribution d'chantillonnage sur une variable nominale


Aprs le calcul de la statistique dchantillonnage, on calcule la distribution
dchantillonnage, cest--dire les proportions dchantillons associes chacune des
valeurs de la statistique. Dans notre exemple, extrmement simplifi, trois valeurs de la
frquence sont observes dans lensemble des chantillons possibles. La premire est la
valeur 0 qui correspond aucune russite dans lchantillon, elle nest observe quune fois.
La proportion est donc de 1 sur 10 soit 0,1. Pour la seconde valeur de la frquence, elle a
t observe 6 fois sur 10, soit une proportion de 0,6. Enfin la valeur 1 a t observe 3 fois.
La proportion est donc de 0,3.
Imaginez que le couple observ soit le couple o les deux sujets ont chou au test. Peut-on
dire quil est atypique de la population dont il est issue? Le seuil de typicalit est fix par
convention .025. La proportion de couples ayant obtenu 0 russite tant suprieur ce
seuil, on ne pourra pas dire quil est atypique.
1.3.2 Application une variable numrique
Les combinaisons sont galement utilisables sur les variables numriques. Dans ce cas, la
statistique dchantillonnage est la moyenne. Imaginez que nos sujets soient des enfants et
quen faisant passer le test, on ait galement relev leur ge.

IED Universit de Paris 8

Version 10/11/08

10

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

Tableau 2.4 Calcul de la moyenne sur l'espace des chantillons


Comme prcdemment, on calculera pour chaque couple la statistique dchantillonnage.
Pour le premier couple, la moyenne des ges est de 10. Pour le second, elle est de 18 divis
par 2, soit 9. On procde ainsi pour tous les chantillons possibles.
On calcule ensuite la distribution dchantillonnage, cest--dire la distribution des moyennes
sur tous les chantillons possibles. Pour des raisons de commodits de la prsentation, nous
ne noterons ici que les valeurs observes.

Tableau 2.5 Exemple de distribution d'chantillonnage sur une variable numrique


Dans notre exemple, la proportion des chantillons pour lesquels la moyenne des ges est
de 7 ans, est de 0,1. Elle est de 0,2 pour une moyenne de 7,5 ans. La calcul se fera de la
mme faon pour les autres valeurs de la moyenne.
Si le couple observ dans cette population est le premier, celui qui prsente une moyenne
dge de 10 ans, on voit dans la distribution dchantillonnage que ce couple nest pas
atypique, puisque la proportion dchantillons est suprieure au seuil de .025.

1.4. Limites du test


Bien sr les exemples utiliss dans le cadre de ce cours, compte tenu des limites de place,
ne prsentent pas beaucoup d'intrts dun point de vue infrentiel. On comprend, en effet,
sans faire tous ces calculs, que si un couple nest prsent quune fois dans un espace des

11

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

chantillons possibles de taille 10, il ne pourra pas tre dclar atypique, la frquence
minimale quon peut obtenir dans la distribution dchantillonnage tant de 0,1.
Il faut souligner, ici, le fait que les mthodes statistiques sont avant tout des mthodes pour
les grands nombres. En pratique, le calcul de lensemble des combinaisons possibles est
peu utilis car le nombre dchantillons possibles croit trs rapidement avec la taille de
lchantillon, mme pour une population de faible taille et peu de logiciels permettent de le
calculer. Ainsi, pour un chantillon de 3 sujets dans une population de 20, on a 1140
combinaisons possibles. Dans la mme population, si lchantillon est de taille 4, le nombre
de combinaisons passe 4854. Pour un chantillon de taille 5, il est de 15504.
Cest donc avant tout la dmarche et le principe gnral de ce type danalyse quil faut
retenir et qui vous aiderons mieux comprendre les autres types de distributions
dchantillonnage, notamment les distributions dchantillonnage approches.

2.

Infrence sur un protocole univari nominal

2.1. Utilisation dune distribution exacte


2.1.1 Situer un chantillon dans une population
Nous venons de voir, dans le paragraphe prcdent, quon peut situer un chantillon dans
lespace des chantillons possibles dtermins par combinatoire. Pour les variables
nominales, la distribution dchantillonnage nous est galement donne par la distribution
hypergomtrique. Celle-ci nous permet de calculer, pour une population de N lments
dont A lments sont dune catgorie, la proportion pk dchantillons contenant k lments
de la catgorie en question en appliquant simplement la formule suivante :

A N A

A!(N A)!n!(N n)!


k n k
pk =
=
N
k!(n k)!(A k)!(N A(n k))!N!

n
Nous allons voir comment mettre en uvre cette formule en reprenant notre exemple
prcdent afin de calculer la distribution dchantillonnage. Reprons pour cela dabord les
valeurs composants la formule. Dans notre exemple, nous avions fait passer un test 5
individus dont deux ont chou le test. On se demande si cet chantillon est atypique de la
distribution dchantillonnage.

Tableau 2.6 Reprage des valeurs de la formule de la distribution hypergomtrique


Les valeurs considrer pour lapplication de la formule sont donnes par le tableau de
gauche. Dans notre exemple, la catgorie vise est lchec de nos deux individus constituant
lchantillon et nous avons deux checs et trois russites dans la population. La ligne
complment se calcule simplement par diffrence entre lchantillon et la population. Il nous

IED Universit de Paris 8

Version 10/11/08

12

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

faut maintenant calculer les paramtres de la formule. Pour des raisons de simplicit de mise
en uvre, cest la formule dveloppe que nous allons appliquer.

Tableau 2.7 Calcul des paramtres de la formule de la distribution hypergomtrique


Dans la premire colonne, nous considrons les diffrentes valeurs possibles pour k, cellesci vont de 0 n. Elles correspondent aux modalits de la frquence de russites dans la
distribution dchantillonnage. Dans les trois autres colonnes, nous calculons les valeurs du
tableau pour chacune des valeurs de k. Nous calculons ensuite les paramtres de la formule
compte tenu de ces valeurs. Dans la dernire colonne, nous appliquons la formule de la
distribution hypergomtrique pour calculer les proportions. On retrouve la distribution
dchantillonnage prcdemment calcule par combinatoire (Tableau 2.3).
Le principal intrt de la distribution hypergomtrique est de permettre de calculer la
distribution dchantillonnage sans passer par le calcul des combinaisons possibles. Ce type
de distribution autorise donc lutilisation dune distribution exacte, mme avec des
chantillons importants. Cependant, nous verrons un peu plus loin que cette distribution peut
tre approche de faon satisfaisante laide de la distribution de 2, ce qui simplifie encore
davantage linfrence.
2.1.2 Situer un chantillon dans une distribution.
Dans lexemple prcdent, nous avions connaissance de la population, mais ce nest pas
toujours le cas et on peut avoir simplement une frquence comme rfrence. On se trouva
alors dans le cas dun chantillonnage dans une distribution. La distribution exacte utiliser
est alors la distribution binomiale. Dans ce cas, la taille de la population nest pas connue et
suppose de taille infinie, comme si on procdait un tirage au sort avec remise. En
pratique, la distribution hypergomtrique se rapproche de la distribution binomiale pour les
populations de taille trs importante. La formule permettant de calculer la distribution
binomiale est la suivante :

n
pk = P k Qn k
k

pk est la proportion dchantillons de n lments contenant k lments dune catgorie.


n
est le nombre de combinaisons de n lments contenant k lments dune catgorie,
k
cest--dire le nombre dchantillons contenant k lment dune catgorie.
P est la proportion de rfrence et Q son complmentaire, soit 1-P.
Imaginons, pour illustrer cela que les sujets qui ont pass le test aient rpondu au hasard.
Dans ce cas, la proportion de russite P serait de 0,5 et son complmentaire Q de 1-0,5=0,5.
Nous allons considrer que les 5 sujets constituent lchantillon et non plus la population
comme prcdemment. Nous avons donc observ une frquence des russites de 3/5 = 0,6.

13

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

On se demande dans ce cas, si notre chantillon est atypique dune distribution de rfrence
o la frquence des russites est de 0,5.
Nous allons calculer la proportion pk, pour chacune des valeurs de k. Les valeurs possibles
de k vont de 0 n. Dans notre exemple n=5.

Tableau 2.8 Calcul des paramtres de la formule de la distribution binomiale


Pour k =0 nous avons :

5
5!
5 * 4 * 3* 2 *1
C05 = =
=
=1
0 0!(5 0)! 1* 5 * 4 * 3* 2 *1
Rappelons que par convention, la factorielle de 0 est gale 1. Nous obtenons donc le
dveloppement ci-dessus. P tant de 0,5, nous avons ensuite Pk=0,50=1 et Qn-k=0,55=0,031.
On peut alors calculer pk en faisant le produit des trois valeurs que nous venons de calculer.
P0=1*1*0,031=0,031. On procde ainsi pour toutes les valeurs de p. La dernire colonne
constitue la distribution dchantillonnage.
Dans notre chantillon, nous avons observ 3 russites sur 5. On peut voir sur la distribution
dchantillonnage que la proportion dchantillons pour lesquels le nombre de russites est
suprieur ou gal au nombre de russites observ dans notre chantillon est de
0,313+0,156+0,031=0,5. Cette proportion tant trs largement suprieur au seuil repre de
.025, on ne peut pas considrer notre chantillon comme atypique dune distribution o la
frquence des russites est de 0,5. Autrement dit, les frquences des russites dans cet
chantillon ne diffrent pas du hasard.

2.2. Utilisation dun distribution approche


En pratique, les distributions exactes sont peu utilises du fait de leur complexit de mise en
uvre. Avec les protocoles nominaux, on peut galement utiliser la distribution de 2 un
degr de libert, not 2[1], comme approximation de la distribution hypergomtrique ou de
la distribution binomiale. Cette distribution du not 2[1] correspond la distribution du carr
dune variable normale rduite Z. On pourra vrifier que la premire ligne de la table de 2
est bien gale au carr de la table du Z (voir les tables en annexes). Rappelons que le calcul
de 2 nous est donn par la formule :

2 =

IED Universit de Paris 8

(eobs etho ) 2
etho

Version 10/11/08

14

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

Son utilisation dans le cas de linfrence sur une frquence est soumise deux conditions :
(i) les effectifs thoriques doivent tre suprieurs 5. En effet, la distribution de 2[1] suit une
loi normale et les distributions hypergomtriques et binomiales tendent vers une distribution
normale pour les grands effectifs. (ii) il faut appliquer une correction de continuit. Les
distributions hypergomtriques et binomiales sont en effet des distributions sur des valeurs
discrtes, alors que 2[1] est continue. La formule de calcul est alors la suivante :

(eobs etho 0,5)

2
corr

etho

Prenons un exemple pour illustrer la mise en uvre du test. Imaginons que nous fassions
passer un test de raisonnement comme la tche de Wason1 50 sujets, mathmaticiens de
leur tat. On s'intresse dans cette exprience uniquement la russite ou lchec des
sujets la tche. On observe, dans cet chantillon, une frquence de russite de 20 %.
Sachant que dautres recherches ont montr que la frquence de russite cette tche est
de 12%, peut-on dire que les mathmaticiens russissent plus souvent ce test de
raisonnement que le reste de la population ?

Tableau 2.9 Effectifs observs (eobs) et thoriques (etho)


Pour nos sujets mathmaticiens, les effectifs observs sont les suivants : 10 sujets ont russi
et 40 ont chou au test. Les effectifs thoriques correspondent la frquence des russites
dans la population, soit donc 12% de 50, pour les russites et 88% d checs. Nos effectifs
thoriques sont tous suprieurs 5. La premire condition dutilisation de la distribution de
X2 est remplie. On peut donc calculer le X2corr. Il est de 2,32.

(10 6 0,5) 2 (40 44 0,5)


=
+
= 2,32
6
44
2

2
corr

Dans le cas de linfrence avec une distribution de X2 sur un protocole univari non structur
sur une variable nominal, seule la distribution de X2 un degr de libert nous intresse. Elle
est indique en rouge dans le tableau ci-dessous. Cette distribution nous indique, pour
chaque valeur de X2, la proportion dchantillons qui dpassent cette valeur. On peut lire
cette proportion dans la premire ligne du tableau. La proportion signale dans ce tableau
est une proportion bilatrale.

Voir le cours EL411 Activits mentales finalises pour une description de la tche.

15

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

Tableau 2.10 Illustration de la lecture de la table de X2


La notion de degrs de libert peut tre apprhende de plusieurs points de vue. Elle
correspond au nombre de comparaisons quon peut faire sur un groupe dobservations ou,
ce qui revient au mme, au nombre de contraintes sur un tableau de donnes, cest--dire,
connaissant les marges, le nombre de valeurs quil faut connatre pour reconstituer le
tableau. On voit dans notre exemple que notre tableau ne comporte que deux cases.
Connaissant le total gnral, une seule valeur est ncessaire la reconstitution du tableau.
Nous nirons pas plus loin dans la prsentation de cette notion de degr de libert qui sera
revue et approfondie en troisime anne.
Revenons linterprtation de notre test. Le X2 observ est de 2,32. Nous allons chercher
dans la table la valeur infrieure ou gale la plus proche de notre valeur observe. Cest la
valeur 1.64. Elle correspond une valeur de p de .20 quon peut lire en tte de colonne.
Cette dernire valeur tant suprieure au seuil repre de .05, le test est non significatif.
Linterprtation du test dpend du modle dchantillonnage dans lequel on sest plac. Dans
ce cas de figure, on peut adopter un modle combinatoire. De ce point de vue, cela revient
tester la typicit des mathmaticiens dans la population des sujets ayant eu rsoudre la
tche de Wason. Il est difficile de dire que notre chantillon a t tir au hasard. On ne peut
donc pas se placer dans le cadre de linfrence frquentiste et interprter la proportion
comme une probabilit. Nous nous en tiendrons donc lapproche combinatoire. Le test
stant rvl non significatif, lchantillon de sujets mathmaticiens doit tre considr
comme typique dun population o on observe 12 % de russite la tche de Wason.
Autrement dit, et pour rpondre la question pose, les mathmaticiens ne russissent pas
mieux la tche de Wason que les autres sujets.

3.

Infrence sur un protocole univari numrique

3.1. Utilisation dune distribution exacte


Contrairement aux variables nominales, il nexiste pas de distribution exacte pour les
variables numriques autres que celle quon peut dterminer par combinatoire. Nous ne
reviendrons pas sur la prsentation de cette procdure qui a dj t expose plus haut
(CHAPITRE 2 - 1.3.2).
Nous allons cependant dire un mot des proprits de la distribution dchantillonnage de la
moyenne ainsi obtenue et qui sont tout fait cruciales dans la justification des distributions
approches quon peut utiliser avec une variable numrique. Ces proprits nous sont
donnes par le thorme central limite selon lequel la distribution dchantillonnage de la
moyenne se rapproche dune distribution normale mesure que le nombre dobservations
augmente.
De ce thorme dcoulent trois proprits fondamentales de la distribution dchantillonnage
de la moyenne :
IED Universit de Paris 8

Version 10/11/08

16

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

La moyenne de la distribution dchantillonnage de la moyenne est gale la


moyenne de l a distribution parente.

Lorsque n/N est petit, la variance de la distribution dchantillonnage est


approximativement gale la variance de la population parente divise par la taille
de lchantillon.

Plus n est grand, plus la forme de la distribution dchantillonnage est proche dune
distribution normale.

Pour illustrer ce thorme, imaginons que nous ayons une population dans laquelle la
distribution des observations est uniforme. Pour des raisons de commodits, nous
considrerons une population trs rduite de 8 individus dans laquelle on tire un chantillon
de 3 individus. Le tableau ci-dessous, donne lespace des 56 chantillons possibles.

Tableau 2.11 Espace des chantillons

17

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

Bien que la distribution des valeurs dans la population soit plate, la distribution
dchantillonnage tend vers une distribution normale, malgr la petite taille de notre
population (voir le graphique ci-dessous).

Figure 2.1 Reprsentation graphique de la distribution des valeurs dans la population


(graphique de gauche) et de la distribution dchantillonnage (graphique de droite)
Selon le thorme central limite, cette tendance la normalit de la distribution
dchantillonnage est dautant plus marque que la taille de la population importante, ce qui
va autoriser le recours des distributions approches suivants une loi normale pour
linfrence sur la moyenne.

3.2. Utilisation dune distribution approche


3.2.1 Situer un chantillon dans une population
Nous venons de voir que dans le cas de lchantillonnage dans une population parente de
moyenne (lire mu) et de variance 2 (lire sigma carr), la distribution de la moyenne des
chantillons possibles a galement pour moyenne et pour variance 2/n. Ces proprits
permettent de transformer la distribution dchantillonnage en calculant pour chaque valeur
de la moyenne un cart rduit et ainsi dassocier une distribution des moyennes, une
distribution de Z qui sera galement une distribution normale centre sur une moyenne 0 et
un cart-type de 1. On peut donc, si on connat la variance parente, situer notre chantillon
dans la distribution de Z. On peut utiliser cette distribution de Z, mme si la distribution
parente nest pas normale. En effet, on peut montrer que si le nombre dobservations est
assez grand, la distribution des moyennes des chantillons tend dautant plus rapidement
vers une distribution normale que n est grand. Concrtement, on peut estimer que si n est
20, la distribution Z est une bonne approximation de la distribution dchantillonnage.
Voyons un exemple dapplication de ce test. Dans cet exemple de recherche, on fait passer
lensemble des 300 lves de 3me dun collge, dont 25 tudient le latin, un test de
comprhension verbale o la note reprsente le nombre de bonnes rponses sur 40
questions. On se demande si ltude du latin favorise le dveloppement de ce type de
comptence. Sachant que les latinistes ont obtenu une moyenne de 30 et lensemble des
lves de 3me, une moyenne de 28 et une variance de 25, peut-on dire que les latinistes ont
une meilleure russite ce test ?

IED Universit de Paris 8

Version 10/11/08

18

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

Notre population parente est constitue des 300 lves de 3me. Notre chantillon est
constitu des lves latinistes quon cherche situer dans la population. Dun point de vue
psychologique, on se demande si ltude du latin favorise le dveloppement des
comptences verbales mesures par le test. Si tel est le cas, la performance des latinistes
ce test devrait tre suprieure celles du reste de la population. La moyenne obtenue par
les latinistes est une des moyennes possibles dans la distribution dchantillonnage. Mais si
le nombre dchantillons prsentant une moyenne suprieure ou gale celle de nos
latinistes est suffisamment faible, on pourra considrer que les latinistes font exception dans
la distribution des moyennes au test. Autrement dit, que les latinistes sont atypiques, du ct
des valeurs leves, de la population ayant pass le test.
Concrtement, la distribution dchantillonnage sur les moyennes est dtermine par la
moyenne et lcart-type. Cest pourquoi on parle parfois propos des tests dinfrences sur
la moyenne ayant recours une distribution approche normale, de tests paramtriques.
Dans cet exemple, On en connat la moyenne et la variance qui sont respectivement de 28
et 25, et on sait que les 25 latinistes ont obtenu une moyenne de 30 au test. La mise en
uvre de ce test commence par le calcul de la valeur de z correspondant notre
chantillon. Cette valeur est appele zobs. La formule est la suivante :

zobs =

(m 0 )
0 / n

o m est la moyenne de lchantillon, 0 est la moyenne parente, et 20 variance parente. On


peut linstancier avec les valeurs de notre exemple ;

zobs =

(m 0 ) = (30 28) = 2
0 / n

5 / 25

La lecture de la table du Z se fait en recherchant dans la table la valeur de zobs et en lisant la


proportion associe. De nombreux manuels prsentent trois tables de la loi normale rduite:
lune cumule gauche, une autre cumule droite et enfin une table cumule bilatrale.

Si lhypothse de recherche tester situe lchantillon du ct des valeurs basses, il


faut utiliser la table cumule gauche.

Si au contraire lhypothse situe lchantillon du cot des valeurs hautes, il faut alors
utiliser la table cumule droite.

Dans le cas o lhypothse est non-oriente, on utilisera la table bilatrale.

Dans notre exemple, nous faisons lhypothse que les latinistes ont une meilleure
performance au test. On cherche donc savoir sils se situent du cot des valeurs hautes. Il
faut donc regarder la distribution cumule droite.
La proportion que nous lisons dans la table en regard de 2 est de .022. Elle reprsente la
proportion des chantillons dans lesquels la valeur de Z est suprieure 2. Cette proportion
tant infrieure au seuil repre de .025, le test peut tre dclar significatif.
Linterprtation du test dpend du modle dchantillonnage. Dans lapproche combinatoire,
il sagit de tester la typicit du groupe d'observations dans la population. Autrement dit, il
sagit de savoir si les latinistes sont ou non typiques de la population des lves de
troisime du point de vue de ce test de comprhension verbale. Le rsultat tant significatif,
lchantillon doit tre dclar atypique de la population.
On ne peut gure se placer du point de vue frquentiste dans cette recherche, dans la
mesure o les sujets composant lchantillon ne peuvent pas tre considrs comme

19

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

slectionns au hasard. On ne peut pas non plus considrs que toutes choses gales par
ailleurs, ces lves se diffrencient des autres uniquement par ltude du latin. La proportion
ne peut donc pas tre interprte comme une probabilit dobtenir un tel chantillon dans la
population.
Dun point de vue psychologique, la diffrence significative nous conduit affirmer que les
comptences verbales cible par le test de comprhension sont plus importantes dans le cas
de ltude du latin en 3me.
3.2.2 Situer un chantillon dans une distribution
Lorsquon cherche situer un chantillon dans une distribution, deux cas peuvent se
prsenter :

soit la variance parente est connue et dans ce cas on est ramen au cas prcdent
dans lequel la distribution approche utiliser est celle de Z.

soit la distribution parente nest pas connue et dans ce cas, la distribution approche
utiliser est la distribution de T de Student.

En effet, dans le cas o la variance parente nest pas connue, le test du Z nest pas
utilisable. On peut cependant estimer la variance parente en calculant la variance corrige.
On peut alors remplacer la variance parente dans la formule par la variance corrige.
Rappelons que la variance corrige est la somme des carrs des carts la moyenne
divise par n-1. On obtient donc la formule suivante :

tobs

(m 0 )
=
s/ n

avec s

(x m)
=

n 1

La dmarche est alors la mme que dans le cas du Z. La statistique ainsi calcule est la
statistique T. Il sagit galement dun cart rduit. La distribution de la statistique T est un
peu diffrente de celle du Z. Elle suit une distribution de t de Student (nu) gal n-1
degrs de libert. Les degrs de libert correspondent au nombre de comparaisons binaires
quon peut faire sur un groupe dobservations. Dans ce cas, est gale au nombre
dobservations moins 1. Nous reviendrons sur cette notion dans le cours troisime anne.
On estimera la proportion recherche laide de la table de la distribution du t de Student.
Pour illustrer lapplication du test du t de Student, nous allons reprendre lexemple de J-F
Richard (1999) sur ltude de lillusion de Muller-Lyer. Cette illusion consiste percevoir plus
grand un segment encadr par des chevrons intrieurs quun segment de mme longueur
encadr par des chevrons extrieurs, comme le montre la Figure 2.2.

Figure 2.2 Lillusion de Muller-Lyer


Ltude de cette illusion se fait en demandant aux sujets dajuster la seconde droite de sorte
quelle apparaisse de mme longueur que la premire. On mesure alors la diffrence entre la
longueur relle du second segment et la longueur propose par le sujet. Sur un groupe de 8
sujets, on a observ que lestimation tait en moyenne suprieure de 2,6 mm par rapport la

IED Universit de Paris 8

Version 10/11/08

20

STATISTIQUES INFERENTIELLES

JEAN-MARC MEUNIER

longueur relle, avec un cart-type corrig de 1,8. Nous allons dans un premier temps
calculer la valeur de tobs sur les donnes observes.

tobs =

(m 0 ) = (2,6 0) = 4,09
s/ n

1,8 / 8

La moyenne observe est de 2,6. La moyenne thorique correspond au cas o les sujets
estimeraient correctement la longueur du second segment, cest--dire ajusteraient un
second segment de mme longueur que le premier. Dans ce cas, lcart observ serait de 0.
Lcart-type corrig est de 1,8, et le nombre dobservations est de 8, puisque nous avons 8
sujets et une seule variable. Ce qui nous fait un tobs de 4,09. Il faut ensuite lire la proportion
recherche dans la table du t de Student. En tte de colonne de cette table, on trouve les
proportions dchantillons. La distribution du t de Student tant peu prs normale, comme
celle du Z, la distribution est symtrique. Les proportions bilatrales sont donc du double des
proportions unilatrales et la table ne signale que les valeurs absolues du t de Student. La
table nous prsente, pour un nombre de degrs de libert donn la valeur de t qui est
dpasse pour chaque proportion.

Tableau 2.12 Illustration de la lecture de la table du t de Student


Dans notre exemple, tobs gale 4,09. Nous avons 8 observations donc 7 degrs de libert.
Cest donc la ligne 7 quil nous faut regarder. Nous cherchons ensuite sur cette ligne la
valeur infrieure ou gale la plus proche notre tobs. Cette valeur est de 3,50. Nous testons
lhypothse que lestimation des sujets est suprieure la longueur relle du segment 1.
Notre hypothse est donc oriente du ct des valeurs leves. En consquence, nous
regarderons le seuil unilatral, et lisons en tte de colonne la proportion recherche. Elle est
de .005. Cette proportion tant infrieure au seuil repre de .025, le rsultat est dclar
significatif au seuil de .005. La valeur pour ce seuil tant infrieure la valeur observe, si
nous avions une table plus prcise, nous aurions eu une valeur de p infrieure .005. Cest
la raison pour laquelle, on voit souvent crit pour rendre compte du rsultat du test que p est
infrieur .005. Cela ne veut pas dire quil est significatif pour toutes les valeurs de p
infrieures .005, On voit en effet quil ne lest pas pour un seuil de .001. En fait, avec une
table suffisamment prcise ou laide de la fonction t de Student dun tableur, nous
aurions trouv une valeur de p comprise entre .005 et .001. Dans cet exemple, le tableur
nous renverrait une valeur de p de .002.

21

Version 10/11/08

IED Universit Paris 8

JEAN-MARC MEUNIER

STATISTIQUES INFERETIELLES

Linterprtation dun point de vue statistique dpend, comme toujours, du modle


dchantillonnage dans lequel on sest plac. Dans ce cas de figure, outre le modle
combinatoire qui est toujours possible, on peut se placer dans le cadre dun modle
frquentiste. Nous cherchons en effet tester une hypothse : dans lillusion de Muller-Lyer,
les sujets surestiment la longueur du second segment, ce qui les conduit ajuster sa
longueur par dfaut. Par ailleurs, on peut penser que les sujets sont tirs au hasard dans la
population de rfrence.
Dans le cadre dun modle combinatoire, on peut dire que le groupe de sujets observ est
atypique du ct des valeurs leves un seuil de .005. Dans le cadre dun modle
frquentiste, on peut dire que la probabilit dobserver un tel chantillon dans la population
est infrieure .005. On peut donc rejeter lhypothse nulle. Dans les deux cas, on peut
gnraliser lobservation que les sujets surestiment la longueur du segment de gauche.

IED Universit de Paris 8

Version 10/11/08

22

Vous aimerez peut-être aussi