Vous êtes sur la page 1sur 6

Choisir le test statistique appropri

Le plus souvent nous disposons de diffrents tests pour une recherche (validation
d'hypothse) donne, il est alors ncessaire d'employer une mthode rationnelle
pour choisir le test le plus appropri.
Nous avons vu que l'un des critres de choix est la puissance du test utilis. Mais
d'autres critres sont importants pour dterminer l'adquation d'un test lors de
l'analyse de donnes particulires. Ces critres concernent :
la faon dont l'chantillon a t ralis,
la nature de la population de laquelle a t tir l'chantillon et
la nature des mesures ralises.
3.1. Le modle statistique

Lorsque nous dfinissons la nature de la population et le mode d'chantillonnage,
nous tablissons un modle statistique (c'est dire une formulation mathmatique
des hypothses faites sur les observations). A chaque test statistique est associ un
modle et des contraintes de mesure. Ce test n'est alors valide que si les conditions
imposes par le modle et les contraintes de mesure sont respectes. Il est difficile
de dire si les conditions d'un modle sont remplies, et le plus souvent nous nous
contentons d'admettre qu'elles le sont. Aussi devrions nous prciser, chaque fois :
"Si le modle utilis et le mode de mesure sont corrects, alors....).
Il est clair que moins les exigences imposes par le modle sont nombreuses
et restrictives, plus les conclusions que l'on tire sont gnrales.
De ce fait, les tests les plus puissants sont ceux qui ont les hypothses les
plus strictes. Si ces hypothses sont valides, ces tests sont alors les mieux
mme de rejeter H
0
quand elle est fausse et de ne pas rejeter H
0
quand elle
est vraie.
Exemple : Le test de t (test paramtrique) est un des tests statistiques les plus
puissants. Mais avant d'accepter les conclusions d'un tel test, nous devons vrifier
que ses conditions d'utilisations sont remplies. Ces conditions sont les suivantes :
1. Les observations doivent tre indpendantes. La slection d'une observation
pour un chantillon ne doit pas biaiser les chances de slectionner une autre
observation pour cet chantillon. [Pour que l'indpendance des observations
soit respecte, il faut :
* dans le cas du tirage d'une boule dans une urne contenant des boules noires
et des blanches dans certaines proportions, ou de cartes dans un jeu de cartes
jouer, il faut remettre boule et carte dans l'ensemble de dpart et brasser
soigneusement l'ensemble
** sinon considrer que l'on a affaire une urne illimite contenant un
nombre tellement gand de boules que l'extraction d'une ne modifie
pratiquement pasles proportions donnes]
2. Les observations doivent tre tires de populations normales (exemple :
courbe de Gauss ou courbe normale rduite).
3. Ces populations doivent avoir la mme variance (condition
d'homoscdasticit; Homoscedasticity). La validit de cette hypothse peut
tre contrle l'aide des tests d'galit de variance.
4. Les variables doivent tre mesures dans une chelle de mesure permettant
l'utilisation des oprations arithmtiques.
A part l'hypothse d'homoscdasticit, qui peut tre teste, les autres
hypothses sont considres comme vraies.
Quand les hypothses constituant le modle statistique d'un test ne sont pas
remplies, il est alors difficile de dire quel est le pouvoir rel du test et d'estimer la
signification de son rsultat.

3.2. Nature des observations et chelle de mesure

Il est donc trs important de considrer la nature des donnes (observations) que
l'on va tester. D'elle dpend la nature des oprations possibles et donc des
statistiques utilisables dans chaque situation.

Les observations peuvent tre soit quantitatives soit qualitatives.

Les donnes quantitatives comprennent les dnombrements (ou comptages) et les
mesures (ou mensurations).
Dans le cas des dnombrements, la caractristique tudie est une variable discrte
ou discontinue, ne pouvant prendre que des valeurs entires non ngatives (nombre
de fruits par rameau, nombre de ptales par fleurs, nombre de tte de btail..). Il
suffit de compter le nombre d'individus affects par chacune des valeurs
(frquences) de la variable.
exemple : nombre de ptales par fleurs dans un chantillon de 1000 fleurs de
Renonculus repens (Vessereau, 1948)
Nombre de ptales par fleur 3 4 5 6 7
Nombre de fleurs (Frquences) 1 20 959 18 2

Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface,
concentration, temprature..). Les valeurs possibles sont illimits mais du dait des
mthodes de mesures et du degr de prcision de l'appareil de mesure, les donnes
varient toujours de faon discontinue.

Les mensurations peuvent tre ralises dans deux chelles de mesure : l'chelle de
rapport et l'chelle d'intervalle. Elles sont manipulables suivant les oprations de
l'arithmtique.
L'chelle de rapport est caractrise par l'existence d'un zro absolu et de
distances de taille connue entre deux valeurs quelconque de l'chelle. C'est le cas de
la mesure de la masse ou du poids. En effet, les chelles de mesure des poids en
pounds ou en grammes ont toutes deux un zro absolu et le rapport entre deux
poids quelconque d'une chelle est indpendant de l'unit de mesure (le rapport des
poids de deux objets mesurs en pounds et celui de ces mmes objets mesurs en
grammes sont identiques).
Dans l'chelle d'intervalle, le point zro et l'unit de mesure sont arbitraires mais
les distances entre deux valeurs quelconques de l'chelle sont de taille connue. C'est
le cas de la mesure de la temprature (chelle Fahrenheit ou Celsius). Ces deux
chelles sont compatibles avec l'utilisation de tests paramtriques.


Les donnes qualitatives peuvent tre assimiles au cas des variables discontinues,
en supposant que les diffrentes variantes du caractre qualitatif sont ranges dans
un ordre correspondant par exemple la suite des nombres entiers positifs
(diffrentes couleurs, diffrents degrs d'infection...).
Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure :
chelle de rangement et l'chelle nominale. Ces donnes ne sont pas manipulables
par l'arithmtique.
Dans l'chelle ordinale (de rangement), il existe une certaine relation entre les
objets du type plus grand que, suprieur , plus difficile que, prfre ....
Exemple : Les nombres de candidats un examen obtenant les degrs A, B, C. Le
degr A est meilleur que le degr B, lui-mme meilleur que le degr C. Une
transformation ne changeant pas l'ordre des objets est admissible. La statistique la
plus approprie pour dcrire la tendance centrale des donnes est la mdiane.

Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels
divers objets appartiennent. C'est le cas des numros d'immatriculation des voitures
ou de scurit sociale (chanes de caractres). Le mme nombre peut tre donn aux
diffrentes personnes habitant le mme dpartement ou de mme sexe constituant
des sous-classes. Les symboles dsignant les diffrentes sous-classes dans l'chelle
nominale peuvent tre modifis sans altrer l'information essentielle de l'chelle.
Les seules statistiques descriptives utilisables dans ce cas sont le mode, la
frquence... et les tests applicables seront centrs sur les frquences des diverses
catgories.
Ces deux dernires chelles ne permettent que l'utilisation de tests non
paramtriques.


3.3. Tests paramtriques et non paramtriques : avantages et inconvnients


Un test paramtrique requiert un modle fortes contraintes (normalit des
distributions, galit des variances) pour lequel les mesures doivent avoir t
ralises dans une chelle au moins d'intervalle. Ces hypothses sont d'autant plus
difficiles vrifier que les effectifs tudis sont plus rduits.

Un test non paramtrique est un test dont le modle ne prcise pas les conditions
que doivent remplir les paramtres de la population dont a t extrait l'chantillon.
Cependant certaines conditions d'application doivent tre vrifies. Les chantillons
considres doivent tre alatoires [lorsque tous les individus ont la mme
probabilit de faire partie de l'chantillon] et simples [tous les individus qui doivent
former l'chantillon sont prlevs indpendamment les uns des autres] (7), et
ventuellement indpendants les uns des autres [emploi de tables de nombres
alatoires]. Les variables alatoires prises en considration sont gnralement
supposes continues.

3.3.1. Avantages des tests non paramtriques
1. Leur emploi se justifie lorsque les conditions d'applications des autres
mthodes ne sont pas satisfaites, mme aprs d'ventuelles transformation de
variables.
2. Les probabilits des rsultats de la plupart des tests non paramtriques sont
des probabilits exactes quelle que soit la forme de la distribution de la
population dont est tir l'chantillon.
3. Pour des chantillons de taille trs faible jusqu' N = 6, la seule possibilit
est l'utilisation d'un test non paramtrique, sauf si la nature exacte de la
distribution de la population est prcisment connue. Ceci permet une
diminution du cot ou du temps ncessaire la collecte des informations.
4. Il existe des tests non paramtriques permettant de traiter des chantillons
composs partir d'observations provenant de populations diffrentes. De
telles donnes ne peuvent tre traites par les tests paramtriques sans faire
des hypothses irralistes.
5. Seuls des tests non paramtriques existent qui permettent le traitement de
donnes qualitatives : soit exprimes en rangs ou en plus ou moins (chelle
ordinale), soit nominales.
6. Les tests non paramtriques sont plus facile apprendre et appliquer que
les tests paramtriques. Leur relative simplicit rsulte souvent du
remplacement des valeurs observes soit par des variables alternatives,
indiquant l'appartenance l'une ou l'autre classe d'observation, soit par les
rangs, c'est--dire les numros d'ordre des valeurs observes ranges par
ordre croissant. C'est ainsi que la mdiane est gnralement prfre la
moyenne, comme paramtre de position.
3.3.2. Dsavantages des tests non paramtriques
1. Les tests paramtriques, quand leurs conditions sont remplies, sont les plus
puissants que les tests non paramtriques.
2. Un second inconvnient rside dans la difficult a trouver la description des
tests et de leurs tables de valeurs significatives, surtout en langue franaise.
Heureusement, les niveaux de significativit sont donns directement par les
logiciels statistiques courants.
On choisira les tests appropris en fonction du type de mesure, de la forme de la
distribution de frquences et du nombre d'chantillons dont on dispose (voir
schma).