Vous êtes sur la page 1sur 5

Chapitre 3 critères de choix des méthodes statistiques

Dans la pratique des analyses statistiques, on se heurte souvent au choix d’une méthode
d’analyse parmi une multitude de méthodes existantes. Pour faire un choix judicieux de
la méthode statistique, il faut :1) avoir une vue d’ensemble des méthodes les plus
utilisées dans son domaine d’étude ;2) être au courant de l’usage et des exigences de
chaque méthode et 3) tenir compte des variables (nombre et nature) utilisées en
relation avec les objectifs de recherche poursuivis. On peut ainsi envisager plusieurs
manières de choisir une méthode d’analyse. On peut les résumer comme suit :

1- Choix selon les paramètres comparés : selon qu’on souhaite comparer des
moyennes, des variances …etc, on aura besoin de choisir des méthodes (tests)
différentes. Voici un tableau de synthèse des tests usuels avec les situations de
leur emploi. Dans ce tableau, sont inclues les fonctions R pour réaliser ces
méthodes.

Eléments à comparer Test paramétrique Fonction R Test non Fonction R


paramétrique
1 moyenne obs/1 Student t.test (x,µ=µ0) Mann-Whitney wilcox.test()
moyenne théorique (compare les
médiane)
2 moyennes (échs Student t.test(x,y,paired=F) Mann-Whitney wilcox.test(x,y,paired=F)
indépendants) (médianes)
2 moyennes (échs Student t.test(x,y,paired=T) Wilcoxon wilcox.test(x,y,paired=T)
appariés (rangs signés
de Wilcoxon
(médianes)
>2moyennes (échs anova aov() Kruskal-Wallis kruskal.test()
indép) (médianes)
>2moyennes (échs Anova à mesures aov() Friedman(médi Friedman.test()
appariés) répétées ane)
2 variances Test de Fisher var.test() -------------- ……………..
( test F)
>2variances Test de Levene/ bartlett.test() -------- ---- ……………….
test de Bartlett
Proportions(%) 1 , 2 Test du khi-2 chisq.test() Test exact de fisher.test()
éch indép et >2 éch binom.test() fisher
indépendants prop.test()
Proportions Test Mac Nemar mcnemar.test() --------------
(appariés)
Association entre Corrélation de cor.test(x,y,method Corrélation de cor.test(x,y,method=’’spear
deux variables Pearson = ‘’pearson’’ ) Spearman man’’)
quantitatives
Vérifier la normalité Test de ks.test()
des données Kolmogorov-
smirnov
Test de shapiro.test()
shapiro-wilk
Conditions de validité des tests paramétriques

Test de Student pour échantillons indépendants:

1- Indépendance des échantillons


2- Normalité des données :On peut la vérifier avec un test de normalité (test de
shapiro-wilk) ou appréciée par un simple histogramme
3- Egalité des variances des populations mères : vérifiée avec le test F

Test de Student pour échantillons appariés

Normalité des différences entre les deux séries de mesure

Test du khi-2 :

Valable si tous les effectifs observés (expected) sont >= 5

Si au moins un effectif <5 mais >= 3 on réalise la correction de YATES

Si au moins un des effectifs observés<3 on réalise le test exact de fisher

Analyse de la variance :

Egalité des variances entres les populations : test de Bartlett/test de Levene

Normalité des données (ou des résidus) de toutes les populations comparées

Tests : Bartlett et Levene : valables si les données sont normales.

Avantages et inconvénients :

Tests paramétriques :

- se basent sur des distributions statistiques supposées des données


(distribution normale…) parfois difficiles voire impossibles à vérifier !
- Sont plus puissants ( rejet de H0 ‘’facilement’’ quand elle est fausse)

Tests paramétriques :

- S’appliquent sans faire aucune hypothèse sur la distribution des données ;


On dit que les tests non paramétriques sont ‘’robustes’’. En d’autres termes, ils
peuvent s’appliquer sans aucune contrainte…
- Ils s’appliquent notamment, lorsque les données sont peu nombreuses pour
pouvoir vérifier la normalité ou valider la convergence des données à une loi
connue…ou encore avec des donnés de dénombrement ou de score (note
attribuée…).
2- Choix selon la nature de données (variables)

Comme signalé plus haut, la nature des variables peut contraindre à l’usage d’un test
paramétrique ou non paramétrique. Le tableau ci- dessous, résume les différentes
situations. Toutefois, il serait utile de rappeler brièvement la signification des
différentes échelles que peut prendre la nature d’une variable. Référence :
https://www.univ-orleans.fr/deg/masters/ESA/GC/sources/CoursNP.pdf

- échelle nominale : Exemple une variable indicatrice du genre d’une personne a


deux modalités valant 0 (ou ’H’ ou ...) pour les hommes et 1 (ou ’F’ ou ...) pour les
femmes …etc.
- échelle ordinale : les modalités prises par la variable définissent une relation
d’ordre sur la population considérée. On ne peut en particulier pas interpréter les
écarts des valeurs prises par la variable en termes d’intensité : un classement ne
renseigne en rien sur la distance séparant les individus classés. L’exemple type
est celui des échelles de Likert que l’on rencontre fréquemment dans les
questionnaires, ayant des modalités de la forme : très satisfait / satisfait /
insatisfait / très insatisfait. Ces variables remplissent un objectif de
hiérarchisation
- échelle d’intervalle : En plus de la relation d’ordre précédente on dispose d’une
mesure relative à la distance séparant deux individus : contrairement à la mesure
précédente, on peut comparer les écarts existant entre des observations. Ainsi
si la distance entre A et B est de 4 et celle de B à C est de 2 alors on peut
conclure que A est deux fois plus éloigné de B que
B l’est de C. L’origine de ces mesures, le zéro, est fixé arbitrairement. Un
exemple est donné par la mesure des températures. On ne peut pas dans ce cas
interpréter en termes d’intensité le rapport existant entre deux observations :
si la variation de température entre 100 et 110 Celsius est la même que celle qu’il
y a entre 200 et 210, en revanche il ne fait pas deux fois plus chaud lorsque l’on
passe de 10 à 20 degrés Celsius
- échelle de rapport (ou de ratio ou proportionnelle) : C’est une échelle d’intervalle
caractérisée par l’existence d’une origine, un vrai zéro. De ce fait le rapport de
deux variables définit une intensité mesurable (on peut par exemple affirmer que
si deux personnes perçoivent respectivement 2000 et 2500 euros par mois alors
la seconde reçoit 1.25 fois le salaire de la première 2).
La nature des données peut contraindre l’emploi de tel ou tel test. Les tests
paramétriques exigent en effet que les variables de travail soient mesurées au moins
sur une échelle d’intervalle. Les tests non paramétriques sont les seuls à pouvoir être
mis en oeuvre sur des variables de type nominales ou ordinales. En pratique il est donc
important de connaître l’échelle de mesure des variables de travail. Enfin, vous savez
encore qu’au sein des variables quantitatives il est possible de distinguer celles à
observations discrètes, comme dans le cas des dénombrements, et celles à observations
continues. Naturellement si un test paramétrique suppose une distribution continue, il ne
pourra pas être employé dans le premier cas.

3- Choix selon les objectifs de recherche

Dans la pratique de l’analyse de données, on dispose de données issues d’expériences


réalisées dans le cadre d’un travail de recherche comportant des objectifs bien
définis. En fonction de ces objectifs, on est amené et parfois contraint d’utiliser
telle ou telle méthode.

- S’il s’agit de rendre compte de la variabilité des données relatives à une


population et de rendre les données plus lisibles, ordonnées et synthétisées ,
alors la méthode descriptive sera adoptée ;
- Pour rechercher des liens entre deux variables quantitatives, c’est la régression
linéaire qui sera utilisée…
- Pour rechercher un lien entre deux variables qualitatives, on utilise le test du
khi-2 ;
- Pour comparer une variable quantitative en fonction d’une variable qualitative, on
utilise le test de STUDENT (exemple :poids en fonction du sexe …etc.)
- Pour comparer une variable quantitative en fonction de deux ou plus de variables
qualitatives, on utilise l’analyse de la variance (anova) (exemple : rendement d’une
culture en fonction de ‘’type d’engrais’’ et ’’type de variété ‘’)
- Pour expliquer les variations d’une variable qualitative binaire (présence /
absence) en fonction de variables quantitatives et/ou qualitative, on utilise la
régression logistique
- Pour analyse un tableau complet (individus /variables quantitatives
continues=mesures) , on utilise une méthode multivariée , l’ACP (analyse en
composantes principales) ;
- Pour analyser un tableau de contingence (tableau croisé=enquêtes), on utilise une
méthode multivariée appelée AFC (analyse factorielle des correspondances) .

Vous aimerez peut-être aussi