Vous êtes sur la page 1sur 88

Choix des tests et analyses statistiques

Dans chaque situation nous indiquons des outils utilisables.


Lorsque les tests sont réalisables dans un tableur (MS Excel ou OpenOffice Calc) la fonction nécessaire est indiquée.
Nos "utilitaires" sous Excel (ou Calc) sont distribués gratuitement ici
Pour les logiciels libres, nous avons privilégié R qui peut être téléchargé ici
Avec le logiciel R nous avons privilégié l'interface graphique R commander (Rcmdr) et éventuellement ses extensions.
A chaque fois qu'il existe une solution avec cette interface, elle est indiquée.
Les commandes nécessaires pour le logiciel R sont détaillées dans nos utilitaires ou nos didacticiels.
Remarque importante : de nombreuses bibliothèques et fonctions du logiciel R proposent diverses options
pour réaliser les calculs. Nous n'en indiquons ici qu'une seule, relativement simple, pour chaque situation.

N.B. Les décisions de traitement statistique des données sont à prendre en amont d'une expérimentation ou d'une étude.
Les conditions de validité de chaque test sont indiquées dans les feuilles ad hoc.
Pour le calcul des effectifs nécessaires ou de la puissance des tests statistiques, voir l'utilitaire "Puissance.xlsx"

Les mesures sont uniquement quantitatives


Une quantitative sans répétitions sur les mêmes individus
Un seul échantillon
Comparer la moyenne (ou la médiane) à une valeur théorique

Comparer deux échantillons ou plus


Comparer deux échantillons indépendants
Comparer plus de deux échantillons indépendants
Comparer des échantillons indépendants deux à deux quand il y en a plus de deux

Une quantitative avec répétitions sur les mêmes individus


Un seul échantillon - Tester si le changement est significatif
Une seule répétition (= 2 séries appariées)
Plus d'une répétition (= 3 séries appariées ou plus)
Calculer la concordance entre deux ou plusieurs séries de mesures

Deux échantillons ou plus


Comparer des échantillons indépendants avec mesures répétées

Deux quantitatives sans répétition sur les mêmes individus


Un seul échantillon
Connaître et tester la corrélation entre les deux quantitatives
Expliquer et/ou prévoir une variable quantitative par une autre
Deux échantillons ou plus
Rechercher les variables permettant de discriminer des catégories

Plus de deux quantitatives sans répétition sur les mêmes individus


Un seul échantillon
Connaître et tester la concordance entre les variables quantitatives
Expliquer et/ou prévoir une variable quantitative par plusieurs autres
Expliquer et/ou prévoir plusieurs variables quantitatives par plusieurs autres
Deux échantillons ou plus
Rechercher les variables permettant de discriminer des catégories

Observer les relations entre des variables par une analyse multifactorielle descriptive

Les mesures sont uniquement qualitatives


Les mesures sont ordinales
Une qualitative ordinale sans répétitions sur les mêmes individus
Un seul échantillon : comparer une distribution de fréquences observées
à une distribution théorique

Comparer deux échantillons


Comparer plus de deux échantillons
Faire des comparaisons deux à deux quand il y a plus de deux échantillons

Une qualitative ordinale avec répétitions sur les mêmes individus


Un seul échantillon - Tester le changement au cours des répétitions
Une seule répétition (= 2 séries appariées)
Plus d'une répétition (= plus de deux séries appariées)
Comparer les répétitions deux à deux quand il y en a plus de deux

Deux échantillons ou plus


Comparer des échantillons indépendants

Deux qualitatives ordinales ou plus sans répétition sur un seul échantillon


Tester la corrélation entre deux variables qualitatives ordinales
Tester la concordance entre plus de deux variables qualitatives ordinales

Deux qualitatives ordinales ou plus sans répétition sur plusieurs échantillons


Tester l'indépendance entre deux variables ordinales croisées

Les mesures sont nominales


Certaines variables sont multinominales
Un seul échantillon :
Comparer une distribution de fréquences observées à une distribution théorique

Plusieurs échantillons indépendants


Croisement de deux variables multinominales (= tableau de contingence à deux dimensions)
Croisement de trois variables multinominales (= tableau de contingence à trois dimensions)

Tester la contingence (= degré d'association) entre deux variables multinominales


Tester l'accord entre des juges appliquant des catégories nominales à des objets

Les variables sont uniquement binomiales


Un seul échantillon
Comparer une proportion à une valeur théorique

Un seul échantillon : deux séries appariées (= mesures répétées)


Tester le changement entre les deux mesures

Plus de deux séries appariées (= mesures répétées)


Tester le changement entre les mesures

Deux échantillons indépendants ou plus


Comparer deux proportions mesurées sur deux échantillons indépendants
Comparer une série de proportions observées sur des échantillons différents

Tester l'accord entre des juges appliquant des catégories binomiales à des objets
écessaire est indiquée.

lement ses extensions.

haque situation.

tation ou d'une étude.

"Puissance.xlsx".

Feuille A

Feuille B
Feuille C
Feuille D

Feuille E
Feuille F1
Feuille F2

Feuille G

Feuille H
Feuille I

Feuille J

Feuille K
Feuille I
Feuille I
Feuille J

Feuille L

Feuille M

Feuille N
Feuille O
Feuille P

Feuille Q
Feuille R
Feuille S

Feuille T

Feuille U1
Feuille U2

Feuille U3

Feuille M

Feuille V1
Feuille V2

Feuille W1
Feuille W2

Feuille X1
Feuille Y

Feuille Z

Feuille X2
Feuille V1

Feuille W2
La moyenne ou la médiane d'une série de mesures quantitatives sans répétitions
est comparée à une valeur théorique

Exemples
La moyenne (ou la médiane) de la série est-elle différente de celle obtenue d'habitude ?
La moyenne (ou la médiane) de la série est-elle différente de celle d'une mesure de référence ?
La moyenne (ou la médiane) obtenue est-elle différente de zéro ?
La moyenne de la glycémie mesurée sur 35 patients touchés par un certain diabète
est-elle significativement différente de 1.5 g/l ?

1. Comparaison de la moyenne observée à une valeur théorique


1.1. Il y a 30 valeurs ou plus
1.1.1. Conditions de validité de la comparaison
La moyenne théorique est supposée provenir d'une population normalement distribuée.
Vérifier la normalité de la distribution des valeurs : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk

1.1.2. Test de comparaison si la normalité est vérifiée : test de t de Student


Utilitaire : "Comparaison d'une moyenne observée à une moyenne théorique.xlsx"
R : t.test {stats}
Rcmdr / Statistiques / Moyennes / Test t univarié

1.1.3. Test si la normalité n'est pas vérifiée


Voir ci-dessous comparaison d'une médiane observée à une valeur théorique.

1.2. Il y a moins de 30 valeurs


Voir ci-dessous comparaison d'une médiane observée à une valeur théorique.

2. Comparaison d'une médiane observée à une valeur théorique


2.1. Aucune condition de validité
2.2. Comparaison : test de Wilcoxon
Utilitaire : "Wilcoxon.xlsx" (limité à 50 valeurs)
R : wilcox.test {stats}
Rcmdr : Statistiques / Tests non paramétriques / Test Wilcoxon apparié
quantitatives sans répétitions
éorique

de référence ?

malement distribuée.

à 500 valeurs)

oyenne théorique.xlsx"
Comparaison de deux échantillons indépendants
pour une mesure quantitative

N.B. Cette feuille concerne uniquement les cas où les mesures n'ont été réalisées que sur deux échantillons
Pour les comparaisons deux à deux après des mesures faites sur plus de deux échantillons, voir

Exemples
Mesure du poids de deux variétés de tomates. Les deux poids sont-ils significativement différents ?
Dosage d'un composé du sang dans un lot témoin et un lot traité.
Le traitement affecte-t-il significativement la dose du composé ?
Comptage du nombre de cellules dans une structure anatomique dans deux groupes expérimentaux.
Le nombre de cellules change-t-il en fonction des conditions expérimentales ?

1. Comparaison par un test paramétrique


1.1. Vérification des conditions de validité
1.1.1. Distribution normale
Vérification de la normalité de la distribution de chaque échantillon : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité n'est pas vérifiée


Voir plus bas comparaison par un test non paramétrique.

1.1.2. Variances homogènes (la condition n'est pas obligatoire mais le renseignement est nécessaire)
Vérification de l'homogénéité des variances : test F
Excel ou Calc : fonctions statistiques / Test F
R : var.test {stats} (échantillons empilés)
Rcmdr : Statistiques / Variances / Test F de deux variances. (échantillons empilés)

1.2. Conditions de validité vérifiées


Test t de Student
Excel ou Calc : TEST.STUDENT (choisir "variances égales")
R : t.test {stats} (Echantillons empilés - Préciser var.equal=TRUE)
Rcmdr : Statistiques / Moyennes / t test indépendant (échantillons empilés)

1.3. Condition d'homogénéité des variances non vérifiée : correction de Welch.


N.B. Des variances très inégales peuvent suggérer un biais expérimental rendant inopérante la comparaison e
Dans tous les cas la cause de l'inégalité des variances doit être examinée.
Test t de Student avec correction de Welch
Excel ou Calc : TEST.STUDENT (choisir "variances inégales")
R : t.test {stats} (Echantillons empilés)
Rcmdr : Statistiques / Moyennes / t test indépendant (Echantillons empilés)

Test F de Welch
R : oneway.test {stats} (Echantillons empilés)

2. Comparaison par un test non paramétrique


2.1. Test de permutations utilisant les valeurs numériques
Conditions de validité
2.1.1. Les deux échantillons doivent avoir des variances homogènes
Vérification de l'homogénéité des variances : test F
Excel ou Calc : fonctions statistiques / Test F
R : var.test {stats} (Echantillons empilés)
Rcmdr : Statistiques / Variances / Test F de deux variances. (Echantillons empilés)
Si les variances ne sont pas homogènes
Voir plus bas : Test sur les rangs.

2.1.2. Les données quantitatives doivent avoir la même distribution, quelle qu'elle soit.

Conditions de validité vérifiées


Tests de comparaison des tendances centrales
R : oneway_test {coin} (Echantillons empilés)
R : perm.t.test {RVAideMemoire} (Echantillons empilés)
Rcmdr : RcmdrPlugin.coin / Independant location tests / Two/K Sample Permutation Test

2.2. Test utilisant les rangs de valeurs


Conditions de validité
2.2.1. Les données quantitatives doivent avoir la même distribution, quelle qu'elle soit.
2.2.2. Eviter ce test s'il y a beaucoup d'ex-æquo.

Outils
Tests de comparaison des médianes
Utilitaire : "Mann & Whitney.xlsx" (Echantillons côte à côte, limité à 50 valeurs pour le plus grand é
R : wilcox.test {stats} (Echantillons empilés)
R : wilcox_test {coin} (Permutations sur les rangs - Echantillons empilés)
Rcmdr : Statistiques / Tests non paramétriques / Test Wilcoxon bivarié
ue sur deux échantillons.
x échantillons, voir feuille D.

ativement différents ?

roupes expérimentaux.

n : test de Shapiro & Wilk


500 valeurs)

enseignement est nécessaire)

s. (échantillons empilés)

al rendant inopérante la comparaison envisagée.

riances. (Echantillons empilés)


n, quelle qu'elle soit.

wo/K Sample Permutation Test (Echantillons empilés)

n, quelle qu'elle soit.

limité à 50 valeurs pour le plus grand échantillon)

lons empilés)
oxon bivarié (Echantillons empilés)
Test de l'hétérogénéité entre plus de deux échantillons indépendants
pour une mesure quantitative - Analyse de variance

N.B. Pour les comparaisons deux à deux après des mesures faites sur plus de deux échantillons, voir

Exemples
Avec un seul facteur (= une dimension)
Mesure du poids de trois (ou plus) variétés de tomates.
Y a-t-il au moins une variété ayant un poids significativement différent de celui des autres ?
Dosage d'un composé du sang dans un lot témoin et plusieurs lots traités.
Y a-t-il au moins un traitement impliquant un taux du composé significativement différent de celui du témoin
Comptage du nombre de cellules dans une structure anatomique dans plus de deux groupes expérimentaux.
Le nombre de cellules change-t-il significativement en fonction des groupes ?

Avec plusieurs facteurs (= plusieurs dimensions)


Mesure du poids de trois (ou plus) variétés de tomates cultivées avec deux méthodes différentes (ou plus).
Dans quelle mesure la variété ou la méthode ou l’interaction des deux affectent-elles le poids des tomates
Dosage d'un composé chez des individus des deux sexes, de groupe sanguin différent et de régimes alimentaires

1. Méthodes paramétriques
1.1. Vérification des conditions de validité
Distribution normale de chaque échantillon
Vérification de la normalité de la distribution de chaque échantillon : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité n'est pas vérifiée


Si la normalité de chaque distribution n’est pas vérifiée, l’ANOVA reste robuste mais moins recomm
Voir plus bas comparaison par un test non paramétrique.

Homogénéité des variances des échantillons


Vérification de l'homogénéité des variances de plus de deux échantillons : test de Levene
Utilitaire : "Test Levene.xlsx" (limité à 20 échantillons d'effectif n = 300 au plus - Echantillons côte à
Utilitaire : "Puissance.xlsx" pour 3, 4 ou 5 échantillons - Réalise aussi l'ANOVA à une dimension
R : leveneTest {car} (Echantillons empilés)
Rcmdr : Statistiques / Variances / Test de Levene (Echantillons empilés)

Distribution normale des résidus


La normalité de la distribution des résidus doit toujours être vérifiée à l'issue d'une ANOVA.
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk
Rcmdr : Modèles / Graphes / Diagnostics graphiques

Absence d'auto-corrélation des résidus


Il ne doit pas y avoir d'auto-corrélations dans les résidus.
Vérification statistique par le test de Durbin-Watson.
R : durbinWatsonTest {car}
Rcmdr : Modèles / Diagnostics numériques / Test Durbin-Watson d'autocorrélation
Vérification visuelle par graphique.
Rcmdr : Modèles / Graphes / Diagnostics graphiques

1.2. Conditions de validités vérifiées


Analyse de variance (=ANOVA)
Excel : utilitaire d'analyse / analyse de variance : un facteur (Echantillons côte à côte)
Excel : utilitaire d'analyse / analyse de variance : deux facteurs avec/sans répétition d'expérience
Calc : OOoStats / Basic Stats / 1-Way ANOVA (Echantillons empilés)
Utilitaire : "Puissance.xlsx" pour 3, 4 ou 5 échantillons - Réalise aussi l'ANOVA à une dimension
Utilitaire : "ANOVA 2 facteurs indépendants.xlsx" (limité à 7 niveaux par facteur et n= 30 au plus - E
R : aov {stats} ou lm {stats} (Echantillons empilés)
Rcmdr : Statistiques / Moyennes / ANOVA à un facteur ou Anova à plusieurs facteurs

1.3. Condition de d'homogénéité des variances non vérifiée : correction de Welch


R : oneway.test {stats} (Echantillons empilés)

2. Méthodes non paramétriques


2.1. Méthodes par permutations utilisant les valeurs numériques
Condition de validité
Tous les échantillons doivent avoir des variances homogènes.
Vérification de l'homogénéité des variances de plus de deux échantillons : test de Levene
Utilitaire : "Test Levene.xlsx" (limité à 20 échantillons d'effectif n = 300 au plus - Echantillo
R : leveneTest {car} (Echantillons empilés)
Rcmdr : Statistiques / Variances / Test de Levene (Echantillons empilés)

Si les variances ne sont pas homogènes


Voir plus bas : Test sur les rangs.

Conditions de validité vérifiées


Analyses à un seul facteur
R : oneway_test {coin} (Echantillons empilés)
R : lmp {lmperm} (Echantillons empilés)

Analyse à plusieurs facteurs


R : lmp {lmperm} (Echantillons empilés)

2.2. Méthodes utilisant les rangs des valeurs


Conditions de validité
1. Les données quantitatives doivent avoir la même distribution, quelle qu'elle soit.
2. Eviter ce test s'il y a beaucoup d'ex-æquo.

Outils
Analyse à un seul facteur seulement
Utilitaire : "Kruskal & Wallis.xlsx" (limité à 10 échantillons et n=50 pour l'échantillon le plus grand - E
R : kruskal.test {stats} (Echantillons empilés)
R : kruskal_test {coin} - Permutations sur les rangs (Echantillons empilés)
Rcmdr : Statistiques / Tests non paramétriques / Test de Kruskal-Wallis
hantillons indépendants
se de variance

chantillons, voir feuille D.

rent de celui des autres ?

nificativement différent de celui du témoin ?


us de deux groupes expérimentaux.

ux méthodes différentes (ou plus).


eux affectent-elles le poids des tomates ?
nguin différent et de régimes alimentaires différents.

: test de Shapiro & Wilk


500 valeurs)

NOVA reste robuste mais moins recommandée.

ntillons : test de Levene


ctif n = 300 au plus - Echantillons côte à côte)
alise aussi l'ANOVA à une dimension (limité à 100 individus - Echantillons côte à côte)

lons empilés)

e à l'issue d'une ANOVA.


500 valeurs)

atson d'autocorrélation
(Echantillons côte à côte)
eurs avec/sans répétition d'expérience (Effectifs équilibrés)

alise aussi l'ANOVA à une dimension (limité à 100 individus - Echantillons côte à côte)
niveaux par facteur et n= 30 au plus - Echantillons côte à côte)

Anova à plusieurs facteurs (Echantillons empilés)

x échantillons : test de Levene


ons d'effectif n = 300 au plus - Echantillons côte à côte)

(Echantillons empilés)

uelle qu'elle soit.

n=50 pour l'échantillon le plus grand - Echantillons côte à côte)

illons empilés)
uskal-Wallis (Echantillons empilés)
Comparaisons d'échantillons deux à deux
après des mesures quantitatives sur plus de deux échantillons indépendants

Exemples
Des mesures sont effectuées sur cinq espèces de fleurs.
On souhaite ensuite comparer les espèces deux à deux.
Des mesures sont effectuées sur un échantillon témoin et trois échantillons recevant des doses différentes.
On souhaite ensuite comparer chaque lot traité au témoin.

Remarque : en général, ces tests sont appliqués en aval d’un test des effets globaux.
(exemples de tests d’effets globaux : feuilles C, F1,F2,G).

1. Comparaisons par des tests paramétriques


1.1. Conditions de validité.
Voir feuille B, § 1.1.

1.2. Conditions de validité vérifiées


1.2.1. Tests corrigeant automatiquement le seuil alpha
R : pairwise.t.test {stats} (Echantillons empilés)
Rcmdr : Statistiques / Moyennes / ANOVA 1 facteur - Cocher "Comparaisons multiples des moyennes"

1.2.2. Correction a posteriori de valeurs de p calculées sans corrections


Utilitaire : "Correction de Holm pour comparaisons multiples.xlsx" (Limité à 500 valeurs de p)
Utilitaire : "Contrôle du FDR pour comparaisons multiples.xlsx" (Limité à 500 valeurs de p)
R : p.adjust {stats}

1.3. Conditions de validité non vérifiées


Voir ci-dessous.

2. Comparaisons par des tests non paramétriques


2.1. Méthodes par permutations utilisant les valeurs numériques
2.1.1. Tests corrigeant automatiquement le seuil alpha
Utilitaire : "ANOVA et comparaisons multiples non paramétriques avec R.xlsx" (Didacticiel)
R : pairwise.perm.t.test {RVAideMemoire} (Echantillons empilés)

2.1.2. Correction a posteriori de valeurs de p calculées sans corrections


Utilitaire : "Correction de Holm pour comparaisons multiples.xlsx" (Limité à 500 valeurs de p)
Utilitaire : "Contrôle du FDR pour comparaisons multiples.xlsx" (Limité à 500 valeurs de p)
R : p.adjust {stats}

2.2. Méthodes utilisant les rangs


Utilitaire : "ANOVA et comparaisons multiples non paramétriques avec R" (Didacticel)
Utilitaire : "Kruskal & Wallis" (limité à 10 échantillons et 50 valeurs au plus - Echantillons côte à côte)
R : nparcomp {nparcomp} (Echantillons empilés)
deux
ntillons indépendants

des doses différentes.

araisons multiples des moyennes"

mité à 500 valeurs de p)


é à 500 valeurs de p)

c R.xlsx" (Didacticiel)

mité à 500 valeurs de p)


é à 500 valeurs de p)

c R" (Didacticel)
plus - Echantillons côte à côte)
Deux séries appariées - Test du changement après une répétition
d'une mesure quantitative sur un seul échantillon.

Exemples
Mesure du poids d'animaux d'un même échantillon avant et après un traitement.
Le traitement affecte-til significativement le poids des animaux ?
Comparaison du bras droit et du bras gauche pour le tour du poignet dans un groupe de sportifs.
Le tour du poignet droit et du poignet gauche est-il significativement différent
chez les joueurs de tennis professionnels ?
Comparaison d'une performance cognitive selon l'heure dans un groupe de sujets testés le matin et le soir.
La performance cognitive change-t-elle significativement en fonction de l’heure de la journée ?

1. Comparaison par un test paramétrique


1.1. Conditions de validité
Normalité de la distribution des différences entre les deux séries : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mshapiro {RVAideMmemoire}
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité des différences n'est pas vérifiée,


voir plus bas comparaison par un test non paramétrique.

1.2. Comparaison des deux séries : test t de Student


Excel ou Calc : TEST.STUDENT
R : t.test {stats} (2 séries côte à côte - préciser 'paired=TRUE')
Rcmdr : Statistiques / Moyennes / t-test apparié (2 séries côte à côte)

2. Comparaison par un test non paramétrique


2.1. Test par permutations utilisant les valeurs numériques
R : perm.t.test {RVAideMemoire} (2 séries empilées - préciser 'paired=TRUE')
R : symmetry_test {coin} (2 séries empilées)

2.2. Test utilisant les rangs des valeurs : test de Wilcoxon


Utilitaire : "Wilcoxon.xlsx" (limité à 50 paires de valeurs au plus - 2 séries côte à côte)
R : wilcox.test {stats} (2 séries côte à côte ou empilées - préciser 'paired=TRUE')
R : wilcoxsign_test {coin} (2 séries côte à côte)
atin et le soir.
Plus de deux séries appariées - Test du changement au cours de plusieurs répétiti
d'une mesure quantitative sur un seul échantillon.

Exemples
On mesure le taux d'erreurs à chaque séance au cours de plusieurs séances d'apprentissage chez une série de sujets.
Le taux d'erreurs change-t-il significativement au cours des séances ?
On dose quotidiennement la concentration d'un composé du sang pendant 4 jours après un traitement..
La concentration du composé a-t-elle changé significativement au cours du temps ?

1. Méthodes paramétriques
1.1. Conditions de validité
1.1.1. Normalité des distributions de chaque série
Vérification de la normalité de la distribution de chaque série : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité n'est pas vérifiée


Voir plus bas comparaison par un test non paramétrique.

1.1.2. Homogénéité des variances de chaque série


Vérification de l'homogénéité des variances de plus de deux séries : test de Levene
Utilitaire : "Test Levene.xlsx" (limité à 20 séries d'effectif n = 300 au plus - Séries côte à côte)
R : leveneTest {car} (Séries empilées)
Rcmdr : Statistiques / Variances / Test de Levene (Séries empilées)

1.1.3. Symétrie composée de la matrice des covariances


Utilitaire : "ANOVA 1 dim appariées.xlsx" (L'utilitaire réalise l'analyse et vérifie les conditions de valid
R : ezANOVA {ez} - (réalise également l'analyse de variance)
R : mauchly.test {stats}

1.1.4. Distribution normale des résidus

1.2. Analyse de variance


Si les conditions de validité sont vérifiées
Utilitaire : "ANOVA 1 dim appariées.xlsx" (Limité à 100 individus et 15 répétitions)
L'utilitaire réalise l'analyse et vérifie les conditions de validité.
R : aov {stats} ou lmer {lmerTest} (Echantillons empilés)
R : manova {stats} (Echantillons empilés)
Rcmdr : Statistiques / Ajustement de modèles / Modèle linéaire (Echantillons empilés)

2. Méthodes non paramétriques


2.1. Méthodes utilisant les valeurs numériques
2.1.1. Condition de validité : homogénéité des variances
Vérification de l'homogénéité des variances de plus de deux séries : test de Levene
Utilitaire : "Test Levene.xlsx" (limité à 20 séries d'effectif n = 300 au plus - Séries côte à côte)
R : leveneTest {car} (Séries empilées)
Rcmdr : Statistiques / Variances / Test de Levene (Séries empilées)

2.1.2. Analyse si les variances sont homogènes


R : symmetry_test {coin} (Approximation de la valeur de p exacte par permutations - Séries empilées

2.2. Méthodes utilisant les rangs des valeurs


Utilitaire : "Friedman.xlsx" (Limité à 100 individus et 15 répétitions - Séries côte à côte)
R : friedman.test {stats} (Séries empilées ou côte à côte)
R : friedman_test {coin} (Approximation de la valeur de p exacte par permutations sur les rangs - Sér
rs de plusieurs répétitions
antillon.

chez une série de sujets.

Séries côte à côte)

érifie les conditions de validité)

ons empilés)

Séries côte à côte)


mutations - Séries empilées)

côte à côte)

utations sur les rangs - Séries empilées)


Etude de la concordance entre séries de mesures quantitatives
réalisées sur un même échantillon

Exemple
Des séries de mesures quantitatives du même processus ont été réalisées
sur les mêmes individus avec des méthodes différentes.
Les appareils sont-ils concordants ?

Si deux mesures x et y réalisées avec deux méthodes différentes sont parfaitement concordantes,
le graphique xy placé dans un carré doit être une ligne à 45°.
Le coefficent de concordance de Lin utilise des mesures de précision
pour déterminer à quel point on s'écarte de cette solution.
A la différence d'une corrélation classique (feuille H),
le test prend en compte le biais par rapport à la droite à 45°.
Dans le cas d'un accord parfait le coefficient est de 1.

Remarque : voir feuille k pour une approche différente et plus générale de la concordance.

1. Seulement deux séries de mesures


1.1. Conditions de validité
Echelle de mesure
Les mesures doivent être quantitatives

Effectifs
Les effectifs doivent être les mêmes dans les deux séries

Distribution
Les deux séries doivent être normalement distribuées.

1.2. Outils
R : epi.ccc {epiR}

2. Plus de deux séries de mesures


2.1. Conditions de validité
Echelle de mesure
Les mesures doivent être quantitatives.

Effectifs
Les effectifs doivent être les mêmes dans toutes les séries.

Distribution
Les séries doivent être normalement distribuées.

2.2. Outils
R : epi.occc {epiR}
Comparaison de plusieurs échantillons indépendants
sur lesquels les mesures quantitatives ont été répétées sur les mêmes individus
(Croisement de mesures indépendantes et appariées)

Exemples
Evolution du taux d'erreurs au cours de plusieurs séances d'apprentissage chez des sujets de deux catégories d'âge.
Le taux d'erreurs a-t-il changé au cours des séances, et l'a-t-il fait de la même manière dans les deux catégories
Evolution de la concentration d'un composé du sang au cours des jours chez des sujets ayant eu des traitements différe
La concentration du composé change-t-elle au cours des jours ? De la même manière pour les différents traiteme
Croissance de trois variétés de plantes mesurée chaque mois pendant 3 mois.
Les trois variétés évoluent-elles de la même façon au cours du temps ?

1. Méthodes paramétriques
1.1. Conditions de validité
1.1.1. Normalité des distributions de chaque série dans chaque échantillon
Vérification de la normalité de la distribution de chaque série : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité n'est pas vérifiée


Si la normalité de chaque distribution n’est pas vérifiée, l’ANOVA reste robuste mais moins recomm
Voir plus bas comparaison par un test non paramétrique.

1.1.2. Homogénéité des variances de chaque série dans chaque échantillon


Vérification de l'homogénéité des variances de plus de deux séries : test de Levene
Utilitaire : "Test Levene.xlsx" (limité à 20 échantillons d'effectif n = 300 au plus - Séries côte à côte
R : leveneTest {car} (Séries empilées)
Rcmdr : Statistiques / Variances / Test de Levene (Séries empilées)

1.1.3. Symétrie composée de la matrice des covariances - A faire séparément pour chaque échantillon
Utilitaire : "ANOVA 1 dim appariées.xlsx" (L'utilitaire réalise l'analyse et vérifie les conditions de va
R : ezANOVA {ez} - réalise également l'analyse de variance
R : mauchly.test {stats}

1.1.4. Distribution normale des résidus

1.2. Outils pour l'analyse de variance


Si les conditions de validité sont vérifiées
Si modèle linéaire :
Utilitaire : ANOVA 2dim 1inter x 1intra.xlsx (Effectifs équilibrés - Echantillons empilés - Répétitions
Utilitaire : ANOVA 3dim 2inter x 1intra (Effectifs équilibrés - Echantillons empilés - Répétitions côte
R : aov {stats} ; ezANOVA {ez} ; lme {nlme} ; lmer {lmerTest} ; glmer {lmerTest}

Si modèle non linéaire


R : nlme {nlme} (Echantillons et séries empilés)

2. Méthodes non paramétriques


2.1. Méthodes utilisant les valeurs numériques
R : aovp {lmPerm} ; ezPerm {ez} (Echantillons et séries empilés)
2.2. Méthodes utilisant les rangs des valeurs
Utilitaire : "Analyse non paramétrique des données longitudinales sous R" (didacticiel)
R : fonctions de la bibliothèque {nparLD} (Echantillons et séries empilés)
LD-F1 : un facteur répété, pas de groupes indépendants
LD-F2 : deux facteurs répétés imbriqués
F1-LD-F1 : Un facteur répété et un facteur avec groupes indépendants
F1-LD-F2 : Un facteur avec groupes indépendants et deux facteurs répétés imbriqués
F2-LD-F1 : Deux facteurs indépendants imbriqués et une mesure répétée
s indépendants
ées sur les mêmes individus
s et appariées)

es sujets de deux catégories d'âge.


me manière dans les deux catégories d'âge ?
sujets ayant eu des traitements différents.
me manière pour les différents traitements ?

de Shapiro & Wilk

OVA reste robuste mais moins recommandée.

: test de Levene
tif n = 300 au plus - Séries côte à côte)

ent pour chaque échantillon


'analyse et vérifie les conditions de validité)

és - Echantillons empilés - Répétitions côte à côte)


Echantillons empilés - Répétitions côte à côte)
; glmer {lmerTest} (Echantillons et séries empilés)
ous R" (didacticiel)

acteurs répétés imbriqués


esure répétée
Etude de la corrélation entre deux variables quantitatives (ou ordinales)

Exemples
Corrélation entre la quantité d'engrais et la croissance de plantes.
Corrélation entre l'âge et une performance d'apprentissage.
Corrélation entre revenu mensuel et quotient intellectuel.

Remarques importantes
- L'analyse statistique doit impérativement être précédée d'une observation graphique pour connaître la forme de la rela
- La corrélation n’implique pas nécessairement de relation causale entre les deux variables prises en compte.
- Les deux variables doivent avoir le même effectif.

Remarque : voir feuille K pour la concordance entre plus de deux variables et feuille H pour la concordance de Lin.

1. Méthodes paramétriques
1.1. Conditions de validité
1.1.1. Echelle de mesure
Les deux variables doivent être des quantitatives.

1.1.2. Effectif
Effectif minimum recommandé = 50 individus
Le nombre de mesures pour les deux variables doit être le même.
En cas de petits effectifs, voir méthodes non paramétriques.

1.1.3. Normalité des distributions de chacune des deux variables


Vérification de la normalité de la distribution de chaque variable : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
R : mshapiro.test {RVAideMemoire} (test de multinormalité)
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité n'est pas vérifiée


Voir plus bas méthodes non paramétriques.

1.1.4. La relation entre les deux variables doit être linéaire


Vérification par observation du graphique xy.

1.2. Calcul et test de la corrélation si les conditions de validité sont vérifiées


EXCEL ou CALC : fonction COEFFICIENT.CORRELATION (calcul du coefficient de corrélation)
Utilitaire : "Corrélation de Pearson.xlsx" (jusqu'à 2000 paires de valeurs - Graphique fourni)
R : cor.test {stats} (préciser method="pearson")
Rcmdr : Statistiques / Résumés / Test de corrélation (choisir Pearson)

1.3. Comparaison de coefficients de corrélation indépendants


Comparaison de deux coefficients
Utilitaire : "Puissance.xlsx"
R : paired.r {psych}
R : cor.2comp {RVAideMemoire}

Comparaison de deux coefficients dans plusieurs groupes


R : cor.multcomp {RVAideMemoire} (réalise les comparaisons multiples entre groupes deux à deu
1.4. Cas particulier d'une variable binaire et d'une quantitative : corrélation bisériale
R : hetcor {polycor}

2. Méthodes non paramétriques


2.1. Conditions de validité
Le nombre de mesures doit être le même pour les deux variables.
La relation entre les variables doit être linéaire.

2.2. Méthode utilisant les valeurs numériques


R : perm.cor.test {RVAideMemoire} (approximation de la valeur de p exacte)

2.3. Méthodes utilisant les rangs des valeurs


Les mesures peuvent être quantitatives ou simplement ordinales, mais notées en chiffres.
Utilitaire : "Corrélation Spearman.xlsx" (limité à 100 paires de valeurs)
R : cor.test {stats} (préciser method="spearman" ou method="kendall")
R : spearman_test {coin} (permet une approximation de Monte Carlo de la valeur de p exacte)
Rcmdr : Statistiques / Résumés / Test de corrélation (choisir Spearman ou Kendall)
antitatives (ou ordinales)

que pour connaître la forme de la relation.


variables prises en compte.

our la concordance de Lin.

st de Shapiro & Wilk

(calcul du coefficient de corrélation)


de valeurs - Graphique fourni)

ns multiples entre groupes deux à deux si r est significatif)


eur de p exacte)

ées en chiffres.

te Carlo de la valeur de p exacte)


Spearman ou Kendall)
Expliquer la variation de variables quantitatives à partir d'autres variables
(Analyses de régressions)

Exemples
Expliquer la quatité d'oxygène dissous à partir de la température de l'eau.
Expliquer ou prévoir une vitesse de croissance à partir de caractéristiques du sol (granulométrie, humidité, ph…)
Expliquer ou prévoir le volume de la pêche à partir de l'âge du capitaine et des matelots.
Expliquer divers items comportementaux d'animaux sauvages captifs à partir de caractéristiques quantitatives et/ou qua

Remarques importantes
- L'utilisation de ces méthodes en prévision n'a de sens que si l'on s'est assuré de la valeur explicative des variables x.
- L'observation graphique de la forme des relations entre variables est nécessaire pour le choix d'une méthode.
- Pour la régression logistique (variable à expliquer binaire), voir feuille J.

1. La relation entre variables à expliquer et explicatives est linéaire


1.1. Méthodes paramétriques
1.1.1. Conditions de validité
1.1.1.1. Echelle de mesure
La variable à expliquer doit être quantitative.
Les variables explicatives doivent être au moins en partie des quantitatives.
En cas de variables explicatives qualitatives voir 1.1.2. 'lm' ou 1.1.4. régression PLS.

1.1.1.2. Effectif
Le nombre d'individus doit être supérieur au nombre de variables explicatives - Sinon voir 1.1.4.
Il ne doit pas y avoir de données manquantes : même effectif pour toutes les variables - Sinon v

1.1.1.3. Normalité des distributions


La variable à expliquer doit être normalement distribuée.
Les variables explicatives peuvent être soit aléatoires (normalement distribuées) ou fixées.
Vérification de la normalité de la distribution : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
R : mshapiro.test {RVAideMemoire} (test de multinormalité)
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Si la normalité n'est pas vérifiée


Voir plus bas les méthodes non paramétriques.

1.1.1.4. La relation entre les variables doit être linéaire


Vérification par observation du graphique xy.

1.1.1.5. Homoscédasticité
Les variances de la variable à expliquer (y) doit être la même pour les différents valeurs des vari
Vérification par observation du graphique xy.
Rcmdr : Modèles / Graphes / Diagnostics graphiques

1.1.1.6. Normalité de la distribution des résidus


La distribution des résidus doit être normale.
Vérification statistique de la normalité par le test de Shapiro & Wilk.
Vérification visuelle par le graphe Quantiles-quantiles.
Rcmdr : Modèles / Graphes / Diagnostics graphiques
1.1.1.7. Absence d'auto-corrélation des résidus
Il ne doit pas y avoir d'auto-corrélations dans les résidus.
Vérification statistique par le test de Durbin-Watson.
R : durbinWatsonTest {car}
Rcmdr : Modèles / Diagnostics numériques / Test Durbin-Watson d'autocorrélation
Vérification visuelle par graphique.
Rcmdr : Modèles / Graphes / Diagnostics graphiques

1.1.2. Une variable à expliquer et une seule explicative (régression linéaire simple)
Excel - Utilitaire d'analyse : Régression linéaire
R : lm {stats}
Rcmdr : Statistiques / Ajustement de modèle / Régression linéaire

1.1.3. Une variable à expliquer et plusieurs explicatives (régression linéaire multiple)


1.1.3.1. Conditions de validité supplémentaires
En cas de plusieurs variables explicatives, elles ne doivent pas présenter de colinéarité.
Recherche de colinéarité :
R : redun {Hmisc}

En cas de colinéarités importantes, voir 1.1.4. régression PLS.

1.1.3.2. Outils pour la régression linéaire multiple


Excel - Utilitaire d'analyse : Régression linéaire
R : lm {stats}
Rcmdr : Statistiques / Ajustement de modèle / Régression linéaire

1.1.4. Plusieurs variables à expliquer et plusieurs explicatives (MANOVA)


1.1.4.1. Conditions de validité
Voir ci-dessus § 1.1.1.
Condition supplémentaire : toutes les corrélations deux à deux entre les variables dépendantes

1.1.4.2. Outil pour la MANOVA


R : manova {stats}

1.1.5. Une ou plusieurs variables à expliquer et plusieurs explicatives (régression PLS)


1.1.5.1. Conditions de validité
La (ou les) variable à expliquer doit être quantitative.
Les variables explicatives peuvent être quantitatives ou qualitatives.
Il peut y avoir plus de variables que d'individus.
Il peut y avoir des colinéarités entre variables explicatives.

1.1.5.2. Outils pour la régression PLS


R : plsr {pls}

1.2. Méthodes non paramétriques


Une variable à expliquer et une ou plusieurs variables explicatives
1.2.1. Conditions de validité
Mêmes conditions que ci-dessus (§ 1.1.1.) sauf la normalité des distributions de chacune des variables

1.2.2. Outils pour les régressions linéaires simples ou multiples non paramétriques
R : lmp {lmPerm} (détermination de la valeur de p par la méthode des permutations)

1.3. Méthodes algorithmiques par apprentissage statistique


Une variable à expliquer et plusieurs variables explicatives
1.3.1. Condition de validité
Effectif important.

1.3.2. Outils
R : train {caret} (grand choix de méthodes, randomForest, réseaux de neurones, SVM…

2. La relation entre variables à expliquer et variables explicatives est non linéaire


2.1. Modèles non linéaires à effets fixes seuls
2.1.1. Conditions de validité
2.1.1.1. Echelle de mesure
Les variables à expliquer et explicatives doivent être quantitatives.

2.1.1.2. Effectif
Le nombre d'individus doit être supérieur au nombre de variables explicatives.

2.1.1.3. Normalité des distributions


La variable à expliquer doit être normalement distribuée.
Les variables explicatives peuvent être soit aléatoires (normalement distribuées) ou fixées.
Vérification de la normalité de la distribution de chaque variable : test de Shapiro & Wilk.

2.1.1.4. Normalité des résidus


La distribution des résidus doit être normale.

2.1.2. Outils pour les régressions non linéaires à effets fixes seuls
Remarque : il y a rarement plus d'une variable explicative.
R : nls {stats}

2.2. Modèles non linéaires à effets mixtes


2.2.1. Conditions de validité
Les mêmes qu'en 2.1.1. + pas de données manquantes.

2.2.2. Outils pour les modèles non linéaires à effets mixtes


R : nlme {nlme}

2.3. Méthodes algorithmiques par apprentissage statistique


Une variable à expliquer et plusieurs variables explicatives
2.3.1. Conditions de validité
Effectif important.
Pas de données manquantes.

2.3.2. Outils
R : train {caret} (grand choix de méthodes, randomForest, réseaux de neurones, SVM…
à partir d'autres variables

anulométrie, humidité, ph…)

actéristiques quantitatives et/ou qualitatives de leur environnement.

valeur explicative des variables x.


ur le choix d'une méthode.

quantitatives.
1.1.4. régression PLS.

bles explicatives - Sinon voir 1.1.4. régression PLS


pour toutes les variables - Sinon voir 1.1.4. régression PLS

ement distribuées) ou fixées.

mité à 500 valeurs)

e Shapiro-wilk

pour les différents valeurs des variables explicatives (x).


bin-Watson d'autocorrélation

sion linéaire

as présenter de colinéarité.

sion linéaire

x entre les variables dépendantes doivent être homogènes.

butions de chacune des variables (§ 1.1.1.3.).

la méthode des permutations)


rest, réseaux de neurones, SVM…)

bles explicatives.

ement distribuées) ou fixées.


le : test de Shapiro & Wilk.

rest, réseaux de neurones, SVM…)


Expliquer la variation de variables qualitatives à partir d'autres variables
(Analyses discriminantes)

Exemples
Quelles sont les meilleures variables permettant de discriminer sujets sains de sujets malades.
Quels sont les meilleurs paramètres pour prévoir si un client pourra rembourser son prêt.
Quelles sont les protéines qui caractérisent le mieux les trois formes d'une maladie.
Quels sont les meilleurs indicateurs de réussite de gestation.

1. La fonction principale de l'étude est la recherche de variables discriminantes (analyses discriminantes)


1.1. Méthodes paramétriques
1.1.1. Analyse discriminante sur les données brutes
1.1.1.1. Conditions de validité
Echelle de mesure
Les variables explicatives doivent être quantitatives.

Distributions
Les variables explicatives doivent avoir une distribution normale dans chacune des classes à
Outils pour la vérification :
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mshapiro {RVAideMmemoire}
R : mshapiro.test {RVAideMemoire} (test de multinormalité)
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Homoscédasticité
Les matrices de covariances dans chaque classe doivent être homogènes
Aucune variable ne doit être constante entre les groupes
Outils pour la vérification
R : Kullback {asbio} (la variable à expliquer doit être codée numériquement)
R : Hawkins {MissMech}
Si cette condition n'est pas remplie, préférer l'analyse discriminante quadratique (§ 1.1.1.3.).

Multicolinéarité
Il ne doit pas y avoir de multicolinéarité entre les variables explicatives.
Outils pour la vérification :
R : redun {Hmisc}

1.1.1.2. Outils pour l'analyse discriminante linéaire


R : lda {MASS} ; train {caret}

1.1.1.3. Outils pour l'analyse discriminante quadratique


R : qda {MASS} ; train {caret}

1.1.2. Analyse discriminante sur facteurs (PLS-DA)


1.1.2.1. Conditions de validité
Les variables explicatives peuvent être quantitatives ou qualitatives.
Il peut y avoir des colinéarités entre variables explicatives.

1.1.2.2. Outils pour la PLS-DA


R : train {caret}
1.2. Méthodes non paramétriques
1.2.1. Analyse discriminante par la méthode des noyaux
R : knn {class} ; train {caret}

1.2.2. Analyse discriminante flexible


R : fda {mda} ; train {caret}

1.3. Méthodes par apprentissage statistique


1.3.1. Segmentation simple par arbre binaire
1.3.1.1. Condition de validité
Effectifs importants

1.3.1.2. Outils
R : rpart {rpart}

1.3.2. Méthodes algorithmiques


1.3.2.1. Conditions de validité
Effectifs importants.

1.3.2.2. Outils
R : train {caret} (grand choix de méthodes, randomForest, réseaux de neurones, SVM…)

2. La fonction principale de l'étude est la prévision (méthodes de régressions logistiques)


2.1. Conditions de validité
Effectifs
Ils doivent être importants.
Il doit y avoir au moins 10 individus par modalité de la variable à expliquer y pour chaque variable ex

Normalité des distributions


Les données doivent être normalement distribuées dans chacune des catégories à séparer.
Outils pour la vérification
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
R : mshapiro.test {RVAideMemoire} (test de multinormalité)
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk

Normalité des résidus


Les résidus doivent être normalement distribués.
Outils pour la vérification
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk

Déviance résiduelle
Si la variance résiduelle est très supérieure aux degrés de liberté, choisir la famille quasibinomiale.

2.2. Outils pour les régressions logistiques


2.2.1. La variable à expliquer est binaire
R : glm {stats} (préciser family=binomial ou quasibinomial selon déviance résiduelle)
Rcmdr : Statistiques / Ajustement de modèles / Modèle linéaire généralisé
ou quasibinomial selon déviance résiduelle)

2.2.2. La variable à expliquer a plus de deux modalités nominales


R : multinom {nnet} ; train {caret}
Rcmdr : Statistiques / Ajustement de modèles / Modèle logit multinomial

2.2.3. La variable à expliquer a plus de deux modalités ordinales


R : polr {MASS} ; train {caret}
Rcmdr : Statistiques / Ajustement de modèles / Modèle de régression ordinale
artir d'autres variables

ses discriminantes)

male dans chacune des classes à séparer.

mité à 500 valeurs)

e Shapiro-wilk

re homogènes

codée numériquement)

minante quadratique (§ 1.1.1.3.).


éseaux de neurones, SVM…)

xpliquer y pour chaque variable explicative x.

des catégories à séparer.

500 valeurs)

500 valeurs)

choisir la famille quasibinomiale.

elon déviance résiduelle)


aire généralisé (préciser family=binomial
multinomial

égression ordinale
Concordance entre variables quantitatives

Exemples
Voir si quatre paramètres de dimensions corporelles sont concordants (= globalement corrélés).
Tester la concordance entre les résultats à 5 tâches d'apprentissage différentes.
Evaluer le degré d'accord entre plusieurs juges classant une série d'objets.
Evaluer la concordance entre sites du point de vue de la quantité de différentes espèces.

1. Méthode directe
Utilitaire : "Concordance de KENDALL.xlsx" (limité à 15 colonnes et 100 lignes)

2. Méthode par permutations


1. Test du coefficient de concordance W de kendall
R : kendall.global {vegan}

2. Contribution de chaque colonne à la concordance d'ensemble


R : kendall.post {vegan}

Calculer le coefficient alpha de Cronbach

Exemple
Evaluer dans quelle mesure cinq items sensés mesurer la mémoire permettent de conclure à une variable latente.

Outils pour le calcul du coefficient de Cronbach


Utilitaire : "Alpha de Cronbach.xlsx" (limité à 50 items et 1000 individus - Items en colonnes)
R : cronbach.alpha {ltm} (items en colonnes)
e à une variable latente.
Observer les relations entre variables par une analyse multifactorielle
Méthodes descriptives

Exemples
Voir les relations entre 30 paramètres physiologiques évalués quantitativement et/ou qualitativement.
Quelles sont les relations entre les notes obtenues aux différentes matières du baccalauréat dans 5 lycées différents ?
Voir les relations entre 10 mesures comportementales et 20 paramètres physiologiques.
Voir les relations entre des paramètres climatiques et pédologiques et la richesse de la flore.
Mettre en relation les réponses à une question ouverte et les caractéristiques des répondants.

1. Variables actives uniquement quantitatives (Analyse en Composantes Principales)


1.1. Conditions de validité
Distributions
Les variables doivent être normalement distribuées.
En cas de non normalité :
- Tenter une normalisation par transformation de variable.
- Sinon, transformer les valeurs en rangs.

1.2. Outils pour l'ACP


R : PCA {FactoMineR}
Rcmdr : Statistiques / Analyse multivariée / Analyse en composantes principales
Rcmdr : RcmdrPlugin.FactoMineR / Analyse en composantes principales

2. Croisement de deux variables qualitatives (Analyse Factorielle des Correspondances simples)


2.1. Conditions de validité
2.1.1. Type de tableau
Le tableau doit être un tableau de contingence.

2.1.2. Fréquences
Il ne doit y avoir ni colonne ni ligne pour laquelle toutes les valeurs sont égales.

2.1.3. Nombre de modalités


Les deux qualitatives doivent avoir au moins trois modalités.

2.2. Outils pour l'AFC


R : ca {ca} : CA {FactoMineR}
Rcmdr : RcmdrPlugin.FactoMineR / Analyse factorielle des correspondances (AFC)

3. Croisement de deux variables qualitatives + quantitatives (Analyse Canonique des Correspondances)


3.1. Conditions de validité
3.1.1. Pour les deux qualitatives
Les mêmes que pour l'AFC (§ 2.1. ci-dessus)

3.1.2. Pour les quantitatives


Les mêmes que pour l'ACP (§ 1.1. ci-dessus)

3.2. Outils pour l'ACC


R : cca {vegan}
4. Variables actives uniquement qualitatives (Analyse Factorielle des Correspondances Multiples)
4.1. Conditions de validité
4.1.1. Effectifs
Ils doivent être importants par rapport au nombre de modalités.
Conseil : l'effectif d'une modalité ne doit pas être inférieur à racine(4xN) avec N = effectif total.

4.1.2. Nombre de modalités


Il doit y avoir au moins deux variables avec chacune au moins deux modalités.

4.2. Outils pour l'ACM


R : MCA {FactoMineR}
Rcmdr : RcmdrPlugin.FactoMineR / Analyse des correspondances multiples (ACM)

5. Variables actives surtout quantitatives + quelques qualitatives (Analyse Factorielle des Données Mixtes)
5.1. Conditions de validité
5.1.1. Pour les quantitatives
Mêmes conditions que pour l'ACP (§ 1.1. ci-dessus)

5.1.2. Pour les qualitatives


Mêmes conditions que pour l'ACM (§ 4.1. ci-dessus)

5.2. Outils pour l'AFDM


R : FAMD {FactoMineR}
Rcmdr : RcmdrPlugin.FactoMineR / Analyse Factorielle des Données Mixtes (AFDM)

6. Plusieurs groupes de variables (Analyse Factorielle Multiple)


6.1. Conditions de validité
6.1.1. Nature des groupes de variables
Toutes les variables d'un même groupe doivent être de même nature,
soit quantitatives soit qualitatives.

6.1.2. Pour les quantitatives


Mêmes conditions que pour l'ACP (§ 1.1. ci-dessus)

6.1.3. Pour les qualitatives


Mêmes conditions que pour l'ACM (§ 4.1. ci-dessus)

6.2. Outils pour l'AFM


R : MFA {FactoMineR}
Rcmdr : RcmdrPlugin.FactoMineR / Analyse Factorielle Multiple (AFM)

7. Données textuelles (Text Mining)


Outils pour l'analyse des données lexicales
R : {tm}
Rcmdr : RcmdrPlugin.temis
Iramuteq : logiciel libre utilisant les fonctions de R et la méthode Alceste - Interface graphique.
multifactorielle

litativement.
éat dans 5 lycées différents ?

espondances)
ec N = effectif total.

Données Mixtes)

e graphique.
Fréquences ou proportions de catégories ordinales
Comparaison d'une distribution observée à une distribution théorique

Exemples
Les proportions observées de cinq catégories de notes sont-elles voisines de 20% chacune ?
Les proportions observées de 4 phénotypes sont-elles conformes à des proportions Mendéliennes ?

1. Test du Chi² "classique"


1.1. Conditions de validité
1.1.1. Classes exclusives
Les classes de la variable qualitative doivent être exclusives,
c'est à dire qu'un même individu ne peut pas se trouver dans deux catégories différentes.

1.1.2. Effectifs théoriques


- Les effectifs théoriques ne doivent pas être < 10 si le nombre de degrés de liberté est 1.
- Si le nombre de ddl est > 1, les effectifs théoriques ne doivent pas être < 10 dans plus de 20% des cas
- Les effectifs théoriques ne doivent jamais être inférieurs à 5.

1.2. Outils pour le test classique


Utilitaire : "Testchi2.xlsx" / Feuille 'Chi² de bonne adéquation' (limité à 100 catégories)
R : chisq.test {stats}
Rcmdr : Statistiques / Résumés / Distribution de fréquences

2. Test exact du Chi² par permutations


2.1. Conditions de validité
Les classes de la variable qualitative doivent être exclusives,
c'est à dire qu'un même individu ne peut pas se trouver dans deux catégories différentes.

2.2. Outils pour le test du chi² exact


R : chisq.test {stats} (approximation de Monte Carlo)
R : chisq_test {coin} (test exact ou approximation de Monte Carlo)

3. Comparaisons deux à deux après un test du chi² quand il y a plus de deux modalités
3.1. Conditions de validité
3.1.1. Classes exclusives
Les classes de la variable qualitative doivent être exclusives,
c'est à dire qu'un même individu ne peut pas se trouver dans deux catégories différentes.

3.1.2. Effectifs théoriques


- Les effectifs théoriques ne doivent pas être < 10 si le nombre de degrés de liberté est 1.
- Si le nombre de ddl est > 1, les effectifs théoriques ne doivent pas être < 10 dans plus de 20% des cas
- Les effectifs théoriques ne doivent jamais être inférieurs à 5.

3.2. Outils pour les comparaisons multiples


R : chisq.multcomp {RVAideMemoire} (sous l'hypothèse nulle d'une distribution homogène)
R : chisq.theo.multcomp {RVAideMemoire} (avec proportions théoriques fournies par l'utilisateur)
nales
tion théorique

es différentes.

e liberté est 1.
0 dans plus de 20% des cas.

es différentes.

e liberté est 1.
0 dans plus de 20% des cas.

r l'utilisateur)
Comparaison de deux échantillons indépendants
dans le cas de mesures qualitatives ordinales

Exemples
Comparer deux classes de l'enseignement primaire dont les élèves ont été notés A, B, C ,D ou E (A > B > C > D > E).
Comparer deux groupes de patients, l'un traité, l'autre non, pour le ressenti ± grave d'une douleur.
Comparer deux lots de rongeurs élevés dans des conditions différentes pour l'état général du pelage.
Comparer deux séries de cultures cellulaires ± attaquées par deux virus (pas du tout < un peu < moyennement < beauc

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1
- Toutes ces méthodes sont non paramétriques et utilisent les rangs des valeurs.

1. Méthodes directes utilisant une loi de distribution


1.1. Conditions de validité du test de Mann & Whitney sur données ordinales
(aussi nommé test de Wilcoxon ou test de Wilcoxon-Mann-Whitney)
1.1.1. Les catégories de la variable qualitative doivent être ordinales et exclusives.
1.1.2. Les effectifs des deux échantillons peuvent être différents.
1.1.3. Eviter ce test s'il y a beaucoup d'ex-æquo.

1.2. Outils pour le test de Mann & Whitney


Utilitaire : "Mann & Whitney.xlsx" (limité à 50 valeurs pour l'échantillon le plus grand)
R : wilcox.test {stats} (échantillons empilés)
Rcmdr : Statistiques / Tests non paramétriques / Test de Wilcoxon bivarié (échantillons empilés)

2. Méthodes exactes par permutations des rangs n'utilisant aucune loi de distribution
2.1. Conditions de validité du test de Mann & Whitney sur données ordinales
(aussi nommé test de Wilcoxon ou test de Wilcoxon-Mann-Whitney)
2.1.1. Les catégories de la variable qualitative doivent être ordinales et exclusives.
2.1.2. Les effectifs des deux échantillons peuvent être différents.

2.2. Outils pour le test exact de Mann & Whitney par permutations
R : wilcox_test {coin} (échantillons empilés)
A, B, C ,D ou E (A > B > C > D > E).
e d'une douleur.
général du pelage.
out < un peu < moyennement < beaucoup < totalement).

> D > E devient 5 > 4 > 3 > 2 > 1

(échantillons empilés)
Test de l'hétérogénéité entre plus de deux échantillons indépendants
dans le cas de mesures qualitatives ordinales

Exemples
Comparer dix classes de CE2 de différentes écoles dont les élèves ont été notés A, B, C ,D ou E (A > B > C > D > E).
Comparer trois groupes de patients ayant reçu trois traitements différents, pour le ressenti ± grave d'une douleur.
Comparer plus de deux lots de rongeurs élevés dans des conditions différentes pour l'état général du pelage.
Comparer cinq séries de cultures cellulaires ± attaquées par cinq virus différents (pas du tout < un peu < moyennement

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Toutes ces méthodes sont non paramétriques et utilisent les rangs des valeurs.

1. Méthodes directes utilisant une loi de distribution


1.1. Conditions de validité du test de Kruskal et Wallis sur données ordinales
1.1.1. Les catégories de la variable qualitative doivent être ordinales et exclusives.
1.1.2. Les effectifs des deux échantillons peuvent être différents.
1.1.3. Eviter ce test s'il y a beaucoup d'ex-æquo.

1.2. Outils pour le test de Kruskal & Wallis


Utilitaire : "Kruskal & Wallis.xlsx" (limité à 10 échantillons et n=50 pour l'échantillon le plus grand - Echantillons cô
R : kruskal.test {stats} (échantillons empilés)
Rcmdr : Statistiques / Tests non paramétriques / Test kruskal-Wallis (échantillons empilés)

2. Méthodes exactes par permutations n'utilisant aucune loi de distribution


2.1. Conditions de validité du test de Kruskal et Wallis sur données ordinales
2.1.1. Les catégories de la variable qualitative doivent être ordinales et exclusives
2.1.2. Les effectifs des échantillons peuvent être différents

2.2. Outils pour le test exact de Kruskal et Wallis par permutations des rangs
R : kruskal_test {coin} (échantillons empilés)
E (A > B > C > D > E).
ve d'une douleur.
ral du pelage.
un peu < moyennement < beaucoup < totalement).

nt 5 > 4 > 3 > 2 > 1.

s grand - Echantillons côte à côte)


Comparaisons d'échantillons indépendants deux à deux
après des mesures qualitatives ordinales sur plus de deux échantillons

Exemples
Comparaison deux à deux de dix classes dont les élèves ont été notés A, B, C ,D ou E (A > B > C > D > E).
Comparer deux à deux des groupes de patients ayant reçu trois traitements différents, pour le ressenti ± grave d'une dou
Comparer deux à deux trois lots de rongeurs élevés dans des conditions différentes pour l'état général du pelage.
Comparer deux à deux cinq séries de cultures cellulaires ± attaquées par cinq virus différents (pas du tout < un peu < mo

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- En général, ces tests sont appliqués en aval d’un test des effets globaux (exemple feuille O).
- Toutes ces méthodes sont non paramétriques et utilisent les rangs des valeurs.

1. Méthodes appliquant directement la correction des valeurs de p


1.1. Conditions de validité
1.1.1. Les catégories de la variable qualitative doivent être ordinales et exclusives.
1.1.2. Les effectifs des deux échantillons peuvent être différents.

1.2. Outils pour les comparaisons deux à deux avec correction des valeurs de p
Utilitaire : "ANOVA et comparaisons multiples non paramétriques avec R.xlsx" (Didacticiel)
Utilitaire : "Kruskal & Wallis.xlsx" - 10 échantillons et 50 valeurs au plus. (échantillons côte à côte)
R : nparcomp {nparcomp} (échantillons empilés)
R : pairwise.wilcox.test {RVAideMemoire} (échantillons empilés)

2. Correction a posteriori des valeurs de p calculées sans correction


Utiliser le test de Mann & Whitney (feuille N) pour faire toutes les comparaisons deux à deux.
Utiliser ensuite un outil de correction des p-values trouvées.

Outils pour la correction des p-values


Utilitaire : "Contrôle du FDR pour comparaisons multiples.xlsx" (limité à 500 valeurs de p)
Utilitaire : "Correction de Holm pour comparaisons multiples.xlsx" (limité à 500 valeurs de p)
R : p.adjust {stats}
deux à deux
e deux échantillons

B > C > D > E).


e ressenti ± grave d'une douleur.
at général du pelage.
s (pas du tout < un peu < moyennement < beaucoup < totalement).

ient 5 > 4 > 3 > 2 > 1.

côte à côte)
Deux séries appariées - Test du changement après une répétition
d'une mesure qualitative ordinale sur un seul échantillon.

Exemples
On évalue l'état général d'animaux par un critère qualitatif (± bon) avant et après un traitement.
Comparaison de la couleur (± marquée) pour le bras droit (non traité) et le bras gauche (traité) de 20 patients.
Comparaison des notes (A, B, C, D ou E) des élèves d'une même classe en début et en fin d'année.

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1
- Dans tous les cas, s'il n'y a pas de différence entre les deux mesures d'un même individu, cet individu sera ignor
- Toutes ces méthodes sont non paramétriques.

1. Les intervalles entre les catégories sont arbitraires


Ces tests utilisent simplement le sens des différences non nulles.
Utilitaire : "Test du signe.xlsx" (limité à 300 paires de valeurs)
R : SIGN.test {BSDA}
R : binom.test {stats}

2. Les intervalles entre les catégories sont comparables


2.1. Tests utilisant les rangs des différences non nulles ordonnées selon leur amplitude
2.1.1. Test classique de Wilcoxon
Utilitaire : "Wilcoxon.xlsx" (2 séries côte à côte)
R : wilcox.test {stats} (2 séries côte à côte. Préciser 'paired=TRUE')
Rcmdr : Statistiques / Tests non paramétriques / Test Wilcoxon apparié (2 séries côte à côte)

2.1.2. Test exact utilisant la méthode des permutations


R : wilcoxsign_test {coin} (2 séries côte à côte)

2.2. Test exact utilisant l'amplitude des différences de rangs non nulles
R : perm.test {exactRankTests} (2 séries côte à côte)
é) de 20 patients.

ient 5 > 4 > 3 > 2 > 1


vidu, cet individu sera ignoré.

s côte à côte)
Plus de deux séries appariées - Test du changement au cours de plusieurs ré
d'une mesure qualitative ordinale sur un seul échantillon.

Exemples
On évalue l'état général d'animaux d'un même lot par un critère qualitatif (± bon) chaque semaine pendant un mois.
L'état des animaux change-t-il significativement au cours du temps ?
Comparaison de la couleur du visage (± marquée) pendant 10 jours chez 20 patients recevant une crème protectrice.
La couleur du visage change-t-elle significativement en fonction du temps ?
Comparaison des notes (A, B, C, D ou E) des élèves d'une même classe à la fin de chaque trimestre.
Les notes changent-elles significativement en fonction des trimestres ?
5 œnologues évaluent les 10 mêmes vins par une note entre 1 et 7.
Est-ce que certains vins sont régulièrement classés plus bas ou plus haut ?

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas de changement au cours des répétitions sera ingoré.
- Toutes ces méthodes sont non paramétriques.

1. Test classique utilisant les rangs des valeurs et la distribution du Chi²


N.B. L'utilisation de la distribution de Chi² n'est plus fiable si l'effectif est < 15 et le nombre de répétitions < 4.
Une solution est alors d'utiliser des tables spécifiques ou l'option du §2 ci-dessous.
Outils
Utilitaire : "Friedman.xlsx" (limité à 15 répétitions et 100 individus. Répétitions côte à côte)
R : friedman.test {stats} (répétitions côte à côte)
Rcmdr : (Statistiques / Tests non paramétriques / Test de somme des rangs de Friedman

2. Test avec approximation de la valeur exacte de p par permutations entre les valeurs numériques
N.B. Ce test est valide quels que soient les nombres d'individus et de répétitions.
Outils
R : symmetry_test {coin} (répétitions empilées)
ment au cours de plusieurs répétitions
sur un seul échantillon.

que semaine pendant un mois.

recevant une crème protectrice.

haque trimestre.

> E devient 5 > 4 > 3 > 2 > 1.


des répétitions sera ingoré.

mbre de répétitions < 4.

Répétitions côte à côte)

des rangs de Friedman (répétitions côte à côte)

s numériques
Comparaisons deux à deux de séries répétées
après des mesures qualitatives ordinales sur un seul échantillon

Exemples
Voir feuille R.

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas de changement au cours des répétitions sera ingoré.
- En général, ces tests sont appliqués en aval d’un test des effets globaux (exemples pages R et T).
- Ces méthodes sont non paramétriques et utilisent les rangs des valeurs.

1. Méthodes appliquant directement la correction des valeurs de p


Utilitaire : "Friedman.xlsx" (limité à 15 répétitions côte à côte et 100 individus)
R : pairwise.wilcox.test {RVAideMemoire} (répétitions empilées - préciser 'paired=TRUE')
Cet outil réalise les comparaisons deux à deux par le test de Wilcoxon (voir feuille Q)
et corrige les valeurs de p en fonction du nombre de comparaisons.

2. Correction a posteriori des valeurs de p calculées sans correction


Utiliser le test de Wilcoxon (feuille Q) pour faire toutes les comparaisons deux à deux,
et utiliser ensuite un outil de correction des valeurs de p trouvées.

Outils pour la correction des valeurs de p


Utilitaire : "Contrôle du FDR pour comparaisons multiples.xlsx" (limité à 500 valeurs de p)
Utilitaire : "Correction de Holm pour comparaisons multiples.xlsx" (limité à 500 valeurs de p)
R : p.adjust {stats}
ent 5 > 4 > 3 > 2 > 1.
tions sera ingoré.
ges R et T).
Tester l'hétérogénéité entre échantillons indépendants
sur lesquels on a réalisé des mesures répétées d'une variable qualitative ordinale
(Croisements de mesures répétées ordinales et d'échantillons indépendants)

Exemples
On teste le changement du degré de trouble chez des patients souffrant d'angoisses par une mesure ordinale
(exemple, un score) répétée chaque semaine au cours d'un traitement, par comparaison avec un groupe témoin.
On teste le changement du niveau de vigilance par une qualitative notée de 1 à 5 chez 30 patients,
à quatre moments de la journée, deux jours par semaine (= 2 niveaux appariés imbriqués).
On évalue la vitalité de 40 arbres répartis entre deux sites différents par une note de 1 à 10, chaque année.
On souhaite comparer l'évolution des notes d'élèves notés de A à E entre le début et la fin de l'année,
pour des classes de différents niveaux (CE1 à CM2) dans trois secteurs différents d'une même ville.

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Les méthodes indiquées ci-dessous acceptent les données manquantes.
- Ces méthodes sont non paramétriques et utilisent les rangs.

Outils pour l'analyse de changements dans des échantillons indépendants avec une mesure ordinale répétée

Utilitaire : "Analyse non paramétrique des données logitudinales sous R.xlsx" (didacticiel)
R : fonctions de la bibliothèque {nparLD} (Echantillons et séries empilés)
LD-F1 : un facteur répété, pas de groupes indépendants
LD-F2 : deux facteurs répétés imbriqués
F1-LD-F1 : Un facteur répété et un facteur avec groupes indépendants
F1-LD-F2 : Un facteur avec groupes indépendants et deux facteurs répétés imbriqués
F2-LD-F1 : Deux facteurs indépendants imbriqués et une mesure répétée
endants
e qualitative ordinale
ns indépendants)

mesure ordinale
n avec un groupe témoin.

haque année.

même ville.

ent 5 > 4 > 3 > 2 > 1.

ordinale répétée
Test de la corrélation entre deux variables qualitatives ordinales
mesurées sur les mêmes individus

Exemple
Chez les élèves d'une classe on souhaite voir s'il y a une corrélation entre les notes (A, B, C, D, E) en calcul et en sport
Pour un échantillon de 20 souris on recherche une corrélation entre l'état du pelage noté de 1 à 4 et le poids en gramme
Pour 10 vins notés de 1 à 7 par un œnologue, on recherche la corrélation entre ces notes et le taux de souffre dans ces

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas les deux mesures sera ignoré.
- Ces méthodes sont non paramétriques.

1. Test classique du test par rangs ρ de Spearman

Utilitaire : "Corrélation Spearman.xlsx" (limité à 100 individus)


R : cor.test {stats} (préciser method="spearman")
Rcmdr : statistiques / Résumés / Test de corrélation

2. Test exact par la méthode de permutations des rangs

R : spearman_test {coin}
, C, D, E) en calcul et en sport.
de 1 à 4 et le poids en grammes.
s et le taux de souffre dans ces vins.

devient 5 > 4 > 3 > 2 > 1.


Test de la concordance entre plus de deux mesures qualitatives ordinales

Exemples
Evaluer l'accord entre juges ayant noté plusieurs objets de manière ordinale.
Chez des élèves notés A, B, C, D, E pour chaque matière, on souhaite tester la concordance entre toutes les matières.
10 œnologues ayant classé 5 vins, on souhaite tester la concordance entre les notes des 10 œnologues.

Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas toutes les mesures sera ignoré.
- Ces méthodes sont non paramétriques.

1. Conditions de validité
1.1. Les données doivent être qualitatives ordinales ou quantitatives.
1.2. Le tableau doit comporter au minimum 3 lignes et 3 colonnes.

2. Méthode classique utilisant une loi de distribution

Utilitaire : "Concordances de kendall.xlsx" (limité à 100 lignes et 15 colonnes)


R : kendall.global {vegan}

3. Approximation de la valeur de p exacte par une méthode de permutations

R : kendall.w {synchrony}
ntre toutes les matières.

ent 5 > 4 > 3 > 2 > 1.


Test de l'indépendance entre deux variables ordinales croisées
mesurées sur plusieurs échantillons

Exemple
On veut savoir si le degré de satisfaction du métier (noté de 1 à 4) est dépendant du niveau de revenu (noté en 5 catégo
Tester la relation entre 4 doses croissantes (= 4 échantillons indépendants) d'un traitement
et la réponse aux traitements notée de manière ordinale. L'étude est faite sur des sujets de deux catégories d'âge

1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives.
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5.
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10.

2. Outils pour le test "linear by linear association"

R : lbl_test {coin} (Il peut y avoir une variable de stratification en plus des deux ordinales)
(Ce test permet soit le calcul de la p-value exacte soit une approximation)
revenu (noté en 5 catégories).

de deux catégories d'âge.

nt exclusives.
Tester la relation entre deux variables qualitatives multinominales
ou comparer des échantillons par des mesures qualitatives

N.B. Il s'agit ici d'un test d'indépendance et non d'un test de conformité tel qu'étudié feuille M.

1. Les deux variables ont plus de deux modalités


Exemples
On veut comparer les fréquences observées de trois maladies dans 7 catégories socio-professionnelles ;
Les fréquences des trois maladies sont-elles indépendantes des catégories socio-professionnelle ?
On veut comparer les fréquences observées de 10 espèces végétales dans trois biotopes ;
L'abondance des différentes espèces végétales est-elle indépendante des biotopes ?
Trois virus différents ont été observés dans quatre maladies. On veut savoir si les maladies sont indépendantes d

1.1. Test exact de Fisher


1.1.1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives

1.1.2. Outils pour le test exact de Fisher


R : fisher.test {stats}
Rcmdr : Statistiques / Tables de contingence (nécessité de construire le tableau)

1.2. Test du chi²


1.2.1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10
N.B. Cette condition n'est pas nécessaire lors du calcul de la p-value exacte par la méthode des perm

1.2.2. Outils pour le test du chi²


Utilitaire : "Testchi2.xlsx" (limité à 50 colonnes et 300 lignes - vérifie les conditions d'effectifs théoriques)
R : chisq.test {sats} (utilise soit la distribution de chi² soit une approximation de la p-value exacte)
R : chisq_test {coin} (calcule la p-value exacte ou son approximation même si les effectifs théoriques sont f

1.3. Test G
1.3.1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10

2.3.2. Outils pour le test G


Utilitaire : "Test G.xlsx" (limité à 10 colonnes et 50 lignes - vérifie les conditions d'effectifs théoriques)
R : G.test {RVAideMemoire}

3. L'une des deux variables est binomiale et l'autre multinominale ordinale


Exemples
On souhaite tester s'il y a eu plus de guérisons que de non-guérisons suite à l'administration de 4 doses croissant
Pour un caractère étant noté par "faible", "moyen" ou "fort" on souhaite tester si le niveau du caractère est associé

Outils pour le test de Cochran-Armitage


R : independence_test {coin} (permet l'approximation de la p-value exacte)

Outils pour le test de corrélation bisériale


R : hetcor {polycor}
-professionnelles ;
o-professionnelle ?

dies sont indépendantes du type de virus.

ue variable sont exclusives.

ue variable sont exclusives.

ide dans le tableau.

te par la méthode des permutations.

ns d'effectifs théoriques)
a p-value exacte)
s effectifs théoriques sont faibles)

ue variable sont exclusives.

ide dans le tableau.


'effectifs théoriques)

ration de 4 doses croissantes d'un traitement.


au du caractère est associé à la présence ou l'absence d'un gène.
Tester la relation entre deux variables qualitatives multinominales
ayant été mesurées dans des populations différentes
- Tableaux de contingence stratifiés -

Exemples
Dans trois situations familiales on a relevé la catégorie socio-professionnelle la plus élevée.
Ces relevés ont été fait dans cinq départements français.
On veut tester la relation entre situations familiales et catégories socio-professionnelles
en stratifiant par les départements pour augmenter la puissance du test.
On veut comparer les fréquences observées de 10 espèces végétales dans trois biotopes,
les relevés ayant été faits par deux personnes différentes.

Remarque
Dans tous les cas on suppose qu'il n'y a pas d'interaction liée au facteur de stratification.

Outils pour le test de Cochran-Mantel-Haenszel

R : mantelhaen.test {stats}
R : cmh_test {coin} (permet l'approximation de la p-value exacte)
Tester la contingence entre deux variables multinominales

Exemples
Après avoir montré que les fréquences de 5 variétés de plantes n'étaient pas indépendantes des 3 types de sols
par un test de chi², on souhaite évaluer de degré d'association entre ces deux variables.
Après avoir montré que les fréquences de 4 maladies n'étaient pas indépendantes de 3 types génotypiques
par un test de chi², on souhaite évaluer de degré d'association entre maladies et génotypes.

1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives.
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10

2. Outils pour le calcul de coefficients de contingence

Utilitaire : "Testchi2.xlsx" (la feuille 'Table' donne le coefficient d'association V de Cramer)


(les conditions de validité liées aux effectifs théoriques sont vérifiées)
(limité à 50 colonnes et 300 lignes)
R : assocstats {vcd}
dantes des 3 types de sols

3 types génotypiques
et génotypes.

ariable sont exclusives.

dans le tableau.

de Cramer)
s sont vérifiées)
Coefficient Kappa de Cohen d'agrément entre juges

Exemples
Cinq juges sont appelés à classer 20 objets dans des catégories de goût.
On veut tester l'accord entre les juges.
Des médecins sont appelés à classer 10 patients dans l'une de trois maladies.
On veut tester l'accord entre les médecins.
Deux médecins sont appelés à évaluer le degré de gravité d'une maladie selon trois niveaux.
On veut tester l'accord entre les deux médecins.
Plusieurs agronomes sont appelés à juger du degré d'atteinte de 40 arbres.
On veut tester l'accord entre les agronomes.

1. Conditions de validité
Catégories
Elles doivent être exclusives. Un individu ne doit se trouver classé que dans une catégorie.

Données manquantes
Les individus présentant des données manquantes sont éliminés de l'analyse.

2. Outils pour le calcul et le test du coefficient Kappa de Cohen

Utilitaire : "Coefficient Kappa de Cohen.xlsx" (limité à 10 catégories et 100 individus ou objets)


(le nombre de juges n'est pas limité)
R : kappam.fleiss {irr} (permet le calcul exact. Le nombre de juges n'est pas limité)
Comparer une proportion observée à une valeur théorique
- Test binomial -

Exemples
Dans une expérience qui donne normalement 50% de réussite on a obtenu 40% de succès.
On souhaite vérifier que cette proportion de 40% est significativement différente de 50%.
A l'issue d'un croisement on a obtenu deux types de descendants dans les proportions 19% et 81%.
On souhaite tester si cela s'écarte significativement de proportions Mendéliennes 1/4 et 3/4.
Un agriculteur a obtenu 145 plants sains et 40 plants malades à l'issue d'un traitement donnant normalement 70% de r
Il veut tester si il s'écarte significativement de la norme.
La parité est-elle respectée au sein des salariés de cette entreprise employant 164 femmes et 135 hommes ?

N.B. Il s'agit ici d'un test de conformité et non d'indépendance. Ce dernier est étudié feuille X2.

1. Conditions de validité
Les deux classes doivent être exclusives

2. Outils pour le test binomial

Utilitaire : "Test binomial.xlsx"


R : binom.test {stats}
Rcmdr : Statistiques / Proportions / Test de proportions univarié
ons 19% et 81%.
nes 1/4 et 3/4.
ent donnant normalement 70% de réussite.

femmes et 135 hommes ?


Comparer deux proportions observées dans deux échantillons indépendants
après une mesure binomiale

Exemples
Dans une parcelle on a trouvé 25 plants malades et 110 plants sains et dans une autre 20 malades pour 120 sains.
On veut savoir si ces proportions sont significativement différentes.
Dans un groupe traité il y a 78% de guérison contre seulement 55% dans le groupe contrôle.
On veut savoir si ces proportions sont significativement différentes.

N.B. Il s'agit ici d'un test d'indépendance et non de conformité. Ce dernier est étudié feuille X1.

1. Test pour la valeur exacte de p

Voir test de Fisher - Feuille V1

2. Test avec calcul de l'intervalle de confiance associé à la différence de proportions


2.1. Conditions de validité
Classes exclusives
Les catégories doivent être exclusives.
Un individu ne doit se trouver que dans une cellule du tableau.

Echantillons indépendants
Les deux échantillons doivent être indépendants.
En cas de mesures répétées sur les mêmes individus, voir test de McNemar, feuille Y.

Effectifs théoriques
Il ne doit pas y avoir d'effectifs théoriques < 5.

2.2. Outils
Utilitaire : "Comparaison de deux proportions avec IC.xlsx"
R : prop.test {stats}
ons indépendants

malades pour 120 sains.


Test du changement entre deux mesures binomiales appariées
- Test de McNemar -

Exemples
A l'occasion d'une élection comportant deux candidats, un même groupe de personnes
est interrogé sur son choix entre les deux candidats avant et après un débat télévisé
entre les deux impétrants.
Lors d'une épreuve de tir on relève pour 20 personnes si elles ont échoué ou réussi
d'une part sans avoir consommé d'alcool, ensuite après en avoir consommé.

Outils pour le test de McNemar

Utilitaire : "Test de McNemar.xlsx" (test classique du Chi² et test exact)


R : mcnemar.test {stats} (test classique du Chi²)
R : mcnemar.exact {exact2x2} (test exact)
Test du changement entre plus de deux séries de mesures binomiales appariées
- Test Q de Cochran -

Exemples
Lors d'un essai en cross-over sur 12 patients on mesure par réussite (1) ou échec (2)
l'effet de deux antalgiques, après une mesure témoin.
Suite à un traitement sur des arbres atteints par une maladie, on note par 1 ou 0 la guérison ou non
de chaque arbre, chaque semaine pendant 8 semaines.

Remarques
- Les catégories binomiales devront être notées numériquement par 1 ou 0.
- Dans tous les cas, un individu qui ne présente pas de changement entre les mesures sera ingoré.
- Ces méthodes sont non paramétriques.

1. Conditions de validité
Nature des variables
Les variables doivent être binaires et numériques
Les deux catégories sont exclusives
Données manquantes
Il ne doit pas y avoir de données manquantes.
Les individus présentant des données manquantes seront ignorés.

2. Outils pour le test Q de Cochran


2.1. Test classique
Utilitaire : "Test Q de Cochran.xlsx" (limité à 15 répétitions et 100 individus)
R : friedman.test {stats} (données côte à côte ou empilées)

2.2. Test classique avec comparaisons multiples si l'effet global est significatif
R : cochran.qtest {RVAideMemoire} (données empilées avec un facteur "sujets")

2.3. Test avec approximation de la valeur exacte de p par permutations


R : friedman_test {coin} (données empilées avec un facteur "sujets")
esures binomiales appariées

guérison ou non

s mesures sera ingoré.

Vous aimerez peut-être aussi