Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
N.B. Les décisions de traitement statistique des données sont à prendre en amont d'une expérimentation ou d'une étude.
Les conditions de validité de chaque test sont indiquées dans les feuilles ad hoc.
Pour le calcul des effectifs nécessaires ou de la puissance des tests statistiques, voir l'utilitaire "Puissance.xlsx"
Observer les relations entre des variables par une analyse multifactorielle descriptive
Tester l'accord entre des juges appliquant des catégories binomiales à des objets
écessaire est indiquée.
haque situation.
"Puissance.xlsx".
Feuille A
Feuille B
Feuille C
Feuille D
Feuille E
Feuille F1
Feuille F2
Feuille G
Feuille H
Feuille I
Feuille J
Feuille K
Feuille I
Feuille I
Feuille J
Feuille L
Feuille M
Feuille N
Feuille O
Feuille P
Feuille Q
Feuille R
Feuille S
Feuille T
Feuille U1
Feuille U2
Feuille U3
Feuille M
Feuille V1
Feuille V2
Feuille W1
Feuille W2
Feuille X1
Feuille Y
Feuille Z
Feuille X2
Feuille V1
Feuille W2
La moyenne ou la médiane d'une série de mesures quantitatives sans répétitions
est comparée à une valeur théorique
Exemples
La moyenne (ou la médiane) de la série est-elle différente de celle obtenue d'habitude ?
La moyenne (ou la médiane) de la série est-elle différente de celle d'une mesure de référence ?
La moyenne (ou la médiane) obtenue est-elle différente de zéro ?
La moyenne de la glycémie mesurée sur 35 patients touchés par un certain diabète
est-elle significativement différente de 1.5 g/l ?
de référence ?
malement distribuée.
à 500 valeurs)
oyenne théorique.xlsx"
Comparaison de deux échantillons indépendants
pour une mesure quantitative
N.B. Cette feuille concerne uniquement les cas où les mesures n'ont été réalisées que sur deux échantillons
Pour les comparaisons deux à deux après des mesures faites sur plus de deux échantillons, voir
Exemples
Mesure du poids de deux variétés de tomates. Les deux poids sont-ils significativement différents ?
Dosage d'un composé du sang dans un lot témoin et un lot traité.
Le traitement affecte-t-il significativement la dose du composé ?
Comptage du nombre de cellules dans une structure anatomique dans deux groupes expérimentaux.
Le nombre de cellules change-t-il en fonction des conditions expérimentales ?
1.1.2. Variances homogènes (la condition n'est pas obligatoire mais le renseignement est nécessaire)
Vérification de l'homogénéité des variances : test F
Excel ou Calc : fonctions statistiques / Test F
R : var.test {stats} (échantillons empilés)
Rcmdr : Statistiques / Variances / Test F de deux variances. (échantillons empilés)
Test F de Welch
R : oneway.test {stats} (Echantillons empilés)
2.1.2. Les données quantitatives doivent avoir la même distribution, quelle qu'elle soit.
Outils
Tests de comparaison des médianes
Utilitaire : "Mann & Whitney.xlsx" (Echantillons côte à côte, limité à 50 valeurs pour le plus grand é
R : wilcox.test {stats} (Echantillons empilés)
R : wilcox_test {coin} (Permutations sur les rangs - Echantillons empilés)
Rcmdr : Statistiques / Tests non paramétriques / Test Wilcoxon bivarié
ue sur deux échantillons.
x échantillons, voir feuille D.
ativement différents ?
roupes expérimentaux.
s. (échantillons empilés)
lons empilés)
oxon bivarié (Echantillons empilés)
Test de l'hétérogénéité entre plus de deux échantillons indépendants
pour une mesure quantitative - Analyse de variance
N.B. Pour les comparaisons deux à deux après des mesures faites sur plus de deux échantillons, voir
Exemples
Avec un seul facteur (= une dimension)
Mesure du poids de trois (ou plus) variétés de tomates.
Y a-t-il au moins une variété ayant un poids significativement différent de celui des autres ?
Dosage d'un composé du sang dans un lot témoin et plusieurs lots traités.
Y a-t-il au moins un traitement impliquant un taux du composé significativement différent de celui du témoin
Comptage du nombre de cellules dans une structure anatomique dans plus de deux groupes expérimentaux.
Le nombre de cellules change-t-il significativement en fonction des groupes ?
1. Méthodes paramétriques
1.1. Vérification des conditions de validité
Distribution normale de chaque échantillon
Vérification de la normalité de la distribution de chaque échantillon : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk
Outils
Analyse à un seul facteur seulement
Utilitaire : "Kruskal & Wallis.xlsx" (limité à 10 échantillons et n=50 pour l'échantillon le plus grand - E
R : kruskal.test {stats} (Echantillons empilés)
R : kruskal_test {coin} - Permutations sur les rangs (Echantillons empilés)
Rcmdr : Statistiques / Tests non paramétriques / Test de Kruskal-Wallis
hantillons indépendants
se de variance
lons empilés)
atson d'autocorrélation
(Echantillons côte à côte)
eurs avec/sans répétition d'expérience (Effectifs équilibrés)
alise aussi l'ANOVA à une dimension (limité à 100 individus - Echantillons côte à côte)
niveaux par facteur et n= 30 au plus - Echantillons côte à côte)
(Echantillons empilés)
illons empilés)
uskal-Wallis (Echantillons empilés)
Comparaisons d'échantillons deux à deux
après des mesures quantitatives sur plus de deux échantillons indépendants
Exemples
Des mesures sont effectuées sur cinq espèces de fleurs.
On souhaite ensuite comparer les espèces deux à deux.
Des mesures sont effectuées sur un échantillon témoin et trois échantillons recevant des doses différentes.
On souhaite ensuite comparer chaque lot traité au témoin.
Remarque : en général, ces tests sont appliqués en aval d’un test des effets globaux.
(exemples de tests d’effets globaux : feuilles C, F1,F2,G).
c R.xlsx" (Didacticiel)
c R" (Didacticel)
plus - Echantillons côte à côte)
Deux séries appariées - Test du changement après une répétition
d'une mesure quantitative sur un seul échantillon.
Exemples
Mesure du poids d'animaux d'un même échantillon avant et après un traitement.
Le traitement affecte-til significativement le poids des animaux ?
Comparaison du bras droit et du bras gauche pour le tour du poignet dans un groupe de sportifs.
Le tour du poignet droit et du poignet gauche est-il significativement différent
chez les joueurs de tennis professionnels ?
Comparaison d'une performance cognitive selon l'heure dans un groupe de sujets testés le matin et le soir.
La performance cognitive change-t-elle significativement en fonction de l’heure de la journée ?
Exemples
On mesure le taux d'erreurs à chaque séance au cours de plusieurs séances d'apprentissage chez une série de sujets.
Le taux d'erreurs change-t-il significativement au cours des séances ?
On dose quotidiennement la concentration d'un composé du sang pendant 4 jours après un traitement..
La concentration du composé a-t-elle changé significativement au cours du temps ?
1. Méthodes paramétriques
1.1. Conditions de validité
1.1.1. Normalité des distributions de chaque série
Vérification de la normalité de la distribution de chaque série : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk
ons empilés)
côte à côte)
Exemple
Des séries de mesures quantitatives du même processus ont été réalisées
sur les mêmes individus avec des méthodes différentes.
Les appareils sont-ils concordants ?
Si deux mesures x et y réalisées avec deux méthodes différentes sont parfaitement concordantes,
le graphique xy placé dans un carré doit être une ligne à 45°.
Le coefficent de concordance de Lin utilise des mesures de précision
pour déterminer à quel point on s'écarte de cette solution.
A la différence d'une corrélation classique (feuille H),
le test prend en compte le biais par rapport à la droite à 45°.
Dans le cas d'un accord parfait le coefficient est de 1.
Remarque : voir feuille k pour une approche différente et plus générale de la concordance.
Effectifs
Les effectifs doivent être les mêmes dans les deux séries
Distribution
Les deux séries doivent être normalement distribuées.
1.2. Outils
R : epi.ccc {epiR}
Effectifs
Les effectifs doivent être les mêmes dans toutes les séries.
Distribution
Les séries doivent être normalement distribuées.
2.2. Outils
R : epi.occc {epiR}
Comparaison de plusieurs échantillons indépendants
sur lesquels les mesures quantitatives ont été répétées sur les mêmes individus
(Croisement de mesures indépendantes et appariées)
Exemples
Evolution du taux d'erreurs au cours de plusieurs séances d'apprentissage chez des sujets de deux catégories d'âge.
Le taux d'erreurs a-t-il changé au cours des séances, et l'a-t-il fait de la même manière dans les deux catégories
Evolution de la concentration d'un composé du sang au cours des jours chez des sujets ayant eu des traitements différe
La concentration du composé change-t-elle au cours des jours ? De la même manière pour les différents traiteme
Croissance de trois variétés de plantes mesurée chaque mois pendant 3 mois.
Les trois variétés évoluent-elles de la même façon au cours du temps ?
1. Méthodes paramétriques
1.1. Conditions de validité
1.1.1. Normalité des distributions de chaque série dans chaque échantillon
Vérification de la normalité de la distribution de chaque série : test de Shapiro & Wilk
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mashapiro {RVAideMmemoire}
Rcmdr / Statistiques / Résumés / Test de normalité de Shapiro-wilk
1.1.3. Symétrie composée de la matrice des covariances - A faire séparément pour chaque échantillon
Utilitaire : "ANOVA 1 dim appariées.xlsx" (L'utilitaire réalise l'analyse et vérifie les conditions de va
R : ezANOVA {ez} - réalise également l'analyse de variance
R : mauchly.test {stats}
: test de Levene
tif n = 300 au plus - Séries côte à côte)
Exemples
Corrélation entre la quantité d'engrais et la croissance de plantes.
Corrélation entre l'âge et une performance d'apprentissage.
Corrélation entre revenu mensuel et quotient intellectuel.
Remarques importantes
- L'analyse statistique doit impérativement être précédée d'une observation graphique pour connaître la forme de la rela
- La corrélation n’implique pas nécessairement de relation causale entre les deux variables prises en compte.
- Les deux variables doivent avoir le même effectif.
Remarque : voir feuille K pour la concordance entre plus de deux variables et feuille H pour la concordance de Lin.
1. Méthodes paramétriques
1.1. Conditions de validité
1.1.1. Echelle de mesure
Les deux variables doivent être des quantitatives.
1.1.2. Effectif
Effectif minimum recommandé = 50 individus
Le nombre de mesures pour les deux variables doit être le même.
En cas de petits effectifs, voir méthodes non paramétriques.
ées en chiffres.
Exemples
Expliquer la quatité d'oxygène dissous à partir de la température de l'eau.
Expliquer ou prévoir une vitesse de croissance à partir de caractéristiques du sol (granulométrie, humidité, ph…)
Expliquer ou prévoir le volume de la pêche à partir de l'âge du capitaine et des matelots.
Expliquer divers items comportementaux d'animaux sauvages captifs à partir de caractéristiques quantitatives et/ou qua
Remarques importantes
- L'utilisation de ces méthodes en prévision n'a de sens que si l'on s'est assuré de la valeur explicative des variables x.
- L'observation graphique de la forme des relations entre variables est nécessaire pour le choix d'une méthode.
- Pour la régression logistique (variable à expliquer binaire), voir feuille J.
1.1.1.2. Effectif
Le nombre d'individus doit être supérieur au nombre de variables explicatives - Sinon voir 1.1.4.
Il ne doit pas y avoir de données manquantes : même effectif pour toutes les variables - Sinon v
1.1.1.5. Homoscédasticité
Les variances de la variable à expliquer (y) doit être la même pour les différents valeurs des vari
Vérification par observation du graphique xy.
Rcmdr : Modèles / Graphes / Diagnostics graphiques
1.1.2. Une variable à expliquer et une seule explicative (régression linéaire simple)
Excel - Utilitaire d'analyse : Régression linéaire
R : lm {stats}
Rcmdr : Statistiques / Ajustement de modèle / Régression linéaire
1.2.2. Outils pour les régressions linéaires simples ou multiples non paramétriques
R : lmp {lmPerm} (détermination de la valeur de p par la méthode des permutations)
1.3.2. Outils
R : train {caret} (grand choix de méthodes, randomForest, réseaux de neurones, SVM…
2.1.1.2. Effectif
Le nombre d'individus doit être supérieur au nombre de variables explicatives.
2.1.2. Outils pour les régressions non linéaires à effets fixes seuls
Remarque : il y a rarement plus d'une variable explicative.
R : nls {stats}
2.3.2. Outils
R : train {caret} (grand choix de méthodes, randomForest, réseaux de neurones, SVM…
à partir d'autres variables
quantitatives.
1.1.4. régression PLS.
e Shapiro-wilk
sion linéaire
as présenter de colinéarité.
sion linéaire
bles explicatives.
Exemples
Quelles sont les meilleures variables permettant de discriminer sujets sains de sujets malades.
Quels sont les meilleurs paramètres pour prévoir si un client pourra rembourser son prêt.
Quelles sont les protéines qui caractérisent le mieux les trois formes d'une maladie.
Quels sont les meilleurs indicateurs de réussite de gestation.
Distributions
Les variables explicatives doivent avoir une distribution normale dans chacune des classes à
Outils pour la vérification :
Utilitaire : "Test de normalité de Shapiro-Wilk.xlsx" (limité à 500 valeurs)
R : shapiro.test {stats} ; byf.mshapiro {RVAideMmemoire}
R : mshapiro.test {RVAideMemoire} (test de multinormalité)
Rcmdr : Statistiques / Résumés / Test de normalité de Shapiro-wilk
Homoscédasticité
Les matrices de covariances dans chaque classe doivent être homogènes
Aucune variable ne doit être constante entre les groupes
Outils pour la vérification
R : Kullback {asbio} (la variable à expliquer doit être codée numériquement)
R : Hawkins {MissMech}
Si cette condition n'est pas remplie, préférer l'analyse discriminante quadratique (§ 1.1.1.3.).
Multicolinéarité
Il ne doit pas y avoir de multicolinéarité entre les variables explicatives.
Outils pour la vérification :
R : redun {Hmisc}
1.3.1.2. Outils
R : rpart {rpart}
1.3.2.2. Outils
R : train {caret} (grand choix de méthodes, randomForest, réseaux de neurones, SVM…)
Déviance résiduelle
Si la variance résiduelle est très supérieure aux degrés de liberté, choisir la famille quasibinomiale.
ses discriminantes)
e Shapiro-wilk
re homogènes
codée numériquement)
500 valeurs)
500 valeurs)
égression ordinale
Concordance entre variables quantitatives
Exemples
Voir si quatre paramètres de dimensions corporelles sont concordants (= globalement corrélés).
Tester la concordance entre les résultats à 5 tâches d'apprentissage différentes.
Evaluer le degré d'accord entre plusieurs juges classant une série d'objets.
Evaluer la concordance entre sites du point de vue de la quantité de différentes espèces.
1. Méthode directe
Utilitaire : "Concordance de KENDALL.xlsx" (limité à 15 colonnes et 100 lignes)
Exemple
Evaluer dans quelle mesure cinq items sensés mesurer la mémoire permettent de conclure à une variable latente.
Exemples
Voir les relations entre 30 paramètres physiologiques évalués quantitativement et/ou qualitativement.
Quelles sont les relations entre les notes obtenues aux différentes matières du baccalauréat dans 5 lycées différents ?
Voir les relations entre 10 mesures comportementales et 20 paramètres physiologiques.
Voir les relations entre des paramètres climatiques et pédologiques et la richesse de la flore.
Mettre en relation les réponses à une question ouverte et les caractéristiques des répondants.
2.1.2. Fréquences
Il ne doit y avoir ni colonne ni ligne pour laquelle toutes les valeurs sont égales.
5. Variables actives surtout quantitatives + quelques qualitatives (Analyse Factorielle des Données Mixtes)
5.1. Conditions de validité
5.1.1. Pour les quantitatives
Mêmes conditions que pour l'ACP (§ 1.1. ci-dessus)
litativement.
éat dans 5 lycées différents ?
espondances)
ec N = effectif total.
Données Mixtes)
e graphique.
Fréquences ou proportions de catégories ordinales
Comparaison d'une distribution observée à une distribution théorique
Exemples
Les proportions observées de cinq catégories de notes sont-elles voisines de 20% chacune ?
Les proportions observées de 4 phénotypes sont-elles conformes à des proportions Mendéliennes ?
3. Comparaisons deux à deux après un test du chi² quand il y a plus de deux modalités
3.1. Conditions de validité
3.1.1. Classes exclusives
Les classes de la variable qualitative doivent être exclusives,
c'est à dire qu'un même individu ne peut pas se trouver dans deux catégories différentes.
es différentes.
e liberté est 1.
0 dans plus de 20% des cas.
es différentes.
e liberté est 1.
0 dans plus de 20% des cas.
r l'utilisateur)
Comparaison de deux échantillons indépendants
dans le cas de mesures qualitatives ordinales
Exemples
Comparer deux classes de l'enseignement primaire dont les élèves ont été notés A, B, C ,D ou E (A > B > C > D > E).
Comparer deux groupes de patients, l'un traité, l'autre non, pour le ressenti ± grave d'une douleur.
Comparer deux lots de rongeurs élevés dans des conditions différentes pour l'état général du pelage.
Comparer deux séries de cultures cellulaires ± attaquées par deux virus (pas du tout < un peu < moyennement < beauc
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1
- Toutes ces méthodes sont non paramétriques et utilisent les rangs des valeurs.
2. Méthodes exactes par permutations des rangs n'utilisant aucune loi de distribution
2.1. Conditions de validité du test de Mann & Whitney sur données ordinales
(aussi nommé test de Wilcoxon ou test de Wilcoxon-Mann-Whitney)
2.1.1. Les catégories de la variable qualitative doivent être ordinales et exclusives.
2.1.2. Les effectifs des deux échantillons peuvent être différents.
2.2. Outils pour le test exact de Mann & Whitney par permutations
R : wilcox_test {coin} (échantillons empilés)
A, B, C ,D ou E (A > B > C > D > E).
e d'une douleur.
général du pelage.
out < un peu < moyennement < beaucoup < totalement).
(échantillons empilés)
Test de l'hétérogénéité entre plus de deux échantillons indépendants
dans le cas de mesures qualitatives ordinales
Exemples
Comparer dix classes de CE2 de différentes écoles dont les élèves ont été notés A, B, C ,D ou E (A > B > C > D > E).
Comparer trois groupes de patients ayant reçu trois traitements différents, pour le ressenti ± grave d'une douleur.
Comparer plus de deux lots de rongeurs élevés dans des conditions différentes pour l'état général du pelage.
Comparer cinq séries de cultures cellulaires ± attaquées par cinq virus différents (pas du tout < un peu < moyennement
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Toutes ces méthodes sont non paramétriques et utilisent les rangs des valeurs.
2.2. Outils pour le test exact de Kruskal et Wallis par permutations des rangs
R : kruskal_test {coin} (échantillons empilés)
E (A > B > C > D > E).
ve d'une douleur.
ral du pelage.
un peu < moyennement < beaucoup < totalement).
Exemples
Comparaison deux à deux de dix classes dont les élèves ont été notés A, B, C ,D ou E (A > B > C > D > E).
Comparer deux à deux des groupes de patients ayant reçu trois traitements différents, pour le ressenti ± grave d'une dou
Comparer deux à deux trois lots de rongeurs élevés dans des conditions différentes pour l'état général du pelage.
Comparer deux à deux cinq séries de cultures cellulaires ± attaquées par cinq virus différents (pas du tout < un peu < mo
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- En général, ces tests sont appliqués en aval d’un test des effets globaux (exemple feuille O).
- Toutes ces méthodes sont non paramétriques et utilisent les rangs des valeurs.
1.2. Outils pour les comparaisons deux à deux avec correction des valeurs de p
Utilitaire : "ANOVA et comparaisons multiples non paramétriques avec R.xlsx" (Didacticiel)
Utilitaire : "Kruskal & Wallis.xlsx" - 10 échantillons et 50 valeurs au plus. (échantillons côte à côte)
R : nparcomp {nparcomp} (échantillons empilés)
R : pairwise.wilcox.test {RVAideMemoire} (échantillons empilés)
côte à côte)
Deux séries appariées - Test du changement après une répétition
d'une mesure qualitative ordinale sur un seul échantillon.
Exemples
On évalue l'état général d'animaux par un critère qualitatif (± bon) avant et après un traitement.
Comparaison de la couleur (± marquée) pour le bras droit (non traité) et le bras gauche (traité) de 20 patients.
Comparaison des notes (A, B, C, D ou E) des élèves d'une même classe en début et en fin d'année.
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1
- Dans tous les cas, s'il n'y a pas de différence entre les deux mesures d'un même individu, cet individu sera ignor
- Toutes ces méthodes sont non paramétriques.
2.2. Test exact utilisant l'amplitude des différences de rangs non nulles
R : perm.test {exactRankTests} (2 séries côte à côte)
é) de 20 patients.
s côte à côte)
Plus de deux séries appariées - Test du changement au cours de plusieurs ré
d'une mesure qualitative ordinale sur un seul échantillon.
Exemples
On évalue l'état général d'animaux d'un même lot par un critère qualitatif (± bon) chaque semaine pendant un mois.
L'état des animaux change-t-il significativement au cours du temps ?
Comparaison de la couleur du visage (± marquée) pendant 10 jours chez 20 patients recevant une crème protectrice.
La couleur du visage change-t-elle significativement en fonction du temps ?
Comparaison des notes (A, B, C, D ou E) des élèves d'une même classe à la fin de chaque trimestre.
Les notes changent-elles significativement en fonction des trimestres ?
5 œnologues évaluent les 10 mêmes vins par une note entre 1 et 7.
Est-ce que certains vins sont régulièrement classés plus bas ou plus haut ?
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas de changement au cours des répétitions sera ingoré.
- Toutes ces méthodes sont non paramétriques.
2. Test avec approximation de la valeur exacte de p par permutations entre les valeurs numériques
N.B. Ce test est valide quels que soient les nombres d'individus et de répétitions.
Outils
R : symmetry_test {coin} (répétitions empilées)
ment au cours de plusieurs répétitions
sur un seul échantillon.
haque trimestre.
s numériques
Comparaisons deux à deux de séries répétées
après des mesures qualitatives ordinales sur un seul échantillon
Exemples
Voir feuille R.
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas de changement au cours des répétitions sera ingoré.
- En général, ces tests sont appliqués en aval d’un test des effets globaux (exemples pages R et T).
- Ces méthodes sont non paramétriques et utilisent les rangs des valeurs.
Exemples
On teste le changement du degré de trouble chez des patients souffrant d'angoisses par une mesure ordinale
(exemple, un score) répétée chaque semaine au cours d'un traitement, par comparaison avec un groupe témoin.
On teste le changement du niveau de vigilance par une qualitative notée de 1 à 5 chez 30 patients,
à quatre moments de la journée, deux jours par semaine (= 2 niveaux appariés imbriqués).
On évalue la vitalité de 40 arbres répartis entre deux sites différents par une note de 1 à 10, chaque année.
On souhaite comparer l'évolution des notes d'élèves notés de A à E entre le début et la fin de l'année,
pour des classes de différents niveaux (CE1 à CM2) dans trois secteurs différents d'une même ville.
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Les méthodes indiquées ci-dessous acceptent les données manquantes.
- Ces méthodes sont non paramétriques et utilisent les rangs.
Outils pour l'analyse de changements dans des échantillons indépendants avec une mesure ordinale répétée
Utilitaire : "Analyse non paramétrique des données logitudinales sous R.xlsx" (didacticiel)
R : fonctions de la bibliothèque {nparLD} (Echantillons et séries empilés)
LD-F1 : un facteur répété, pas de groupes indépendants
LD-F2 : deux facteurs répétés imbriqués
F1-LD-F1 : Un facteur répété et un facteur avec groupes indépendants
F1-LD-F2 : Un facteur avec groupes indépendants et deux facteurs répétés imbriqués
F2-LD-F1 : Deux facteurs indépendants imbriqués et une mesure répétée
endants
e qualitative ordinale
ns indépendants)
mesure ordinale
n avec un groupe témoin.
haque année.
même ville.
ordinale répétée
Test de la corrélation entre deux variables qualitatives ordinales
mesurées sur les mêmes individus
Exemple
Chez les élèves d'une classe on souhaite voir s'il y a une corrélation entre les notes (A, B, C, D, E) en calcul et en sport
Pour un échantillon de 20 souris on recherche une corrélation entre l'état du pelage noté de 1 à 4 et le poids en gramme
Pour 10 vins notés de 1 à 7 par un œnologue, on recherche la corrélation entre ces notes et le taux de souffre dans ces
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas les deux mesures sera ignoré.
- Ces méthodes sont non paramétriques.
R : spearman_test {coin}
, C, D, E) en calcul et en sport.
de 1 à 4 et le poids en grammes.
s et le taux de souffre dans ces vins.
Exemples
Evaluer l'accord entre juges ayant noté plusieurs objets de manière ordinale.
Chez des élèves notés A, B, C, D, E pour chaque matière, on souhaite tester la concordance entre toutes les matières.
10 œnologues ayant classé 5 vins, on souhaite tester la concordance entre les notes des 10 œnologues.
Remarques
- Les catégories ordinales devront être notées numériquement : A > B > C > D > E devient 5 > 4 > 3 > 2 > 1.
- Dans tous les cas, un individu qui ne présente pas toutes les mesures sera ignoré.
- Ces méthodes sont non paramétriques.
1. Conditions de validité
1.1. Les données doivent être qualitatives ordinales ou quantitatives.
1.2. Le tableau doit comporter au minimum 3 lignes et 3 colonnes.
R : kendall.w {synchrony}
ntre toutes les matières.
Exemple
On veut savoir si le degré de satisfaction du métier (noté de 1 à 4) est dépendant du niveau de revenu (noté en 5 catégo
Tester la relation entre 4 doses croissantes (= 4 échantillons indépendants) d'un traitement
et la réponse aux traitements notée de manière ordinale. L'étude est faite sur des sujets de deux catégories d'âge
1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives.
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5.
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10.
R : lbl_test {coin} (Il peut y avoir une variable de stratification en plus des deux ordinales)
(Ce test permet soit le calcul de la p-value exacte soit une approximation)
revenu (noté en 5 catégories).
nt exclusives.
Tester la relation entre deux variables qualitatives multinominales
ou comparer des échantillons par des mesures qualitatives
N.B. Il s'agit ici d'un test d'indépendance et non d'un test de conformité tel qu'étudié feuille M.
1.3. Test G
1.3.1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10
ns d'effectifs théoriques)
a p-value exacte)
s effectifs théoriques sont faibles)
Exemples
Dans trois situations familiales on a relevé la catégorie socio-professionnelle la plus élevée.
Ces relevés ont été fait dans cinq départements français.
On veut tester la relation entre situations familiales et catégories socio-professionnelles
en stratifiant par les départements pour augmenter la puissance du test.
On veut comparer les fréquences observées de 10 espèces végétales dans trois biotopes,
les relevés ayant été faits par deux personnes différentes.
Remarque
Dans tous les cas on suppose qu'il n'y a pas d'interaction liée au facteur de stratification.
R : mantelhaen.test {stats}
R : cmh_test {coin} (permet l'approximation de la p-value exacte)
Tester la contingence entre deux variables multinominales
Exemples
Après avoir montré que les fréquences de 5 variétés de plantes n'étaient pas indépendantes des 3 types de sols
par un test de chi², on souhaite évaluer de degré d'association entre ces deux variables.
Après avoir montré que les fréquences de 4 maladies n'étaient pas indépendantes de 3 types génotypiques
par un test de chi², on souhaite évaluer de degré d'association entre maladies et génotypes.
1. Conditions de validité
Indépendance
Un même individu ne doit se trouver que dans une seule cellule du tableau,
c'est à dire qu'il n'y a qu'une mesure par individu : les catégories de chaque variable sont exclusives.
Données manquantes
Il ne doit pas y avoir de données manquantes, c'est à dire pas de cellule vide dans le tableau.
Effectifs théoriques
Aucun effectif théorique ne doit être inférieur à 5
Il ne doit pas y avoir plus de 20% d'effectifs théoriques < à 10
3 types génotypiques
et génotypes.
dans le tableau.
de Cramer)
s sont vérifiées)
Coefficient Kappa de Cohen d'agrément entre juges
Exemples
Cinq juges sont appelés à classer 20 objets dans des catégories de goût.
On veut tester l'accord entre les juges.
Des médecins sont appelés à classer 10 patients dans l'une de trois maladies.
On veut tester l'accord entre les médecins.
Deux médecins sont appelés à évaluer le degré de gravité d'une maladie selon trois niveaux.
On veut tester l'accord entre les deux médecins.
Plusieurs agronomes sont appelés à juger du degré d'atteinte de 40 arbres.
On veut tester l'accord entre les agronomes.
1. Conditions de validité
Catégories
Elles doivent être exclusives. Un individu ne doit se trouver classé que dans une catégorie.
Données manquantes
Les individus présentant des données manquantes sont éliminés de l'analyse.
Exemples
Dans une expérience qui donne normalement 50% de réussite on a obtenu 40% de succès.
On souhaite vérifier que cette proportion de 40% est significativement différente de 50%.
A l'issue d'un croisement on a obtenu deux types de descendants dans les proportions 19% et 81%.
On souhaite tester si cela s'écarte significativement de proportions Mendéliennes 1/4 et 3/4.
Un agriculteur a obtenu 145 plants sains et 40 plants malades à l'issue d'un traitement donnant normalement 70% de r
Il veut tester si il s'écarte significativement de la norme.
La parité est-elle respectée au sein des salariés de cette entreprise employant 164 femmes et 135 hommes ?
N.B. Il s'agit ici d'un test de conformité et non d'indépendance. Ce dernier est étudié feuille X2.
1. Conditions de validité
Les deux classes doivent être exclusives
Exemples
Dans une parcelle on a trouvé 25 plants malades et 110 plants sains et dans une autre 20 malades pour 120 sains.
On veut savoir si ces proportions sont significativement différentes.
Dans un groupe traité il y a 78% de guérison contre seulement 55% dans le groupe contrôle.
On veut savoir si ces proportions sont significativement différentes.
N.B. Il s'agit ici d'un test d'indépendance et non de conformité. Ce dernier est étudié feuille X1.
Echantillons indépendants
Les deux échantillons doivent être indépendants.
En cas de mesures répétées sur les mêmes individus, voir test de McNemar, feuille Y.
Effectifs théoriques
Il ne doit pas y avoir d'effectifs théoriques < 5.
2.2. Outils
Utilitaire : "Comparaison de deux proportions avec IC.xlsx"
R : prop.test {stats}
ons indépendants
Exemples
A l'occasion d'une élection comportant deux candidats, un même groupe de personnes
est interrogé sur son choix entre les deux candidats avant et après un débat télévisé
entre les deux impétrants.
Lors d'une épreuve de tir on relève pour 20 personnes si elles ont échoué ou réussi
d'une part sans avoir consommé d'alcool, ensuite après en avoir consommé.
Exemples
Lors d'un essai en cross-over sur 12 patients on mesure par réussite (1) ou échec (2)
l'effet de deux antalgiques, après une mesure témoin.
Suite à un traitement sur des arbres atteints par une maladie, on note par 1 ou 0 la guérison ou non
de chaque arbre, chaque semaine pendant 8 semaines.
Remarques
- Les catégories binomiales devront être notées numériquement par 1 ou 0.
- Dans tous les cas, un individu qui ne présente pas de changement entre les mesures sera ingoré.
- Ces méthodes sont non paramétriques.
1. Conditions de validité
Nature des variables
Les variables doivent être binaires et numériques
Les deux catégories sont exclusives
Données manquantes
Il ne doit pas y avoir de données manquantes.
Les individus présentant des données manquantes seront ignorés.
2.2. Test classique avec comparaisons multiples si l'effet global est significatif
R : cochran.qtest {RVAideMemoire} (données empilées avec un facteur "sujets")
guérison ou non