Vous êtes sur la page 1sur 74

2021

Unité d'Enseignement
Biostatistiques
1ère Année – S5

AUTEUR: DZVET 360


La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
‫‪‬‬ ‫القرآن‬
‫‪‬‬ ‫األذكار‬
‫‪‬‬ ‫تالوة‬
‫‪‬‬ ‫الحديث‬
‫مواقيت الصالة‬
‫‪Islambook‬تطبيق إسالم بوك‬

‫أذكار المساء‬ ‫أذكار الصباح‬ ‫أذكار بعد الصالة‬ ‫تسابيح‬

‫أذكار النوم‬ ‫أذكار االستيقاظ‬ ‫أذكار الصالة‬ ‫جوامع الدعاء‬

‫أدعية نبوية‬ ‫األدعية القرآنية‬ ‫أدعية األنبياء‬ ‫أذكار متفرقة‬

‫أذكار اآلذان‬ ‫أذكار المسجد‬ ‫أذكار الوضوء‬ ‫أذكار المنزل‬

‫أذكار الخالء‬ ‫أذكار الطعام‬ ‫أذكار الحج والعمرة‬ ‫دعاء ختم القرآن الكريم‬

‫فضل الدعاء‬ ‫فضل الذكر‬ ‫فضل السور‬ ‫فضل القرآن‬

‫أسماء هللا الحسنى‬ ‫أدعية للميّت‬ ‫الرقية الشرعية‬


‫ُّ‬ ‫القرآن‬

‫‪DZVET 360‬‬
‫اختر برنامج الحفظ او التالوة الذي يناسبك‬

‫اقرأ أكثر‬

‫‪http://quranlives.com/‬‬

‫‪DZVET 360‬‬
DZVET 360
UE : S5 - BIOSTATISTIQUES

SOMMAIRE

1. Biostat - CM 01-02 - La statistique descriptive


2. Biostat - CM 03 - Estimation statistique
3. Biostat - CM 04-05 - Tests statistiques
4. Biostat - CM 06 - Comparaison de fréquences
5. Biostat - CM 06-07-08 - Comparaison de moyennes
6. Biostat - CM 08 - Corrélation linéaire
7. Biostat - CM 09 - La régression linéaire simple
8. Biostat - CM 10 - Calcul de puissance

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique La statistique descriptive CM01-02

La statistique descriptive : méthode


de réduction et de représentation
des données dans le cas univarié
Objectifs pédagogiques :
- Savoir reconnaître le type d’une variable observée.
- Savoir synthétiser et représenter graphiquement des données observées selon le type de la variable.∗∗
- Etre capable d’interpréter les représentations graphiques classiques (dans le cas univarié).
- Savoir juger de la normalité d’une distribution à partir des représentations graphiques classiques.∗∗
- Savoir calculer et interpréter les paramètres statistiques classiques et connaître leurs limites d’utilisation.
- Savoir calculer des valeurs usuelles pour une variable biologique quantitative continue.∗∗

∗∗ savoir-faire évalués uniquement en S6 après entraînement en TD

Table des matières


Les types de variables ............................................................................................................................................... 2
Les variables qualitatives ...................................................................................................................................... 2
Les variables quantitatives .................................................................................................................................... 2
Variable semi-quantitative.................................................................................................................................... 2
Définir correctement le type d’une variable......................................................................................................... 2
Représentation graphique ........................................................................................................................................ 2
Variable qualitative ............................................................................................................................................... 2
Variable quantitative discrète ............................................................................................................................... 3
Variable quantitative continue ............................................................................................................................. 4
Représentation de la fonction de densité de probabilité ................................................................................. 4
Fonction de répartition ..................................................................................................................................... 4
Représentations des variables quantitatives continues ................................................................................... 5
Réduction des données ......................................................................................................................................... 8
Paramètres de position ......................................................................................................................................... 8
Paramètres de dispersion et de valeurs usuelles ................................................................................................. 9
Définitions ......................................................................................................................................................... 9
Deux méthodes potentielles pour définir une gamme de valeurs usuelles pour une variable biologique ...... 9
Limites des paramètres classiques ...................................................................................................................... 10

Page 1 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
Les types de variables
Les variables qualitatives

➢ Variable nominale : modalités non ordonnées.


Ex : couleur du poil, sexe…
➢ Variable ordinale : modalités ordonnées.
Ex : évolution de l’état d’un malade (aggravation, état stationnaire, amélioration, guérison)…

Les variables quantitatives

➢ Variable discrète : série discrète de nombres.


Ex : nombre d’animaux domestiques par foyer, nombre de vétérinaires associés par clinique,…
➢ Variable quantitative continue : série continue de nombres.
Ex : poids, durée, taux d'hémoglobine, . . .

Variable semi-quantitative

Les variable semi-quantitatives sont plus compliqués


Ex : dosage d’un toxique avec une limite de quantification de la méthode analytique, score clinique, …

Définir correctement le type d’une variable

La bonne question à se poser est :

Quelle est la variable observée sur chaque unité d'observation?

Quelques exemples :
➢ Etude du poids de chiots à la naissance : unité d'observation = chiot) => variable quantitative continue.
➢ Etude du taux de mortalité des chiots à la naissance dans divers élevages : unité d'observation = élevage) =>
variable quantitative continue.
➢ Etude du taux de mortalité liée à une pathologie donnée sur un groupe de malades : unité d'observation =
individu) => variable qualitative nominale (mort / vivant)

Représentation graphique
Variable qualitative

Exemple : Etude de la reproduction de chiens de race sur 423 élevages (données extraites de la thèse vétérinaire de
Mathilde Poinssot, Maisons Alfort, 2011)
Une des variables étudiées : le type de fécondation
Variable qualitative
Monte naturelle avec Monte naturelle avec Insémination
nominale à trois
un mâle de l'élevage un autre mâle artificielle
modalités

Effectifs ni 124 197 102

Fréquences fi = ni/N 0.293 0.466 0.241

Page 2 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
 Comment représenter la distribution en fréquences observée ?
➢ Le diagramme en secteurs ou camembert.

/!\ Eviter à tout prix les camemberts en relief!

Y a-t-il plus d'oiseaux ou de chiens ? Pas si évident ! Camembert plus lisible en 2D

➢ Diagramme en bâtons à privilégier pour les variables qualitatives ordinales

Variable quantitative discrète

Exemple : étude (dans la thèse précédente) de la taille de la portée : c'est-à-dire le nombre de chiots par portée =>
variable quantitative discrète

Classe 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 17

Effectif 39 66 80 11 118 122 131 108 86 52 33 21 17 3 1 2

Fréque 0.039 0.066 0.080 0.119 0.118 0.122 0.131 0.108 0.086 0.052 0.33 0.021 0.017 0.003 0.01 0.00
nce 08 13 16 24 24 24 26 22 17 10 07 04 03 01 1 2

➢ Diagramme en bâtons (en effectifs ou en fréquences) ➢ Graphe des points (« dotplot » ou « «stripchart »)

Page 3 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
➢ Graphe de points en vertical pour comparer plusieurs distributions

Variable quantitative continue

Représentation de la fonction de densité de


probabilité

Probabilité d'une valeur donnée = 0


Définition d'une fonction de probabilité f :
𝑏
Pr(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫ 𝑓(𝑡)𝑑𝑡
𝑎
On lit sur le graphe une aire sous la courbe qui correspond à la
probabilité d'un intervalle
L'aire globale = 1.

Fonction de répartition

➢ Définition de la fonction de répartition F : ➢ Représentation de la fonction de répartition


𝑥
Fonction : 𝑥 → 𝐹(𝑥)
𝐹(𝑥) = Pr(𝑡 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
−∞

Fonction de répartition en x = aire sous la courbe à


gauche de x

Page 4 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
Représentation de la fonction de répartition sur des données observées
 Plus de nécessité de définir des classes (intervalles).
On classe les observations par ordre croissant, on attribue à chaque observation xi son rang i dans le classement, on
peut dire que F(xi) = i/N
En général on fait une petite correction pour que le graphe parte au-dessus de 0 et arrive en dessous de 1 : on reporte
classiquement les points de coordonnées : x = xi et y = (i-0,5)/N .

Construction du diagramme des fréquences cumulées de la Diagramme des fréquences cumulées pour la durée de
durée de gestation pour un échantillon de 10 portées gestation

Représentations des variables quantitatives continues

➢ Histogramme de fréquences (en effectifs ou en densité de probabilité) (avec des classes plus ou moins
grandes)

(d’après la thèse précédente) étude de la durée de la gestation. Il s'agit bien d'une variable continue, même si sa
mesure est discrète (en jours)

• Définition des intervalles, par exemple :


]45, 50] ]50, 55] ]55, 60] ]60, 65] ]65, 70] ]70, 75] ]75, 80] ]80, 85]

• Calcul des effectifs ni pour chacun des intervalles :


Intervalles ]45, 50] ]50, 55] ]55, 60] ]60, 65] ]65, 70] ]70, 75] ]75, 80] ]80, 85]
Effectif 2 4 292 577 50 1 1 1

• Calcul des fréquences fi = ni/N pour chacun des intervalles :


Intervalles ]45, 50] ]50, 55] ]55, 60] ]60, 65] ]65, 70] ]70, 75] ]75, 80] ]80, 85]
Fréquences 0.00216 0.00431 0.31466 0.62177 0.05388 0.00108 0.00108 0.00108

Choix des intervalles :


Le choix de la largeur des intervalles dépend beaucoup de l'effectif global.
Plus il est grand, plus on peut se permettre d'affiner l'histogramme en diminuant la largeur des intervalles.
En partant d'un petit effectif l'histogramme devient peu parlant si on prend des intervalles trop étroits.
Avec un très petit effectif, il n'est plus raisonnable de faire un histogramme.

Page 5 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02

ATTENTION ! Dans ce cas il faut impérativement le lire en


aire sous la courbe et l'axe des y est forcément en densité
de probabilité (aire globale = 1)

Histogramme de la durée de gestation sur 30 Histogramme de fréquences de la durée de gestation avec


portées : intervalles trop étroits ! des classes de tailles variables

Les diagrammes en bâton sans intérêt sur une variable continue car il ne permet pas de mettre en évidence les valeurs
extrême : passage de 69 à 70 avec le même écart que 70 à 75 !

➢ Diagramme en boîte ou boîte à moustache

Représentation des trois quartiles observés et des valeurs minimale et maximale.


On attribue à chaque observation xi sa fréquence cumulée : F(xi ) = (i-0,5)/N et on définit les valeurs de x correspondant
à F(x) = 0.25, 0.5 et 0.75 (diverses méthodes possibles utilisant ou non une interpolation).
Premier quartile : F(Q0,25) = 0.25
Deuxième quartile (médiane) : F(Q0,5) = 0.50
Troisième quartile : F(Q0,75) = 0.75

 Représentation réalisable et parlante même avec peu de données (pas trop peu non plus : pas moins de 7-8
observations)

Page 6 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
Diagramme en boîte de la durée de gestation sur les 30 Il est classique mais non obligatoire de représenter
portées individuellement les valeurs extrêmes

 Si on dispose de vraiment peu de valeurs, le diagramme en boîte n’est pas recommandé, il vaut mieux reporter
directement tous les points observés (« dotplot » ou « stripchart »)

➢ Diagramme quantile – quantile ou Q-Q plot

Représentation visant à vérifier la normalité d’une distribution.

On attribue à chaque observation xi de rang i sa fréquence cumulée : F(xi ) = (i-0.5)/N


On regarde quelle valeur de ui dans la loi normale centrée réduite N(0,1) possède la même valeur de F :
FN(0,1)(ui ) = F(xi ).
Pour chaque observation on reporte un point d'abscisse ui (quantile de la loi normale) et d'ordonnée xi (quantile
observé).
Si la loi observée est normale les points sont à peu près alignés.
Construction du Q-Q plot de la durée de gestation pour un échantillon de 10 portées
Valeurs
observées xi 59 59 61 61 61 62 63 63 64 65
ORDONNÉES
Fréquences
cumulées 0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95
associées F(xi)
Valeurs de ui
correspondantes
(loi normale -1,64 -1,04 -0,674 -0,385 -0,126 -0,126 0,385 -0,674 1,04 1,64
N(0,1)
ABSCISSES

Page 7 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02

Diagramme Quantile-Quantile de la durée de gestation sur 928 portées : On voit


apparaître un faible écart à la loi normale expliqué partiellement par les valeurs
extrêmes.

A retenir pour la représentation d’une variable continue :


▪ Histogramme de fréquences
Vision fine de la densité de probabilité - grand nombre de points et définition appropriée de classes nécessaires.
▪ Diagramme des fréquences cumulées
Visualisation de la fonction de répartition.
▪ Diagramme en boîte (« boxplot »)
Visualisation synthétique de la densité de probabilité – possible même avec un nombre de points modéré (si
nombre trop faible, représentation directe des points)
▪ Diagramme Quantile-Quantile (« QQ-plot »)
Vérification de la normalité d'une distribution.

Réduction des données


Paramètres de position

Moyenne : sous-entendu moyenne arithmétique classique pouvant être notée de diverses façons :

1 𝑁
𝑥̅ = 𝐸(𝑥) = 𝑚𝑥 = ∑ 𝑥𝑖
𝑁 𝑘=1

Médiane : Deuxième quartile Q0.5 (tel que F(Q0.5) = 0.5). C’est un paramètre robuste (peu sensible aux valeurs
extrêmes).

Mode : Pic de la distribution pouvant être visualisé sur un histogramme comme la valeur centrale de la classe la plus
représentée (dépend de la définition des classes).

Page 8 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
Paramètres de dispersion et de valeurs usuelles

Définitions

1
Variance (moyenne des carrés des écarts à la moyenne) : 𝑉(𝑥) = ∑𝑁 2 2
𝑘=1(𝑥𝑖 − 𝑥̅ ) = 𝐸(𝑥 ) − 𝐸(𝑥)
2
𝑁
Ecart type (noté souvent SD pour « Standard Deviation ») : 𝑆𝐷 = √𝑉(𝑥)
𝑆𝐷
Coefficient de variation : 𝐶𝑉 =
𝑥̅
Ecart interquartile (paramètre robuste) : EIQ = Q0.75 - Q0.25
Paramètre assez peu utilisé correspondant à la longueur de la boîte dans un diagramme en boîte.

Interprétation de l’écart type sur l’histogramme de la durée Cas particulier d’une loi observée normale : l’intervalle
de la gestation (sur les 928 portées) 𝑥̅ ± 𝑆𝐷 contient 68 % des valeurs

Cas particulier d’une loi observée normale : l’intervalle Quartiles et quantiles à 2,5 et 97,5 % sur l’histogramme de la
𝑥̅ ± 2𝑆𝐷 contient 95 % des valeurs durée de gestation (sur 928 portées)

Deux méthodes potentielles pour définir une gamme de valeurs usuelles pour une
variable biologique

Exemple : valeurs usuelles du taux d'hémoglobine chez le chat ?


Observation du taux d'hémoglobine sur un échantillon de chats sains, puis détermination de l'intervalle contenant
95% des observations (et laissant 2.5% des observations de chacun de ses côtés).
▪ Utilisation des quantiles : [Q0.025,Q0.975]
Valable quelle que soit la distribution mais nécessite de nombreuses observations pour une estimation précise.
▪ Utilisation de la moyenne et de l'_écart type pour une loi normale : [𝑥̅ − 1,96 × 𝑆𝐷, 𝑥̅ + 1,96 × 𝑆𝐷]
approché souvent par : [𝑥̅ − 2 × 𝑆𝐷, 𝑥̅ + 2 × 𝑆𝐷]
ATTENTION, valable uniquement si la loi est proche d'une loi normale.

Page 9 sur 10
DZVET 360
Biostatistique La statistique descriptive CM01-02
Comparaison des deux méthodes pour la durée de gestation (sur 928 portées) :

Limites des paramètres classiques

La moyenne et l’´écart type résument complètement l’information contenue dans une distribution normale, mais ne
sont pas appropriés pour résumer une distribution de forme différente, d’où l’importance de représenter
graphiquement les données avant tout traitement statistique.

Histogramme de fréquences des


Histogramme de fréquences de l’âge à Autres représentations graphiques
notes des étudiants vétérinaires au
la mise bas sur 964 chiennes de cette distribution
partiel de biostatistique en juin 2014

CONCLUSION
La description des données observées est une étape importante qui doit IMPERATIVEMENT commencer par une
bonne représentation graphique de la distribution étudiée. Il convient de bien réfléchir avant de calculer les
paramètres statistiques classiques (moyenne, variance ou écart type) : “décrivent-ils bien la distribution observée ?”
Il est parfois plus raisonnable de ne pas résumer les données (très petits effectifs, distributions non normales)

Page 10 sur 10
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique L’estimation statistique CM03

L'estimation statistique :
Estimation des paramètres
statistiques décrivant une population
à partir d'un échantillon de cette
population
Objectifs pédagogiques :
- Savoir définir les notions suivantes : inférence statistique, échantillonnage aléatoire simple, distribution
d'échantillonnage, estimation et estimation sans biais.
- Savoir ce que représentent SD et SE (ou SEM) pour une variable quantitative continue.
- Avoir bien compris le théorème de l'approximation normale.
- Savoir juger de l'applicabilité du théorème de l'approximation normale et vérifier les conditions d'utilisation
des divers intervalles de confiance.
- Connaître la définition d'un intervalle de confiance.
- Savoir calculer à la main (avec une calculatrice) un intervalle de confiance sur une moyenne et sur une
fréquence.*
- Savoir interpréter un intervalle de confiance.

*savoir-faire évalué uniquement en S5

Table des matières


I. Echantillonnage......................................................................................................................................................... 2
A. Principe et méthode ............................................................................................................................................. 2
1. Echantillonnage et inférence statistique .......................................................................................................... 2
2. Un exemple historique : premiers sondages électoraux aux Etats-Unis en 1936 ............................................ 2
3. Autres exemples de biais d’échantillonnage : .................................................................................................. 2
4. Comment éviter les biais d’échantillonnage ? .................................................................................................. 2
B. Le théorème de l'approximation normale ............................................................................................................ 2
1. Notion de distribution d’échantillonnage ......................................................................................................... 2
2. Théorème de l'approximation normale pour l’estimation d’une moyenne ..................................................... 4
3. Distribution d’échantillonnage d’une fréquence : ............................................................................................ 4
4. Théorème de l'approximation normale pour l'estimation d'une fréquence .................................................... 6
II. Estimation statistique ............................................................................................................................................... 6
A. Estimation ponctuelle ........................................................................................................................................... 6
B. Estimation par intervalle ....................................................................................................................................... 6

Page 1 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
I. Echantillonnage
A. Principe et méthode

1. Echantillonnage et inférence statistique

• Peut-on caractériser une population en ne disposant que d'un


échantillon de celle-ci ?
• Comment obtenir un échantillon représentatif de la population
étudiée ?
• Comment éviter les biais d'échantillonnage ?

2. Un exemple historique : premiers sondages


électoraux aux Etats-Unis en 1936

Revue Literacy Digest Maison Gallup


sondage sur 2 300 000 personnes sondage sur 6 500 personnes
Alfred Landon : 55% Alfred Landon : 35%
Franklin Roosevelt : 41% Franklin Roosevelt : 64%

Résultat des élections : réélection de Roosevelt avec 61% des voix.


Disparition de la revue Literacy Digest suite à sa terrible erreur.
Pourquoi une telle erreur ? Biais d’échantillonnage
La Revue Literacy Digest a fait un sondage à partir des immatriculations et des listes des annuaires téléphoniques alors
que la Maison Gallup a fait un sondage aléatoire

3. Autres exemples de biais d’échantillonnage :

• Un biais facile à éviter dans un cadre expérimental : tirages d'animaux dans une cage en prenant le premier
qui vient (ce n’est pas un choix au hasard et il convient d'identifier les animaux pour faire un tirage aléatoire).
• Un biais plus difficile à éviter dans un cadre observationnel : estimation de la prévalence d'une maladie dans
une population sauvage à partir d'animaux capturés ou d'animaux retrouvés morts (chacune de ses 2
catégories n'est pas représentative de la population des animaux vivants).

4. Comment éviter les biais d’échantillonnage ?

Une méthode simple et classique : l'échantillonnage aléatoire simple


➢ Tirages aléatoires et indépendants des individus de l'échantillon (plus souvent sans remise)
➢ Tous les individus ont la même probabilité d'être tiré

B. Le théorème de l'approximation normale

1. Notion de distribution d’échantillonnage

Exemple de l'étude d'une variable quantitative X.

La densité de probabilité de 𝑋̅ (obtenue en supposant


une répétition de l'échantillonnage) est appelée la
distribution d'échantillonnage de 𝑋̅.

Page 2 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
➢ Distribution d’échantillonnage pour des tirages dans une loi normale :
• Distribution de X dans la population : loi normale N(0,1)
Pour i allant de 1 à 1000 :
o On tire N observations dans la loi
o On calcule la moyenne observée des N observations : mi

On visualise ensuite la distribution d’échantillonnage de la moyenne (distribution


des mi)

• Distribution d’échantillonnage pour N=2

Distribution d’échantillonnage pour N=5 Distribution d’échantillonnage pour N=10 Distribution d’échantillonnage pour N=20

➢ Distribution d’échantillonnage pour des tirages dans une loi uniforme


• Distribution de X dans la population : loi uniforme U(0,1)
Pour i allant de 1 à 1000 :
o On tire N observations dans la loi U(0,1)
o On calcule la moyenne observée des N observations : mi

On visualise ensuite la distribution d’échantillonnage de la moyenne (distribution des


mi)

• Distribution
d’échantillonnage pour N=2

Distribution d’échantillonnage pour N=5 Distribution d’échantillonnage pour N=10 Distribution d’échantillonnage pour N=20

Page 3 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
➢ Distribution d’échantillonnage pour des tirages dans une loi lognormale
• Distribution de X dans la population : loi lognormale LN(0,1)
Pour i allant de 1 à 1000 :
o On tire N observations dans la loi LN(0,1)
o On calcule la moyenne observée des N observations : mi

On visualise ensuite la distribution d’échantillonnage de la moyenne (distribution des


mi)

Distribution d’échantillonnage pour N=2 Distribution d’échantillonnage pour N=5 Distribution d’échantillonnage pour N=20

Distribution d’échantillonnage pour Distribution d’échantillonnage pour


Distribution d’échantillonnage pour N=30
N=100 N=1000

2. Théorème de l'approximation normale pour l’estimation d’une moyenne

➢ Cas d'une variable quantitative suivant une loi normale :


Pour des échantillons aléatoires simples de taille N, la moyenne 𝑋̅ de l'échantillon varie autour de la moyenne µ de la
𝜎
population avec une erreur standard 𝜎𝑋̅ = notée SE ou SEM (« Standard Error of the Mean »), σ étant l'écart
√𝑁
type de la population.
𝜎
• Lorsque la distribution de X dans la population est normale, 𝑋̅ suit la loi 𝑁(𝜇, )
√𝑁
• Quelle que soit la distribution de X, lorsque l'effectif N est suffisamment grand, la loi de 𝑋̅ s'approche de la loi
𝜎
normale 𝑁(𝜇, )
√𝑁

➢ Condition d’application du théorème pour l’estimation d’une moyenne :


/ !\ On trouve dans de nombreux ouvrages une condition d'application sous la forme d'un seuil pour N (N > 30). Cette
condition n'a pas beaucoup de sens. Il est impossible de juger de l'applicabilité du théorème sans regarder la forme
de la distribution. Comme vu dans les exemples précédents, plus on s'écarte de la loi normale, plus N doit être grand
pour appliquer le théorème.

3. Distribution d’échantillonnage d’une fréquence :

Page 4 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
𝑛𝑚𝑎𝑙𝑎𝑑𝑒𝑠
Distribution de la fréquence 𝐹 = dans le cadre de l'étude d'un caractère (ici malade ou non) dans une
𝑁
population.
La fréquence F est aussi la moyenne de X codant pour la maladie (1 si malade, 0 si non malade),
𝑛𝑚𝑎𝑙𝑎𝑑𝑒𝑠 ∑(𝑋𝑖 )
𝐹= = = 𝑋̅
𝑁 𝑁
Donc d'après le théorème précèdent, sa loi devrait s'approcher d'une loi normale lorsque N devient grand.

➢ Distribution d’échantillonnage pour des tirages dans une loi de Bernoulli – cas d’une variable qualitative
bimodale
• Distribution de X codant pour une maladie de probabilité p0 si p0 = 0,1 (10
% de malades)
Pour i allant de 1 à 1000 :
o On tire N individus dans une population contenant 10% de malades
o On calcule la fréquence observée de malades : Fi

On visualise ensuite la distribution d’échantillonnage de la fréquence de malades


(distribution des Fi)

Distribution d’échantillonnage d’une Distribution d’échantillonnage d’une Distribution d’échantillonnage d’une


fréquence pour p0 = 0,1 et N = 10 fréquence pour p0 = 0,1 et N = 10 fréquence pour p0 = 0,1 et N = 10

➢ Distribution d’échantillonnage d’une fréquence d’une maladie plus rare : p0


=1%
• Distribution de X codant pour une maladie de probabilité p0 si p0 = 0,01
Pour i allant de 1 à 1000 :
o On tire N individus dans une population contenant 1% de malades
o On calcule la fréquence observée de malades : Fi
On visualise ensuite la distribution d’échantillonnage de la fréquence de
malades (distribution des Fi)

• Distribution d’échantillonnage d’une fréquence pour p0 = 0,01 et N


= 10

Distribution d’échantillonnage d’une Distribution d’échantillonnage d’une Distribution d’échantillonnage d’une


fréquence pour p0 = 0,01 et N = 100 fréquence pour p0 = 0,01 et N = 10 fréquence pour p0 = 0,01 et N = 10
Page 5 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
4. Théorème de l'approximation normale pour l'estimation d'une fréquence

➢ Cas d'une variable qualitative bimodale


Pour des échantillons aléatoires simples de taille N, la fréquence F d'un caractère étudié varie autour de la proportion
𝑝0 (1− 𝑝0 )
p0 de ce caractère dans la population, avec une erreur standard 𝜎𝐹 =√
𝑁
𝑝0 (1− 𝑝0 )
Lorsque l'effectif N est suffisamment grand, la loi de F s'approche de la loi normale 𝑁(𝑝0 , √ )
𝑁

➢ Condition d’application du théorème pour l’estimation d’une fréquence :


L'effectif requis pour pouvoir appliquer le théorème de l'approximation normale pour l'estimation de la fréquence F
d'un caractère étudié dépend de la proportion p0 de ce caractère dans la population.
Plus p0 est proche de 0 (caractère rare) ou de 1 (caractère très répandu), plus N devra être grand.

II. Estimation statistique


A. Estimation ponctuelle

➢ Objectif de l’estimation ponctuelle d’un paramètre statistique


Le paramètre θ caractérisant la population étudiée est supposé fixe mais inconnu du fait qu'on n'a pas accès à la
population entière.
A partir d'un échantillon de la population, on souhaite estimer au mieux sa vraie valeur sur la population.
On exige souvent d'un estimateur T de θ qu'il soit sans biais, c'est-à-dire qu'en moyenne il ne se trompe pas,
autrement dit que la moyenne de la distribution d'échantillonnage de T soit égale à θ : E(T) = θ.

➢ Estimation sans biais d’une moyenne µ


D'après le théorème de l'approximation normale, la moyenne d'une variable quantitative calculée à partir d'un
échantillon aléatoire simple de la population est un estimateur sans biais de la moyenne de la population : 𝐸(𝑋̅) = 𝜇
𝜇̂ = 𝑋̅
➢ Estimation sans biais d’une fréquence p0 :
D'après le théorème de l'approximation normale, la fréquence F d'un caractère étudiée, calculée à partir d'un
échantillon aléatoire simple de la population, est un estimateur sans biais de la fréquence de ce caractère dans la
population : E(F) = p0.
𝑝
̂0 = 𝐹
➢ Estimation sans biais d’une variance σ² :
1
On peut montrer que la variance 𝑉(𝑋) = ∑𝑁
𝑘=1(𝑥𝑖 − 𝑥̅ )
2
d'une variable quantitative calculée à partir d'un
𝑁
𝑁−1
échantillon aléatoire simple de taille N de la population est un estimateur biaisé de la variance : 𝐸(𝑉(𝑋)) = 𝜎2
𝑁
On obtient un estimateur sans biais de la variance en corrigeant le biais :
̂2 = 𝑁 1 𝑁
𝜎 𝑉(𝑋) = ∑ (𝑥𝑖 − 𝑥̅ )2
𝑁−1 𝑁 − 1 𝑘=1
B. Estimation par intervalle

➢ Notion d’intervalle de confiance :


Quelle est la précision de l'estimation ponctuelle ?
Quelle confiance peut-on accorder à une estimation sur un échantillon unique (pratique courante) ?
Comment répondre à cette question sans répéter l'échantillonnage ?
 En construisant un intervalle de confiance autour de l'estimation.

Page 6 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
➢ Définition d’un intervalle de confiance bilatéral
Intervalle [t1; t2] construit de façon à ce qu'en terme de distribution d'échantillonnage (sous-entendu si on répétait
l'échantillonnage) :
𝛼
Pr(𝑡1 ≥ 𝜃) = Pr(𝑡2 ≤ 𝜃) =
2
Donc Pr(𝑡1 ≤ 𝜃 ≤ 𝑡2 ) = 1 − 𝛼
t1 et t2 sont appelées les limites de confiance.
1-α est appelé le seuil de confiance.
Généralement α est fixé à 5% et l'on parle d'intervalles de confiance à 95%.

➢ Illustration de la définition d’un intervalle de confiance bilatéral

M.L.
➢ Définition d’intervalles de confiance unilatéraux
Dans certains cas particuliers on définira des intervalles de confiance unilatéraux (une seule limite de confiance) ayant
toujours une probabilité 1-α de contenir la vraie valeur du paramètre.
Exemples classiques :
• Calcul du seuil au-dessous duquel on veut pouvoir dire avec une confiance de 95% que se trouve une
proportion d'animaux malades dans un pays : Intervalle du type [0; t].
• Calcul du seuil au-dessus duquel on veut pouvoir dire avec une confiance de 95% que se trouve la
sensibilité d'un test diagnostique : Intervalle du type [t; 1].

➢ Illustration de la définition d’un intervalle de confiance


unilatéral

➢ Calcul d’un intervalle de confiance


A partir du théorème de l'approximation normale et/ou d'autres résultats de la statistique théorique (conditions
d'utilisation à vérifier impérativement), des intervalles de confiance ont été proposés pour les cas classiques.
Deux exemples :
• Intervalle de confiance bilatéral autour d'une fréquence :
𝑓(𝑓 − 1)
𝑝0 = 𝑓 ± 𝑢1−𝛼 × √
2 𝑁
𝛼
avec 𝑢1−𝛼 le quantile à 1 − de la distribution normale N(0,1).
2 2
• Intervalle de confiance bilatéral autour d'une moyenne :
𝜎̂
𝜇 = 𝑥̅ ± 𝑡𝑁−1;1−𝛼 ×
2 √𝑁
𝛼
avec 𝑡𝑁−1;1−𝛼 le quantile à 1 − de la distribution de Student de degré de liberté N-1 (TN-1).
2 2

Page 7 sur 8
DZVET 360
Biostatistique L’estimation statistique CM03
➢ Calcul d’intervalles de confiance à 95% sur la durée moyenne de gestation à partir d’un échantillon de 30
portées
Visualisation des intervalles de confiance calculés sur 100 échantillons et de la vraie valeur du paramètre (rouge).

➢ Interprétation d’un intervalle de confiance


En pratique on calcule un intervalle de confiance sur un seul échantillon.
On n'a donc aucun moyen de savoir si cet intervalle de confiance contient bien la vraie valeur du paramètre.
On peut juste se dire qu'en moyenne, lorsqu'on calcule des intervalles de confiance à 95%, on se trompe une fois sur
20 (5% des échantillons).

/ !\ Respect impératif des conditions d’utilisation !


Mauvais exemple de calcul d'intervalles de confiance sur la moyenne des âges la mise bas sur 100 échantillons de 4
chiennes (avec quelques intervalles aberrants du fait de la non applicabilité du théorème de l'approximation normale)

Conclusion :
Il est très important de savoir juger, à partir d'un échantillon, du respect des conditions d'application du
théorème de l'approximation normale. De très nombreux outils statistiques (estimateurs ponctuels et par
intervalle, test statistiques) sont basés sur le théorème de l'approximation normale et nécessitent donc la
vérification au préalable de ses conditions d'utilisation.
Il est IMPORTANT de se souvenir que la vérification des ces conditions d'utilisation ne peut pas se faire en
regardant uniquement la taille de l'échantillon.

Page 8 sur 8
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique Les tests statistiques CM04-05

Les tests statistiques : Tests de signification et tests


d'hypothèse : utilisation quelque peu délicate de deux notions
proches mais différentes.
Objectifs pédagogiques :
- Savoir définir les notions suivantes : test de signification, test d'hypothèse, différence significative, risques
d'erreur de première et deuxième espèces, p-value (valeur de p ou degré de signification), puissance.
- Savoir réaliser à la main un test à partir de sa fiche technique.*
- Savoir interpréter le résultat d'un test et notamment avoir les idées claires sur les conclusions qu'on peut tirer
d'un test.
*savoir-faire évalué uniquement en S5

Table des matières


Le test de signification .............................................................................................................................................. 2
A. Concepts : H0, p-value ........................................................................................................................................... 2
1. Définition de l’hypothèse nulle H0 .................................................................................................................... 2
2. Définition de la "p-value" : résultat de la confrontation des données de H0 ................................................... 2
B. Mise en œuvre d’un test de signification ............................................................................................................. 3
1. Utilisation d’une variable de décision pour le calcul de la p-value................................................................... 3
2. Application sur notre exemple (cas 3) .............................................................................................................. 3
3. Application de la même technique aux autres cas ........................................................................................... 3
C. Conclusions possibles d’un test de signification ................................................................................................... 4
Le test d’hypothèse ................................................................................................................................................... 4
A. Vision de Neyman et Pearson ............................................................................................................................... 4
B. Risque β non maitrisé ........................................................................................................................................... 5
1. Visualisation du risque β dépendant de H1 ....................................................................................................... 5
2. Risque β et puissance 1-β ................................................................................................................................. 5
C. Test d’hypothèse à n’utiliser que très prudemment ! .......................................................................................... 5
Utilisation raisonnée des tests statistiques .............................................................................................................. 5
A. Un sujet encore brûlant (pas important) .............................................................................................................. 5
B. Un bon usage de la p-value en 6 points ................................................................................................................ 6

Page 1 sur 6
DZVET 360
Biostatistique Les tests statistiques CM04-05

Exemple Introductif
On tira au sort aléatoirement n étudiants vétérinaires sur lesquels on estime la fréquence de filles. A partir des données
observées (sans utiliser de connaissances a priori) peut-on conclure que la fréquence de filles parmi les étudiants
vétérinaires est différente de 50% ?
Imaginons 5 cas :
1. 2 filles sur n=2 : 100%
2. 6 filles sur n=10 : 60%
3. 15 filles sur n=20 : 75%
4. 37 filles sur n=50 : 74%
5. 68 filles sur n=100 : 68%
Tentez de répondre à la question dans chaque cas et notez votre réponse.

Le test de signification
Le test de signification est un concept original proposé par Karl Pearson en 1900 puis popularisé dans les années 1920
par Ronald Aylmer Fischer.

A. Concepts : H0, p-value

1. Définition de l’hypothèse nulle H0

H0 est l’hypothèse de différence nulle


Dans notre exemple on compare une fréquence observée (f : fréquence de filles) à une valeur de référence (p0 =0,5)
H0 est l’hypothèse selon laquelle la proportion de filles parmi les étudiants vétérinaires est de 50%.
Notre objectif va être de voir si les données nous permettent de réfuter cette hypothèse.

2. Définition de la "p-value" : résultat de la confrontation des données de H0

Les données sont-elles probables sous H0 ?


Calcul de la "p-value" (p), aussi appelé degré de signification ou valeur de p : c’est la probabilité, si on est sous H0,
d’observer une différence au moins aussi grande que celle observée sur les données.
Si p est faible (en général si p < 5%) on rejette H0 et on en conclut qu’il existe bien une différence, que la différence est
significative, sous-entendu que la différence observée n’est pas uniquement due aux fluctuations d’échantillonnage
mais est le reflet d’une différence réelle dans la population

Page 2 sur 6
DZVET 360
Biostatistique Les tests statistiques CM04-05
B. Mise en œuvre d’un test de signification

1. Utilisation d’une variable de décision pour le calcul de la p-value

Dans notre exemple il s’agit de comparer f la fréquence observée à p0 la fréquence de référence (ici 50 %)
Le théorème de l’approximation normale, s’il est applicable (n assez grand) nous dit :

1
~ ,

Donc la variable centrée réduite ~ 0,1

On va utiliser u comme variable de décision :


• On calcule la variable de décision u sur les données observées :

• On confronte à la loi qu’elle est censée suivre sous H0 pour quantifier la p-value

2. Application sur notre exemple (cas 3)

Dans le cas 3 : 15 filles sur n=20 : 75% → 2,24


• Visualisation de p
Est-ce que p < 0,05 ?

• p < 0,05 ?
Dans la table de la loi normale, les valeurs de u correspondant
à α = 0,05 est u = 1,96
Il faut que p < 0,05 pour que la différence soit significative.
Ici :

• encadrement de p
Dans la table de la loi normale, les valeurs de u correspondant
à α = 0,01 est u = 2,576
→ p > 0,01

3. Application de la même technique aux autres cas

• Cas 1 : 2 filles sur n = 2 : 100 %


→ p > 0,05 (test adapté aux pePts effecPfs) non rejet de H0
• Cas 2 : 6 filles sur n = 10 : 60 %
→ p > 0,05 (test adapté aux pePts effecPfs) non rejet de H0
• Cas 3 : 15 filles sur n = 20 : 75 %
→uobs = 2,24 → 0,01 < p < 0,05 rejet de H0
• Cas 4 : 37 filles sur n = 50 : 74 %
→uobs = 3,39 → p < 0,001 rejet de H0
• Cas 5 : 68 filles sur n = 100 : 68 %
→uobs = 3,60 → p < 0,001 rejet de H0
Page 3 sur 6
DZVET 360
Biostatistique Les tests statistiques CM04-05
C. Conclusions possibles d’un test de signification

Peut-on accepter H0 lorsque p est élevé ?


Citation de R.A. Fischer en 1966
"The null hypothesis is never proved or established, but it is possibly disproved, in the course of experimentation"
Autrement dit, un test de signification peut conduire à rejeter H0 dans certains cas, mais en aucun cas à l’accepter.
Seriez-vous raisonnablement tenté d’accepter H0 dans le cas 1 ? Non bien sûr !

A retenir
• Objectif du test de signification : déterminer si une différence observée est significative (preuve
d’une vraie différence et non simple reflet des fluctuations d’échantillonnage)
• Principe :
o On fait l’hypothèse d’une différence nulle (H0)
o A l’aide d’une variable de décision on calcule p la probabilité d’observer, sous H0, une
différence au moins aussi grande que celle observée
o Si p < 0,05 on rejette H0 et on dit que la différence est significative
o Plus p est petit, plus on est convaincu qu’on a le droit de rejeter H0.
On ne peut jamais accepter H0

Le test d’hypothèse
Le test d’hypothèse est la deuxième vision proposée par Jerzy Neyman et Egon Pearson en 1928 et présentée comme
une amélioration du test de signification

A. Vision de Neyman et Pearson

Le test d’hypothèse est utilisé comme un outil décisionnel


Il y a introduction de la notion d’hypothèse alternative H1 de différence non nulle.
Utilisation de p pour décider entre H0 (si p < 0,05) et H1 (si p < 0,05).
On a alors deux risques d’erreur :
• Risque de 1ère espèce α maîtrisé (α = 0,05) : risque de se tromper en rejetant H0
• Risque de 2ème espèce β non maitrisé : risque de se tromper en acceptant H0

Page 4 sur 6
DZVET 360
Biostatistique Les tests statistiques CM04-05
B. Risque β non maitrisé

1. Visualisation du risque β dépendant de H1

2. Risque β et puissance 1-β

On souhaite avoir un risque β élevé donc une puissance 1-β forte, mais β peut-être faible du fait :
• D’une faible différence théorique (H1 proche de H0)
• D’une grande incertitude sur le paramètre estimé (faible effectif, forte variabilité)
Exemple d’une simulation du nombre de rejet de H0 sur 1000 échantillons d’étudiants vétérinaires en supposant que
la proportion de filles dans cette population est de 70%
• Sur 1000 échantillons de taille 10 : 161 rejets de H0
• Sur 1000 échantillons de taille 20 : 415 rejets de H0
• Sur 1000 échantillons de taille 50 : 784 rejets de H0
• Sur 1000 échantillons de taille 100 : 977 rejets de H0

C. Test d’hypothèse à n’utiliser que très prudemment !

On ne peut raisonnablement utiliser un test d’hypothèse que si la puissance est maîtrisée donc si un calcul de puissance
a priori a été réalisé : calcul d’effectifs nécessaires pour atteinte une puissance donnée, c’est-à-dire une probabilité
donnée de détecter une différence dépassant un seuil d’intérêt prédéfini.
Ce qu’en pensait R.A Fisher :
"Errors of the second kind are committed only by those who misunderstand the nature and the application of tests
of significance”

Utilisation raisonnée des tests statistiques


A. Un sujet encore brûlant (pas important)

D’une ancienne discorde entre Fischer et Neyman & Pearson à un sujet qui fait encore couler beaucoup d’encre
Quelques références :
• Hubbard R. 2011. The widespread misinterpretation of p-values as error probabilities.
• Goodman S. 2008. A Dirty Dozen: Twelve P-Value Misconceptions.
• Berger J.O. 2003. Could Fisher, Jeffreys and Neyman have agreed on testing?
• Blume J. et al. 2003. What Your Statistician Never Told You about P-Values?
• Haller H. et al. 2002. Misinterpretations of significance: A problem students share with their teachers.
• Gardner M.J. et al. 1986. Confidence intervals rather than P values : Estimation rather than hypothesis
testing.
Un constat actuel semble donner raison à R.A Fischer

Page 5 sur 6
DZVET 360
Biostatistique Les tests statistiques CM04-05
L'amalgame courant entre les notions de test de signification et de test d'hypothèse semble à la source d'une mauvaise
interprétation fréquente des résultats des tests et d'un malaise persistant à leur sujet.

B. Un bon usage de la p-value en 6


points

Il y a une référence consensuelle sur l’usage de la p-


value

1. "P-values can indicate how compatible the data


are with a specified statistical model."
• Plus la valeur de p est petite et plus
l’incompatibilité statistique entre les
données et l’hypothèse nulle est grande
• On peut voir la valeur de p comme un indicateur de discordance entre les données et l’hypothèse nulle.
2. " P-values do not measure the probability that the studied hypothesis is true."
• La valeur de p ne doit surtout pas être interprétée comme la probabilité de l’hypothèse nulle connaissant
les données, même si cela est très tentant. On ne peut pas inverser les probabilités aussi facilement
• Si un jour vous en êtes tenté pensez au cas 1 de notre exemple (avec deux filles sur un échantillon aléatoire
de deux étudiants vétérinaires, conclurait-on qu’il y a autant de filles que de garçons parmi les étudiants
vétérinaires ?)
3. “Scientific conclusions and decisions should not be based only on whether a p-value passes a specific threshold."
• Actuellement les scientifiques donnent souvent trop de poids à la valeur p et au résultat du test en terme
de différence significative ou non, parfois sans même regarder la différence estimée.
• Il convient plutôt de considérer le test comme un garde-fou, nous empêchant d’interpréter hâtivement
une différence qui ne serait pas significative.
4. " Proper inference requires full reporting and transparency."
• Les résultats de tous les tests réalisés doivent être reportés et non seuls les résultats significatifs.
• En moyenne dans tous les cas où H0 est vraie, une fois sur 20 on a p < 0,05. A force de chercher on finit par
trouver !
5. “A p-value does not measure the size of an effect or the importance of a result."
• Une valeur de p petite n’implique pas forcément la mise en évidence d’une différence d’intérêt biologique.
• Une différence importante peut ne pas apparaitre significative du fait du manque de puissance de l’analyse
(par exemple en cas d’effectifs faibles).
Il est capital, lorsque cela est possible, d’interpréter in fine l’estimation de la différence (estimation ponctuelle et
intervalle de confiance).
6. By itself, a p-value does not provide a good measure of evidence regarding a hypothesis."
Ne jamais utiliser un test d’hypothèse pour montrer une hypothèse et en particulier pour montrer une équivalence
mais privilégier les tests d’équivalence basés sur les intervalles de confiance dans ce cas.
Principe des tests d’équivalence :
• On définit une zone d’équivalence sur des critères biologiques ("quelle différence maximum sera
considérée comme négligeable ?")
• On conclut à l’équivalence si l’intervalle de confiance sur la différence observée est entièrement contenu
dans cette zone.

Page 6 sur 6
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique Comparaison de fréquences CM06

Comparaison de fréquences et de distributions


Tests visant à mettre en évidence une corrélation entre deux variables qualitatives

Objectifs pédagogiques :
- Savoir repérer dans quels cas on doit utiliser un test du χ² d’ajustement, un test du χ² d’indépendance, un test
de McNemar, et un test de Cochran-Mantel-Haenszel.
- Savoir vérifier les conditions d’utilisation de ces tests et en interpréter les résultats.
- Savoir réaliser à la main les tests du χ² (ajustement et indépendance) et le test de McNemar.*
*savoir-faire évalué uniquement en S5

Table des matières


Les tests du χ²............................................................................................................................................................ 1
Test du χ² d’ajustement ........................................................................................................................................ 1
Test du χ² d’indépendance.................................................................................................................................... 2
Comparaison de fréquences sur séries dépendantes ............................................................................................... 3
Test de McNemar .................................................................................................................................................. 3
Test de Cochran .................................................................................................................................................... 4

Les tests du χ²
Test du χ² d’ajustement
1. Exemple de comparaison d’une fréquence observée à une fréquence théorique
Enoncé
Sur un échantillon aléatoire de 15 étudiants vétérinaires on compte 4 garçon et 11 filles. Peut-on dire qu’il y a plus de
filles que de garçons dans la population des étudiants vétérinaires ? La proportion de filles est-elle significativement
différente de 50 % ?

Calcul des effectifs théoriques sous H0


H0 : "différence nulle c’est-à-dire pfilles = 0,5"

o Effectifs observés notés Oi : filles 11, garçons 4


o Effectifs théoriques (attendus sous H0 ) notés Ci : filles 7,5 ; garçon 7,5

On veut comparer les Oi et les Ci. Il nous faut définir une variable de décision pour faire un test. Quelle variable ?

2. Test χ² d’ajustement

Le test du χ² d’ajustement
o Variable de décision

k le nombre de classes de la variable qualitative (ici 2, filles et garçons)


N le nombre total d’observations (ici 15)
o Condition d’utilisation du test

Page 1 sur 4
DZVET 360
Biostatistique Comparaison de fréquences CM06
Si tous les Ci sont supérieurs à 5 (c’est le cas ici), on peut considérer que la variable de décision suit à peu près la loi du
χ² de degré de liberté k - 1

Test du χ² : calcul de la valeur de p


χ²obs = 3,267 correspondant à p > 0,05.
La différence observée n’est pas significative. On ne
peut pas conclure à une proportion plus importante de
filles à partir de ce seul échantillon.

Cadre d’utilisation
o Dans le cas de la comparaison d’une
fréquence observée à une fréquence théorique, ce test du χ² est strictement équivalent au test utilisant
la loi normale (cf. cours d’introduction aux tests)
o Ce test a un cadre d’utilisation plus large : il permet de comparer une distribution observée d’une variable
qualitative (quelle que soit le nombre k de classes) à une distribution théorique.

Test du χ² d’indépendance

1. Exemple de comparaison de plusieurs fréquences observées sur des échantillons


indépendants

Enoncé
Sur un échantillon de 999 chiennes d’élevage, on voudrait savoir si la fréquence d’intervention de l’éleveur ou du
vétérinaire pendant leur mise-bas dépend de la taille des races. On forme 4 groupes de tailles : les "races géantes
(XL)", les "grandes races (L)", les "races moyennes(M)" et les "petites races (S)"
Autrement dit, les fréquences d’intervention sont-elles différentes entre les 4 groupes de taille de race ? ou encore la
variable intervention est-elle corrélée à la variable taille de race ?
Les données observées
• Table de contingence
Taille de • Fréquences observées
race XL L M S Total
Intervention Taille de race XL L M S
NON 29 183 146 170 528 %
68,1 42,3 42,3 49,7
OUI 62 134 107 168 471 d’interventions
Total 91 317 253 338 999

• Calcul des effectifs théoriques sous H0


H0 : « différence nulle entre les fréquences » ou encore « indépendance entre les variables (intervention et taille de
race) »
Calcul des effectifs théoriques Cij à partir des totaux Ci. et C.j
. .
Sous H0 , les probabilités marginales et conditionnelles sont les mêmes, c’est-à-dire donc . .
.
Exemple de calcul pour une cellule :
• Effectifs théoriques
Taille de race
XL L M S Total
Intervention Taille de
NON 528 race XL L M S Total
417 x Intervention
OUI 317 / 471 NON 48,1 167,5 133,7 178,6 528
999 OUI 42,9 149,4 119,3 159,4 471
Total 91 317 253 338 999 Total 91 317 253 338 999
Page 2 sur 4
DZVET 360
Biostatistique Comparaison de fréquences CM06
On peut vérifier ici les conditions d’utilisation du test χ² d’indépendance (effectifs théoriques tous > 5)
Statistique du χ²
22,38 correspondant à p < 0,001

La différence observée entre les fréquences d’intervention est significative, autrement dit il y a une corrélation
significative entre la taille des races et l’intervention lors de la mise bas.

2. Le test du χ² d’indépendance

test du χ² d’indépendance
o Variable de décision

Avec :
k le nombre de lignes de la table de contingence (nombre de classes de la variable en ligne),
I le nombre de colonnes de la table de contingence (nombre de classes de la variable en
colonne),
Et N le nombre total d’observation.
o Condition d’utilisation du test
Si tous les Cij sont supérieurs à 5, on peut considérer que la variable de décision suit à peu près la loi du χ² de degré
de liberté (k-1)(l-1)

Cadre d’utilisation du test χ² d’indépendance


o Comparaison de deux fréquences observées sur des échantillons indépendants (dans ce cas, le test du
χ² est strictement équivalent au test utilisant la loi normale)
o Comparaison de plusieurs fréquences observées sur des échantillons indépendants (cf exemple)
o Corrélation entre deux variables qualitatives observées sur les individus d’un échantillon (exemple
historique exposé par Karl Pearson : corrélation entre la couleur des cheveux et la couleur des yeux)

Comparaison de fréquences sur séries dépendantes


Test de McNemar
1. Exemple de comparaison de deux fréquences observées sur deux échantillons appariés
Description

On dispose de deux tests A et B pour détecter la présence d’une maladie donnée chez des souris. Les deux tests sont
utilisés en parallèles sur 100 souris que l’on sait malades de façon certaine. On souhaite comparer les sensibilités
(probabilité de réponse positive chez un malade) des deux tests.

Les données observées

• Table de concordance ≠ table de conSngence • Fréquences observées

Résultat du test B Test A B


Positif Négatif
Positif Négatif
Résultat du test A
≠ A Sensibilité 76 88
Positif 70 6
Négatif 18 6 B en %

Page 3 sur 4
DZVET 360
Biostatistique Comparaison de fréquences CM06
2. Principe du test de McNemar

Le test de McNemar se base uniquement sur les nombres de résultats discordants, et compare les deux types de
discordances, c’est-à-dire les nombres de résultats A+B- (ici 6) et A-B+ (ici 18) (cf. fiche technique pour sa réalisation).
Comparer ces deux nombres revient bien à comparer les sensibilités des tests.
ATTENTION : ce test permet uniquement de comparer 2 fréquences et en aucun cas de juger de la concordance entre
les tests, ce pour quoi il faudrait utiliser aussi les nombres concordants.

Test de Cochran

Exemple de comparaison de plusieurs fréquences observées sur des échantillons dépendants

On dispose de trois tests A, B et C pour détecter la présence d’une maladie donnée chez les souris.
Les trois tests sont utilisés en parallèle sur 100 souris que l’on sait malades de façon certaine.
On souhaite comparer les sensibilités (probabilités et réponse positive chez un malade) des trois tests.
Identification
Test de Cochran-Mantel-Haenszel Test A Test B Test C
de la souris
Les données sont plus difficiles à résumer que dans le cas de 2 S1 0 0 0
S2 1 0 1
fréquences.
S3 0 0 1
Codage des données brutes (1 si détecté, 0 si non détecté) : S4 1 1 1
S5 0 0 0
Test de Cochran (facilement réalisable avec R) : extension du test … … … …
de McNemar

Comment choisir le bon test ?


Un seul échantillon : test du χ² d’ajustement de comparaison d’une fréquence observée à un
fréquence théorique ou d’une distribution observée à une distribution théorique.
Deux ou plusieurs échantillons indépendants : test du χ² d’indépendance de comparaison de plusieurs
fréquences observées ou plusieurs distributions observées
Deux échantillons dépendants (appariés) : test de McNemar de comparaison de deux fréquences
observées
Plusieurs échantillons dépendants : test de Cochran-Mantel-Haenszel de comparaison de plusieurs
fréquences observées.

Les conditions d’utilisation des tests

Bien vérifier les conditions d’utilisation des tests, notamment dans le cadre des tests χ² (effectifs théoriques
supérieurs à 5).
Lorsque ce n’est pas le cas, il est parfois possible d’utiliser une statistique corrigée (χ² avec correction de Yates
dans le cadre de la comparaison de deux fréquences faite systématiquement par R), ou de faire un calcul exact de
la valeur de p (facilement réalisable avec R dans le cas de la comparaison de deux fréquences).
Sur les grandes tables de contingence, on procède parfois à des regroupements de classes pour satisfaire les
conditions d’utilisation.

Page 4 sur 4
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique Comparaison de fréquences CM06-07-08

Comparaison de moyennes
Tests visant à mettre en évidence une corrélation entre une variable qualitative et une variable
qualitative

Objectifs pédagogiques :
- Comprendre les différences entre un test paramétrique et un test non paramétrique
- Savoir réaliser à la main les deux tests de Student (séries indépendantes ou appariées) et les tests non
paramétriques associés (somme des rangs et rangs signés).*
- Connaitre le principe de l’analyse de variance
- Connaitre le principe des méthodes de comparaisons multiples
- Savoir interpréter les résultats d’un test de normalité et d’un test de comparaison de variances et en connaître
les limites.
- Savoir choisir et réaliser le test adapté pour comparer deux ou plusieurs séries d’une variable quantitative en
fonction de la question posée, du plan d’expérience et des données.**
*savoir-faire évalué uniquement en S5
** savoir-faire évalué uniquement en S6 après entrainement en TD

Table des matières


Tests paramétriques et non paramétriques ............................................................................................................. 2
Test paramétrique................................................................................................................................................. 2
Test non paramétrique ......................................................................................................................................... 2
Choix entre les 2 types de tests ............................................................................................................................ 3
1. Comment choisir entre test paramétrique et test non paramétrique ?........................................................... 3
2. Retour à l’exemple ............................................................................................................................................ 3
3. Mauvaises utilisations ....................................................................................................................................... 3
Les tests de comparaison de moyennes ................................................................................................................... 4
Tests de comparaison de 2 moyennes .................................................................................................................. 4
1. Comparaison d’une moyenne observée à une moyenne théorique ................................................................ 4
2. Comparaison de moyennes sur deux échantillons indépendants .................................................................... 4
3. Comparaison de moyennes sur 2 échantillons dépendants (=appariés) .......................................................... 5
ANOVA : comparaison de moyennes sur plusieurs échantillons indépendants ................................................... 5
1. Exemple ............................................................................................................................................................. 5
2. Tests .................................................................................................................................................................. 6
3. L’analyse de variance à un facteur (ANOVA 1) ................................................................................................. 6
Comparaisons multiples ........................................................................................................................................ 7
1. Les comparaisons multiples de moyennes sur plusieurs échantillons indépendants ...................................... 7
2. La méthode de Bonferroni ................................................................................................................................ 7
3. La méthode de Bonferroni-Holm ...................................................................................................................... 8
4. Autres méthodes de comparaisons multiples .................................................................................................. 8
5. Utilisation des méthodes de comparaisons multiples ...................................................................................... 8

Page 1 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
Tests paramétriques et non paramétriques
Exemple de comparaison de moyennes sur 2 séries indépendantes :
Un essai randomisé a été réalisé sur 18 chiens afin d’évaluer l’efficacité d’un supplément alimentaire contre la
formation de tartre sur les dents de l’animal. Neuf chiens reçoivent une alimentation supplémentée (groupe
supplément) et neuf chiens ne reçoivent aucune supplémentation (groupe témoin). La formation de tartre est quantifiée
par un index combinant la proportion de dents atteintes et l’épaisseur de la couche de tartre formée. Les index moyens
observés respectivement de 0,747 pour le groupe supplément et de 1,089 pour le groupe témoin. Cette différence est-
elle significative ?
• Visualisation des données brutes • Représentation classique : diagramme en boîte

Test paramétrique

Test paramétrique de Student


La démarche paramétrique va supposer que le théorème de l’approximation normale s’applique. Le test de Student
va de plus supposer les variances égales. Variable de décision et sa loi sous H0 :

~ 2
1 1


Avec
Et 2 la loi de Student de degré de liberté 2

Pr | | | !" | (aire violette sur le graphe)


Calcul de la valeur de p à partir de la valeur de t observée

Dans cet exemple tobs = -1,84 ce qui correspond à p > 0,05


On ne peut donc pas conclure à une différence significative.

Intervalle de confiance associé au test paramétrique de Student


Intervalle de confiance sur la différence entre les 2 moyennes :
1 1
# # $ ;
& ' '(
&
Avec ;
) le quantile à 1 de la loi de Student de degré de liberté 2.
On rejette en fait l’hypothèse H0 d’égalité des moyennes par le test de Student dès que l’intervalle de confiance à 95
% sur la différence entre les moyennes ne contient pas la valeur 0. Cet intervalle de confiance est de plus informatif
quel que soit le résultat du test.
Estimation de la différence avec son intervalle de confiance à 95 % : -0,34 [-0,74 ; 0,05] (estimation très imprécise mais
en faveur d’une différence nulle)

Test non paramétrique

Test paramétrique : La variable de décision est calculée à partir d’un paramètre statistique caractérisant une
loi donnée (souvent la loi normale).

Page 2 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
Test non paramétrique : On ne fait plus l’hypothèse quant à la forme des distributions et on utilise le plus
souvent des statistiques de rang qui n’utilisent comme information que l’ordonnancement des observations
entre elles (plus robustes, c’est-à-dire moins sensibles aux valeurs extrêmes).

Calcul des sommes des rangs par groupe


Principe du test de Mann-Whitney-Wilcoxon : test de la somme des rangs
• Classement global des observations : affectation de son rang à chaque observation en moyennant les
rangs des ex-aequo
• Calcul de la somme des rangs de chacun des groupes. Dans l’exemple Tsupplément = 66,5 et Ttémoin = 104,5
• Comparaison, à l’aide d’une variable de décision adaptée, des deux sommes des rangs. Dans l’exemple
on obtient une valeur de p > 0,05 (cf. fiche technique pour réalisation complète). On ne peut donc pas
conclure à une différence significative.

Choix entre les 2 types de tests

1. Comment choisir entre test paramétrique et test non paramétrique ?


Test paramétrique
Inconvénients : Hypothèse forte sur la forme des distributions. Conditions d’utilisation assez restrictives.
Avantages : Intervalle de confiance associé pouvant s’avérer très informatif surtout en cas de non rejet de H0.
Test non paramétrique
Avantage : Pas d’hypothèse forte quant à la forme des distributions
Inconvénients : mais dégradation de l’information initiale qui peut induire à une perte de puissance. Pas d’intervalle
de confiance associé.
Le test paramétrique à privilégier, si possible, éventuellement après transformation de variable.
2. Retour à l’exemple
Peut-on utiliser un test paramétrique ?
C’est-à-dire peut-on appliquer le théorème de l’approximation normale ?
La variable est un index combinant diverses informations (variable de type score). Rien ne garantit à l’avance la
normalité de sa distribution. Les effectifs ne sont pas très grands (deux groupes de 9). Qu’en est-il de la forme des
distributions observées ?

L’observation des données ne conduit pas à remettre en cause l’hypothèse de normalité des distributions. Néanmoins,
les effectifs ne sont vraiment pas très grands. On est ici dans un cas un peu limite ou certains choisiraient une démarche
paramétrique et d’autres une démarche non paramétrique.
Dans le cas du choix d’une démarche paramétrique, il serait raisonnable de supposer les variances égales (écarts types
du même ordre de grandeur, 0,37 pour le groupe supplément et 0,42 pour le groupe témoin et dispersions
comparables d’après les diagrammes en boîte).
3. Mauvaises utilisations
Pourquoi est-il inapproprié d’utiliser des tests pour vérifier les hypothèses de normalité et d’égalité des variances ?
De nombreux scientifiques utilisent le test de Fischer de comparaison de variances pour vérifier l’égalité des variances
avant de comparer les moyennes et le test de Shapiro-Wilk de normalité pour vérifier la normalité d’une distribution.

Page 3 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
CES TETS NE PEUVENT EN AUCUN CAS REMPLACER UN EXAMEN VISUEL DES DISTRIBUTIONS !
Pourquoi ?
A quoi sert le test de Fisher de comparaison de deux variances ?
H0 : “égalité des variances"
La seule conclusion possible sans calcul de puissance au préalable (cas classique) est le rejet de H0 donc mise en
évidence d’une différence entre deux variances (qui peut être intéressant en soi).
Ce test n’a d’intérêt que pour mettre en évidence d’une différence significative entre deux variances, mais ne permet
jamais de conclure à l’égalité entre deux variances.
A quoi sert un test de normalité ?
H0 : "normalité de la distribution"
La seule conclusion possible sans calcul de puissance au préalable (cas classique) est le rejet de H0 donc la mise en
évidence d’un écart à la normalité.
Ce test ne permet pas de montrer la normalité d’une distribution, mais dans certains cas il peut mettre en évidence
un écart à la normalité (de nature ou non à remettre en cause l’applicabilité du théorème de l’approximation normale).
o Cas des petits effectifs
On a vraiment besoin de savoir si la distribution est normale pour pouvoir appliquer le théorème de l’approximation
normale mais le test a peu de chance de mettre en évidence un écart à la normalité (faible puissance).
o Cas des grands effectifs
Le test mettra en évidence des écarts à la normalité même faibles (forte puissance), qui ne devront pas forcément
remettre en cause l’applicabilité du théorème de l’approximation normale, d’autant moins que l’effectif est grand.

Les tests de comparaison de moyennes


Tests de comparaison de 2 moyennes

1. Comparaison d’une moyenne observée à une moyenne théorique


Exemple
Un laboratoire d’analyse indique comme valeur moyenne de l’urée plasmatique chez les chats sains, une valeur de 8,5
mmol/L. Suite à un remplacement de ses appareils de mesure, le laboratoire dose l’urée sur un échantillon aléatoire
de 140 chats en bonne santé. Les valeurs obtenues sont : m = 9,7 mmol/L et SD = 2,6 mmol/L
La moyenne observée est-elle significativement différente de la valeur moyenne de référence indiquée par le
laboratoire ?

Les tests
o Test paramétrique : test de conformité de Student si le théorème de l’approximation normale
s’applique. Dans cet exemple tobs = 5,46 → p < 0,001 (cf. fiches techniques pour détails et
représentation des données).
o Test non paramétrique, test de la médiane sinon. Principe : la valeur théorique est-elle au milieu des
observations ?
On compte les effectifs observés de part et d’autre de la valeur théorique, et on les compare aux
effectifs théoriques 50 % - 50 %, à l’aide d’un test du χ² d’ajustement (cf. comparaison d’une fréquence
observée à une théorique).
2. Comparaison de moyennes sur deux échantillons indépendants
Cf exemple introductif
Les tests
o Tests paramétriques si le théorème de l’approximation normale s’applique
Test de Student avec variances égales s’il est raisonnable de supposer les écarts types égaux
Test de Welch : appelé aussi test de Student avec variances inégales si les écarts types
semblent différents et qu’il reste intéressant de comparer les moyennes.
o Test non paramétrique : test de la somme des rangs de Mann-Whitney-Wilcoxon

Page 4 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
3. Comparaison de moyennes sur 2 échantillons dépendants (=appariés)
Exemple
On veut comparer une nouvelle méthode de dosage de l’urée urinaire (méthode 2) à la méthode de référence
(méthode 1). Pour cela, on a dosé l’urée par les 2 méthodes chez 12 animaux. On obtient respectivement des
moyennes de 27,7 et 28,8 g/24h pour les méthodes 1 et 2. La différence observée entre ces moyennes est-elle
significative ?

Examen de la distribution des différences meth2 – meth1.


Visualisation des données brutes avec visualisation
Comparer les moyennes des 2 groupes vient à comparer la
de l’appariement. Les différences meth2 - meth1
moyenne des différences à 0. On est ramené à un test de
sont en rouges si elles sont positives et en bleu si
comparaison d’une moyenne observée sur un échantillon (des
négatives
différences) à 0.
Tests : revient à tester l’égalité à 0 de la moyenne des différences
o Test paramétrique : Test de Student des séries appariées si le théorème de l’approximation normale
s’applique si la distribution des différences.
Sur cet exemple, on obtiendrait : tobs = 3,23 → 0,001 < p < 0,01 et une différence esCmée à 1,075 avec
un intervalle de confiance à 95 % de [0,34 ; 1,81]
o Test non paramétrique : Test des rangs signés de Wilcoxon sinon
Principe : On classe les différences en valeur absolue puis on compare la somme des rangs T+ des différences positives
à la somme des rang T- des différences négatives (on obtiendrait ici 0,01 < p < 0,05, cf. fiche technique pour la
réalisation complète).

ANOVA : comparaison de moyennes sur plusieurs échantillons indépendants

1. Exemple
A partir d’un échantillon de 928 chiennes d’élevage, on voudrait savoir si la durée de gestation dépend de la taille des

• Races géantes (XL) : ̅ 62,5 ./0 77 2345 5.


races en 4 groupes :

• Grandes races (L) : ̅ 61,4 ./0 281 2345 5.


• Races moyennes (M) : ̅8 61,6 ./0 242 2345 5.
• Petites races (S) : ̅9 61,6 ./0 328 2345 5.
Autrement dit, les durées moyennes de gestation sont-elles différentes entre les 4 groupes de taille de race ?

Page 5 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
Les données brutes Visualisation classique des données sous forme de diagrammes en boîte

2. Tests
Test paramétrique
Si le théorème de l’approximation normale s’applique et que les variances peuvent être supposées égales,
réalisation d’une analyse de variance à un facteur (ANOVA), généralisation du test de Student avec variances
égales.
Test non paramétrique
Test de la somme des rangs de Kruskal-Wallis, généralisation du test de Mann-Whitney-Wilcoxon basé
exactement sur le même principe.
3. L’analyse de variance à un facteur (ANOVA 1)

# =; >;< avec >;< ~? @,


Modèle ANOVA 1
;<
AB : = = ⋯ =E 0

Principe ANOVA 1
On appelle facteur la variable qualitative définissant les groupes (ici la taille de race)
ANOVA 1 est la méthode de comparaison globale de plusieurs moyennes basée sur une décomposition de la variance
totale en une variance intra-groupe (résiduelle) et une variance inter-groupe (factorielle) et sur la comparaison de ces
variances.
Décomposition de la variation totale (ou somme des carrés des écarts totales) :
N L
GHIJ K K ;< ̅
;M <M
N L N L
K K ;< ̅; K K ̅; ̅
;M <M ;M <M
GHIO GHIP
Avec p le nombre de modalités du facteur A (nombre de groupes) et ni l’effectif du groupe i.
Test de l’analyse de variance à un facteur

∑N;M ∑<ML
Estimation des variances intra-groupe et inter-groupe appelés aussi carrés moyens
GHIO ;< ̅; ∑N;M ; 1 ; ²
HQO
∑N;M ; 1 ∑N;M ; 1 ?

GHIP ∑N;M ∑<ML ̅; ̅ ∑N;M ; ̅; ̅


HQP
1 1 1

Comparaison des variances intra-groupe et inter-groupe :


UV
Sous H0 (égalité de toutes les moyennes), T UVW suit la loi F(p – 1, N – p) de Fisher et Snédécor de degré de liberté
X
p – 1 et N – p.
Rejet de H0 si CMA >> CNR

Page 6 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
Résultat de l’analyse de variance sur l’exemple : on conclut à une différence globale significative, donc à un
impact de la taille de race sur la durée de gestation.

Comparaisons multiples

1. Les comparaisons multiples de moyennes sur plusieurs échantillons indépendants


Suite à la mise en évidence d’une différence globale significative entre plusieurs moyennes (par ANOVA ou test de
Kruskal-Wallis), on souhaite parfois comparer les moyennes 2 à 2.
Méthode basique dite PLSD de Fisher (protected least
significant difference) : statistique de Student utilisée pour
chaque test mais avec σ commun estimé à partir de
l’ensemble des groupes.
Problème majeur associé à ce type de comparaisons multiples :
tests répétés inflation du risque α global
Il y a nécessité de corriger le risque α (ou les valeurs de p) si on
veut maîtriser le risque α global (risque α global = probabilité de
détecter au moins une différence significative parmi toutes celles
testées si on est sous H0)

2. La méthode de Bonferroni
C’est une méthode classique pour éviter l’inflation du risque α : elle est utilisable après la mise en évidence
d’une différence globale significative entre plusieurs moyennes (par ANOVA ou test de Kruskal-Wallis).
B,B[
Principe : Pour chaque test, on corrige α (=Y Z E
) ou de façon équivalente on corrige p ( Y Z '\ ,
avec k le nombre de tests réalisés, afin d’être sûr
que αglobal < 5 %
Cadre d’utilisation : trop conservatif lorsque le
nombre de groupes augmente. Il arrive alors
souvent qu’une différence globale soit significative
sans qu’aucune différence 2 à 2 n’apparaisse
significative.
Exemple : Dans ce cas le résultat est parlant : seul
le groupe de chien de races géantes se distingue
significativement des autres

Page 7 sur 8
DZVET 360
Biostatistique Comparaison de fréquences CM06-07-08
3. La méthode de Bonferroni-Holm
C’est une amélioration de la méthode de Bonferroni qui est souvent préconisée actuellement et qui possède le même
cadre d’utilisation que la méthode de Bonferroni
Principe :
• On classe les valeurs de p par ordre
croissant (p1, p2, …, pk)
• On corrige chaque pi en le multipliant par
k + 1 – i (pi.cor = pi x (k + 1 -i))
Avantage : méthode moins conservative que
Bonferroni tout en maintenant le risque α global <
5%
Exemple : Dans ce cas les conclusions sont
équivalentes à celles de Bonferroni.
4. Autres méthodes de comparaisons multiples
N N
Comparaisons 2 à 2 : \ comparaisons
De très nombreuses autres méthodes disponibles (Tukey, Duncan, Rodger, Scheffé, Dunn-Sidak,…) avec
prédominance actuelle de la méthode Bonferroni-Holm.
Comparaisons à un groupe témoin : k = p -1 comparaisons
Méthode paramétrique de Dunnett couramment employée : statistique de Student avec estimation d’un σ
global et correction des valeurs de p adaptée à ce cas particulier
Comparaisons multiples générales avec maîtrise du taux de fausses découvertes : méthode de Benjamini-
Hochberg (méthode couramment utilisé en transcriptomique – analyse de l’expression d’un très grand
nombre de gènes).
5. Utilisation des méthodes de comparaisons multiples
Il est indispensable de vérifier que la différence globale est significative avant de faire des comparaisons
multiples (origine du terme « protected » dans PLSD de Fisher).
Il faut corriger le risque α lors de la réalisation de comparaisons multiples si l’on souhaite limiter le nombre
de faux positifs (rejets à tort de H0).
Les comparaisons multiples suite à une comparaison globale ne sont pas à préconiser systématiquement :
elles n’apportent parfois pas grand-chose à l’analyse globale et sont souvent difficiles à interpréter.
NE JAMAIS OUBLIER qu’une différence non significative ne permet pas de conclure à une non différence.
TOUJOURS PENSER à interpréter les effets (différences entre groupes) : ne pas rester au niveau des valeurs
de p.

Récapitulatif sur les tests de comparaison de moyennes


Un seul échantillon : test de conformité de Student ou test de la médiane
Deux échantillons indépendants : test de Student avec variances égales ou non (test de Welch) ou test de la
somme des rangs de Mann-Whitney-Wilcoxon
Deux échantillons dépendants (appariés) : test de Student des séries appariés ou test des rangs signés de
Wilcoxon
Plusieurs échantillons indépendants : ANOVA ou test de la somme des rangs de Kruskal-Wallis
Il est capital de bien examiner visuellement la ou les distributions observées afin de choisir entre un test
paramétrique et un test non paramétrique.

Page 8 sur 8
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique Régression linéaire simple CM08

La régression linéaire simple


Modélisation par une relation linéaire de l’évolution d’une variable quantitative observée en
fonction d’une variable quantitative contrôlée

Objectifs pédagogiques :
- Connaître le modèle utilisé en régression linéaire simple et la méthode d’estimation de ses paramètres à partir
de données.
- Savoir expliquer ce que représente la valeur de r²
- Savoir identifier les cas sur lesquels il convient d’utiliser une régression linéaire et dans ces cas distinguer la
variable indépendante et la variable dépendante.
- Savoir interpréter les résultats d’une régression linéaire issus d’un logiciel et vérifier ses conditions
d’utilisation.**
- Savoir utiliser un modèle de régression linéaire en prédiction (avec distinction entre les deux intervalles de
confiance).**
- Ne pas confondre régression et corrélation linéaire.
- Avoir un aperçu du champ d’utilisation du modèle linéaire et ses extensions
**
savoir-faire évalué uniquement en S6 après entraînement en TD

Table des matières


I. Principe de la régression linéaire simple .................................................................................................................. 1
A. Le modèle linéaire gaussien .................................................................................................................................. 1
B. Estimation des paramètres ................................................................................................................................... 2
C. Conditions d’utilisation ......................................................................................................................................... 3
II. Prédiction et intervalles de confiance ...................................................................................................................... 3
A. Intervalles de confiance sur les paramètre α et β ................................................................................................ 3
B. Intervalles de confiance sur une prédiction.......................................................................................................... 4
C. Pourcentage de variance expliquée : r² ................................................................................................................ 4
III. Cadre d’utilisation et extensions .............................................................................................................................. 5
A. Régression et corrélation ...................................................................................................................................... 5
B. Modèle linéaire ..................................................................................................................................................... 5
C. Extensions du modèle linéaire .............................................................................................................................. 6

I. Principe de la régression linéaire simple


A. Le modèle linéaire gaussien

1. Exemple inspiré de la littérature


Roomi et al. 2011, Nutrient mixture inhibits in vitro and in vivo growth of human acute promyelocytic leukemia HL-60
cells, Experimental Oncology

Page 1 sur 6
DZVET 360
Biostatistique Régression linéaire simple CM08
Impact, in vitro, d'un mélange de nutriments (acide ascorbique, extrait de the vert, lysine, proline, . . .) sur la
prolifération de cellules tumorales.
• Variable contrôlée notée X : dose de nutriments en concentration dans le milieu (µg.ml-1)
• Variable observée notée Y : prolifération cellulaire quantifiée en pourcentage de celle observée sans
nutriments dans le milieu de culture
Les données de Diagramme de dispersion (nuage de Diagramme de dispersion (ou nuage de
l’expérience réalisée point) points) des données transformées

Linéarisation de la relation

2. Variable indépendante X et variable dépendante Y


Plus généralement en régression linéaire simple on utilise un modèle linéaire pour expliquer une variable observée
notée Y, appelée aussi variable à expliquer ou variable dépendante en fonction d'une variable explicative notée X
(souvent contrôlée mais pas toujours), appelée aussi variable indépendante.

3. Le modèle théorique
avec ~ 0,
Partie déterministe : relation linéaire
Partie stochastique : modèle gaussien
aléatoires, indépendants, suivant une loi normale (loi de Gauss) de variance résiduelle
σ² constante.

B. Estimation des paramètres

Méthode d’estimation des paramètres


Maximisation de la vraisemblance Pr | , , qui revient dans le cadre du modèle
gaussien à la minimisation de la Somme des Carrées des Ecarts (SCE)
∑ ² avec

Estimation ponctuelle des paramètres


!" #,$
• Pente (ou coefficient de régression) : % #
• Ordonnée à l’origine ("intercept" en anglais) : & '
( '
• Ecart type résiduel ("residual standard error" en anglais) :
*+,
& )
-.
Estimation des paramètres avec R

Page 2 sur 6
DZVET 360
Biostatistique Régression linéaire simple CM08
C. Conditions d’utilisation

Vérification a posteriori des conditions d’utilisation


On s'attend _a une répartition aléatoire des résidus selon une loi normale
de variance σ² constante (environ 95% des résidus dans [-2σ ; 2σ]).

Mauvais graphe des résidus

Régression sur un jeu de données Régression sur un jeu de données


Exemple de régression sans
différent : graphe des résidus différent : graphe des résidus
transformation logarithmique des
Amenant à rejeter le modèle du amenant à remettre en question
doses : graphe des résidus amenant
caractère non constant de la l'ajustement du modèle aux
à rejeter le modèle du fait du
variance résiduelle données du fait d'une valeur
caractère non aléatoire des résidus
(hétéroscédasticité) extrême
b
c d

Diagramme Quantile-Quantile des résidus


Graphe complémentaire sur lequel on attend des points alignés. Ce graphe complémentaire sert à vérifier l'hypothèse
de normalité de l'ensemble des résidus (remise en cause ici sur les Ex. c et d) mais ne permet pas forcément de détecter
un problème lié au caractère non aléatoire des résidus (Ex. de base sans log).

II. Prédiction et intervalles de confiance


A. Intervalles de confiance sur les paramètre α et β

Estimation par intervalle des paramètres du modèle


Si les paramètres du modèle sont utilisés directement, il est important d'associer à leur estimation ponctuelle un
intervalle de confiance. Dans R :

Page 3 sur 6
DZVET 360
Biostatistique Régression linéaire simple CM08
B. Intervalles de confiance sur une prédiction

Prédiction à partir du modèle Prédiction à partir du modèle – intervalle de


Prédiction d'une valeur de Y0 pour X = X0 dans le confiance
domaine étudié. Prédiction d'une valeur de Y0 pour X = X0 dans le domaine
étudié.
Intervalle de confiance sur la moyenne (incertitude sur la
droite)

Prédiction à partir du modèle – intervalle de Prédiction d'une valeur de Y0 pour X = X0 dans le


prédiction domaine étudié.
Prédiction d'une valeur de Y0 pour X = X0 dans le Intervalle de confiance sur la moyenne (incertitude sur la
domaine étudié. droite)
Intervalle de confiance sur la moyenne (incertitude sur Intervalle de prédiction (marge d'erreur sur une
la droite) observation prédite) approché souvent à / 02( (en
Intervalle de prédiction (marge d'erreur sur une pointillés)
observation prédite)

Pourcentage de variance expliquée : r²


Coefficient de détermination : r²
!" #,$
Soit 2 le coefficient de corrélation linéaire, r² est le rapport de la
3% # % $
variance expliquée (variance des ) sur la variance totale (variance des Yi = V(Y )).
On exprime souvent r² en % de variance expliquée par le modèle.

Suffit-il de regarder r² pour juger de la qualité d'un ajustement ?


NON ! Voici 4 exemples avec les mêmes valeurs de r² = 62% d'après R. Tomassone
et al., 1992, La régression, nouveaux regards sur une ancienne méthode
statistique.

Page 4 sur 6
DZVET 360
Biostatistique Régression linéaire simple CM08

III. Cadre d’utilisation et extensions


A. Régression et corrélation

Peut-on réaliser un test de corrélation linéaire dans le cadre de la régression linéaire ?


OUI, celui-ci est fait automatiquement et correspond aussi au test d'égalité à 0 de la pente (affiché dans le résumé de
la régression) appelé test de signification de la pente, qui répond à la question : « y a-t-il un effet significatif de X sur Y
?"
Peut-on tracer une droite de régression dans le cadre de la corrélation linéaire ?
NON. Le choix de la variable de contrôle (X) a un impact sur la droite de régression, donc si X et Y ont des rôles
symétriques, aucune des 2 droites n'a de justification. Erreur pourtant très courante !
On peut utiliser la régression linéaire si X est contrôlée et Y observée, ou dans un cadre élargi si Y est une variable que
l'on veut expliquer (ou prédire) à partir de la variable explicative X.
Impact du choix de X et Y sur la droite de régression de Y en X
Comparaison des 2 droites sur notre exemple de base.
Soit Y la prolifération et X la dose en log10
Régression Y = α + βX + ϵ
Régression X = γ + δY + ϵ
Et plus la dispersion est grande et plus les droites diffèrent.

Il ne convient pas d’associer une droite


de régression à un nuage de points dans le
cadre de la corrélation linéaire
Reprenons l'exemple du cours sur la corrélation linéaire : Pourquoi choisirait-on
plus l'une ou l'autre des deux droites de régression ? Mieux vaut s'abstenir dans
un tel cas !
Ici le graphe commet une double erreur car en sus les résidus ne respectent pas
les conditions du modèle.

B. Modèle linéaire

1. Le modèle linéaire – Régression multiple


Un modèle linéaire gaussien permet de modéliser l'effet de plusieurs variables explicatives sur une variable à
expliquer quantitative continue.
Si les variables explicatives sont toutes quantitatives, on parle de régression multiple :
/ . . ⋯ 5 5 avec ~ 0,
Partie déterministe : relation linéaire multiple
Partie stochastique : modèle gaussien
ϵi aléatoires, indépendants, suivant une loi normale de variance résiduelle σ² constante.
Fonction lm dans R

Page 5 sur 6
DZVET 360
Biostatistique Régression linéaire simple CM08
2. Le modèle linéaire et ANOVA
Plus généralement un modèle linéaire gaussien permet de modéliser l'effet de plusieurs variables explicatives
quantitatives et/ou qualitatives sur une variable à expliquer.
Il est alors nécessaire de coder les modalités des variables qualitatives par des variables muettes en utilisant p - 1
variables muettes pour coder les p modalités d'un facteur (ou variable qualitative).
Exemple de codage d'un facteur sexe : sexe = 0 si féminin et sexe = 1 si masculin
Une analyse de variance peut être ainsi réalisée par ajustement d'un modèle linéaire gaussien.
Fonction lm dans R

C. Extensions du modèle linéaire

1. Le modèle non linéaire


Un modèle est dit non linéaire si la variable à expliquer ne peut plus être exprimé comme une fonction linéaire des
paramètres du modèle.
6 ,7 avec ~ 0,
Ex. de modèle non linéaire : 8#9
avec ~ 0,
Ex. de modèle linéaire : : ² avec ~ 0,
Partie déterministe : fonction non linéaire des paramètres.
Partie stochastique : modèle gaussien.
Fonction nls dans R
2. Le modèle linéaire généralisé
Un modèle linéaire généralisé permet de modéliser l'effet de plusieurs variables explicatives quantitatives et/ou
qualitatives sur une variable à expliquer qualitative binaire (ex. : malade / non malade) ou une variable quantitative
discrète (ex. : nombre d'animaux par portée).
Partie déterministe : une transformation de la variable à expliquer (fonction de lien) est décrite par une fonction
linéaire des variables explicatives.
Partie stochastique : le modèle n'est plus gaussien.
Fonction glm dans R

3. Le modèle linéaire mixte


Un modèle linéaire gaussien ne permet de prendre en compte que des facteurs (ou variables qualitatives) fixes, c'est-
à-dire dont toutes les modalités d'intérêt sont observées. Lorsque seul un échantillon aléatoire des modalités d'un
facteur sont observées, le facteur est dit aléatoire et l'on utilise alors un modèle mixte pour modéliser son effet sur
la variable à expliquer. Ex. : prise en compte d'un facteur "cage" ou "élevage"
Partie déterministe : linéaire.
Partie stochastique : modèle gaussien sur les ϵi et modèle gaussien sur les effets des facteurs aléatoires.
Fonction lmer du package lme4 dans R

Page 6 sur 6
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique Corrélation linéaire CM09

Corrélation linéaire
Tests visant à mettre en évidence une corrélation entre deux variables quantitatives

Objectifs pédagogiques :
-Connaître la définition et les conditions d’utilisation du coefficient de corrélation linéaire (de Pearson).
-Connaître le principe et les conditions d’utilisation des tests paramétriques et non paramétriques de
corrélation ainsi que les limites de ces tests.
- Savoir identifier les cas où l’utilisation d’un test de corrélation n’est pas approprié.
- Dans les autres cas savoir faire le choix entre le test paramétrique et le test non paramétrique, et réaliser ces
tests et en interpréter leurs conclusions. **
** savoir-faire évalué uniquement en S6 après entraînement en TD

Table des matières


I. Le test de corrélation linéaire de Pearson ................................................................................................................ 1
II. Le test de corrélation de rangs de Spearman ........................................................................................................... 2
III. Les limites des tests de corrélation........................................................................................................................... 3

Le test de corrélation linéaire de Pearson


A. Exemple tiré de la littérature

Figure extraite de Messerli (2012),


La consommation de chocolat et le Tendance linéaire mais nuage de
Chocolate Consumption, Cognitive
nombre de prix Nobel sont-ils point elliptique : on préferera utiliser
Function, and Nobel Laureates, the
corrélés ? une méthode non paramétrique
New England Journal of Medicine :

B. Le coefficient de corrélation linéaire de Pearson

Condition d’utilisation : x et y deux variables aléatoires observées sur un échantillon aléatoire simple et
distribuées suivant une loi normale bivariée (ce qui induit un nuage de points à peu près elliptique)
Calcul et propriétés :
1
, ∑ ̅
1 1
∑ ̅ ² ∑ ²

Page 1 sur 4
DZVET 360
r est un indicateur unidirectionnel de l’allongement du nuage de point : 1 1 et plus les ponts sont
Biostatistique Corrélation linéaire CM09

alignés et plus | | est proche de 1.


Visualisation d’une loi normale bivariée sans corrélation Visualisation d’une loi normale bivariée avec une forte
entre x et y corrélation entre x et y : r=0,9

C. Le test de corrélation linéaire de Pearson

C’est le test de la nullité de coefficient de corrélation linéaire de Pearson


H0 : "r=0", c’est-à-dire l’absence de corrélation linéaire entre les deux variables observées
Test basé sur une statistique de Student :

² 2
1 ²
C’est un test très peu robuste, d’où la nécessité de bien vérifier les conditions
d’utilisation en examinant le nuage de points.

Coefficient de corrélation et valeur de p associée à un nuage de point à peu près


elliptique

Le test de corrélation de rangs de Spearman


A. Coefficient de corrélation de rangs de Spearman

On classe les valeurs de x d’un côté, et celle de y de l’autre et on


associe à chaque point du nuage le rang de x et de y.

On calcule le coefficient de corrélation linéaire sur les rangs des x


et des y

Page 2 sur 4
DZVET 360
Biostatistique Corrélation linéaire CM09
B. Test de corrélation de rangs de Spearman sur l’exemple

ρ = 0.902 associé à p < 0.0001

On observe une corrélation significative entre la consommation individuelle de chocolat dans les états et le nombre
de prix Nobel pour 10 millions d’habitants.
/ !\ On n’en déduira bien entendu pas de lien de causalité !!!!

Une corrélation entre 2 variables observées n’implique pas forcément un lien de causalité.

Les limites des tests de corrélation


A. Prudence nécessaire avant l’utilisation d’un test de corrélation

Le test de corrélation de Pearson n'est pas adapté en cas de corrélation non linéaire
Le test de corrélation de Pearson n'est pas du tout robuste (très influencé notamment par les valeurs
extrêmes)
Les tests de corrélation (Pearson et Spearman) ne sont pas adaptés en cas de corrélation non monotone et
plus généralement de nuage de points non elliptique
Les tests de corrélation (Pearson et Spearman) ne sont pas adaptés en cas de nuage de points formé de sous-
nuages (sous-groupes se distinguant)

On ne devrait jamais reporter une valeur de r ou de ρ non assortie du nuage de points


B. Exemples
Nuage de points avec les
valeurs extrêmes

Nuage de points où ρ peut être calculé mais pas r qui serait


artificiellement trop élevé

Nuage de points avec corrélation


non monotone
Nuage de points sur lequel il ne faut calculer ni r ni ρ (proche
de 0)

Autre nuage de points non


elliptique

Ici il y a corrélation entre y et x n’est pas directe : plus x est


grand, plus y est variable (pas décrit ni par r ni par ρ)

Page 3 sur 4
DZVET 360
Biostatistique Corrélation linéaire CM09
Un dernier exemple fictif mais réaliste

Deux sous-groupes distincts :


r = -0.47 (p < 0.0001) , ρ = -0.52 (p < 0.0001) r = 0.48 (p < 0.0001) pour les femmes
Mais peut-on conclure à une corrélation négative r = 0.41 (p < 0.0001) pour les hommes

Conclusion :
Ne jamais calculer et/ou interpréter un coefficient de corrélation sans avoir vu le diagramme de dispersion
correspondant !

Ouverture sur le concept de causalité :


Corrélation n’implique pas forcément causalité.
Une corrélation peut être :
Due à un facteur de causalité commun (ex : corrélation entre vente de glaces et noyades)
Due à une causalité dans le sens opposé à celui présenté (ex : myopie des enfants et veilleuse)
Complètement fortuite ( cf. site qui montre des corrélations fortuites entre deux variables suivies au cours
du temps : http://www.tylervigen.com/spurious-correlations)
En réponse à l’étude de Messerli (chocolat/ prix Nobel), des chercheurs ont montré une corrélation entre la
consommation de chocolat et le nombre de tueurs en séries que le pays engendre.

Un exemple de corrélation fortuite (r= 0.992) :


Extrait de http://www.tylervigen.com/spurious-correlations

Page 4 sur 4
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM


Biostatistique Calcul de puissance CM10

Calcul de puissance
Comment peut-on faire un calcul de puissance a priori ?

Objectifs pédagogiques :
- Savoir définir ce qu’on appelle un calcul de puissance a priori
- Comprendre sur quelles bases il est possible de faire un calcul de puissance a priori
- Savoir réaliser un calcul de puissance à l’aide du logiciel R dans les trois cas classiques (comparaison de deux
moyennes sur séries indépendantes, comparaison de deux moyennes sur séries appariées et comparaison de
deux fréquences. **
**
savoir-faire évalué uniquement en S6 après entraînement en TD

Table des matières


I. Principe ..................................................................................................................................................................... 1
A. Calcul de la puissance pour un effectif donné ...................................................................................................... 1
B. Calcul de l’effectif pour atteindre une puissance donnée .................................................................................... 2
II. Calcul d’effectifs nécessaires en pratique................................................................................................................. 2

Exemple introductif
Exemple du TD 01 : une étude est réalisée sur la prévention des strongyloses gastro-intestinales chez les bovins
allaitants de race charolaise. On estime le poids moyen des animaux de 9 mois (variable que l’on notera PM) sur divers
élevages allaitants que l’on peut séparer en deux groupes suivants qu’ils respectent ou non le protocole de traitement
préventif (traitement correct ou incorrect).
Supposons que la distribution de la variable PM soit normale dans chacun des deux groupes d’élevage et d’écart type
commun connu (hypothèse nécessaire pour facilement un calcul de puissance) σ = 5 kg
Imaginons que l’on dispose de deux groupes comprenant chacun 10 élevages (n = 10). Quelle est la probabilité de
détecter une différence si celle-ci est égale à 7 (μ1 – μ2 = 7 kg) ?

I. Principe
A. Calcul de la puissance pour un effectif donné

Test et zone de rejet de H0


Sous les conditions envisagées la variable suit la

loi N(0,1) (résultat de statistique théorique). On peut classiquement


utiliser cette variable pour faire un test.

Distribution de U sous H1
Distribution de U si μ1 – μ2 = 7 kg : loi normale d’écart type 1 mais
centrée en 1 2
3,13
2

Page 1 sur 2
DZVET 360
Biostatistique Calcul de puissance CM10
Calcul du risque β
Visualisation du risque β β valeur de la fonction de répartition de la loi N(0,1) associée à
β = probabilité d’accepter H0 si on est sous H1 un quantile de 1,96 – 3,13 = - 1,17 → environ 12 %
(correspondant à une puissance de 88 %).

B. Calcul de l’effectif pour atteindre une puissance donnée


Si on fixe la puissance (par exemple à 95 %) et donc le risque β (à 5 %) on calcul l’effectif n tel que 1,95

corresponde au quantile à 5 % de la loi N(0,1) (uβ égale à – 1,645 pour β = 5%).


, ! "# √%
C’est-à-dire l’effectif n tel que 1,95 . Soit ² (ici n > 13 élevages par groupe).

On note que ce calcul d’effectif nécessite :


• De fixer a priori la puissance (1- β),
• D’avoir une idée de la variabilité au sein de chaque groupe (σ)
• Et de définir la différence que l’on souhaite se donner les moyens de mettre en évidence μ1 – μ2

II. Calcul d’effectifs nécessaires en pratique


Exemple :
Combien doit-on échantillonner d’élevages dans chaque groupe pour avoir une probabilité d’au moins 90% de
détecter une différence entre les moyennes si celle-ci est égale à 2 kg (μ1 – μ2 = 7 kg) ?
Calcul d’effectifs nécessaires à l’aide du logicien R

Calculs d’effectifs nécessaires dans les trois cas classiques


Il sera très facile de faire des calculs d’effectifs nécessaires avec le logiciel R à partir d’une puissance fixée et d’une
différence que l’on souhaite se donner les moyens de mettre en évidence prédéfinie si l’on a une idée :
• De l’écart type au sein des groupes pour comparer deux moyennes sur deux séries indépendantes
• De l’écart type des différences pour comparer deux moyennes sur deux séries appariées

Et de la valeur de chacune des deux fréquences attendues pour comparer deux fréquences sur des séries
indépendantes.
Sans ces informations on ne peut pas faire de calcul d’effectifs nécessaires a priori.

Page 2 sur 2
DZVET 360
La structure générale, ainsi que les textes, photos,
images et séquences vidéo, animées sonores ou non,
composant ce document sont la propriété exclusive
de DZVET 360 Toute reproduction, totale ou partielle,
de ce document ou d’un ou de plusieurs de ses
composants, par quelque procédé que ce soit, sans
autorisation expresse de son créateur, est interdite,
et constituerait une contrefaçon sanctionnée par les
articles L.335-2 et suivants du Code de la propriété
intellectuelle. Les informations, pictogrammes,
photographies, images, textes, séquences vidéo,
animées sonores ou non, et autres documents
accessibles sur le présent document Internet sont
objets de droits de propriété industrielle et/ou
intellectuelle et sont selon les cas, propriété de
DZVET 360 ou de tiers ayant autorisé limitativement
DZVET 360, à les utiliser. A ce titre, toute
reproduction, représentation, adaptation, traduction
et/ou transformation, partielle ou intégrale, ou
transfert sur un autre document sont interdits. La
copie à usage privé de ces différents objets de droits
est autorisée. Leur reproduction partielle ou intégrale,
sans l’accord préalable et écrit de DZVET 360, est
strictement interdit, à l’exception de celles réalisées
pour les besoins de la presse. Les marques de
DZVET 360 figurant sur le document sont des
marques déposées. Toute reproduction totale ou
partielle de ces marques sans autorisation préalable
et écrite de DZVET 360 est prohibée. Les liens
hypertextes externes mis en place dans le cadre du
présent document et les contenus des documents de
tiers vers lesquels ils pointent ne sauraient engager
la responsabilité de DZVET 360. Les utilisateurs du
présent document sont tenus de respecter la légalité
et, en particulier, les dispositions de la loi «
Informatique et libertés », dont la violation est
sanctionnée pénalement.

DZVET 360
‫‪‬‬ ‫القرآن‬
‫‪‬‬ ‫األذكار‬
‫‪‬‬ ‫تالوة‬
‫‪‬‬ ‫الحديث‬
‫مواقيت الصالة‬
‫‪Islambook‬تطبيق إسالم بوك‬

‫أذكار المساء‬ ‫أذكار الصباح‬ ‫أذكار بعد الصالة‬ ‫تسابيح‬

‫أذكار النوم‬ ‫أذكار االستيقاظ‬ ‫أذكار الصالة‬ ‫جوامع الدعاء‬

‫أدعية نبوية‬ ‫األدعية القرآنية‬ ‫أدعية األنبياء‬ ‫أذكار متفرقة‬

‫أذكار اآلذان‬ ‫أذكار المسجد‬ ‫أذكار الوضوء‬ ‫أذكار المنزل‬

‫أذكار الخالء‬ ‫أذكار الطعام‬ ‫أذكار الحج والعمرة‬ ‫دعاء ختم القرآن الكريم‬

‫فضل الدعاء‬ ‫فضل الذكر‬ ‫فضل السور‬ ‫فضل القرآن‬

‫أسماء هللا الحسنى‬ ‫أدعية للم ّيت‬ ‫الرقية الشرعية‬


‫ُّ‬ ‫القرآن‬

‫‪DZVET 360‬‬
‫اختر برنامج الحفظ او التالوة الذي يناسبك‬

‫اقرأ أكثر‬

‫‪http://quranlives.com/‬‬

‫‪DZVET 360‬‬
DZVET 360
CE DOCUMENT A ETE OFFERT AUX VETERINAIRES ALGERIENS PAR

REDA MOHAMED GUESSOUM, DVM

Évaluer