Vous êtes sur la page 1sur 54

BIOSTATISTIQUE INFÉRENTIELLE

Pr Léonard Fourn
OBJECTIFS
• A la fin l’étudiant doit être capable de:
1.Décrire les caractéristiques de la loi normale
2.Reconnaitre les types de tests statistiques
appropriées à chaque situation
3.Calculer les indicateurs de comparaison des
pourcentages et des moyennes
4. Interpréter les indicateurs statistiques sur la base
des hypothèses de départ et des tables de
probabilité
I. LOI NORMALE
• Il y a des modèles de distribution qui régissent la
biostatistique. Ce sont les lois : loi binomiale
(probabilité de succès après des tentatives), loi de
poisson (prédiction des événements) et la loi
normale ou loi Gaussienne (variables quantitatives
continues)
• La loi normale exprime mieux les événements
biologiques des sciences de la vie
• Lorsque une variable suit une loi normale la courbe
de sa variation est une courbe en cloche
LOI NORMALE
Les propriétés de cette loi normale sont :

• La loi est centrée autour de la moyenne qui est en


même temps médiane de la distribution
• L’aire sous la courbe représente la population soit une
proportion égale à 1 (probabilité)
• La courbe est symétrique autour de la moyenne, courbe
en miroir; l’échelle de l’axe des x est avec l’écart type (Ϭ)
• L’aire entre les deux points d’inflexion de la courbe
mesure la probabilité que l’aire sous la courbe est :
entre – 1 Ϭ et 1 Ϭ soit 68%
LOI NORMALE
entre - 1,96 Ϭ et 1,96 Ϭ la probabilité est 95%
entre - 3 Ϭ et 3 Ϭ la probabilité est de 99,7%
• Il existe une table qui donne la proportion de
l’aire de la courbe pour chaque valeur de z ou ϵ.
• La distribution normale peut être utilisée pour
faire d’inférence à la population. A cet effet l’on
utilise la loi normale centrée qui permet de
calculer la valeur de z
z= X–m / Ϭ
LOI NORMALE
• Soit une enquête sur la pression artérielle de 100
personnes. La moyenne est de 123,4 mmHg et Ϭ
= 14 mmHg. Quelle proportion de la population a
une pression supérieure à 140mmHg?
• Solution
140 – 123,4 /14 = 1,2 Ϭ à la moyenne. La valeur
de 1,2 lue dans la table de z donne 11,51%. Donc
11,51% de la population ont une pression artérielle
supérieure à 140mmHg
LOI NORMALE
• Exemple 2.
La concentration du sodium (Na+) chez les
adultes en santé est de 141mmol/l avec un écart
type 3mmol/l. La distribution de la
concentration étant normale, quelle proportion
de la population a une concentration inférieure
à 137mmol/l?
LOI NORMALE
• Solution
• Proportion a valeur inférieur à 137mmol?
z=(141-137) /3 = 1,,3
• Dans le tableau on lit : 9,68%
La proportion dans la population est de 9,68%
II. RAISONNEMENT STATISTIQUE
• Le raisonnement statistique à la base de
l’inférence utilise trois approches:
– Estimation statistique: la moyenne (m) de
l’échantillon est l’estimation de celle de la population
(μ).
– On peut retrouver μ à travers l’intervalle de
confiance calculé avec m selon une confiance
donnée (95% ou plus)
– Cette démarche est aussi valable pour les variables
qualitatives (p est l’estimé de P)
RAISONNEMENT STATISTIQUE
– Les tests d’hypothèse
Ils aident à décider s’il est vraisemblable qu’une
différence observée entre deux populations soit due au
hasard
• A cet effet, on cherche à calculer la probabilité de
sélectionner deux échantillons au hasard entre
lesquels on trouve une différence aussi grande ou
plus grande que celle qui est observée. Cette
probabilité est appelé « p-valeur »
RAISONNEMENT STATISTIQUE
Si p-valeur est petite, on conclue que la différence est
significative et est alors peu vraisemblablement due au
hasard
– Modélisation biostatistique
C’est l’ajustement des données à un modèle
mathématique
Elle permet de tester dans quelle mesure l’on peut
prédire un phénomène sanitaire en appliquant un
modèle mathématique.
La forme la plus courante de modélisation utilisée est la
régression linéaire (multiple ou logistique)
III. TESTS STATISTIQUES
• Les tests statistiques servent à extrapoler les
résultats observés sur des échantillons à
l’ensemble des populations dont ils sont issus.
• Ils permettent de déceler une différence sur un
nombre réduit d’observations.
• On admet un certain flou dans les conclusions
et il faut assurer un risque d’erreur. Les tests
déterminent ce risque d’erreur qui facilite
l’interprétation
III.TESTS STATISTIQUES: préalables
• L’application des tests statistiques répond à la
vérification d’hypothèse
Ho = absence de différence (hypothèse nulle)
Ha = existence de différence (hypothèse
alternative)
et aux conditions d’application des tests
• Si μ est dans l’intervalle (μ1- μ2), on conclue que
la différence observées n’est pas significative.
III.TESTS STATISTIQUES: préalables
• Cette différence peut s’expliquer par les seules
fluctuations d’échantillonnage (Ho est acceptée)
• Si μ est extérieur à l’intervalle (μ1- μ2), on
rejette Ho et on accepte Ha d’une différence
(μ1≠ μ2) significative
• Pour tout test de comparaison on pose:
Ho : μ1= μ2
Ha : μ1 ≠ μ2
TESTS STATISTIQUES: préalables
• Le risque d’erreur commis peut être:
– Risque α = risque de se tromper en rejetant Ho
alors que Ho était vraie (affirmer une différence
alors qu’elle n’existe pas)
– C‘est le seuil de signification qu’on fixe a priori
avant tout calcul (généralement 5%)
– Risque ß = risque de ne pas rejeter Ho alors que
Ha était vraie (ne pas rejeter Ho si Ha était vraie)
TESTS STATISTIQUES: préalables
– ß est appelé manque de puissance et l’expression
1- ß = puissance du test

Interprétation
si p≤ 0,05 différence significative
Si p> 0,05 différence pas significative
III.TESTS STATISTIQUES appropriés
• Test de l’écart réduit (z ou є)
– comparaison de deux pourcentages (effectif ≥5)
– comparaison de deux moyennes si n≥ 30
• Test de X²
– plusieurs pourcentages; test d’indépendance pour variables qualitatives
• Test de t
– comparaison de deux moyennes pour petit effectif (n< 30)
• Test de corrélation r
liaison entre deux variables quantitatives; test d’indépendance
pour variables quantitatives
• Test de régression linéaire (modélisation)
Test de l’écart réduit
III.TESTS STATISTIQUES: comparaison avec
écart réduit (z ou є)
 Pourcentages théorique (p) à % observé (po)
є= p-po / Ѵpq/n
α ≤ 0,05 différence significative (p ≠ po)
α > 0,05 différence non significative
Lecture de la table de l’écart réduit; validité np ≥5
• Exemple.
– Dans une population (n=100) qui a autant d’hommes que
de femmes, une maladie chronique frappe 80 femmes et
20 hommes. Cette maladie frappe-t-elle plus de femmes?
Réponse : є= 0,8-0,5 /0,158 = 1,90 non significatif
TESTS STATISTIQUES: comparaison
 Comparaison de deux pourcentages observés
Є = p1-p2/ Ѵpq/n1+pq/n2
Exemple. Deux échantillons (n1=100) dont 20
malades et (n2=400) avec 128 malades. Peut –on
accepter l’hypothèse que ces deux échantillons
proviennent-ils d’une même population?
• p= 128+20/500 = 0,96 ; q=1-p = 0,704
Є= 0,20-0,32/ Ѵ 0,296x0,704:100 + 0,296x0,704:400
Є=2,35 α =2% Ho est rejeté à 95%
Validité: n1p, n2p, n1q, n2q ≥ 5
Test de X²
III. TESTS STATISTIQUES: comparaison avec X²


Répartition observée à une répartition théorique
X² = ∑ (O-C)²/ C ddl= k-1
•Exemple. Croisement des caractères A et B

AB Ab aB ab
Effectif 90 30 30 10 calculé
Effectif 100 18 24 18 observé
X²= (100-90)²/ 90+ (18- 30)²/30 +(24-30)²/30+ (18-10)²/10 = 13,51 ddl=3 p=1%
α ≤ 5% différence significative et p mesure degré signification

NB. Il s’agit de X² d’indépendance qui teste la liaison entre variables qualitatives


III. TESTS STATISTIQUES: comparaison avec X²

• Calcul effectif théorique TL x TC/TT

Exemple. Liaison entre le poids de naissance et la parité des mères

Poids Primi Multi Total


< 3 kg 26 20 46
3-4 kg 61 63 124
> 4kg 8 22 30
Total 95 105 200
TESTS STATISTIQUES: comparaison avec X²
 Comparaison de deux répartitions observée
Calcul effectif théorique ( )

Poids Primi Multi Total


< 3 kg 26 (21,85) 20 (24,15) 46
3-4 kg 61 (58,90) 63 (65,10) 124
> 4kg8 (14,25) 22 (15,75) 30
Total 95 105 200
X²= 6,86 ddl 2
Lecture table X² avec ddl = (l-1) (c-1) ici ddl = 2
EXERCICE
• On tire au hasard d’une population deux
échantillons E1(n1=200 p1= 0,20) et E2
(n2=200 p2= 0,12) et on les compare. On tire
un troisième échantillon E3 (n= 300 p3= 0,12).
Selon vous peut on dire que les trois
échantillons proviennent –ils de la même
population?
EXERCICE

Malades non Malades


E1 40 (28,57) 160 (171,42) 200
E2 24 (28,57) 176 (171,42) 200
E3 36 (42,85) 264 (257,14) 300
Total 100 600 700
X²=4,57+0,73+1,09+0,76+0,12+0,18= 7,45
ddl= 2 α = 0,05 différence significative
TESTS STATISTIQUES: comparaison avec Xc²
corrigé
 Comparaison pour n< 5
Xc² = ∑ ( I 0-C I – 0,5)² / C
Le processus est le même pour la comparaison
théorique/observé et observé/observé
Exemple Une variété de souris présente des tumeurs avec un
taux connu p=20%. Sur 20 de ces souris, traités, on observe 8
tumeurs . On demande si le pourcentage de tumeurs observé
diffère du % théorique
Tumeurs Pas tumeurs
Effectif calculé 4 16 20
Effectif observé 8 12 20
TESTS STATISTIQUES: comparaison avec Xc²
corrigé

• Calcul
X²c = (I8-4I- 0,5 )²/4 + ( I12-16I - 0,5)²/16 = 3,83
ddl=1
La différence est non significative à 5%
III.COMPARAISON DES MOYENNES
III.COMPARAISON DES MOYENNES
• Le principe de comparaison est le même pour
n≥30 et le test de l’écart réduit z ou є= e/σ
 Comparaison m observé et μ théorique
Є = m- μ : s/ Ѵn
Є ≥ 1,96 différence significative à 5%
Є < 1,96 différence non significative à 5%
Exemple. Soient μ = 38 et m =40 et σ=10 pour n=100
Solution Є= 40-38 : 10/ Ѵ100 = 2 Différence
significative à 5%
COMPARAISON DES MOYENNES
 Comparaison de deux moyennes observées
Soient Ea : na, ma et s²a
Eb : nb, mb et s²b
comparons ma à mb
e = ma- mb
sd: Ѵ s²a/na + s²b /nb
Є = I ma-mb I / sd
COMPARAISON DES MOYENNES
 Comparaison de deux moyennes observées
• Exemple. On veut comparer la moyenne de TA (md=61,8 mmHg)
d’un groupe de 85 drépanocytaires à celle (ms=70,1 mmHg) d’un
groupe de 88 sujets sains. On constate que les variances respectives
de 6,9 et 10,8
• Solution
Ho: md=ms Ha : md ≠ ms
Sd= Ѵ 10,8/ 88 + 6,9/85 = 0,45
Є = I 70,1 -61,8I / 0,45 = 18,4
Ho est rejetée; existe une différence entre md et ms avec un p <
0,00001
Validité: nd et ns > 30
COMPARAISON DES MOYENNES
 Comparaison deux moyennes sur séries appariés
Les mesures sont prises sur les mêmes sujets à des moments
différents (x1, x2)
On calcule la différence de mesure pour chacun
d =x1-x2 et on prend la moyenne des différences
md = ∑di /n
Variance des différences: s²d= ∑ d²i- ∑(di)²:n/ n-1
Ecart type de sd = Ѵs²d/n
Є= md-0 /sd
Є ≥ 1,96 différence significative
Є < 1,96 différence non significative
III COMPARAISON DES MOYENNES avec n<30

 Le test statistique approprié est celui de t


 Comparaison de moyenne théorique à moyenne
observée
• Le processus est le même sauf que le t remplace le Є
t= I m- µ I / s : Ѵn ddl= n-1
t > à valeur lue dans table pour ddl=n-1 et 5% la
différence est significative
t< à valeur lue dans la table de t la différence n’est pas
significative
COMPARAISON DES MOYENNES
 Comparaison de deux moyennes
Ea na ma s²a
Eb nb mb s²b na ou nb < 30
Les variances des deux échantillons sont égales (Variance commune
sc²)
Sc²= (na-1)s²a +(nb-1)s²b/ na+nb-2
Sc = ѴSc²/na + Sc²/nb
t = Ima-mbI /Sc ddl= na+nb-2
t > à valeur lue dans table pour ddl=na+nb-2 et 5% la différence est
significative
t< à valeur lue dans la table de t la différence n’est pas significative
COMPARAISON DES MOYENNES
• Exemple. On a mesuré un marqueur biologique chez un
groupe (n=15) de sujets sains et (n’=12) de sujets hépatique
alcoolique
Sains n 15 m= 1,6 s² = 0,19
Alcooliques n’ 12 m’=1,4 s²’= 0,21
Solution
Ho= m=m’ Ha : m ≠ m’
Sc² = (15-1) 0,19 + (12-1) 0,21/25 = 2,66 + 2,31/25 = 4,97/25 = 0,44

t= 1,6-1,4/ Ѵ0,44:15 + 0 ,44 :12= 0,33 ddl= 15+12 -2=25


EXERCICE
• Soient deux échantillons E1 (n1=30) et E2 (n2=12) dont
les moyennes et écart types sont respectivement de
m1=25, m2=22; s²1=0,45 s²2=0,55.
Peut on affirmer que les deux moyennes sont différentes
significativement?
• Solution
Variances communes: 29.0,45 +11.0,55/40=0,47
t = 25-22 / Ѵ0,47:30 + 0,47: 12= 13,04
ddl = 40
conclusion : différence pas significative à 5%
Test de corrélation
V TEST DE CORRELATION
 Utilité et mesure
• Il intervient lorsque l’on veut tester l’existence d’une
liaison entre deux variables quantitatives (x,y)
L’indépendance entre deux variables à partir d’un
échantillon de n couples est basée sur le coefficient r
(mesure intensité liaison)
Le risque correspondant est lu dans la table avec un ddl=n-2.
Si la table est insuffisant on utilise celle de t après
transformation
t= r x Ѵn-2/ Ѵ1-r² ddl= n-2
TEST DE CORRELATION
Si α > 5% la liaison n’est pas significative
Si α ≤ 5% la liaison est significative à 5%

Conditions: distribution normale et variance


constante. Mais si grand échantillon pas
nécessaire
TEST DE CORRELATION
 Interprétation du coefficient r
• Signe de r :
positif : liaison positive (x et y évoluent das le
même sens)
négatif : liaison négative (x et y évoluent en
sens inverse)
• valeur
r varie de – 1 à +1
TEST DE CORRELATION
• Exercices
a)Pour vérifier la relation entre le poids (x) et la
taille (y) on prend un échantillon de 27 couples
(x,y) et on a trouvé r = 0,50. Cette valeur est-elle
significative ? Si oui à quel risque?
• Solution
Dans la table pour ddl = 27-2 =25 on lit α=0,01. La
valeur de r est significative à 1%
TEST DE CORRELATION
On dispose d’un échantillon de 150 couples (x,y)et on
trouve après calcul un coefficient r=0,20. Cette valeur
de r est-elle significative? Précisez le risque
• Solution
Lire dans la table la valeur de r avec ddl=150-2
On ne peut pas utiliser la table car ddl > 100; on peut
utiliser la table de t après transformation de r en t
t= 0,20 x Ѵ 148 / Ѵ1-(020)² = 2,48
Le risque lu est 2%. La valeur de r est significative à 2%
ANALYSE MUTIVARIEE
(modélisation)
VI. REGRESSION LINEAIRE
(Analyse multivariée)
La régression consiste à utiliser un modèle
mathématique pour ajuster les données d’une enquête
Le but de la régression est de trouver la corrélation entre
une variable principale (y) et une variable (x) par une
régression simple: Y = f(x)
La relation de Y avec plusieurs autres variables
indépendantes x ou xi (x1,x1……xn) est appelée
régression linéaire multiple: Y = f(xi)
• La régression porte ainsi sur la variation de y en
fonction des xi.
VI REGRESSION LINEAIRE
 Principes
La représentation des données (x, y) conduit à un nuage de
points. L’on observe la tendance de ce nuage et on ajuste
une courbe qui peut être une droite passant par le centre
de gravité du nuage de points
C’est la droite de régression empirique ou droite des
moindres carrés.
Elle répond à une équation comportant la variable
dépendante que l’on veut prédire ( y) à partir de plusieurs
variables que l’on connaît (xi), variables indépendantes
VI REGRESSION LINEAIRE
Y varie en fonction de xi y= f(xi)
L’équation de la relation est
y= f(xi ) ou f (x1,x2,x3……xn) est celle d’une
régression multiple.
Y et xi sont des variables quantitatives
continues
REGRESSION LINEAIRE
 Forme de la courbe
• Cette droite est déterminée par une pente (b ou
ß). On peut vérifier par un test (test de linéarité
si la courbe est une droite)
• Exemple comment prédire l’infarctus du
myocarde (y) lorsqu’on connaît l’âge (x1), la TA
(x2, et le taux de cholestérol (x3) de quelqu’un?
• y = f(x1,x2,x3)
REGRESSION LINEAIRE
• L’équation d’une droite est généralement
Y= α + ß x+є
α représente l’endroit où la droite coupe celle de y;
valeur de y quand x=0
ß pente de la droite variation de y quand varie d’une
unité
є erreur faisant référence à la variabilité aléatoire
La droite de régression multiple va être
Y= α + ß1 x1+ ß2 x2 + ß3 x3 + ß4x4 +є
REGRESSION LINEAIRE
• Le calcul est fait par un logiciel statistique lequel
fournit les paramètres: Epi Info ou SPSS
• Exemple de sortie de logiciel
• Paramètre valeur écart Borne Borne de l’IC
attendue type inf sup
• Pente 37,2 9,3 16,7 57,7
• Origine en x -486 193,7 6,1 9,8
• Origine en Y 13,07
• R²=0,59
• R² signifie que 59% de la variabilité de y peut être expliquée par x,
le reste par d’autres facteurs
REGRESSION LINEAIRE
• Régression multiple
Y= α + ßa. xa+ ßb. xb+ ßc. xc3 +є
• Interprétation si x change d’une unité alors que
les autres valeurs des autres x sont constantes,
alors Y augmente de ß; si ß est négatif, y décroît
lorsque x change d’une unité
• Lorsque les x sont corrélés entre eux, il y
multicolinéarité, il faut éviter la redondance en
gardant une seule des variables corrélées
VII REGRESSION LOGISTIQUE
• Elle permet de quantifier l’association entre un
facteur de risque du traitement et une maladie
après ajustement pour d’autres variables
• Elle prédit une variable dépendante (binaire) à
partir de plusieurs variables indépendantes
(quantitatives ou binaires)
• Elle est similaire à la régression linéaire multiple
sauf que y est binaire puis mesurer avec une
échelle logarithmique
REGRESSION LOGISTIQUE
ln(p/1-p)= α + ßa. xa+ ßb. xb + ßc. xc3
Le logiciel statistique (Epi Info) fournit la solution de l’équation
• Interprétation
Les coefficients ß permettent de calculer les rapport de côtes.
On convertit en rapport de côtes l’exponentiel de ß
OR = eß (exponentiel ß)
lorsque les autres variables sont constantes

Le rapport de côte est l’accroissement relatif de la côte lorsque xa


augmente d’une unité
L’intervalle de confiance est calculé selon les méthodes appropriés et
fourni par la sortie du logiciel
REGRESSION LOGISTIQUE
• Les calculs sont faits sur Epi Info après avoir
introduit les données recueillies.
• Le cours sur informatique va vous montrer
comment utiliser le logiciel de calcul
• Les logiciels épidémiologiques courants sont :
Epi Info, Stata, SPSS/FC
• Vous devez vous initiez à leur utilisation

Vous aimerez peut-être aussi