Académique Documents
Professionnel Documents
Culture Documents
KINDENGE
1
COURS PRÉ-REQUIS
- Mathématiques
- Physique
LIEN AVEC D’AUTRES COURS
Etant une discipline qui étudie les méthodes de
réduction de données, la variabilité et les populations,
les statistiques interviennent pratiquement plusieurs
cours dispensés en Sciences Pharmaceutiques :
- Pharmacocinétique, Pharmacovigilance, Pharmaco-
économie, Pharmacie Galénique, Analyse des
Médicaments et Produits de santé, Pharmacognosie,
Santé Publique, Toxicologie analytique, Bromatologie
etc
2
DESCRIPTIF DU COURS
(Bref aperçu du cours)
- Ce cours s’intéresse d’abord aux méthodes de
statistique descriptive dont le but est de résumer
l'information contenue dans un échantillon de
données, soit sous forme graphique, soit à l'aide de
paramètres caractéristiques (moyenne, écart-type,
proportion, percentiles, médiane, étendue et
corrélation).
- Il aborde ensuite les méthodes statistiques plus
complexes, comme la régression et les tests
d’hypothèses (l'analyse de la variance à un ou deux
critères, les tables de contingence et les techniques
3
statistiques non-paramétriques).
OBJECTIFS DU COURS
5
Chapitre 3 Moyenne et écart-type
- Moyenne
- Ecart-type
- Intervalle de tolérance
- Intervalle de confiance
- Coefficient de variance
- Carte de contrôle (fidélité, justesse et exactitude)
Chapitre 4. Percentiles
- Mode
- Médiane
- Percentille ou quantille (P25, P50 et P75) 6
Chapitre 5. Corrélation
- Coefficient de corrélation
- Coefficient de corrélation biseral d’un point
- Coefficient de corrélation de SPERMAN
Chapitre 6. Régression linéaire
- Coefficient de régression
Chapitre 7. Erreur type
- Notion d’échantillonnage
Chapitre 8. Intervalle de confiance
Chapitre 9. Probabilités
Chapitre 10. Loi Normale et ses dérivées
- Loi normale 7
- Loi de Chi-carré
Chapitre 11 Tests d’hypothèse
- Hypothèse nulle et alternative
- Collecte des données
- Fixation de niveau d’incertitude
- Tests statistiques
- Détermination du seuil de décision
- Décision
Chapitre 12. Test sur les corrélations
Chapitre 13. Les tables de contingence : lignes x
colonnes (test du chi-carré)
- Test d’indépendance ou pas d’association
- test d’homogénéité ou d’égalité
8
Chapitre 14 Analyse de la variance à un critère
(ANOVA-1)
10
MATÉRIELS
11
CHAPITRE 1. NOTIONS DE BASE
12
Définition de la statistique
Selon Ronald Aylmer Fisher (1890-1962), considéré
comme le plus célèbre statisticien du 20e Siècle, la
statistique est la discipline qui étudie :
- les méthodes de réduction de données
- la variabilité : sans variabilité pas de stat
- Les populations
La biostatistique est l’application de la statistique aux
sciences de la vie notamment les sciences
pharmaceutiques
13
POPULATION ET ÉCHANTILLON
17
Citons à titre d’illustration pour les populations ci-
dessus :
- La réussite ou non de l’échantillon en fin d’année
- Le nombre de patients du pharmacien
- L’âge du pharmacien ou de la pharmacienne
- Le stade du cancer du poumon au moment du
diagnostic
- La longévité de la valve cardiaque
- Le nombre d’admissions par an de l’hôpital
- La durée de vie de l’être humain
- Le nombre de médicaments prescrits à la personne
âgée.
18
VARIABLES QUALITATIVES
20
Si on désigne parq le nombre de modalités d’une
variable qualitative et par {m1,…mq} lesq modalités,
on peut numéroter celle-ci de 1 àq mais ces
nombres n’ont aucune valeur numérique.
On distingue :
- Les variables ordinales
- Les variables catégorisées
21
Variables qualitatives/ Les variables ordinales
23
EXEMPLE
30
DONNEES
Les variables observées ou mesurées sur les
individus
(ou objet) d’un échantillon conduisent à des données
(data).
Il existe :
- Données manquantes
- Données aberrantes : valeurs totalement
inhabituelles, extrêmes ou impossibles (exemple
718Cm au lieu de 178Cm)
- Données censurées 31
EXEMPLE
Le volume de la langue (Cm3) a été mesuré par
imagerie par résonnance magnétique (IRM) chez des
sujets de sexes féminin (groupe 1) et des sujets de
sexe masculin (groupe 2). Les données sont triées par
ordre croissant.
Femme (n=20)
52,4 53,3 54,4 55,8 56,7 57,3 58,0 58,9 60,0 60,1
62,2 62,5 62,6 63,3 64,1 65,3 65,7 65,9 66,0 65,1
Homme (n=20)
52,7 53,4 54,0 55,1 55,4 56,3 56,7 58,1 60,2 60,4
61,7 62,1 62,9 63,1 64,4 65,1 65,5 65,8 66,1 65,4
32
Définir les populations
33
CHAPITRE 2.
STATISTIQUE DECRIPTIVE GRAPHIQUE
34
1. VARIABLE QUALITATIVE
37
Présentation en forme de camembert)
38
2. VARIABLE BINAIRE
39
Diagramme de fréquence
40
3. VARIABLE DISCRETE
c =100%.
Exemple : Etude statistique du nombre d’enfants par
ménage (variable X) portant sur un échantillon de n =133
ménages
0 0 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2
3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3
3 3 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 5 5 5
5 5 5 5 5 5 5 5 5 5
5 6 6 6 6 6 6 6 6 42 6
6 6 6 6 6 6 6 6 7 7
Etablir le recensement du nombre d’enfants par
ménage dans cet échantillon
43
Recensement du nombre d’enfants par ménage
10 1 0,8 100,0
Diagramme en bâton
45
4. VARIABLES CONTINUES
46
Exemple : Age (année) de 100 patients admis dans un hôpital
spécialisé pour les maladies chroniques durant une période
d’un mois.
10 22 24 42 37 77 89 85 28 63
9 10 7 51 2 1 52 7 48 54
32 29 2 15 46 48 39 6 72 14
36 69 40 61 12 21 54 53 58 32
27 33 1 25 22 6 81 11 56 5
63 53 88 48 52 87 71 51 52 33
46 33 85 22 5 87 28 2 85 61
16 42 69 7 10 53 33 3 85 8
51 60 58 9 14 74 24 87 7 81
30 76 7 6 27 18 17 53 70 49
47
Tableau de classes
0-10 5 22 22 22
10-20 15 8 8 30
20-30 25 13 13 43
30-40 35 10 10 53
40-50 45 8 8 61
50-60 55 16 16 77
60-70 65 7 7 84
70-80 75 5 5 89
0-10 signifie de
80-90 85 0 exclu à11
10 inclus, 10-20
11 de 10 exclu100
à 20 inclus,
etc.Total n = 100 100%
48
Histogramme de l’âge des patients admis dans un hôpital
spécialisé pour les maladies chroniques sur une période d’un
mois (n = 100 patients).
49
Diagramme cumulatif de l’âge des patients admis
dans un hôpital spécialisé pour les maladies
chroniques sur une période d’un mois (n = 100
patients).
50
CONCLUSION
51
CHAPITRE 3. MOYENNE ET ÉCART-
TYPE
52
MOYENNE
53
Il existe quatre sortes de moyennes : arithmétique,
quadratique, géométrique et harmonique.
54
PROPRIETES DE LA MOYENNE
55
56
AUTRES TYPES DE LA MOYENNE
57
- La moyenne quadratique de données numériques
est la racine carrée de la moyenne des carrés des
termes. Si x1 … xn représentent les n résultats, la
moyenne quadratique est estimée de la façon
suivante :
58
- La moyenne géométrique de valeurs x1, x2 …xn est
définie telle que son logarithme est la moyenne
arithmétique des logarithmes de ces valeurs :
59
- La moyenne harmonique est l’inverse de la moyenne
arithmétique de l’inverse des données. Si x , … x
estimée de la façon suivante :
60
EXEMPLE DE LA MOYENNE
Un échantillon contenant du calcium a été analysé
par quatre méthodes différentes. Les résultats (en
ppm) obtenus sont : représentent les n résultats, la
moyenne harmonique est
61
Calculer les moyennes arithmétiques simples,
quadratiques, géométriques et harmoniques.
Comparer ces moyennes.
62
ECART-TYPE
64
Propriétés
L’écart-type est un indicateur de dispersion non
négatif . En réalité, en l’absence de variabilité : S=0
66
1 1 40 5 3 1 3 4 4.86 3 3.48 2.33
2 1 46 20 1 1 3 4 3.7 1.7 0.46 0.46
3 2 38 13 2 1 1 4 3.7 2.2 1.57 0.4
4 1 34 9 1 1 3 4 3 2.1 1.56 0.99
5 1 33 8 3 1 2 4 5.5 3.3 3.39 2.23
6 1 47 22 1 1 3 4 5.2 3.2 1.96 1.51
7 1 44 20 2 1 3 1 3.7 1.7 4.68 0.9
8 1 55 27 1 1 2 1 4.2 2.7 6.62 0.46
9 1 41 16 2 1 1 3 4.1 2.3 1.66 1.79
10 2 31 6 2 1 2 3 6.7 4.1 10.6 3.43
11 1 45 20 1 1 3 4 4.3 2.6 2.23 0.93
12 1 42 17 1 1 3 4 6.2 1.9 0.84 0.54
13 1 60 34 1 1 3 2 5.1 2.8 7.43 1.73
14 1 42 15 1 1 3 3 4.6 2.2 9.16 1.73
15 2 32 8 2 1 2 3 5.75 3 5.36 0.86
16 1 41 16 1 1 3 4 5.6 3.4 8.04 3.6
17 1 45 17 2 1 2 4 6.6 3 7.6 0.44
18 1 47 21 2 1 2 4 4.1 2.8 2.1 1.29
19 1 51 27 2 1 2 4 3.2 2.8 3.73 1.51
20 1 72 44 1 1 3 1 3.33 2.67 3 0.75
21 2 44 18 1 1 3 2 4.4 2 6.04 0.89
22 1 38 12 2 1 2 4 7.1 4.4 3.21 2.27
23 1 40 14 2 1 5 4 4.5 2.2 2.06 1.29
24 1 54 26 1 1 5 3 5.1 2.6 3.43 0.93
25 1 39 12 1 1 3 4 4.1 3 1.88 2
26 1 41 17 1 1 3 3 5.4 3.1 11.3 2.77
27 2 36 11 1 1 3 2 4.5 2.8 2.06 0.62
28 1 26 1 2 0 2 3 6.5 3.5 6.5 0.5
29 1 44 20 1 1 3 4 4.89 1.67 1.11 0.5
30 2 36 10 1 1 3 2 4.4 2.6 4.93 0.71
31 1 35 10 1 1 3 3 5.3 2.7 6.01 0.23
32 1 54 29 2 1 2 3 3.2 1.8 1.29 0.62
33 1 46 13 3 1 5 2 3.6 2.3 6.27 2.23
34 2 31 5 1 0 3 1 3.75 2.75 2.25 1.58
35 1 55 30 3 1 1 4 3.8 2.6 1.29 0.49
36 1 42 16 2 1 3 4 4.1 1.6 3.66 0.93
37 1 45 20 2 1 2 4 3.8 1.7 0.4 0.68
38 1 42 17 3 1 2 4 5 2.2 2.89 1.51
39 1 68 41 2 1 1 3 4.6 2.4 3.16 0.49
67
40 1 30 3 1 0 3 2 3.5 2.2 1.61 0.4
41 1 37 12 2 1 1 4 4.8 2.6 6.4 0.71
42 1 55 28 2 1 3 4 4.8 4 4.62 2
43 1 54 28 1 0 3 4 2.9 1.5 0.54 0.28
44 1 72 46 1 1 4 2 6.1 3.8 10.1 2.4
45 1 59 32 2 1 2 2 5.2 1.6 7.96 0.49
46 1 46 21 2 1 2 4 3 2.5 1.56 0.28
47 1 38 11 1 1 3 3 5.1 3 4.99 2.67
48 1 42 17 2 1 2 4 5.1 3.6 4.32 1.38
49 1 67 41 2 0 4 1 2 1.8 2 0.7
50 2 37 13 2 1 2 4 4.5 1.9 1.61 0.77
51 1 66 40 1 1 3 4 5.1 2 2.1 0.89
52 1 36 10 2 1 2 4 3.1 1.8 1.21 0.62
53 1 39 14 2 1 4 3 5.7 2.8 7.57 1.29
54 1 42 18 1 1 3 3 5.4 3.7 2.49 2.46
55 1 63 38 1 1 3 2 4.5 3.7 5.61 0.9
56 1 47 16 1 1 3 2 4.9 2.3 3.43 2.46
57 1 49 23 2 1 1 4 3.57 2 0.95 1.33
58 1 34 8 2 1 3 4 4.6 3.1 3.38 1.66
59 2 43 19 1 1 3 4 5.2 1.9 3.73 0.77
60 1 35 9 3 1 2 4 5.1 3.4 3.66 1.38
61 1 50 25 1 1 3 4 4.4 2 2.04 0.67
62 1 38 13 3 1 2 4 5.5 2.6 4.06 1.6
63 1 57 30 3 1 1 4 4.2 3.3 1.29 0.46
64 1 53 27 1 1 3 4 6.3 2.7 4.9 0.68
65 1 39 13 2 1 2 2 2.7 2.2 2.68 0.4
66 2 40 15 1 1 2 4 4.4 2.1 6.04 0.77
67 1 29 2 1 0 3 3 5.2 1.9 7.73 0.54
68 2 40 15 1 1 3 2 5.7 3.1 2.9 0.77
69 1 43 18 1 1 3 4 5.6 3.2 2.93 1.07
70 1 52 27 1 1 3 4 5.2 4 3.29 4
71 1 44 18 1 1 3 3 7.4 3.9 0.71 0.77
72 1 35 9 2 1 5 4 3.8 2.5 1.07 1.17
73 1 42 17 3 1 2 4 3.5 1.4 2.5 0.27
74 1 47 19 1 1 2 4 4.3 2.6 4.01 0.93
75 1 43 14 2 1 1 4 2.5 2.5 0.72 2.06
76 1 33 6 2 1 4 2 5.22 2.67 7.44 1
77 1 63 38 2 1 5 3 6.3 3.8 5.57 0.84
78 1 38 11 3 1 1 3 5 2.3 8.22 68
1.12
79 1 43 17 1 1 3 4 3.8 2.6 2.62 1.38
69
Variable Moyenne ± écart- Nombre (%)
type
Sexe Homme 295 (83)
s
Femme 60 (17)
s
Age (années) 43.8 ± 10.7
Expérience 18.0 ± 10.5
professionnelle
70
INTERVALLE DE TOLERANCE
71
COEFFICIENT DE VARIATION
72
CONTRÔLE DE QUALITÉ
En contrôle de qualité, trois cas de figure peuvent
se
présenter selon la position de la valeur fournie par le
processus
x tombeàdans
un moment donné,
l’intervalle soit
X± 2S . Onxt.dit que le
t
Processus est sous contrôle
77
Laboratoi Répétitions
res 1 2 3 4
1 0,53 0,57 0,53 0,50
2 0,53 0,53 0,49 0,51
3 0,.49 0,49 0,50 0,50
4 0,54 0,53 0,51 0,51
5 0,50 0,51 0,51 0,50
6 0,48 0,44 0,55 0,50
7 0,27 0,41 0,40 0,46
Calculer les moyennes, les biais absolu, les écart-
8 0,48 0,49 0,55 0,49
types et les coefficients de variation pour chaque
laboratoire et commentez-les.
78
2. Pour mesurer l’uniformité de masse de comprimés
dont le poids types est de 713mg, 20 comprimés ont
été pesés individuellement et les poids de chaque
comprimé sont les suivants : 720mg, 712mg, 762mg,
710mg, 712mg, 702mg, 707mg, 708mg, 721mg,
711mg, 726mg, 709mg, 709mg, 712mg, 711mg,
704mg, 707mg, 698mg, 705mg et 697mg.
Déterminer le poids moyen et l’écart-type
79
CHAPITRE 4. PERCENTILES
80
La moyenne et l’écart-type sont les deux
principaux
paramètres de position et de dispersion utilisés en
pratique quotidienne et dans la recherche
scientifique.
Paramètres de dispersion
l’étendue
la variance
l’écart interquartile
82
LE MODE
83
A titre d’exemple, pour l’échantillon des 133 ménages,
le mode est égal à 3 enfants par ménage car c’est la
valeur la plus fréquente
84
Dans le cas des patients admis en hospitalisation, la
classe modale correspond à la classe 0-10 ans
85
LA MEDIANE
La médiane (median) est la valeur centrale par
excellence car elle divise la distribution en deux
parties égales.
86
On peut déterminer la médiane
graphiquement à
partir du diagramme cumulatif (variables
discrètes et continues).
90
Exemple :
Avec 7 données : 21, 14, 11, 13, 12, 24, 9
91
La comparaison de la moyenne arithmétique et de la
médiane
La moyenne est voisine de la médiane (X=M) : de
la
distribution symétrique
94
Les percentiles ont l’avantage d’être robustes, car
peu sensibles aux valeurs extrêmes
95
ETENDUE
97
ECART INTERQUARTILE
Par définition, l’écart interquartile (interquartile
range ou H-spread) est donné par l’équation
H = P75-P25
Utilisant les 1er et 3ème quartiles, H est un
paramètre de
dispersion peu sensible aux valeurs aberrantes et
donc robuste. Il est communément utilisé dans
plusieurs applications de contrôle de qualité.
On peut calculer l’écart-type à partir de H en
utilisant la formule : S = 0,75H
98
CHAPITRE 5. CORRELATION
99
La mesure de l’association (ou de la relation)
entre les
observations simultanées de deux variables faites
chez sujets (ou objets) est une préoccupation
fréquente en pratique.
Par exemple,
y a-t-il une relation entre le poids et la taille chez
l’Homme ?
La pression artérielle varie-t-elle avec l’âge des
individus ?
Peut-on dire qu’il y a une association entre le taux
de cholestérol et le poids ?
Le cancer du poumon est-il lié (ou dû) au
tabagisme ? La consommation de médicaments100
est-elle corrélée avec la profession exercée ?
On désigne par X et Y les deux variables
considérées.
D’emblée il convient de distinguer deux cas de figures.
- - -
n Xn Yn
102
Pour calculer r , on a besoin de
On a toujours – 1 ≤ r ≤ +1
13 60 34
Calculons le coefficient de corrélation
On trouve :
∑x = 630
∑y= 240 ∑x2=27394 ∑y2=4778 ∑xy=10965
106
107
En général, il est recommandé de ne pas calculer
un
coefficient de corrélation sans avoir examiné le
graphique bivarié Y vs X.
108
Coefficient de corrélation de Spearman
109
On procède comme suit :
111
Exemple
N° Médecin Age (rang) Exp. prof. (rang) d d2
1 40 (6) 5 (1) 5 25
2 46 (12) 20 (11) 1 1
3 38 (5) 13 (6) -1 1
4 34 (4) 9 (5) -1 1
5 33 (3) 8 (3.5) -0.5 0.25
6 47 (13) 22 (13) 0 0
7 44 (10) 20 (11) -1 1
8 55 (14) 27 (14) 0 0
9 41 (7) 16 (8) -1 1
10 31 (1) 6 (2) -1 1
11 45 (11) 20 (11) 0 0
12 42 (8.5) 17 (9) -0.5 0.25
13 60 (15) 34 (15) 0 0
112
14 42 (8.5) 15 (7) 1.5 2.25
D’où on obtient
113
Coefficient de corrélation bisérial de point
Lorsqu’une des deux variables, X par exemple, est
binaire et l’autre quantitative, on obtient le coefficient
de corrélation bisérial de point :
On le note donc r2 .
le coefficient de détermination mesure le
pourcentage de
la variabilité d’une variable expliquée par l’autre
variable.
117
CHAPITRE 6. REGRESSION
LINEAIRE
118
lorsqu’on étudie la relation entre deux variables X et
Y
dont l’une est fixée (on dit aussi "contrôlée") par
l’expérimentateur, on parle de la régression
Quand utiliser la régression?
X2
• Ne pas l’utiliser pour
déterminer le degré Corrélation
120
Etalonnage = modélisation
121
Modèle linéaire
• Le modèle de la
régression: Yi
i
Yi a bX i i Y
a
• alors, toutes les (intercept) X X Xi
régressions linéaires Observées b = YX
simples sont décrites Attendues (pente =slope)
- - -
n Xn Yn
123
Pour déterminer la droite de régression , on a
besoin de
Ainsi :
ai y bx
124
Exemple
Temps de réaction chimique complète (min) en
fonction de la température (° Celsius). Plan
d'expérience.
125
Déterminons d'abord les sommes nécessaires au
calcul
de la pente et de l'ordonnée à l’origine de la droite de
régression. On a successivement :
126
la pente vautb = 0.02498 et
127
l’écart-type résiduel
128
129
Détermination des résidus
130
Résidus: les points doivent se distribuer de façon
aléatoire autour de la droite Y = 0, c'est-à-dire dans la
zone en gris.
résidus
ŷ
131
si les résidus se distribuent de façon suivante, cela
signifie que dans le cas:
il manque un terme quadratique dans le modèle
(Y = a+bX+cX²)
132
Coefficient de détermination
Le coefficient de détermination, noté r2, est un
indicateur de la qualité de rajustement de la droite de
régression sur le nuage de points.
133
r2 ne doit pas être considéré comme le carré de r,
terme banni, puisque une des deux variables est
fixée par l'utilisateur.
0≤ r2≤1,
135
Dans l'exemple du paragraphe précédent :
136
Régression non linéaire
137
Les transformations en régression
150 160
120
Cris/min
Cris/min (log)
100
80
50
40
10 20 oC 10 20 oC
138
CHAPITRE 7. ERREUR TYPE
139
Le concept d'erreur type est la quatrième notion la
plus importante en statistique après celles de
moyenne, d'écart-type et de corrélation.
141
L'échantillonnage (sampling) est un mécanisme
(on dit
aussi "procédé") qui permet de tirer des échantillons
d'une population.
144
Echantillon 1
Population s1
m1
0.2
Echantillon 2
20
s2
m2
146
Quel est l'effet d'un accroissement de la taille
d'échantillon?
147
En résumé, plus la taille d'échantillon est grande,
– plus la moyenne de l'échantillon tend vers la
moyenne de la population
– plus la variance de l'échantillon tend vers la
variance de la population
– plus les estimations sont précises
148
Nombre d'échantillons possibles d'effectif n extraits
d'une population d'effectif A en fonction du type
d'échantillonnage
149
Erreur type de la Pente de la droite de
moyenne régression
Erreur type de la
médiane
Erreur type de la
variance
150
CHAPITRE 8. INTERVALLE DE
CONFIANCE
151
La notion d'intervalle de confiance (confidence
Interval)
est intimement liée à celle d'erreur type.
153
CHAPITRE 10. LOI NORMALE ET
SES DÉRIVÉES
154
DISTRIBUTION NORMALE
La distribution normale est souvent représentée par
une courbe en cloche, souvent appelée courbe de
Gauss. C'est en fait un modèle qui doit être ajusté afin
d'imiter au mieux la réalité. Cette courbe possède les
propriétés suivantes (théorie des probabilités):
– elle représente la densité d'individus à chaque
point de l'axe (plus il y a d'individus, plus la
densité est élevée)
– elle est symétrique par rapport à l'axe vertical
passant par le sommet
– le sommet est donc situé à la médiane
– la médiane =moyenne=mode
155
– l'aire sous la courbe est égale à 1
Une distribution normale est
donc
caractérisée par deux
paramètres:
la moyenne et l'écart-type.
f(x)
µ x
156
µ = moyenne
s = écart-type
Dans une distribution normale, environ 65% des
observations se trouvent entre 1 écart-type et +1
écart-type autour de la moyenne c'est-à-dire dans
l'intervalle [µ s; µ + s] et environ 95% se trouvent
dans l'intervalle [µ 2s; µ + 2s].
157
DERIVEES DE LA LOI NORMALE
158
CHAPITRE 11. TESTS D’HYPOTHÈSES
159
L'objectif de l'inférence statistique est d'étendre les
conclusions obtenues sur base d'un ou plusieurs
échantillons tirés d'une ou plusieurs populations.
161
La structure générale de résolution des tests
d'hypothèses peut être présentée selon une
procédure en six étapes :
162
DÉFINITION DES HYPOTHÈSES
164
On distingue :
165
Exemple: Supposons que l'on désire répondre à la
question suivante: les comprimés du lot contiennent-
ils moins de 20 mg de produit actif ?
– H0 : µ 20
– H1 : µ 20
En français, ces hypothèses signifient:
– H0 : les comprimés du lot contiennent en
moyenne au moins 20 mg
– H1 : les comprimés du lot contiennent en
moyenne moins de 20 mg
166
Dans l'exemple, on veut montrer qu'en moyenne,
les
comprimés contiennent au moins de 20 mg.
H1 : µ 20
167
Par contre, si on veut montrer que les comprimés
contiennent 20 mg (ni plus, ni moins), alors on doit
regarder de chaque coté de la distribution. Par
conséquent deux limites de rejet doivent être définies.
d'un sondage
d'une enquête
d'une étude clinique
d'un essai médicamenteux
d'une expérience de laboratoire.
169
LE NIVEAU D’INCERTITUDE
170
Risque de 1ère espèce
171
Risque de 2e espèce
Ne pas rejeter H0 alors que H0 est fausse constitue
une
autre erreur de décision.
172
Si l'hypothèse H0 est rejetée par le test, il est
vraisemblable que cette hypothèse soit réellement
fausse dans la mesure où l'erreur de première espèce
est bien contrôlée.
Normale (Z)
t de Student (tv)
Chi-carré (Xv2 )
F de Snedecor (Fv1,v2 ).
174
Seuil de décision
Puisqu'on s'est fixé un niveau d'incertitude α
(risque
maximum de rejeter H0 si H0 est vraie)
176
Exemple:
T = -0.3836
Le quantile, noté Qt, de la distribution de Student à
9 (n-1) degrés de liberté associé à un niveau de
signification de 5% est égal à -1.833.
Comme t est inférieur au quantile, on
ne rejette pas H0.
0
0
179
Exemple:
p = 0,35 (aire sous la courbe à gauche de t)
Comme p est supérieur à 0,05 (niveau de
signification), on ne rejette pas H0.
1.833 t =
180
CHAPITRE 12. TESTS SUR LES
CORRÉLATIONS
181
Test pour une corrélation nulle: r ou ρ =0
182
Test pour une corrélation nulle
Hypothèses
H0 : ρ =0 vs H1 : ρ≠0 (bilatéral)
H1 : ρ<0 (unilatéral)
H1 : ρ>0 (unilatéral)
Données
t de Student àn – 2
Seuil de décision
les quantiles (ou percentiles) α/2 ou 1-α/2 du t du
student à (n-2) degré de liberté
184
Décision
On rejette H0(ρ=0) si
185
Exemple
v = n - 2 = 18 degrés de liberté
187
Puisque ∣t0∣ = 4.532 > 2.10
188
Remarque
189
Test pour une corrélation non nulle
190
Le test utilisé est du Fisher et n'est réellement
applicable que dans le cas de grands échantillons (n
élevé).
191
A titre d'exemple, reprenons la corrélationr = 0.73
entre
la GIDH et l'OCT chez 20 sujets atteints d'hépatite
chronique et posons les hypothèses
192
Puisque Qt(0.975) = 1.96 et que [z0] = 0.70 <
1.96,
on ne rejette pas H0.
193
TESTS STATISTIQUES EN RÉGRESSION
194
En régression, les hypothèses portent
essentiellement
sur
la pente (b ou β)
195
Test sur la pente
On formule généralement l'hypothèse nulle que la
pente
a une valeur donnéeβ0
196
On démontre que si H0 est vraie, le critère
197
sinon on ne rejette pas H0
198
Hypothèses
n =10 et t(n-2) =
199
Test sur l’ordonnée à l’origine
ou
201
Exemple
vérifions si la droite de régression passe par
l'origine.
202
Comme Qt(0,975; 8) =2,31 on ne rejette pas H0
puisque [t0] =0,677<<< 2,31
203
CHAPITRE 13.
TABLES DE CONTINGENCE
204
L'analyse statistique de données qualitatives n'est
pas
aisée, eu raison du nombre parfois élevé de
modalités.
206
Dans un test d'indépendance (independence test),
on
observe simultanément les variables qualitatives X et
Y dans un échantillon de n sujets et on comptabilise
le nombre de sujets tombant dans chaque cellule.
209
Test d’indépendance
Soit une population de sujets (ou d'objets) pour
laquelle on observe simultanément deux variables
qualitatives X et Y, à r et c modalités, respectivement.
Hypothèse
210
La probabilité de tomber dans la cellule (i. j)
211
Données
Considérons un échantillon simplement fortuit
d'effectif
n extrait de la population et pour lequel on a observé X
et Y.
212
Notons que le total généraln est fixé mais les
totaux marginaux sont observes (donc ils sont
aléatoires, ils dépendent de l'échantillon obtenu).
Exemple :
On a observe chez n = 1500 sujets d'une population
l'absence ou la présence d'une anomalie génétique
(variable X à 2 modalités) et le groupe sanguin
(variable Y à 4 modalités) ; on obtient la table de
contingence 2 x 4 suivante :
213
On se pose la question d'une association éventuelle
entre
l'anomalie génétique et le groupe sanguin !
214
Niveau d’incertitude
215
Test statistique
Valeurs attendues
218
Il faut donc calculer une "distance" entre les Oij et Eij
sous H0.
A cet effet, on calcule le critère
219
chi-carré obtenu sera :
220
v = (r – l) (c – 1) = 1 x 3 =
3
221
Seuil de décision (p -value)
v = (r – l) (c – 1) = 1 x 3 = 3 (voir table)
La p-value = 0.841
Conclusion
Dans l'exemple, puisque p = 0.841 > 0.05, on ne rejette
pas l'hypothèse d'indépendance entre l'anomalie
génétique et le groupe sanguin. Il n'y a donc pas
d'association entre les deux critères qualitatifs. Ceci est
confirmé par puisque X2=0,835<<7,82; le seuil critique
à 5%. 222
Attention
223
Test d’indépendance 2 x2
224
II s'agit de la célèbre formule dite du "chi-carré",
l'une des plus utilisée en statistique.
Ou bien
225
Exemple
226
Y a-t-il une relation entre le statut alimentaire et les
résultats universitaires chez les étudiants ?
228
Comme le seuil critique à 5% vaut Qx2 (0.95;1) =
3.84, on ne peut conclure qu'au rejet H0 puisque
(X2 obs = 172,8>>3,84),On note que p < 0.0001.
229
On a observe chez n = 159 sujets d'une population l'absence
ou la présence d'une anomalie génétique (variable X à 2
modalités) et le groupe sanguin (variable Y à 4 modalités) ;
on obtient la table de contingence 2 x 4 suivante :
Anamalie
génétique A B AB O Total
Absente 52 12 15 16 95
Présente 14 20 15 15 64
Total 66 32 30 31 159
On se pose la question d'une association éventuelle
entre
230
l'anomalie génétique et le groupe sanguin !
Test d’homogénéité
232
Considérons un échantillon simplement fortuit
d'effectif
extrait de chaque population nj .
Au total, on a n1+n2+….+nc donc = n sujets. Pour
chaque sujet, on a observé la variable X. On peut donc
représenter les données sous la forme d'une table de
contingence r x c
On note Oij le nombre de sujets de l'échantillon j qui
ont
la modalité i de X .
Notons que les totaux marginaux des colonnes sont
fixés,
par contre, les totaux marginaux des lignes Ri (i=1,…,r)
233
234
Nombre de fumeurs et de non fumeurs dans quatre
études cliniques impliquant des patients atteints d'un
cancer du poumon
Etude
Tabagisme 1 2 3 4 total
Non fumeur 3 3 7 12 25
Fumeur 83 90 129 70 372
Total 86 93 136 82 397
Les populations sont ici les c = 4 études scientifiques.
La variable qualitative X est le tabagisme à r = 2
modalités (non fumeur, fumeur). On a donc une table
de contingence 2 x 4. 235
.
Etude
Tabagisme 1 2 3 4 total
Non fumeur 3 3 7 12 25
(5.42) (5.86) (5.56) (5.16)
Fumeur 83 90 129 70 372
(80.58) (87.14) (127.44) (76.84)
Total 86 93 136 82 397
236
Donc l'exemple, puisque p = 0.0055 < 0.05 on
rejette H0 (X2 = 12.62 >> 7.82).
238
Dans ce chapitre, nous envisageons la
comparaison de la distribution d'une variable
quantitative X dans deux ou plusieurs populations
distinctes.
241
Hypothèses
H 0 : Homogénéité des moyennes
242
Données
Si= 382+192+…+72=4607
246
Et
On calcule ensuite :
247
On définit ainsi trois sommes de carrés, chacune
associée à des "degrés de liberté".
249
250
251
Seuil de décision (p -value)
Sous l'hypothèse le critère F étant distribué
comme un F de Snedecor à k – 1 et n–k
degrés de liberté
254
Décision
255
Exemple
Différence entre
les moyennes
d12 = 17-23 = -6,0
(entre BR et IS)
d13=17-30,2 =13,2
(entre BR et D)
d23 = 23-30,2 = -7,
2 (entre IS et D)
256
Différence critique :
Rappel :
k-1 = 3-1 = 2
QF(1-α;k-1,n-k)= QF(0,95;2;40) = 3,232
Sp2 =213,68
Or d12 = -6,0
257
or d13 = -13,2
258
Comparaison de deux moyennes
259
On teste l'hypothèse
Test statistique
Sp = l'écart-type pondéré des deux échantillons, est
distribué comme unt de Student à n1+n2-2 degrés de
liberté
260
Seuil de décision
Décision
On rejette H0 si
261
Exemple
Sp = 11,40
t(19) = -1,17
262
Seuil de décision
Qt (0,975; 13+8-2) = Qt(0,975;19) = 2,09
Décision
Comme tobs =1,17 << 2,09 on ne rejette pas H0. Il n'y a
donc pas de différence significative de l'âge entre les
groupes BR et IS
263
Test non paramétrique
264
Test de Kruskal-Wallis
Principe
265
On calcule le critère :
267
On regroupe et on attribue ainsi un rang à chaque observation
269
Comme le seuil critique à 5% du chi-carré à 2
degrés de liberté vaut Qx2(0,95;2) = 5.99,
l'hypothèse nulle H0 est rejetée. D'ailleurs, p =
0.0334. On conclut donc que l'âge est
significativement différent dans les 3 groupes de
patients.
270
Test de Mann-Whitney
Lorsqu'on ne compare que deux groupes, on peut
aussi avoir recours au test non-paramétrique U de
Mann-Whitney.
274
1. On veut savoir si la quantité de nitrate varie d’une
station à l’autre le long d’une rivière. Pour cela, on
prélève en 10 points (n=10) une certaine quantité
d’eau dans 3 stations différentes (k=3). Voici les
Station 1 Station 2 Station 3
résultats obtenus :
50 162 120
52 350 120
123 125 122
100 320 221
200 112 253
250 200 141
220 40 182
220 162 175
300
Que peut-on 160 données ?
conclure de ces 100
220 250 214
NB. Applique les tests paramétriques ou non 275
paramétriques
CHAP 15 . COMPARAISON
D’ÉCHANTILLONS APPARIÉS
276
II est fréquent qu'une même variable quantitative
soit mesurée à plusieurs reprises sur les individus
d'une même population.
279
Données
280
Niveau d’incertitude
Test statistique
on calcule :
la somme des observations (totaux) marginales (Ri
et Cj) ainsi que T et S
Mais aussi :
281
Exemple
Tableau 15.2. Temps moyen (min.) de préparation des repas dans cinq
hôpitaux et avec trois systèmes différents
SCE =
283
on calcule :
Les carrés moyens
- Carré moyen résiduel
284
on calcule :
Les rapports des carrés moyens
Si H0 est vraie, c'est-à-dire si les traitements (colonne)
sont équivalents, le rapport
285
De même, pour tester l'hypothèse d'égalité entre les
blocs, il suffit de calculer le critèreF'
286
287
Exemple
Tableau 15.2. Temps moyen (min.) de préparation des repas dans cinq
hôpitaux et avec trois systèmes différents
290
Conclusion
On ne rejette pas H0 (égalité des traitements) si :
292
Donnée
293
Test statistique
Décision: on rejette H0 si
294
Exemple
295
L e test t d e S tu d en t à d eg r és d e l i b er té v au t
296
On desire comparer les temps (en minutes) que
mettent trois analgésiques A, B et C pour calmer les
maux de tête. Six patients ont été sélectionnés et
chacun de ces patients a testé les trois analgésiques.
Voici les résultats
Analgésique
Patient A B C
1 18 22 25
2 14 23 13
3 21 19 23
4 20 29 24
5 12 19 13
Ces données
6 permettent-elles
13 20 d’affirmer que les
20
analgésiques présentent une efficacité différente pour
calmer les maux de tète ? 297
Test de Friedman
298
Test de Friedman
Principe
On remplace les observations par leur rang dans
chaque bloc (ligne). Puisqu’il y à k traitements, la
somme des rangs doit chaque fois valoir k (k + 1)/2.
En cas d’ex-aequo, on attribue la moyenne des rangs
correspondants.
En clair, pour chaque observation on associe le
rang de
telle sorte que
On calcule le critère