Académique Documents
Professionnel Documents
Culture Documents
Biostatistique
I. Introduction
Licence Sciences et Techniques:
Protection de l’environnement
Option : Sciences de l’environnement
2020-2021
M. MERZOUKI
m.merzouki@usms.ma
INTRODUCTION
M.MERZOUKI
citations sur la statistique
Mark Twain
(1835 - 1910)
M.MERZOUKI 4
"Il est facile de mentir avec les statistiques,
mais il est difficile de dire la vérité sans
elles "
Andrejs Dunkels
(1939 - 1998)
M.MERZOUKI 5
"Appeler un statisticien après que l’expérience
soit terminée c’est comme lui demander de faire
une autopsie; il pourra seulement déterminer la
cause de l’échec de l’expérience."
M.MERZOUKI 6
Tirage de journaux concurrents
Le graphique suivant est paru en 1981 dans le New Yorker Post, sous le titre « Ascension du Post, le
1 800 000
du tirage du Post va bientôt l’amener en première position, devant le
NEWS News qui périclite
1 700 000
1 600 000
On remarque deux artifices utilisés pour exagérer la tendance :
1 500 000
800 000
1.L’échelle verticale ne démarre pas en zéro.
700 000
C’est une présentation acceptable, mais qui renforce les variations
600 000 apparentes.
POST
500 000
1977 1978 1979 1980 1981 1982 2.L’échelle verticale est discontinue.
M.MERZOUKI 7
Une telle présentation ne serait admissible que si la discontinuité de l’échelle était clairement indiquée, par
exemple par des pointillés :
Le nombre d’exemplaires
1 600 000 1 500 000
1 500 000
1 000 000
800 000
POST
700 000
500 000
600 000
POST
500 000 0
1977 1978 1979 1980 1981 1982 1977 1978 1979 1980 1981
année
On constate immédiatement qu’il reste au Post bien du chemin à parcourir avant d’accéder à la première
place. M.MERZOUKI 8
Le paradoxe de Simpson
FUMER, C’EST BON POUR LA SANTÉ
fumeuses.
Après 20 ans, le taux de mortalité chez les
fumeuses était de 24%, alors que celui
des non-fumeuses était 31%. Alors, est-
M.MERZOUKI 9
Le paradoxe de Simpson
Age 18 - 24 25 - 34 35 - 44 45 - 54 55 - 64 64 - 74 75+
Smoker? + - + - + - + - + - + - + -
Dead 2 1 3 5 14 7 27 12 51 40 29 101 13 64
total 55 62 124 157 109 121 130 78 115 121 36 129 13 64 1314
M.MERZOUKI 10
Le paradoxe de Simpson
FUMER, C’EST BON POUR LA SANTÉ
taux de mortalité%
120
100
80
60
40
20
Si on raisonne par classe d’âge, dans chaque tranche la mortalité chez les fumeuses est supérieure à celle
des non-fumeuses.
Mais comment les chiffres peuvent-ils s’inverser quand on groupe tout le monde ?
M.MERZOUKI 11
Le paradoxe de Simpson
1° dans la population initiale, il y a beaucoup plus de femmes âgées non-fumeuses que fumeuses.
3° mais les âgées meurent de toutes façons beaucoup plus que le jeunes, qu'elles fument ou
pas .
4° comme il y a beaucoup plus d’âgées que de jeunes dans cette étude; la mortalité sera du peut
M.MERZOUKI 12
Le paradoxe de Simpson
FUMER, C’EST BON POUR LA SANTÉ
❖ Premièrement il faut une variable qui influe sur le résultat final (le « groupe »), et qui n’est pas
forcément explicitée au départ. On appelle cela un facteur de confusion. Il s’agit de l’âge des
personnes lequel évidemment joue sur la mortalité.
❖ Deuxièmement, il faut que l’échantillon qu’on étudie ne soit pas distribué de manière homogène : il y
a plus de vieilles femmes dans l’échantillon des non-fumeuses que chez les fumeuses.
M.MERZOUKI 13
Le paradoxe de Simpson
CALCULS RÉNAUX : QUEL TRAITEMENT CHOISIR ?
Selon une étude médicale sur le succès de deux traitements contre les calculs rénaux permet de voir le
paradoxe sous un autre angle.
Cette table montre que B est plus efficace.
Traitement A Traitement B
78 % (273/350) 83 % (289/350)
M.MERZOUKI 14
Le paradoxe de Simpson
CALCULS RÉNAUX : QUEL TRAITEMENT CHOISIR ?
Cette table montre le succès des traitements A et B pour soigner petits et gros calculs :
Ce qui crée le paradoxe, et l'impression erronée que B est globalement plus efficace, c'est que le
traitement A a été donné beaucoup plus souvent pour les gros calculs, qui sont plus difficiles à
soigner. Le rebroussement de cette inégalité, qui conduit au paradoxe, se produit à cause de deux
effets concurrents :
M.MERZOUKI 15
Le paradoxe de Simpson
CALCULS RÉNAUX : QUEL TRAITEMENT CHOISIR ?
1. La variable supplémentaire (ici la taille des calculs) a un impact significatif sur les rapports, elle a une
influence en même temps sur le choix du traitement ( les calculs de taille élevée ont été plus souvent
traités par le traitement A) et sur le résultat du traitement (les calculs de taille élevée sont plus
difficiles à soigner). Cette variable est appelée facteur de confusion.
2. Les tailles des groupes qui sont combinés quand la variable supplémentaire est ignorée sont très
différentes.
M.MERZOUKI 16
TERMINOLOGIE
M.MERZOUKI
Statistiques & statistique
organiser, analyser et interpréter les données, les observations, les expériences et les résultats.
M.MERZOUKI
Statistique
Statistique descriptive Statistique inférentielle
faciliter sa transmission.
M.MERZOUKI
Inférence
L’inférence est un raisonnement par
M.MERZOUKI
Prix payé aux planteurs
Les conditions d'achat des betteraves par les sucreries sont réglementées par l'État de f
açon détaillée. Selon ces règles, la betterave est achetée sur la base de son poids utile et
de sa teneur en sucre.
utile du silo planteur et sa richesse moyenne en sucre, donc les éléments constitutifs
du prix.
M.MERZOUKI
Prix payé aux planteurs
Inférence
connue
connu
Echantillon
L’inférence statistique est nécessaire tout simplement parce que la plupart du temps
nous étudions les population par le biais des échantillons représentatifs avec une
marge d’erreur.
La statistique inférentielle à pour objectif de mesurer le degré d’erreur de l’estimation,
M.MERZOUKI
La statistique descriptive est un ensemble de méthodes permettant de décrire, présenter,
résumer des données souvent très nombreuses. Ces méthodes peuvent être numériques (tris,
élaboration de tableaux, calcul de moyennes…) et/ou mener à des représentations graphiques.
M.MERZOUKI
EXEMPLES:
Les effets d’un médicament.
L’effet du niveau du cholestérol sur la pression artérielle.
Le nombre de patients admis durant les fins de semaine aux urgences.
Degré de pollution métallique au niveau des animaux marins.
L’effet de l’augmentation de la température sur le survie d’une espèce
L’étude sur les différentes complications dans le traitement des patients atteints d’un virus
M.MERZOUKI
Avant l'expérience, on rédige un protocole expérimental qui décrit les conditions et le
déroulement d'une expérience ainsi que la méthode choisie pour analyser les résultats attendus
de l'expérience, d'où l'importance du dialogue entre le biologise et le statisticien.
Exemple 1 :
On a dénombré sur 4900 naissances 2500 garçons (51%)
Ce résultat est-il compatible avec l’hypothèse d’équiprobabilité des naissances des garçons et
des filles ?
Exemple 2 :
Les guérisons d’une certaine maladie avec un traitement de référence et un traitement A ont été :
• traitement A : 85 guérisons sur 100 traités (85%)
• référence : 81 guérisons sur 100 traités (81%)
Est-ce que le traitement A est plus efficace que le traitement de référence ?
M.MERZOUKI
Population, individu, échantillon
Une population est l’ensemble des éléments auxquels se rapportent les données
étudiées. En statistique, le terme « population » s’applique à des ensembles de toute nature :
étudiants d’une académie, production d’une usine, poissons d’une rivière, entreprises d’un
secteur donné…
Dans une population donnée, chaque élément est appelé « individu» ou « unité statistique ».
Les unités statistiques sont des personnes, des animaux ou des objets concrets ou
abstraits. Les premières populations ayant fait l'objet d’un recensement ayant été des
populations humaines (d'où le lien étroit entre statistique et démographie) le terme "individu"
est parfois employé comme synonyme du terme "unité statistique".
M.MERZOUKI
Un échantillon est un sous-ensemble d’une population sur lequel on effectue une
étude statistique. Une étude sur un échantillon vise généralement à tirer des
conclusions relatives à la population dont il est issu.
M.MERZOUKI
Exemple 1:
Dans le but étudier les facteurs de risque pour développer un diabète de type 2 dans la
région de Béni Mellal-Khénifra, une équipe de chercheurs a suivi 1200 personnes issues de
de cette région,
Les habitants de la
région B-K
2 520 776 hab. 1200 personne 1 Habitant/ 1 individu
ou une personne
(2014)
M.MERZOUKI
Exemple 2:
Afin d'étudier les risques de l'accouchement liés à l'âge de la mère dans la province d’Azilal , une
étude est porté sur 300 femmes de plus de quarante ans et 500 âgées entre vingt et trente ans.
Province d’Azilal
M.MERZOUKI
Exemple 3:
Une organisation de consommateurs désire savoir si le poids réel des pains produits par une
boulangerie, qui produit 2000 pain/jour, est bien conforme au poids annoncé (800 g). Pour cela,
elle a prélevé 100 pains au hasard pendant la duré de fabrication du pain pour une journée.
1
N = 2000 pains n = 100 pain
pain
M.MERZOUKI
Répartition des unités statistiques selon différents caractères
On divise les populations en sous-ensembles au moyen de certains critères appelés Variables (ou
dimensions ou caractères ou encore caractéristiques), c’est l’aspect particulier que l’on désire
étudier (objet de l’étude). A chaque unité statistique (ou unité) est associée une modalité de
chaque caractère.
Exemples :
• dans le cas de l’étude des facteurs de risque pour développer un diabète de type 2 on peut
s’intéresser à l’avancement de l’âge, origine ethnique et antécédents familiaux liés au diabète)
• concernant la fabrication du pain, on peut s’intéresser au poids, diamètre, longueur, température
de cuisson, nature de la farine …
M.MERZOUKI
Types de Caractères : qualitatifs et qualitatifs
M.MERZOUKI
Les variables statistiques discrètes sont des variables qui ne peuvent prendre que des
valeurs isolées, discrètes. Le nombre d’enfants d’une famille, le nombre de chromosomes,
le nombre de pétales d’une fleur, les rechute d'une maladie, rappel de vaccin (4
injections), dentition (32 dents), sont des variables quantitatives discrètes. Le plus
fréquemment, les valeurs possibles sont des nombres entiers.
❑ Les variables statistiques continues peuvent prendre toutes les valeurs numériques
possibles d’un ensemble inclus dans : La taille, le poids, la pression artérielle, le revenu,
le taux de natalité sont des variables continues.
M.MERZOUKI
Les variables qualitatives sont toutes les variables qui ne sont pas représentés par des
nombres (non mesurable). Les variables qualitatives prennent des modalités. Par
exemple, les deux « modalités » du la variable qualitative « sexe », sont « masculin » et
« féminin ».
Lorsque les modalités d’une variable ne peuvent pas être ordonnées, la variable
est dite nominale.
M.MERZOUKI
➢ Les données qualitatives définissent des échelles soit nominales soit ordinales. L'échelle
nominale comporte un certain nombre de catégories, dont la seule propriété est qu'elles
sont toutes différentes les unes des autres (sexe, nationalité, type de diplôme, etc.).
➢ Les variables qualitatives ordinales : sont des variables qui contiennent un ordre. Par
exemple, le degré de satisfaction par rapport à votre fournisseur de connexion internet.
Les différentes modalités seraient : très satisfait, satisfait, insatisfait, très insatisfait. Les
variables qualitatives ordinales ont très souvent des degrés de satisfaction,
d’approbation, etc
M.MERZOUKI
Le schéma ci-après récapitule les quatre types de Variables rencontrés en
statistique descriptive.
M.MERZOUKI
échelles de mesures
L’étude des variables doit se faire avec des outils de mesure. Il n’est pas
possible de mesurer le degré de satisfaction de la même façon qu’on
peut mesurer la taille d’un individu. Voilà pourquoi, on utilise différentes
échelles de mesures.
Nominale
Ordinale
Intervalles
Rapports
M.MERZOUKI
échelles de mesures
1. L’échelle Nominale permet de mesurer une variable qualitative
nominale.
2. L’échelle Ordinale permet de mesurer une variable qualitative ordinale.
3. L’échelle d’Intervalles permet de mesurer une variable quantitative dont
le zéro est fixé arbitrairement. Un zéro arbitraire est un zéro qui ne
correspond pas à une absence.
4. L'échelle de Rapports permet aussi de mesurer une variable
quantitative mais cette fois-ci dont le zéro correspond à une absence de
la variable.
M.MERZOUKI
Distributions statistiques: Effectifs, fréquences
Lorsque le recueil des données a été effectué, on dispose, pour chacun des
individus de l’échantillon (ou de la population), de la valeur de la variable étudiée.
Le premier traitement consiste alors à relever cette valeur pour chaque
individu et ensuite à compter le nombre d’individus pour lesquels la variable prend
une valeur donnée. On associe, à chaque valeur prise par la variable statistique
étudiée, son effectif.
Notation : les variables seront notées par des lettres majuscules X, Y, Z… ; on note leurs
modalités (valeurs) par des lettres Minuscules xi, yj, zl et les effectifs associés par ni, nj, nl
M.MERZOUKI
N° Sexe Poids (Kg) Taille (cm) Mention du Bac Ville Age (ans) Nbr DE F&S
1 F 58 163 Bien Béni Mellal 21 3
2 F 47 163 Bien Fkih Ben Salah 22 8
3 F 45 156 A. Bien Khnefra 21 8
4 F 51 163 Bien Azilal 22 7
5 F 68 158 Bien Khnefra 22 2
6 F 67 160 A. Bien Azilal 23 4
7 F 45 163 A. Bien Azilal 22 3
8 G 55 174 Passable Khnefra 25 4
9 G 89 182 A. Bien Béni Mellal 23 3
10 F 52 147 A. Bien Béni Mellal 20 4
11 F 60 166 A. Bien Azilal 22 3
12 F 50 164 A. Bien Béni Mellal 21 4
13 F 66 167 Bien Khnefra 21 4
14 F 56 1,69 Passable Béni Mellal 21 1
15 F 49 159 A. Bien Azilal 21 5
16 F 54 163 Bien Béni Mellal 19 1
17 G 65 169 Passable Azilal 22 3
18 G 66 168 Bien Azilal 21 5
19 G 66 174 Passable Azilal 23 9
M.MERZOUKI
Pour le LST PE 2019-2020, l’effectif total des étudiants, qui on été présents dans la
première séance de Biostatistique, est de 19 étudiants.
Soit la variable « sexe » noté X présenté par deux modalité x1= Filles et x2= Garçons
avec, respectivement, des effectifs n1= 14 et n2=5,
Pour les variables continues, on commence par ranger les observations
en classes, celles-ci étant des intervalles de la forme [ai – 1, ai [. Ensuite,
pour chaque classe, on compte le nombre d’individus dont le caractère
appartient à la classe : ce nombre est l’effectif de la classe. On note k
le nombre de modalités.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
xk nk nk/N 1 [ak-1, ak[ nk nk/N 1
Total N=n1+n2+…+nk 1 Total N=n1+n2+…+nk 1
Distributions statistiques: Effectifs, fréquences
Exemple :
Dans l’échantillon de 19 étudiants de LST PE 2019-2020, on fait un relevé de la ville
d’origine.
Pour obtenir le tableau de fréquences, on divise, pour chaque modalité i, l’effectif ni par
l’effectif total (19 étudiants).
Modes de regroupement des unités statistiques
M.MERZOUKI
Modes de regroupement des unités statistiques
Série simple
Le tableau précèdent est un tableau dans lequel les données n’ont pas été
regroupées. C’est un tableau de données brutes. Nous pouvons lire pour
chaque ligne les différentes valeurs ou modalités des variables ou des
caractères associés à chacune des 19 unités statistiques de la population.
Chaque colonne correspond à une série simple de valeurs ou de
modalités.
Distribution par valeurs ou par modalités
Pour une variable le regroupement se fait par valeurs ou par modalités. Dans ce
cas, on parle de distribution. En effet, la série initiale des 19 données va être
distribuée sur un nombre généralement inférieur (ou au maximum égal), de
valeurs ou de modalités.
M.MERZOUKI
Distribution par valeurs
Classes Effectifs ni
1 enfant 3 480
2 enfants 2 978
3 enfants 987
La somme des effectifs
Distribution 4 enfants ou plus 278
de la distribution est égal
sur 4 valeurs Ensemble 7 723
à 7723, l’échantillon total.
M.MERZOUKI
Distribution par modalités
M.MERZOUKI
Regroupement par catégories
Catégories de valeurs
M.MERZOUKI
N° Taille (cm) N° Taille (cm) Transformation de la série simple en distribution
1 163 10 147
2 163 3 156 par classes de valeurs
3 156 5 158 Classes i Effectifs ni
4 163 15 159 [146; 150[ 1
5 158 6 160 [150; 154[ 0
6 160 1 163 [154; 158[ 1
7 163 [158; 162[ 3
2 163
8 174
[162; 166[ 6
4 163
[166; 170[ 5
9 182 7 163 [170; 174[ 0
10 147 16 163 [174; 178[ 2
11 166 12 164 [178; 182[ 0
12 164 11 166 [182; 186[ 1
13 167 13 167 ∑ 19
14 1,69 18 168
15 159 14 169 Les classes sont d’amplitudes égales (4 cm),
16 163 17 169
17 169 L’amplitude d’une classe est égale à la différence
8 174
18 168 19 174 entre la borne supérieure et la borne inférieure.
19 174 9 182
M.MERZOUKI
Catégories de modalités
Prenons l’exemple du caractère « Sexe » dans le même tableau. On peut répartir les 19
étudiants selon le sexe pour obtenir le tableau suivant:
M.MERZOUKI