Cours de Biostatistique

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science Alim entaire,Ecologie
Université de Jijel
Faculté des www.facebook.com
Sciences de laaineSNV/
/ Dom Nature et de la Vie
Cours de Biostatistique www.facebook.com / Dom aineSNV/
Page facebook : Dom aine SNV : Biologie,Agronom ie,Science Alim entaire,Ecologie
Page facebook : Dom aine SNV : Biologie,Agronom ie,Science

Alim entaire,Ecologie
Cours de Mr. BOUDJELAL
1
Université de Jijel
Faculté des Sciences de la nature et de la vie
Plan général du cours
 Introduction
 Partie I: Statistique descriptive
 Partie II: Statistique probabiliste
 Partie III: Inférence statistique
 Partie IV: Analyses multi variables
2
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)
3
Introduction
 Définition
Définition
La Statistique est l’ensemble des
techniques et procédures utilisées pour
la collecte, la description, l’analyse et
l’interprétation de données
(numériques ou non ).
4
Introduction
 Définition
Pourquoi la Statistique?
Il ya bien des questions dans les sciences de la
vie dont la réponse ne peut être apportée que
par la statistique.
Ex: Quel est le taux normal de la glycémie ?
5
Introduction
 Définition
Différence entre statistiques et statistique

• Statistiques = recensements, inventaires ,
mesures,……….
= chiffres = données
• Statistique = science ayant pour objectif le
traitement des statistiques 6
Introduction
 Définition
 Différence entre statistique (s) et statistique
La Biostatistique:
= la Statistique appliquée à la biologie
7
Introduction
 Définition
Les deux aspects de la Statistique:

La Statistique descriptive:
Ensemble des méthodes et techniques mathématiques permettant de
présenter, décrire, résumer des données.
L’inférence statistique Statistique inférentielle ou Statistique mathématique :

C’est l’interprétation des résumés obtenus, leur extrapolation éventuelle à un
ensemble plus vaste (utilisation de sondages par exemple), et leur utilisation pour
prendre des décisions constitue un autre domaine de la Statistique.
8
9
Introduction
 Définition
Vocabulaire de base (Terminologie générale)

Population: une population statistique P est l'ensemble
sur lequel on effectue des observations. C’est un ensemble
généralement très grand, voire infini, d’individus ou d’objets
de même nature.
Exemples :
• ensemble de personnes sur lesquelles on mesure la glycémie
• ensemble de pays pour lesquels on dispose de données géographiques ou
économiques, ...
10
Echantillon:
Un échantillon E est une partie de la population P
Individu ou élément:
La population est formée d’unités statistiques
appelées individus ou éléments
Taille: est le nombre d’individus. La taille N de P

est le nombre d’individus de P. La taille n de E est
le nombre d’individus de E
11
Caractère: propriété distinctive des individus d’une
population ou d’un échantillon , c’est le critère retenu lors
de l’étude de la population ou de l’échantillon .
Modalité: valeur prise par un caractère statistique
12
Un échantillon E est une partie de la population P
13
Ex: dans une population P de pays, un pays particulier est l’unité
statistique = l’individu ou l’élément 14
15
Ordinal
Nominal
16
Partie I: La statistique descriptive
I: Distributions statistiques à un caractère
1- Définition
2- Présentation en tableau et représentation graphique
1 - Caractère qualitatif: nominal ou ordinal
2 - Caractère quantitatif discret
3 - Caractère quantitatif continu
3- Paramètres d’une DS à un caractère
1- Paramètre de tendance centrale
2- paramètres de position
3- Paramètres de dispersion
II: Distributions statistiques à deux caractères

1- Définition
2- Présentation en tableau
3- Représentation graphique
4- Paramètres
17
I- DS à un caractère
1- Définition:
Ensemble de valeurs résultant de l’observation dénombrements,
analyses, mesures,… d’un seul caractère. On parle de série dans le cas de
valeurs numériques.
2- Présentation d’une DS à caractère

Deux types de présentations: en tableau et représentation graphique
Une présentation en tableau est une présentation des effectifs et ou/

fréquences des individus en fonction des modalités(valeurs ou intervalles de
classes du caractère étudié). La représentation graphique dépend du type de
caractère et d’effectifs cumulés ou non .
18
Variables qualitatives
Ordinales
Nominales
19
Présentation en tableau d’un caractère qualitatif
(Nominal)
Ex: Situation familiale dans un groupe de 360 individus
Situation Nombre de Fréquences fi en %

familiale personnes dans fi = ni/n 100 fi
Ai cette situation
ni
célibataire 150 150/360
marié 120 .
divorcé 10 .
veuf 80 .
Total 360 = n 1 100%
20
Veuf
Divorcé
Célibataire
Marié
Représentation graphique du caractère « Situation familiale »

Représentation en secteurs ou en camemberts 21
n=100
22
Caractère: couleur des yeux
23
Variables
nominales
24
25
Variables quantitatives
Continues
Discrètes
26
27
VARIABLES QUANTITATIVES DISCRETES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
n=360
28
VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES
29
30
31
Présentation en tableau d’un caractère
quantitatif discret: nombre d’enfants/famille
Nombre d’enfants Nombre de ni cum croissants ni cum

familles décroissants
0 103 103 360
1 115 218 257
2 95 313 142
3 35 348 12
4 10 358 2
5 2 360 0
32
33
34
Représentation graphique du CQC
Classes égales Classes inégales
35
Classes égales
Représentation graphique du caractère quantitatif continu: taille

avec classes égales
ni non cumulés en fonction des classes  Histogramme
36
37
ai
38
Classes inégales
39
40
DA*100
41
*100
Courbe cumulative croissante
On appelle courbe cumulative croissante le tracé de la fonction F (N pour

les effectifs) qui à tout réel x associe F( x ) = nombre d'observations
strictement inférieures à x. 42
On appelle courbe cumulative décroissante le tracé de la fonction F’ N’ pour les effectifs
qui a tout réel x associe F’ x = nombre d'observations supérieures ou égales à x.
Le point de rencontre des deux courbes cumulatives croissantes et décroissante a
pour abscisse la Médiane
F x et F’ x sont symétriques par rapport à la fréquence . F x +F’ x = 43

44
Partie I: La statistique descriptive
I: Distributions statistiques à un caractère
1- Définition
2- Présentation en tableau et représentation graphique
1 - Caractère qualitatif
2 - Caractère quantitatif discret
3 - Caractère quantitatif continu
1- Paramètre de tendance centrale
2- paramètres de position
3- Paramètres de dispersion
4- Paramètres de formes
-Boite à moustaches
-Coefficients d’asymétrie et d’aplatissement
II: Distributions statistiques à deux caractères
1- Définition
4- Paramètres 45
46
47
48
49
50
51
52
53
54
55
56
57
58
Paramètres de dispersion
• Variance : Cas d’une distribution individuelle
59
Cas d’une distribution groupée ou clasée
Variance = Moyenne des carrés des valeurs - carré de la moyenne

60
• Ecart type :
61
• Coefficient de variation :
62
Exemple: Calculer la moyenne, la variance et le coefficient
de variation de la variable présenté dans le tableau:
63
•Etendue = x max - x min
•Intervalle interquartile = Q 3 - Q 1
64
La boîte à moustaches de Tukey
Parmi les nombreuses représentations graphiques, peu

mettent en évidence un ou plusieurs paramètres de
tendance centrale, et un paramètre de dispersion. C’est le
cas de la boxplot ou boîte à moustaches de Tukey qui
permet, avec un minimum d’habitude, d’appréhender
visuellement l’ordre de grandeur d’une série ainsi que
sa dispersion.
65
66
67
On repère sur la boîte à moustaches d’une variable:
• l’échelle des valeurs de la variable, située sur un axe vertical ou
horizontal.
• la valeur du 1er quartile Q1 (25% des effectifs), correspondant au
trait inférieur de la boîte,
• la valeur du 2ème quartile Q2 (50% des effectifs), représentée par
un trait à l’intérieur de la boîte,
• la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au
trait supérieur de la boîte,
• les 2 « moustaches» inférieure et supérieure, représentées ici par
des traits de part et d’autre de la boîte. Ces 2 moustaches,
délimitent les valeurs dites adjacentes qui sont déterminées à partir
de l’écart interquartile (Q3-Q1).
• les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers)
situées au-delà des valeurs adjacentes sont individualisées. Elles sont
représentées par des marqueurs (carré, ou étoile, etc.).
68
Intérêt (exemple)
Voyons l’exemple suivant qui reprend des notes obtenues
par trois groupes d’étudiants à un contrôle d’informatique :
69
Variables discrètes: diagramme en bâtons
70
Calculons les indicateurs nécessaires pour les trois groupes:
71
Le logiciel R
72
Utilisation du logiciel R
Exemple avec le logiciel R : Bien qu’il fonctionne en ligne de

commandes, on gagne un temps précieux .
73
74
75
Forme d’un histogramme
Moyenne = médiane = Mode
Moyenne > Médiane > Mode

Moyenne < Médiane < Mode
76
Coefficients d’asymétrie
g1 = 0 Symétrie
g1 > 0 Asymétrie à droite
g1 < 0 Asymétrie à gauche
Coefficients d’aplatissement
77
II- Distributions statistiques à 2 caractères (2 dimensions)
1- Définition
 Distribution individuelle
 Distribution groupée
 Nuage de points
 Différents types de nuage
4- Covariance
5- Coefficient de corrélation
6- Interpolation et extrapolation
78
Définition:
C’est la description de la relation entre les valeurs
(=modalités) de deux caractères X et Y, simultanément
observées sur les individus d’une population définie
79
Présentation en tableau d’une DS à deux caractères
80
1- Présentation en tableau d’une distribution individuelle
X X1 . . xi . . . . xn
Y y1 . . yi . . . . yn
Tableau de 2 lignes et n colonnes
81
2- Présentation en tableau d’une distribution groupée
y1 yj yp Total
x1 n11 . . n1j . . n1p n1.
. . . . . . . . .
xi ni1 . . nij . . . ni.
. . . . . . . . .
xh nh1 . . . . . nhp nh.
Total n.1 . . n.j . . n.p n
Tableau à h lignes et p colonnes 82

Distribution marginale de X
Distribution marginale de Y 83
Représentation graphique d’une DS à deux caractères
Nuage de points (Diagramme de dispersion)
84
12 chauve-souris
85
Objectif: chercher la relation
(corrélation) qui peut exister
entre les deux variables (2
caractères)
86
87
Dans le graphe, il y aura donc autant de points
qu'il y a d'individus dans l'échantillon.
Relation entre le poids et la taille dans un échantillon de 30 individus.

88
89
Corrélation positive
La corrélation est dite linéaire si le nuage de points semble suivre une droite
90
Corrélation négative
91
Absence de corrélation
92
Corrélation parfaite:
La qualité de la corrélation entre deux

variables peut se mesurer par la dispersion des
points autour de la relation moyenne.
93
Bonne corrélation (corrélation forte)
94
Mauvaise corrélation (corrélation faible)
95
Corrélation entre le poids et la taille des garçons
On constate une augmentation du poids avec la taille (corrélation

positive): les garçons les plus grands sont généralement les plus lourds.
Mais la dispersion des points est assez grande: la corrélation est assez
faible.
96
Absence de corrélation entre le poids des
garçons et leur taille.
97
98
Exemples de corrélation non linéaire
99
100
101
102
??
Huile
Huile
??
103
104
Paramètres d’une DS à deux caractères:
Covariance
Coefficient de corrélation
105
106
Pour une distribution individuelle
D’où la formule simplifiée
107
Pour une distribution groupée
D’où la formule simplifiée:
108
Le nuage de points sera ajusté à une droite par la méthode des moindres carrés
109
110
111
α a = tg α
=a
b b
112
113
114
115
Le signe de la pente a donne le sens de la corrélation, mais pas sa qualité.
Plus il s'éloigne de zéro, meilleure est la corrélation.
a>0 corrélation positive
a<0 corrélation négative
a=0 pas de corrélation
La qualité de la corrélation peut être mesurée par un coefficient de corrélation r.
Le coefficient de corrélation est compris entre -1 et +1.
r = +1 corrélation positive parfaite

r = -1 corrélation négative parfaite
r=0 absence totale de corrélation
116
- 0,8
117
ymax
ymin
xmin
xmax
118
Relation entre l’envergure et le poids chez la chauve-souris 119
120
121
122
Minimiser la somme des produits des distances par rapport à X et Y à la fois
123
Droite des moindres carrés
La régression de y en x (ou x en y) ne se justifie que lorsqu'une des variables est
expliquée par l'autre, c'est à dire qu'on a affaire à une variable expliquée et une
variable explicative. En réalité, si les deux variables se situent sur le même pied
d'égalité, il n y a pas de raison de minimiser la somme des carrés parallèlement à l'un
des axes de coordonnées, mais à l'un et à l'autre des deux axes à la fois.
Cette démarche nous conduit à la recherche de la droite des moindres rectangles
et débouche sur l'analyse factorielle ou analyse en composantes principales (ACP).
La solution à ce problème est obtenue en minimisant la somme des

produits des écarts (xi -x(yi)) et (y-y(xi)) mesurés en valeur absolue, les
uns parallèlement à l'axe des abscisses, les autres parallèlement à
l'axe des ordonnées.
124
Introduction
Partie II: Statistique probabiliste
Phénomène aléatoire
Notion de probabilité
 Définition
 Probabilité et fréquence relative
 Notion de variable aléatoire et distribution de probabilités
Paramètres d’une distribution de probabilités
 Moyenne
 Variance et écart type
Représentation graphique d’une distribution de probabilités
 Probabilités simples (non cumulées)
n est petit
n est grand
 Probabilités cumulées
n est petit
n est grand
Applications des probabilités
Quelques lois de probabilités
Loi normale
loi binomiale
Loi de Poisson
Loi de Student
Loi de Fisher –Snedecor
Loi du Khi-deux 125
Introduction
La statistique probabiliste ou la théorie de probabilité

s’intéresse à l’étude de l’aspect aléatoire des phénomènes
aléatoires, le but poursuivi est l’élaboration d’outils
mathématiques pouvant servir à cette étude.
126
Phénomènes aléatoires :
Nous distinguons deux genres de phénomènes :
Ceux qui sont régis par des lois déterminées. On peut se rendre compte du résultat de
l’expérience à l’avance et sans recours à l’expérience. Par exemple pour les lois de
Newton de la pesanteur, on peut avoir une idée sur le temps de chute avec certitude
aux erreurs de mesures près d’un corps à partir d’une distance fixée.
Par contre ils existent d’autres phénomènes qui n’obéissent pas à des lois déterminées.
Par exemple si l’expérience consiste à jeter un dé on ne peut prédire avec certitude les
points qui apparaîtront sur la face supérieure.
Cela nous conduit aux définitions :
Un phénomène est dit aléatoire si on ne peut prédire avec certitude avant

l’observation du phénomène le résultat qui surviendra. Même si on répète l’expérience
plusieurs fois et dans les mêmes conditions le résultat variera d’une observation à l’
autre.
Une expérience aléatoire est le mécanisme permettant l’observation d’un

phénomène aléatoire.
127
Exemples de phénomènes aléatoires :
1) Lancer un dé ou plus non truqués.
Mesurer le taux de pollution de l’air d’une ville chaque
année, à une date donnée.
Observer le niveau d’eau d’un barrage, à une date
donnée.
DéDés
128
On lance un dé, et on s'intéresse au nombre qui apparait sur la face
supérieure du dé. Cette expérience est une expérience aléatoire : son
résultat, qui s’appelle l’évènement, dépend du hasard.
Les résultats possibles de cette expérience aléatoire s'appelle l'univers des
possibles. Si le dé comporte 6 faces, l'univers des possibles est Ω =
{1,2,3,4,5,6} qui s’appelle aussi l’ensemble fondamental
Notion de probabilité
Cas d’un dé: la probabilité d’avoir l’une des six faces = /

Cas d’une pièce de monnaie: la probabilité d’avoir Pile = probabilité d’avoir Face = /
Cas d’un sac contenant deux boules noires et une blanche: P N = / ; et P B = /
129
Différence entre probabilité et fréquence
Revenons sur l’exemple du dé, quel est la fréquence d’avoir la face en lançant un dé fois?
Quand le nombre de tirages augmente, la fréquence de

réalisation de A tend à se stabiliser autour d'un nombre limite,
compris entre 0 et 1. Ce nombre limite signifie intuitivement la
chance qu'a l'événement A de se produire lorsqu'on réalise
une expérience : on l'appelle probabilité de A, et on le note
P(A). Dans notre exemple, on a bien sûr P(A)=1/6 si le dé n'est
pas pipé et P(B)=1/3.
130
Notion de variables aléatoire et distribution de probabilités
De manière générale, à tout évènement aléatoire on peut associer une variable
aléatoire X susceptible de prendre certaines valeurs : x1 x2 . . . . . .xn correspondant aux
diverses éventualités possibles. Une telle variable dont les diverses valeurs possibles
sont commandées par le hasard est dite variable aléatoire: c’est une variable qui
peut prendre n’importe quelle valeur dans un univers statistique fini ou infini.
L’ensemble des probabilités : p1 p2 . . . . pn associées aux valeurs prises par la

variable aléatoire constitue une distribution de probabilités
131
Pour le jet d’un dé on aura la distribution suivante:
132
EX: Pour le jet d’un dé, la moyenne est:
133
Variance et écart type d’une distribution de probabilité
On peut définir un indice de dispersion
Dans le cas d’un dé, la variance
L’écart type
134
Représentation graphique d’une distribution de probabilités
Probabilités simples
P
 n est petit
x1 x2 x3 xn X
A chaque valeur xi correspond un rectangle i de hauteur pi et de base égale à l’unité
Chaque rectangle a comme surface si = pi * 1 pi
La surface totale sous l’histogramme ST = = ∑pi 1

135
Exemples:
Jet d’une pièce de monnaie
Lancement d’un dé
Tirage d’une boule dans un sac contenant deux noires et une
blanche
P
P P
1/2 2/3
1/6
1/3
P F X 1 2 3 4 5 6 X
B N X
136
n est grand Ou n ∞
Le nombre de rectangles augmente et leur largeur se rétrécit de plus en plus de

telle manière que les rectangles se transforment en bâtons de hauteur pi
Si l’on joint les limites supérieures des bâtons on obtient une courbe en cloche
symétrique qui représente la loi normale
f(X)
1
X
Cette courbe en cloche s’appelle la fonction de densité de probabilité symbolisée par f(x)
137
Probabilités cumulées
Notion de probablités partielles et probabilités totales
P(4 ou 5) = 1/6 + 1/6 = 2/6

138
139
n est petit La probabilité d’avoir x ou x sera représentée par un
rectangle de base x2 et hauteur égale à la somme des deux
P probabilités p1 et p2
p1
p1
p1 p2 H=1
p2 p3
p1
p4
p1 p2 p3
p1 p2 p3 p4 p5 pn
xn
x1 x2 x3 x4 x5 X
Probabilités cumulées et n est petit Diagramme intégral

140
n est grand
F(X)
X
Le nombre de rectangles augmente et leurs largeur diminue de telle manière qu’ils
se transforme en bâtons. Quand on joint les limites supérieures des bâtons on
obtient la courbe cumulative qui s’appelle la fonction de répartition F(X). 141
1 1 Hn
Pt = St = Surface sous la courbe = hauteur Hn = 1
142
P X x1)
143
P (x1 X x2)= H2 – H1= a
144
P (X >x1)= 1 - P X x1)= Hn – H1
145
Quelques lois de probabilités
La loi normale
Introduction
Lorsque le nombre d’observations augmente, le polygone représentant la
variable continue pourrait prendre la forme d’une courbe en cloche qui
représente une distribution normale.
146
On observe la distribution normale partout dans la
nature. On l'observe généralement presque partout
lorsque l'on prend des mesures. Les distributions du
poids des souris et du poids des baleines respectent
toutes les deux cette distribution. Il en va de même pour
la longueur, la température et la plupart des
caractéristiques physiques mesurables.
La distribution normale, ou de Laplace-Gauss,

appelée aussi gaussienne, est une distribution
continue qui dépend de deux paramètres: et
σ. On la note N , σ . Le paramètre peut être
quelconque mais σ est positif.
147
Définition
Une variable aléatoire X suit une loi normale, lorsque l’expression de sa distribution est:
℮ et  sont deux constantes

-∞<X< ∞
= . et ℮ = .
148
Paramètres
149
Allure de la courbe
La loi normale, notée N , σ2), est
symétrique par rapport à la droite
d’abscisse .
Exemples :
150
151
0.5 0.5
µ X
Comme la courbe est symétrique, on doit avoir:
Mo = M = µ
152
Z est la variable centrée réduite, elle est sans unité
Z N(0 ; 1)
153
La distribution normale centrée réduite
On dit que la distribution est centrée si son
espérance est nulle ; elle est dite réduite si sa
variance σ2(et son écart-type σ est égale à . La
distribution normale centrée réduite
N(0, 1) est donc définie par la formule
154
0.5 0.5
µ X
Comme la courbe est symétrique, on doit avoir:
Mo = M = µ
155
P
0 z1
Puisque la courbe est symétrique, on doit avoir:
P(0 < Z< z1) = P(-z1< Z< 0)

156
Applications de la loi normale
Exemple 1: Quelle est la probabilité pour que la variable normale centrée

réduite Z soit situé entre o et 0.5 ?
La table nous donne 0.1915
Exemple 2: Chercher la probabilité P(- . ≤Z≤ .
0.8561
Exemple 3: Chercher P(1 ≤ Z ≤ 2)
0.1359
157
158
159
160
161
Paramètres de la loi binomiale
La loi binomiale est fondée sur une
expérience appelée expérience de
Bernoulli. La variable de Bernoulli
X prend deux valeurs: 0 et 1, telle que:
P(X = 0) = q
P(X =1) = p avec p+q = 1
La loi de Bernoulli est notée B(1, p)
162
163
164
165
166
167
168
La loi de Poisson
Soit un réel positif et X une variable aléatoire.

On dit que la variable aléatoire X suit une loi de poisson de paramètre et on note:
X P( ), Lorsque pou tout entier naturel k
169
Si X P( )
170
Utilisation: La loi de Poisson est utilisée lorsqu’on étudie
un phénomène rare
X: Le nombre de fautes de frappe par page

X: Le nombre de voitures qui passent dans un
tunnel dans une direction donnée toutes les 15
minutes
171
Exemple :
Une suspension bactérienne contient 5000 bactéries/litre.

On ensemence à partir de cette suspension, 50 boites de
Pétri, à raison d’ cm3 par boite. Si X représente le nombre
de colonies par boite, alors la loi de probabilité de X est :
X  P (=5)
La probabilité qu’il n’y ait aucune colonie sur la boite de Pétri est :
0,0067 soit approximativement 0,67 % de chance.
La probabilité qu’il y ait au moins une colonie sur la boite de Pétri est :
P(X > 0)=1- P(X = 0) = 1-0,0067 = 0,9933 soit 99,3 % de chance
d’avoir au moins une colonie bactérienne qui se développe dans la boite
de Pétri.
172
Lois liées à la loi normale
1- loi du Khi-deux
2- Loi de Student ou Student-Fisher
3- Loi de Fisher ou de Fisher- Snedecor
173
1- La loi du χ2 (Khi-deux) ou de Pearson
Définition: La loi du χ2 à l degrés de liberté ddl , c’est la loi

de la variable définie par :
Les Ui sont des variables indépendantes
l : le nombre de variables indépendantes
174
Ecart quadratique relatif =
Ki = effectif observé de la classe i
npi = effectif théorique de la classe i
pi = la probabilité
175
Propriétés de la loi χ2
176
Variable centrée réduite
177
l=1
l=2
l=3
l=4
l=5
178
Courbes du χ2 en fonction du nombre de degrés de liberté l
179
Tables du χ2
180
1- α
181
2- La loi de Student: permet de comparer les moyennes de deux échantillons.
Définition:
La loi de Student à l degrés de liberté est la loi de la variable Tl défini par:
182
Tables
La table la plus utilisée donne la valeur absolue de T pour

que P(T > tα) soit égale à α
Tα dépend du ddl et de α
Exemple: Pour l = 9, α = 0.05, la table donne tα = 2.2
183
184
185
3- La loi de Fisher ou de Fisher- Snedecor
Elle sert à comparer deux variables

La loi de Snedecor, à m et p degrés de liberté, est la variable F définie ainsi:
Les χ2 doivent être indépendants
Cette loi a été appelée F en hommage à Fisher qui a étudiée cette loi, appelée
aussi loi de Fisher - Snedecor
186
Partie III: Inférence statistique
I-Echantillonnage
II- Estimation
III- Tests statistiques
boudjelal_ferhat@yahoo.fr
187
Chapitre I: Echantillonnage
1-Introduction
Définition
Notion d’échantillonnage aléatoire
Types d’échantillonnage
2- Rappels des propriétés de la moyenne et de la variance
3- Distributions d’échantillonnage
-Distribution d’échantillonnage des moyennes
- Distribution d’échantillonnage des variances
- Distribution d’échantillonnage des fréquences
- Distribution d’échantillonnage des pourcentages
188
1-Introduction
Définition: L’échantillonnage consiste à déterminer les paramètres
des échantillons prélevés dans une population de paramètres connus. Ici, on
ne considère que les échantillons pris au hasard dans une population.
Echantillonnage aléatoire Pour qu’un échantillonnage soit
représentatif, il faut que chaque élément ait les mêmes chances
d’appartenir à cet échantillon ou d’être tiré. On dit qu’il s’agit d’un
d’échantillonnage aléatoire.
Types d’échantillonnage:
Exhaustif: l’échantillonnage est effectué sans remise dans la
population(sans remise).
Non Exhaustif: l’échantillon est remis dans la population d’origine avec
remise).
189
2-Rappels des propriétés de la moyenne et de la variance
E(X1 + X2 + . . . . . + Xi . . . . + Xn) = E(X1) + E(X2) + . . + E(Xi) + . . + E(Xn)
E( aX) = a. E( X)
Var (aX) = a2. Var (X)
Var(X - µ) = var(X)
190
3-Distributions d’échantillonnage
Si dans une population donnée on prélève k échantillons de même taille n;
Chaque échantillon donne des paramètres statistiques.

Chaque échantillon est un ensemble de n tirages où chaque tirage est représenté
par une variable aléatoire.
Echantillon: X1 X2 . . . . Xi . . . . . Xn
191
192
Détermination des propriétés de l’échantillonnage
P E
Tirage aléatoire
Echantillon
Population
Paramètres connus Variables aléatoires
193
Propriétés de la population
Dans ce qui suit, nous désignons les variables par des majuscules (X, K, F .
.) et les valeurs prises par ces variables par des minuscules (x, k, f, . .)
Soit X le caractère statistique étudié dans une population donnée.
Ce caractère a comme moyenne µ et comme variance σ2
E(X) = µ Var(X) = σ2
Si on effectue n tirages (avec remise = non exhaustifs),successifs dans
cette population de taille N, chaque tirage est représenté par une variable
aléatoire. On a ainsi n variables aléatoires de même loi que le caractère X.
194
Echantillon Echantillon observé
aléatoire
195
196
A-Distribution d’échantillonnage des
moyennes (DEM)
Définition: la distribution d'échantillonnage des

moyennes consiste en la distribution des
moyennes arithmétiques de tous les échantillons
possibles de taille donnée n pouvant être formés à
partir de la population.
La variation de ces moyennes est appelée
variation d'échantillonnage
197
Moyenne de la distribution d'échantillonnage
des moyennes
Exemple
Une population compte 5 étudiants. Le nombre d'heures par semaine
passées devant le téléviseur par chacun d'eux est donné ci-dessous:
198
Si dans cette population de taille N = 5, on procède à un échantillonnage
non exhaustif (avec remise) pour prélever des échantillons de taille n = 3,
dans ce cas le nombre d’échantillons possibles sera de échantillons
possibles.
Pour calculer la moyenne de la distribution d'échantillonnage des

moyennes, on doit former tous les échantillons possibles (
échantillons) et calculer la moyenne pour chacun d'eux. On a donc le
tableau de calcul suivant:
199
200
On constate donc que la moyenne des moyennes
échantillonnales est exactement égale à la moyenne de la
population.
On remarque aussi que ces moyennes échantillonnales se
rapprochent de la moyenne de la population
Cette propriété est intéressante parce que, en réalité, on ne

travaille que sur un seul échantillon, et la moyenne de celui-ci
sert à faire l'approximation de la moyenne de la population qui,
habituellement, est inconnue
201
Caractéristiques de la distribution DEM
Lorsque la taille de l'échantillon est suffisamment grande
(on dit souvent n>30), la distribution d'échantillonnage est
approximativement une distribution normale, que la
distribution de la population soit normale ou non
De plus, lorsque la distribution de la population est

normale, la distribution d'échantillonnage est une
distribution normale
202
Population
X(µ, σ2, φ, )
203
Population
X(µ, σ2, φ, )
Echantillon aléatoire
204
Il est donc possible d'utiliser une moyenne échantionnale pour
estimer la moyenne d'une population ou la moyenne de la
DEM
205
206
207
Calculons l’écart type du caractère X dans la population
208
Définition: on appelle l'écart type de la DEM l'erreur type de la moyenne
pour calculer l'erreur type , on a le tableau de calcul

suivant:
209
est un facteur de correction qui tend vers 1 à mesure que N grandit.
Par conséquent, lorsque la population est infinie, on a simplement
210
L’écart type de la DEM dépend de la taille de l’échantillon et de l’écart type de la
population d’origine
211
212
B- Distribution d’échantillonnage des variances: DEV
Considérons la distribution des variances calculées à partir de tous les échantillons

possibles de taille n, tirés à partir d’une population normale de variance σ2. Cette
distribution est appelée distribution d’échantillonnage des variances.
Une des caractéristiques de cette distribution est qu’elle ne peut prendre que des valeurs
positives ou nulles, la variance s2 est définie comme une somme de carrés.
)l existe une relation entre la distribution d’échantillonnage des variances et la loi du chi-
carré :
Où χ2 est une variable aléatoire distribuée selon une loi du chi-carré avec = n-1
degrés de libertés
213
Connaissant l’espérance mathématique et la variance du χ2:
Nous pouvons déterminer ces mêmes caractéristiques pour la distribution de S2, dans le
cas où les échantillons proviennent d’une population infinie:
214
Moyenne de la DEV:
La moyenne de la DEV est égale à la variance de la population
215
Variance de la DEV:
La variance de la distribution de S2 dépend également de la variance de la

population σ2, mais aussi de la taille des échantillons n= ν+1
216
Domaine et limitations
L’étude de la distribution d’échantillonnage d’une statistique permet de juger de la

proximité de la statistique mesurée sur un seul échantillon avec le paramètre
inconnu de la population.
La notion d’échantillonnage est à la base de la construction des intervalles de

confiances et de la réalisation de tests d’hypothèses qui seront l’objet des chapitres
suivants
217
C-Distribution d’échantillonnage des pourcentages:
DEP
Tout comme il est possible d'utiliser une moyenne échantillonnale
pour estimer la moyenne d'une population, on peut utiliser le
pourcentage des unités d'un échantillon qui possèdent une
caractéristique pour faire l'approximation de ce même pourcentage,
mais pour toute la population
Définition: la distribution d'échantillonnage des pourcentages

(ou des proportions) consiste en la distribution des pourcentages
(ou des proportions) de tous les échantillons possibles de taille
donnée n pouvant être formés à partir de la population
218
Moyenne de la distribution d'échantillonnage des pourcentages
Propriété: La moyenne de la distribution d'échantillonnage des pourcentages,
notée p, de tous les échantillons aléatoires simples de taille n est égale au
pourcentage de la population, p = π
Exemple
Supposons qu'un étudiant est inscrit à 5 cours, dont 3 sont passionnants
Calculons le pourcentage du caractère passionnant dans la population d’origine:
219
Si dans cette population, nous procédons à des tirages avec remise d’échantillons de
même taille n= , le nombre d’échantillons possibles sera de =
Pour calculer la moyenne de la distribution d'échantillonnage des

pourcentages, on doit former tous les échantillons possibles de trois cours et
calculer le pourcentage p pour chacun d'eux. On a donc le tableau de calcul
suivant:
220
221
Écart type de la distribution d'échantillonnage des pourcentages
Définition: on appelle l'écart type de la distribution d'échantillonnage

des pourcentages σP , l'erreur type du pourcentage
Dans le cas d'une population finie, cette erreur type est donnée par:
π = le pourcentage de la population possédant la caractéristique

100% - π = le pourcentage de la population ne possédant pas la
caractéristique
N = la taille de la population
n = la taille de l'échantillon
222
Dans le cas d'une population infinie, on a
Pour les données de l'exemple précédent, on a
223
224
Si on considère non plus le nombre de garçons mais la fréquence (proportion) ,
La distribution est aussi binomiale.
Par conséquent et puisque
On en déduit que
225
Conclusion
La moyenne d’une distribution d’échantillonnage des fréquences proportions

est égale à la fréquence (proportion) du caractère étudié dans la population
d’origine.
La moyenne d’une distribution d’échantillonnage des pourcentages est égale
pourcentage du caractère étudié dans la population d’origine.
226
2- Ecart type de la DEF(DEP): démonstration
Lorsque la population est infinie l’Ecart type devient:
227
Lorsque la population est finie on doit introduire le facteur de correction
228
Résumé
boudjelal_ferhat@yahoo.fr
229
230
Ces estimations peuvent s’exprimer par une seule valeur (estimation
ponctuelle), soit par un intervalle (estimation par intervalle de confiance).
Bien sûr, comme l’échantillon ne donne qu’une information partielle, ces
estimations seront accompagnées d’une certaine marge d’erreur.
Estimation
Ponctuelle Par intervalle de confiance
231
2. ESTIMATION PONCTUELLE
DEFINITION
Estimer un paramètre, c’est en chercher une valeur approchée en se basant

sur les résultats obtenus dans un échantillon. Lorsqu’un paramètre est estimé
par un seul nombre, déduit des résultats de l’échantillon, ce nombre est
appelé estimation ponctuelle du paramètre.
L’estimation ponctuelle se fait à l’aide d’un estimateur, qui est une

variable aléatoire d’échantillon. L’estimation est la valeur que prend la
variable aléatoire dans l’échantillon observé.
232
233
234
Dans Le chapitre Echantillonnage nous a appris que :
235
A- Estimation ponctuelle de la moyenne µ de la population
)l faut chercher un bon estimateur, c’est l’estimateur , puisque il est:
B- Estimation ponctuelle de la variance de la population
Variance de l’échantillon
236
3. ESTIMATION PAR INTERVALLE DE
CONFIANCE
DEFINITION
L’intervalle de confiance est défini par deux limites LI et LS

auxquelles est associée une certaine probabilité de contenir la
valeur vraie du paramètre. Cette probabilité est appelée niveau
de confiance ou seuil de confiance qui est égale à 1-α, et la
probabilité de ne pas contenir le paramètre à estimer dans
l’intervalle est appelée le risque d’erreur = α
P(LI θ LS) = 1-α
237
P(LI θ LS) = 1-α P(θ L) = P θ LS) = α/2
238
avec :
L) : limite inférieure de l’intervalle de confiance.
LS : limite supérieure de l’intervalle de confiance
1-α : probabilité associée à l’intervalle d’encadrer la vraie
valeur du paramètre.
LI et LS sont appelées les limites de confiance

de l’intervalle
On choisira les deux limites de telle manière que:

P(θ L) = P θ LS) = α/2
239
A- Estimation par intervalle de la moyenne µ de la population
)L s’agit de calculer les deux limites LI et LS entre lesquelles il est très

probable de retrouver le paramètre µ de la population avec une probabilité de
1-α, ou avec un risque d’erreur α pour que µ soit en dehors de l’intervalle.
1-α
240
Deux cas sont à distinguer:
1- σ est connu
Population infinie (ou grands échantillons):
Population fini (ou petits échantillons):
241
2- σ est inconnu
Les formules précédentes deviennent:
Population infinie:
Population
finie:
242
B- Estimation du pourcentage π de la population
Les formules précédentes deviennent:
Si n > 30
Population infinie
Population finie
243
Si n < 30
La DEP suit une loi de Student à n - 1 ddl
Population finie
244
C- Estimation de la proportion de la population
Si n > 30
Population finie
245
Si n < 30
Population finie
246
C- Estimation de la variance de la population
On considère une population P et une variable aléatoire X distribuée

normalement, de moyenne et d’écart type σ.
On extrait de cette population un échantillon aléatoire simple de taille n.
Trouver les deux limites telle que:
P L) σ2 Pop LS = -α
247
A. La population est « normale » et on dispose d’un grand
échantillon (n 3 )
248
B. La population est « normale » et on dispose
d’un petit échantillon n < 30)
la distribution d’échantillonnage de la variable est une loi

du χ² à n-1) degrés de liberté et on note :
On a donc
donc
249
D’une population normale, on extrait un échantillon aléatoire
simple de taille n < . Si s² est la variance de l’échantillon, une
estimation de la variance σ² de la population par intervalle de
confiance au niveau 1-α est l’intervalle :
250

Cours de Biostatistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Biostatistique

Transféré par

Droits d'auteur :

Formats disponibles

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science Alim entaire,Ecologie

Cours de Biostatistique www.facebook.com / Dom aineSNV/

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science Alim entaire,Ecologie

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science

Cours de Mr. BOUDJELAL

Plan général du cours

Différence entre statistiques et statistique

Les deux aspects de la Statistique:

L’inférence statistique Statistique inférentielle ou Statistique mathématique :

Vocabulaire de base (Terminologie générale)

Taille: est le nombre d’individus. La taille N de P

Modalité: valeur prise par un caractère statistique

II: Distributions statistiques à deux caractères

2- Présentation d’une DS à caractère

Une présentation en tableau est une présentation des effectifs et ou/

Ex: Situation familiale dans un groupe de 360 individus

Situation Nombre de Fréquences fi en %

célibataire 150 150/360

Total 360 = n 1 100%

Représentation graphique du caractère « Situation familiale »

Nombre d’enfants Nombre de ni cum croissants ni cum

0 103 103 360

1 115 218 257

Classes égales Classes inégales

Représentation graphique du caractère quantitatif continu: taille

Courbe cumulative croissante

On appelle courbe cumulative croissante le tracé de la fonction F (N pour

F x et F’ x sont symétriques par rapport à la fréquence . F x +F’ x = 43

Variance = Moyenne des carrés des valeurs - carré de la moyenne

Parmi les nombreuses représentations graphiques, peu

Exemple avec le logiciel R : Bien qu’il fonctionne en ligne de

Moyenne = médiane = Mode

Moyenne > Médiane > Mode

Tableau de 2 lignes et n colonnes

x1 n11 . . n1j . . n1p n1.

xi ni1 . . nij . . . ni.

xh nh1 . . . . . nhp nh.

Total n.1 . . n.j . . n.p n

Tableau à h lignes et p colonnes 82

Nuage de points (Diagramme de dispersion)

Relation entre le poids et la taille dans un échantillon de 30 individus.

La qualité de la corrélation entre deux

On constate une augmentation du poids avec la taille (corrélation

D’où la formule simplifiée

D’où la formule simplifiée:

La qualité de la corrélation peut être mesurée par un coefficient de corrélation r.

Le coefficient de corrélation est compris entre -1 et +1.

r = +1 corrélation positive parfaite

La solution à ce problème est obtenue en minimisant la somme des

La statistique probabiliste ou la théorie de probabilité

Un phénomène est dit aléatoire si on ne peut prédire avec certitude avant

Une expérience aléatoire est le mécanisme permettant l’observation d’un

Cas d’un dé: la probabilité d’avoir l’une des six faces = /

Cas d’un sac contenant deux boules noires et une blanche: P N = / ; et P B = /

Quand le nombre de tirages augmente, la fréquence de

L’ensemble des probabilités : p1 p2 . . . . pn associées aux valeurs prises par la

On peut définir un indice de dispersion

Dans le cas d’un dé, la variance

A chaque valeur xi correspond un rectangle i de hauteur pi et de base égale à l’unité

Chaque rectangle a comme surface si = pi * 1 pi

La surface totale sous l’histogramme ST = = ∑pi 1

Le nombre de rectangles augmente et leur largeur se rétrécit de plus en plus de

Notion de probablités partielles et probabilités totales

P(4 ou 5) = 1/6 + 1/6 = 2/6