Vous êtes sur la page 1sur 250

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science Alim entaire,Ecologie

Université de Jijel
Faculté des www.facebook.com
Sciences de laaineSNV/
/ Dom Nature et de la Vie

Cours de Biostatistique www.facebook.com / Dom aineSNV/

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science Alim entaire,Ecologie

Page facebook : Dom aine SNV : Biologie,Agronom ie,Science


Alim entaire,Ecologie

Cours de Mr. BOUDJELAL

1
Université de Jijel
Faculté des Sciences de la nature et de la vie

Plan général du cours

 Introduction
 Partie I: Statistique descriptive
 Partie II: Statistique probabiliste
 Partie III: Inférence statistique
 Partie IV: Analyses multi variables
2
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

3
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

Définition
La Statistique est l’ensemble des
techniques et procédures utilisées pour
la collecte, la description, l’analyse et
l’interprétation de données
(numériques ou non ).
4
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

Pourquoi la Statistique?
Il ya bien des questions dans les sciences de la
vie dont la réponse ne peut être apportée que
par la statistique.
Ex: Quel est le taux normal de la glycémie ?
5
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

Différence entre statistiques et statistique


• Statistiques = recensements, inventaires ,
mesures,……….
= chiffres = données
• Statistique = science ayant pour objectif le
traitement des statistiques 6
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s) et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

La Biostatistique:
= la Statistique appliquée à la biologie

7
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

Les deux aspects de la Statistique:


La Statistique descriptive:
Ensemble des méthodes et techniques mathématiques permettant de
présenter, décrire, résumer des données.

L’inférence statistique Statistique inférentielle ou Statistique mathématique :


C’est l’interprétation des résumés obtenus, leur extrapolation éventuelle à un
ensemble plus vaste (utilisation de sondages par exemple), et leur utilisation pour
prendre des décisions constitue un autre domaine de la Statistique.

8
9
Introduction
 Définition
 Pourquoi la statistique?
 Différence entre statistique (s)et statistique
 La Biostatistique
 Les deux aspects de la statistique
 Vocabulaire de base (Terminologie générale)

Vocabulaire de base (Terminologie générale)


Population: une population statistique P est l'ensemble
sur lequel on effectue des observations. C’est un ensemble
généralement très grand, voire infini, d’individus ou d’objets
de même nature.
Exemples :
• ensemble de personnes sur lesquelles on mesure la glycémie
• ensemble de pays pour lesquels on dispose de données géographiques ou
économiques, ...
10
Echantillon:
Un échantillon E est une partie de la population P

Individu ou élément:
La population est formée d’unités statistiques
appelées individus ou éléments

Taille: est le nombre d’individus. La taille N de P


est le nombre d’individus de P. La taille n de E est
le nombre d’individus de E
11
Caractère: propriété distinctive des individus d’une
population ou d’un échantillon , c’est le critère retenu lors
de l’étude de la population ou de l’échantillon .

Modalité: valeur prise par un caractère statistique

12
Un échantillon E est une partie de la population P
13
Ex: dans une population P de pays, un pays particulier est l’unité
statistique = l’individu ou l’élément 14
15
Ordinal
Nominal

16
Partie I: La statistique descriptive
I: Distributions statistiques à un caractère
1- Définition
2- Présentation en tableau et représentation graphique
1 - Caractère qualitatif: nominal ou ordinal
2 - Caractère quantitatif discret
3 - Caractère quantitatif continu
3- Paramètres d’une DS à un caractère
1- Paramètre de tendance centrale
2- paramètres de position
3- Paramètres de dispersion

II: Distributions statistiques à deux caractères


1- Définition
2- Présentation en tableau
3- Représentation graphique
4- Paramètres
17
I- DS à un caractère
1- Définition:
Ensemble de valeurs résultant de l’observation dénombrements,
analyses, mesures,… d’un seul caractère. On parle de série dans le cas de
valeurs numériques.

2- Présentation d’une DS à caractère


Deux types de présentations: en tableau et représentation graphique

Une présentation en tableau est une présentation des effectifs et ou/


fréquences des individus en fonction des modalités(valeurs ou intervalles de
classes du caractère étudié). La représentation graphique dépend du type de
caractère et d’effectifs cumulés ou non .

18
Variables qualitatives

Ordinales
Nominales

19
Présentation en tableau d’un caractère qualitatif
(Nominal)

Ex: Situation familiale dans un groupe de 360 individus

Situation Nombre de Fréquences fi en %


familiale personnes dans fi = ni/n 100 fi
Ai cette situation
ni

célibataire 150 150/360

marié 120 .

divorcé 10 .

veuf 80 .

Total 360 = n 1 100%

20
Veuf

Divorcé

Célibataire

Marié

Représentation graphique du caractère « Situation familiale »


Représentation en secteurs ou en camemberts 21
n=100

22
Caractère: couleur des yeux

23
Variables
nominales

24
25
Variables quantitatives

Continues
Discrètes

26
27
VARIABLES QUANTITATIVES DISCRETES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

n=360

28
VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES

29
30
31
Présentation en tableau d’un caractère
quantitatif discret: nombre d’enfants/famille

Nombre d’enfants Nombre de ni cum croissants ni cum


familles décroissants

0 103 103 360

1 115 218 257

2 95 313 142

3 35 348 12

4 10 358 2

5 2 360 0

32
33
34
Représentation graphique du CQC

Classes égales Classes inégales

35
Classes égales

Représentation graphique du caractère quantitatif continu: taille


avec classes égales
ni non cumulés en fonction des classes  Histogramme
36
37
ai

38
Classes inégales

39
40
DA*100

41
*100

Courbe cumulative croissante

On appelle courbe cumulative croissante le tracé de la fonction F (N pour


les effectifs) qui à tout réel x associe F( x ) = nombre d'observations
strictement inférieures à x. 42
On appelle courbe cumulative décroissante le tracé de la fonction F’ N’ pour les effectifs
qui a tout réel x associe F’ x = nombre d'observations supérieures ou égales à x.
Le point de rencontre des deux courbes cumulatives croissantes et décroissante a
pour abscisse la Médiane

F x et F’ x sont symétriques par rapport à la fréquence . F x +F’ x = 43


44
Partie I: La statistique descriptive
I: Distributions statistiques à un caractère
1- Définition
2- Présentation en tableau et représentation graphique
1 - Caractère qualitatif
2 - Caractère quantitatif discret
3 - Caractère quantitatif continu
3- Paramètres d’une DS à un caractère
1- Paramètre de tendance centrale
2- paramètres de position
3- Paramètres de dispersion
4- Paramètres de formes
-Boite à moustaches
-Coefficients d’asymétrie et d’aplatissement
II: Distributions statistiques à deux caractères
1- Définition
2- Présentation en tableau
3- Représentation graphique
4- Paramètres 45
3- Paramètres d’une DS à un caractère

46
47
48
49
50
51
52
53
54
55
56
57
58
Paramètres de dispersion
• Variance : Cas d’une distribution individuelle

59
Cas d’une distribution groupée ou clasée

Variance = Moyenne des carrés des valeurs - carré de la moyenne


60
• Ecart type :

61
• Coefficient de variation :

62
Exemple: Calculer la moyenne, la variance et le coefficient
de variation de la variable présenté dans le tableau:

63
•Etendue = x max - x min

•Intervalle interquartile = Q 3 - Q 1

64
La boîte à moustaches de Tukey

Parmi les nombreuses représentations graphiques, peu


mettent en évidence un ou plusieurs paramètres de
tendance centrale, et un paramètre de dispersion. C’est le
cas de la boxplot ou boîte à moustaches de Tukey qui
permet, avec un minimum d’habitude, d’appréhender
visuellement l’ordre de grandeur d’une série ainsi que
sa dispersion.

65
66
67
On repère sur la boîte à moustaches d’une variable:
• l’échelle des valeurs de la variable, située sur un axe vertical ou
horizontal.
• la valeur du 1er quartile Q1 (25% des effectifs), correspondant au
trait inférieur de la boîte,
• la valeur du 2ème quartile Q2 (50% des effectifs), représentée par
un trait à l’intérieur de la boîte,
• la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au
trait supérieur de la boîte,
• les 2 « moustaches» inférieure et supérieure, représentées ici par
des traits de part et d’autre de la boîte. Ces 2 moustaches,
délimitent les valeurs dites adjacentes qui sont déterminées à partir
de l’écart interquartile (Q3-Q1).
• les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers)
situées au-delà des valeurs adjacentes sont individualisées. Elles sont
représentées par des marqueurs (carré, ou étoile, etc.).

68
Intérêt (exemple)
Voyons l’exemple suivant qui reprend des notes obtenues
par trois groupes d’étudiants à un contrôle d’informatique :

69
Variables discrètes: diagramme en bâtons
70
Calculons les indicateurs nécessaires pour les trois groupes:

71
Le logiciel R

72
Utilisation du logiciel R

Exemple avec le logiciel R : Bien qu’il fonctionne en ligne de


commandes, on gagne un temps précieux .

73
74
75
Forme d’un histogramme

Moyenne = médiane = Mode

Moyenne > Médiane > Mode


Moyenne < Médiane < Mode

76
Coefficients d’asymétrie

g1 = 0 Symétrie
g1 > 0 Asymétrie à droite
g1 < 0 Asymétrie à gauche

Coefficients d’aplatissement

77
II- Distributions statistiques à 2 caractères (2 dimensions)
1- Définition
2- Présentation en tableau
 Distribution individuelle
 Distribution groupée
3- Représentation graphique
 Nuage de points
 Différents types de nuage
4- Covariance
5- Coefficient de corrélation
6- Interpolation et extrapolation

78
Définition:
C’est la description de la relation entre les valeurs
(=modalités) de deux caractères X et Y, simultanément
observées sur les individus d’une population définie

79
Présentation en tableau d’une DS à deux caractères

80
1- Présentation en tableau d’une distribution individuelle
X X1 . . xi . . . . xn

Y y1 . . yi . . . . yn

Tableau de 2 lignes et n colonnes

81
2- Présentation en tableau d’une distribution groupée
y1 yj yp Total

x1 n11 . . n1j . . n1p n1.

. . . . . . . . .

xi ni1 . . nij . . . ni.

. . . . . . . . .

xh nh1 . . . . . nhp nh.

Total n.1 . . n.j . . n.p n

Tableau à h lignes et p colonnes 82


Distribution marginale de X
Distribution marginale de Y 83
Représentation graphique d’une DS à deux caractères

Nuage de points (Diagramme de dispersion)

84
12 chauve-souris

85
Objectif: chercher la relation
(corrélation) qui peut exister
entre les deux variables (2
caractères)

86
87
Dans le graphe, il y aura donc autant de points
qu'il y a d'individus dans l'échantillon.

Relation entre le poids et la taille dans un échantillon de 30 individus.


88
89
Corrélation positive

La corrélation est dite linéaire si le nuage de points semble suivre une droite

90
Corrélation négative

91
Absence de corrélation

92
Corrélation parfaite:

La qualité de la corrélation entre deux


variables peut se mesurer par la dispersion des
points autour de la relation moyenne.
93
Bonne corrélation (corrélation forte)

94
Mauvaise corrélation (corrélation faible)

95
Corrélation entre le poids et la taille des garçons

On constate une augmentation du poids avec la taille (corrélation


positive): les garçons les plus grands sont généralement les plus lourds.

Mais la dispersion des points est assez grande: la corrélation est assez
faible.

96
Absence de corrélation entre le poids des
garçons et leur taille.
97
98
Exemples de corrélation non linéaire

99
100
101
102
??

Huile
Huile

??

103
104
Paramètres d’une DS à deux caractères:
Covariance
Coefficient de corrélation

105
106
Pour une distribution individuelle

D’où la formule simplifiée

107
Pour une distribution groupée

D’où la formule simplifiée:

108
Le nuage de points sera ajusté à une droite par la méthode des moindres carrés

109
110
111
α a = tg α

=a
b b

112
113
114
115
Le signe de la pente a donne le sens de la corrélation, mais pas sa qualité.
Plus il s'éloigne de zéro, meilleure est la corrélation.
a>0 corrélation positive
a<0 corrélation négative
a=0 pas de corrélation

La qualité de la corrélation peut être mesurée par un coefficient de corrélation r.

Le coefficient de corrélation est compris entre -1 et +1.

r = +1 corrélation positive parfaite


r = -1 corrélation négative parfaite
r=0 absence totale de corrélation

116
- 0,8

117
ymax

ymin

xmin
xmax

118
Relation entre l’envergure et le poids chez la chauve-souris 119
120
121
122
Minimiser la somme des produits des distances par rapport à X et Y à la fois
123
Droite des moindres carrés
La régression de y en x (ou x en y) ne se justifie que lorsqu'une des variables est
expliquée par l'autre, c'est à dire qu'on a affaire à une variable expliquée et une
variable explicative. En réalité, si les deux variables se situent sur le même pied
d'égalité, il n y a pas de raison de minimiser la somme des carrés parallèlement à l'un
des axes de coordonnées, mais à l'un et à l'autre des deux axes à la fois.
Cette démarche nous conduit à la recherche de la droite des moindres rectangles
et débouche sur l'analyse factorielle ou analyse en composantes principales (ACP).

La solution à ce problème est obtenue en minimisant la somme des


produits des écarts (xi -x(yi)) et (y-y(xi)) mesurés en valeur absolue, les
uns parallèlement à l'axe des abscisses, les autres parallèlement à
l'axe des ordonnées.

124
Introduction
Partie II: Statistique probabiliste
Phénomène aléatoire
Notion de probabilité
 Définition
 Probabilité et fréquence relative
 Notion de variable aléatoire et distribution de probabilités
Paramètres d’une distribution de probabilités
 Moyenne
 Variance et écart type
Représentation graphique d’une distribution de probabilités
 Probabilités simples (non cumulées)
n est petit
n est grand
 Probabilités cumulées
n est petit
n est grand
Applications des probabilités
Quelques lois de probabilités
Loi normale
loi binomiale
Loi de Poisson
Loi de Student
Loi de Fisher –Snedecor
Loi du Khi-deux 125
Introduction

La statistique probabiliste ou la théorie de probabilité


s’intéresse à l’étude de l’aspect aléatoire des phénomènes
aléatoires, le but poursuivi est l’élaboration d’outils
mathématiques pouvant servir à cette étude.

126
Phénomènes aléatoires :
Nous distinguons deux genres de phénomènes :
Ceux qui sont régis par des lois déterminées. On peut se rendre compte du résultat de
l’expérience à l’avance et sans recours à l’expérience. Par exemple pour les lois de
Newton de la pesanteur, on peut avoir une idée sur le temps de chute avec certitude
aux erreurs de mesures près d’un corps à partir d’une distance fixée.
Par contre ils existent d’autres phénomènes qui n’obéissent pas à des lois déterminées.
Par exemple si l’expérience consiste à jeter un dé on ne peut prédire avec certitude les
points qui apparaîtront sur la face supérieure.
Cela nous conduit aux définitions :

Un phénomène est dit aléatoire si on ne peut prédire avec certitude avant


l’observation du phénomène le résultat qui surviendra. Même si on répète l’expérience
plusieurs fois et dans les mêmes conditions le résultat variera d’une observation à l’
autre.

Une expérience aléatoire est le mécanisme permettant l’observation d’un


phénomène aléatoire.

127
Exemples de phénomènes aléatoires :
1) Lancer un dé ou plus non truqués.
Mesurer le taux de pollution de l’air d’une ville chaque
année, à une date donnée.
Observer le niveau d’eau d’un barrage, à une date
donnée.

DéDés
128
On lance un dé, et on s'intéresse au nombre qui apparait sur la face
supérieure du dé. Cette expérience est une expérience aléatoire : son
résultat, qui s’appelle l’évènement, dépend du hasard.
Les résultats possibles de cette expérience aléatoire s'appelle l'univers des
possibles. Si le dé comporte 6 faces, l'univers des possibles est Ω =
{1,2,3,4,5,6} qui s’appelle aussi l’ensemble fondamental

Notion de probabilité

Cas d’un dé: la probabilité d’avoir l’une des six faces = /


Cas d’une pièce de monnaie: la probabilité d’avoir Pile = probabilité d’avoir Face = /

Cas d’un sac contenant deux boules noires et une blanche: P N = / ; et P B = /

129
Différence entre probabilité et fréquence
Revenons sur l’exemple du dé, quel est la fréquence d’avoir la face en lançant un dé fois?

Quand le nombre de tirages augmente, la fréquence de


réalisation de A tend à se stabiliser autour d'un nombre limite,
compris entre 0 et 1. Ce nombre limite signifie intuitivement la
chance qu'a l'événement A de se produire lorsqu'on réalise
une expérience : on l'appelle probabilité de A, et on le note
P(A). Dans notre exemple, on a bien sûr P(A)=1/6 si le dé n'est
pas pipé et P(B)=1/3.

130
Notion de variables aléatoire et distribution de probabilités
De manière générale, à tout évènement aléatoire on peut associer une variable
aléatoire X susceptible de prendre certaines valeurs : x1 x2 . . . . . .xn correspondant aux
diverses éventualités possibles. Une telle variable dont les diverses valeurs possibles
sont commandées par le hasard est dite variable aléatoire: c’est une variable qui
peut prendre n’importe quelle valeur dans un univers statistique fini ou infini.

L’ensemble des probabilités : p1 p2 . . . . pn associées aux valeurs prises par la


variable aléatoire constitue une distribution de probabilités

131
Pour le jet d’un dé on aura la distribution suivante:

132
EX: Pour le jet d’un dé, la moyenne est:

133
Variance et écart type d’une distribution de probabilité

On peut définir un indice de dispersion

Dans le cas d’un dé, la variance

L’écart type

134
Représentation graphique d’une distribution de probabilités
Probabilités simples

P
 n est petit

x1 x2 x3 xn X

A chaque valeur xi correspond un rectangle i de hauteur pi et de base égale à l’unité

Chaque rectangle a comme surface si = pi * 1 pi

La surface totale sous l’histogramme ST = = ∑pi 1


135
Exemples:
Jet d’une pièce de monnaie
Lancement d’un dé
Tirage d’une boule dans un sac contenant deux noires et une
blanche

P
P P
1/2 2/3
1/6
1/3
P F X 1 2 3 4 5 6 X
B N X

136
n est grand Ou n ∞

Le nombre de rectangles augmente et leur largeur se rétrécit de plus en plus de


telle manière que les rectangles se transforment en bâtons de hauteur pi
Si l’on joint les limites supérieures des bâtons on obtient une courbe en cloche
symétrique qui représente la loi normale

f(X)

1
X
Cette courbe en cloche s’appelle la fonction de densité de probabilité symbolisée par f(x)
137
Probabilités cumulées

Notion de probablités partielles et probabilités totales

P(4 ou 5) = 1/6 + 1/6 = 2/6


138
139
n est petit La probabilité d’avoir x ou x sera représentée par un
rectangle de base x2 et hauteur égale à la somme des deux
P probabilités p1 et p2

p1

p1

p1 p2 H=1
p2 p3
p1
p4
p1 p2 p3

p1 p2 p3 p4 p5 pn
xn
x1 x2 x3 x4 x5 X

Probabilités cumulées et n est petit Diagramme intégral


140
n est grand

F(X)

X
Le nombre de rectangles augmente et leurs largeur diminue de telle manière qu’ils
se transforme en bâtons. Quand on joint les limites supérieures des bâtons on
obtient la courbe cumulative qui s’appelle la fonction de répartition F(X). 141
1 1 Hn

Pt = St = Surface sous la courbe = hauteur Hn = 1

142
P X x1)

143
P (x1 X x2)= H2 – H1= a

144
P (X >x1)= 1 - P X x1)= Hn – H1

145
Quelques lois de probabilités

La loi normale
Introduction
Lorsque le nombre d’observations augmente, le polygone représentant la
variable continue pourrait prendre la forme d’une courbe en cloche qui
représente une distribution normale.

146
On observe la distribution normale partout dans la
nature. On l'observe généralement presque partout
lorsque l'on prend des mesures. Les distributions du
poids des souris et du poids des baleines respectent
toutes les deux cette distribution. Il en va de même pour
la longueur, la température et la plupart des
caractéristiques physiques mesurables.

La distribution normale, ou de Laplace-Gauss,


appelée aussi gaussienne, est une distribution
continue qui dépend de deux paramètres: et
σ. On la note N , σ . Le paramètre peut être
quelconque mais σ est positif.

147
Définition
Une variable aléatoire X suit une loi normale, lorsque l’expression de sa distribution est:

℮ et  sont deux constantes


-∞<X< ∞

= . et ℮ = .
148
Paramètres

149
Allure de la courbe
La loi normale, notée N , σ2), est
symétrique par rapport à la droite
d’abscisse .

Exemples :

150
151
0.5 0.5

µ X

Comme la courbe est symétrique, on doit avoir:

Mo = M = µ
152
Z est la variable centrée réduite, elle est sans unité

Z N(0 ; 1)
153
La distribution normale centrée réduite
On dit que la distribution est centrée si son
espérance est nulle ; elle est dite réduite si sa
variance σ2(et son écart-type σ est égale à . La
distribution normale centrée réduite
N(0, 1) est donc définie par la formule

154
0.5 0.5

µ X

Comme la courbe est symétrique, on doit avoir:

Mo = M = µ
155
P
0 z1

Puisque la courbe est symétrique, on doit avoir:

P(0 < Z< z1) = P(-z1< Z< 0)


156
Applications de la loi normale

Exemple 1: Quelle est la probabilité pour que la variable normale centrée


réduite Z soit situé entre o et 0.5 ?

La table nous donne 0.1915

Exemple 2: Chercher la probabilité P(- . ≤Z≤ .

0.8561

Exemple 3: Chercher P(1 ≤ Z ≤ 2)

0.1359

157
158
159
160
161
Paramètres de la loi binomiale
La loi binomiale est fondée sur une
expérience appelée expérience de
Bernoulli. La variable de Bernoulli
X prend deux valeurs: 0 et 1, telle que:
P(X = 0) = q
P(X =1) = p avec p+q = 1
La loi de Bernoulli est notée B(1, p)

162
163
164
165
166
167
168
La loi de Poisson

Soit un réel positif et X une variable aléatoire.


On dit que la variable aléatoire X suit une loi de poisson de paramètre et on note:

X P( ), Lorsque pou tout entier naturel k

169
Si X P( )

170
Utilisation: La loi de Poisson est utilisée lorsqu’on étudie
un phénomène rare

X: Le nombre de fautes de frappe par page


X: Le nombre de voitures qui passent dans un
tunnel dans une direction donnée toutes les 15
minutes

171
Exemple :

Une suspension bactérienne contient 5000 bactéries/litre.


On ensemence à partir de cette suspension, 50 boites de
Pétri, à raison d’ cm3 par boite. Si X représente le nombre
de colonies par boite, alors la loi de probabilité de X est :
X  P (=5)

La probabilité qu’il n’y ait aucune colonie sur la boite de Pétri est :
0,0067 soit approximativement 0,67 % de chance.
La probabilité qu’il y ait au moins une colonie sur la boite de Pétri est :
P(X > 0)=1- P(X = 0) = 1-0,0067 = 0,9933 soit 99,3 % de chance
d’avoir au moins une colonie bactérienne qui se développe dans la boite
de Pétri.

172
Lois liées à la loi normale
1- loi du Khi-deux
2- Loi de Student ou Student-Fisher
3- Loi de Fisher ou de Fisher- Snedecor

173
1- La loi du χ2 (Khi-deux) ou de Pearson

Définition: La loi du χ2 à l degrés de liberté ddl , c’est la loi


de la variable définie par :

Les Ui sont des variables indépendantes

l : le nombre de variables indépendantes

174
Ecart quadratique relatif =

Ki = effectif observé de la classe i

npi = effectif théorique de la classe i

pi = la probabilité

175
Propriétés de la loi χ2

176
Variable centrée réduite
177
l=1
l=2
l=3
l=4
l=5

178
Courbes du χ2 en fonction du nombre de degrés de liberté l
179
Tables du χ2

180
1- α

181
2- La loi de Student: permet de comparer les moyennes de deux échantillons.

Définition:
La loi de Student à l degrés de liberté est la loi de la variable Tl défini par:

182
Tables

La table la plus utilisée donne la valeur absolue de T pour


que P(T > tα) soit égale à α

Tα dépend du ddl et de α

Exemple: Pour l = 9, α = 0.05, la table donne tα = 2.2

183
184
185
3- La loi de Fisher ou de Fisher- Snedecor

Elle sert à comparer deux variables


La loi de Snedecor, à m et p degrés de liberté, est la variable F définie ainsi:

Les χ2 doivent être indépendants

Cette loi a été appelée F en hommage à Fisher qui a étudiée cette loi, appelée
aussi loi de Fisher - Snedecor

186
Partie III: Inférence statistique

I-Echantillonnage
II- Estimation
III- Tests statistiques

boudjelal_ferhat@yahoo.fr
187
Chapitre I: Echantillonnage

1-Introduction
Définition
Notion d’échantillonnage aléatoire
Types d’échantillonnage
2- Rappels des propriétés de la moyenne et de la variance
3- Distributions d’échantillonnage
-Distribution d’échantillonnage des moyennes
- Distribution d’échantillonnage des variances
- Distribution d’échantillonnage des fréquences
- Distribution d’échantillonnage des pourcentages

188
1-Introduction
Définition: L’échantillonnage consiste à déterminer les paramètres
des échantillons prélevés dans une population de paramètres connus. Ici, on
ne considère que les échantillons pris au hasard dans une population.
Echantillonnage aléatoire Pour qu’un échantillonnage soit
représentatif, il faut que chaque élément ait les mêmes chances
d’appartenir à cet échantillon ou d’être tiré. On dit qu’il s’agit d’un
d’échantillonnage aléatoire.
Types d’échantillonnage:
Exhaustif: l’échantillonnage est effectué sans remise dans la
population(sans remise).
Non Exhaustif: l’échantillon est remis dans la population d’origine avec
remise).

189
2-Rappels des propriétés de la moyenne et de la variance

E(X1 + X2 + . . . . . + Xi . . . . + Xn) = E(X1) + E(X2) + . . + E(Xi) + . . + E(Xn)

E( aX) = a. E( X)

Var (aX) = a2. Var (X)

Var(X - µ) = var(X)

190
3-Distributions d’échantillonnage

Si dans une population donnée on prélève k échantillons de même taille n;

Chaque échantillon donne des paramètres statistiques.


Chaque échantillon est un ensemble de n tirages où chaque tirage est représenté
par une variable aléatoire.

Echantillon: X1 X2 . . . . Xi . . . . . Xn

191
192
Détermination des propriétés de l’échantillonnage

P E
Tirage aléatoire

Echantillon
Population

Paramètres connus Variables aléatoires

193
Propriétés de la population

Dans ce qui suit, nous désignons les variables par des majuscules (X, K, F .
.) et les valeurs prises par ces variables par des minuscules (x, k, f, . .)

Soit X le caractère statistique étudié dans une population donnée.

Ce caractère a comme moyenne µ et comme variance σ2

E(X) = µ Var(X) = σ2
Si on effectue n tirages (avec remise = non exhaustifs),successifs dans
cette population de taille N, chaque tirage est représenté par une variable
aléatoire. On a ainsi n variables aléatoires de même loi que le caractère X.

194
Echantillon Echantillon observé
aléatoire

195
196
A-Distribution d’échantillonnage des
moyennes (DEM)

Définition: la distribution d'échantillonnage des


moyennes consiste en la distribution des
moyennes arithmétiques de tous les échantillons
possibles de taille donnée n pouvant être formés à
partir de la population.
La variation de ces moyennes est appelée
variation d'échantillonnage

197
Moyenne de la distribution d'échantillonnage
des moyennes

Exemple
Une population compte 5 étudiants. Le nombre d'heures par semaine
passées devant le téléviseur par chacun d'eux est donné ci-dessous:

198
Si dans cette population de taille N = 5, on procède à un échantillonnage
non exhaustif (avec remise) pour prélever des échantillons de taille n = 3,
dans ce cas le nombre d’échantillons possibles sera de échantillons
possibles.

Pour calculer la moyenne de la distribution d'échantillonnage des


moyennes, on doit former tous les échantillons possibles (
échantillons) et calculer la moyenne pour chacun d'eux. On a donc le
tableau de calcul suivant:

199
200
On constate donc que la moyenne des moyennes
échantillonnales est exactement égale à la moyenne de la
population.
On remarque aussi que ces moyennes échantillonnales se
rapprochent de la moyenne de la population

Cette propriété est intéressante parce que, en réalité, on ne


travaille que sur un seul échantillon, et la moyenne de celui-ci
sert à faire l'approximation de la moyenne de la population qui,
habituellement, est inconnue

201
Caractéristiques de la distribution DEM
Lorsque la taille de l'échantillon est suffisamment grande
(on dit souvent n>30), la distribution d'échantillonnage est
approximativement une distribution normale, que la
distribution de la population soit normale ou non

De plus, lorsque la distribution de la population est


normale, la distribution d'échantillonnage est une
distribution normale

202
Population
X(µ, σ2, φ, )

203
Population
X(µ, σ2, φ, )

Echantillon aléatoire
204
Il est donc possible d'utiliser une moyenne échantionnale pour
estimer la moyenne d'une population ou la moyenne de la
DEM

205
206
207
Calculons l’écart type du caractère X dans la population

208
Définition: on appelle l'écart type de la DEM l'erreur type de la moyenne

pour calculer l'erreur type , on a le tableau de calcul


suivant:

209
est un facteur de correction qui tend vers 1 à mesure que N grandit.
Par conséquent, lorsque la population est infinie, on a simplement

210
L’écart type de la DEM dépend de la taille de l’échantillon et de l’écart type de la
population d’origine

211
212
B- Distribution d’échantillonnage des variances: DEV

Considérons la distribution des variances calculées à partir de tous les échantillons


possibles de taille n, tirés à partir d’une population normale de variance σ2. Cette
distribution est appelée distribution d’échantillonnage des variances.
Une des caractéristiques de cette distribution est qu’elle ne peut prendre que des valeurs
positives ou nulles, la variance s2 est définie comme une somme de carrés.

)l existe une relation entre la distribution d’échantillonnage des variances et la loi du chi-
carré :

Où χ2 est une variable aléatoire distribuée selon une loi du chi-carré avec = n-1
degrés de libertés

213
Connaissant l’espérance mathématique et la variance du χ2:

Nous pouvons déterminer ces mêmes caractéristiques pour la distribution de S2, dans le
cas où les échantillons proviennent d’une population infinie:

214
Moyenne de la DEV:

La moyenne de la DEV est égale à la variance de la population

215
Variance de la DEV:

La variance de la distribution de S2 dépend également de la variance de la


population σ2, mais aussi de la taille des échantillons n= ν+1

216
Domaine et limitations

L’étude de la distribution d’échantillonnage d’une statistique permet de juger de la


proximité de la statistique mesurée sur un seul échantillon avec le paramètre
inconnu de la population.

La notion d’échantillonnage est à la base de la construction des intervalles de


confiances et de la réalisation de tests d’hypothèses qui seront l’objet des chapitres
suivants

217
C-Distribution d’échantillonnage des pourcentages:
DEP
Tout comme il est possible d'utiliser une moyenne échantillonnale
pour estimer la moyenne d'une population, on peut utiliser le
pourcentage des unités d'un échantillon qui possèdent une
caractéristique pour faire l'approximation de ce même pourcentage,
mais pour toute la population

Définition: la distribution d'échantillonnage des pourcentages


(ou des proportions) consiste en la distribution des pourcentages
(ou des proportions) de tous les échantillons possibles de taille
donnée n pouvant être formés à partir de la population

218
Moyenne de la distribution d'échantillonnage des pourcentages
Propriété: La moyenne de la distribution d'échantillonnage des pourcentages,
notée p, de tous les échantillons aléatoires simples de taille n est égale au
pourcentage de la population, p = π

Exemple
Supposons qu'un étudiant est inscrit à 5 cours, dont 3 sont passionnants

Calculons le pourcentage du caractère passionnant dans la population d’origine:

219
Si dans cette population, nous procédons à des tirages avec remise d’échantillons de
même taille n= , le nombre d’échantillons possibles sera de =

Pour calculer la moyenne de la distribution d'échantillonnage des


pourcentages, on doit former tous les échantillons possibles de trois cours et
calculer le pourcentage p pour chacun d'eux. On a donc le tableau de calcul
suivant:

220
221
Écart type de la distribution d'échantillonnage des pourcentages

Définition: on appelle l'écart type de la distribution d'échantillonnage


des pourcentages σP , l'erreur type du pourcentage

Dans le cas d'une population finie, cette erreur type est donnée par:

π = le pourcentage de la population possédant la caractéristique


100% - π = le pourcentage de la population ne possédant pas la
caractéristique
N = la taille de la population
n = la taille de l'échantillon

222
Dans le cas d'une population infinie, on a

Pour les données de l'exemple précédent, on a

223
224
Si on considère non plus le nombre de garçons mais la fréquence (proportion) ,

La distribution est aussi binomiale.

Par conséquent et puisque

On en déduit que

225
Conclusion

La moyenne d’une distribution d’échantillonnage des fréquences proportions


est égale à la fréquence (proportion) du caractère étudié dans la population
d’origine.
La moyenne d’une distribution d’échantillonnage des pourcentages est égale
pourcentage du caractère étudié dans la population d’origine.

226
2- Ecart type de la DEF(DEP): démonstration

Lorsque la population est infinie l’Ecart type devient:

227
Lorsque la population est finie on doit introduire le facteur de correction

228
Résumé

boudjelal_ferhat@yahoo.fr
229
230
Ces estimations peuvent s’exprimer par une seule valeur (estimation
ponctuelle), soit par un intervalle (estimation par intervalle de confiance).
Bien sûr, comme l’échantillon ne donne qu’une information partielle, ces
estimations seront accompagnées d’une certaine marge d’erreur.

Estimation

Ponctuelle Par intervalle de confiance

231
2. ESTIMATION PONCTUELLE
DEFINITION

Estimer un paramètre, c’est en chercher une valeur approchée en se basant


sur les résultats obtenus dans un échantillon. Lorsqu’un paramètre est estimé
par un seul nombre, déduit des résultats de l’échantillon, ce nombre est
appelé estimation ponctuelle du paramètre.

L’estimation ponctuelle se fait à l’aide d’un estimateur, qui est une


variable aléatoire d’échantillon. L’estimation est la valeur que prend la
variable aléatoire dans l’échantillon observé.

232
233
234
Dans Le chapitre Echantillonnage nous a appris que :

235
A- Estimation ponctuelle de la moyenne µ de la population

)l faut chercher un bon estimateur, c’est l’estimateur , puisque il est:

B- Estimation ponctuelle de la variance de la population

Variance de l’échantillon

236
3. ESTIMATION PAR INTERVALLE DE
CONFIANCE
DEFINITION

L’intervalle de confiance est défini par deux limites LI et LS


auxquelles est associée une certaine probabilité de contenir la
valeur vraie du paramètre. Cette probabilité est appelée niveau
de confiance ou seuil de confiance qui est égale à 1-α, et la
probabilité de ne pas contenir le paramètre à estimer dans
l’intervalle est appelée le risque d’erreur = α

P(LI θ LS) = 1-α

237
P(LI θ LS) = 1-α P(θ L) = P θ LS) = α/2

238
avec :
L) : limite inférieure de l’intervalle de confiance.
LS : limite supérieure de l’intervalle de confiance
1-α : probabilité associée à l’intervalle d’encadrer la vraie
valeur du paramètre.

LI et LS sont appelées les limites de confiance


de l’intervalle

On choisira les deux limites de telle manière que:


P(θ L) = P θ LS) = α/2

239
A- Estimation par intervalle de la moyenne µ de la population

)L s’agit de calculer les deux limites LI et LS entre lesquelles il est très


probable de retrouver le paramètre µ de la population avec une probabilité de
1-α, ou avec un risque d’erreur α pour que µ soit en dehors de l’intervalle.

1-α

240
Deux cas sont à distinguer:

1- σ est connu

Population infinie (ou grands échantillons):

Population fini (ou petits échantillons):

241
2- σ est inconnu

Les formules précédentes deviennent:

Population infinie:

Population
finie:

242
B- Estimation du pourcentage π de la population
Les formules précédentes deviennent:

Si n > 30
Population infinie

Population finie

243
Si n < 30
La DEP suit une loi de Student à n - 1 ddl

Population infinie

Population finie

244
C- Estimation de la proportion de la population

Si n > 30
Population infinie

Population finie

245
Si n < 30

Population infinie

Population finie

246
C- Estimation de la variance de la population

On considère une population P et une variable aléatoire X distribuée


normalement, de moyenne et d’écart type σ.
On extrait de cette population un échantillon aléatoire simple de taille n.

Trouver les deux limites telle que:

P L) σ2 Pop LS = -α

247
A. La population est « normale » et on dispose d’un grand
échantillon (n 3 )

248
B. La population est « normale » et on dispose
d’un petit échantillon n < 30)

la distribution d’échantillonnage de la variable est une loi


du χ² à n-1) degrés de liberté et on note :

On a donc

donc

249
D’une population normale, on extrait un échantillon aléatoire
simple de taille n < . Si s² est la variance de l’échantillon, une
estimation de la variance σ² de la population par intervalle de
confiance au niveau 1-α est l’intervalle :

250

Vous aimerez peut-être aussi