Académique Documents
Professionnel Documents
Culture Documents
Université de Jijel
Faculté des www.facebook.com
Sciences de laaineSNV/
/ Dom Nature et de la Vie
1
Université de Jijel
Faculté des Sciences de la nature et de la vie
Introduction
Partie I: Statistique descriptive
Partie II: Statistique probabiliste
Partie III: Inférence statistique
Partie IV: Analyses multi variables
2
Introduction
Définition
Pourquoi la statistique?
Différence entre statistique (s)et statistique
La Biostatistique
Les deux aspects de la statistique
Vocabulaire de base (Terminologie générale)
3
Introduction
Définition
Pourquoi la statistique?
Différence entre statistique (s)et statistique
La Biostatistique
Les deux aspects de la statistique
Vocabulaire de base (Terminologie générale)
Définition
La Statistique est l’ensemble des
techniques et procédures utilisées pour
la collecte, la description, l’analyse et
l’interprétation de données
(numériques ou non ).
4
Introduction
Définition
Pourquoi la statistique?
Différence entre statistique (s)et statistique
La Biostatistique
Les deux aspects de la statistique
Vocabulaire de base (Terminologie générale)
Pourquoi la Statistique?
Il ya bien des questions dans les sciences de la
vie dont la réponse ne peut être apportée que
par la statistique.
Ex: Quel est le taux normal de la glycémie ?
5
Introduction
Définition
Pourquoi la statistique?
Différence entre statistique (s)et statistique
La Biostatistique
Les deux aspects de la statistique
Vocabulaire de base (Terminologie générale)
La Biostatistique:
= la Statistique appliquée à la biologie
7
Introduction
Définition
Pourquoi la statistique?
Différence entre statistique (s)et statistique
La Biostatistique
Les deux aspects de la statistique
Vocabulaire de base (Terminologie générale)
8
9
Introduction
Définition
Pourquoi la statistique?
Différence entre statistique (s)et statistique
La Biostatistique
Les deux aspects de la statistique
Vocabulaire de base (Terminologie générale)
Individu ou élément:
La population est formée d’unités statistiques
appelées individus ou éléments
12
Un échantillon E est une partie de la population P
13
Ex: dans une population P de pays, un pays particulier est l’unité
statistique = l’individu ou l’élément 14
15
Ordinal
Nominal
16
Partie I: La statistique descriptive
I: Distributions statistiques à un caractère
1- Définition
2- Présentation en tableau et représentation graphique
1 - Caractère qualitatif: nominal ou ordinal
2 - Caractère quantitatif discret
3 - Caractère quantitatif continu
3- Paramètres d’une DS à un caractère
1- Paramètre de tendance centrale
2- paramètres de position
3- Paramètres de dispersion
18
Variables qualitatives
Ordinales
Nominales
19
Présentation en tableau d’un caractère qualitatif
(Nominal)
marié 120 .
divorcé 10 .
veuf 80 .
20
Veuf
Divorcé
Célibataire
Marié
22
Caractère: couleur des yeux
23
Variables
nominales
24
25
Variables quantitatives
Continues
Discrètes
26
27
VARIABLES QUANTITATIVES DISCRETES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
n=360
28
VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES
29
30
31
Présentation en tableau d’un caractère
quantitatif discret: nombre d’enfants/famille
2 95 313 142
3 35 348 12
4 10 358 2
5 2 360 0
32
33
34
Représentation graphique du CQC
35
Classes égales
38
Classes inégales
39
40
DA*100
41
*100
46
47
48
49
50
51
52
53
54
55
56
57
58
Paramètres de dispersion
• Variance : Cas d’une distribution individuelle
59
Cas d’une distribution groupée ou clasée
61
• Coefficient de variation :
62
Exemple: Calculer la moyenne, la variance et le coefficient
de variation de la variable présenté dans le tableau:
63
•Etendue = x max - x min
•Intervalle interquartile = Q 3 - Q 1
64
La boîte à moustaches de Tukey
65
66
67
On repère sur la boîte à moustaches d’une variable:
• l’échelle des valeurs de la variable, située sur un axe vertical ou
horizontal.
• la valeur du 1er quartile Q1 (25% des effectifs), correspondant au
trait inférieur de la boîte,
• la valeur du 2ème quartile Q2 (50% des effectifs), représentée par
un trait à l’intérieur de la boîte,
• la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au
trait supérieur de la boîte,
• les 2 « moustaches» inférieure et supérieure, représentées ici par
des traits de part et d’autre de la boîte. Ces 2 moustaches,
délimitent les valeurs dites adjacentes qui sont déterminées à partir
de l’écart interquartile (Q3-Q1).
• les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers)
situées au-delà des valeurs adjacentes sont individualisées. Elles sont
représentées par des marqueurs (carré, ou étoile, etc.).
68
Intérêt (exemple)
Voyons l’exemple suivant qui reprend des notes obtenues
par trois groupes d’étudiants à un contrôle d’informatique :
69
Variables discrètes: diagramme en bâtons
70
Calculons les indicateurs nécessaires pour les trois groupes:
71
Le logiciel R
72
Utilisation du logiciel R
73
74
75
Forme d’un histogramme
76
Coefficients d’asymétrie
g1 = 0 Symétrie
g1 > 0 Asymétrie à droite
g1 < 0 Asymétrie à gauche
Coefficients d’aplatissement
77
II- Distributions statistiques à 2 caractères (2 dimensions)
1- Définition
2- Présentation en tableau
Distribution individuelle
Distribution groupée
3- Représentation graphique
Nuage de points
Différents types de nuage
4- Covariance
5- Coefficient de corrélation
6- Interpolation et extrapolation
78
Définition:
C’est la description de la relation entre les valeurs
(=modalités) de deux caractères X et Y, simultanément
observées sur les individus d’une population définie
79
Présentation en tableau d’une DS à deux caractères
80
1- Présentation en tableau d’une distribution individuelle
X X1 . . xi . . . . xn
Y y1 . . yi . . . . yn
81
2- Présentation en tableau d’une distribution groupée
y1 yj yp Total
. . . . . . . . .
. . . . . . . . .
84
12 chauve-souris
85
Objectif: chercher la relation
(corrélation) qui peut exister
entre les deux variables (2
caractères)
86
87
Dans le graphe, il y aura donc autant de points
qu'il y a d'individus dans l'échantillon.
La corrélation est dite linéaire si le nuage de points semble suivre une droite
90
Corrélation négative
91
Absence de corrélation
92
Corrélation parfaite:
94
Mauvaise corrélation (corrélation faible)
95
Corrélation entre le poids et la taille des garçons
Mais la dispersion des points est assez grande: la corrélation est assez
faible.
96
Absence de corrélation entre le poids des
garçons et leur taille.
97
98
Exemples de corrélation non linéaire
99
100
101
102
??
Huile
Huile
??
103
104
Paramètres d’une DS à deux caractères:
Covariance
Coefficient de corrélation
105
106
Pour une distribution individuelle
107
Pour une distribution groupée
108
Le nuage de points sera ajusté à une droite par la méthode des moindres carrés
109
110
111
α a = tg α
=a
b b
112
113
114
115
Le signe de la pente a donne le sens de la corrélation, mais pas sa qualité.
Plus il s'éloigne de zéro, meilleure est la corrélation.
a>0 corrélation positive
a<0 corrélation négative
a=0 pas de corrélation
116
- 0,8
117
ymax
ymin
xmin
xmax
118
Relation entre l’envergure et le poids chez la chauve-souris 119
120
121
122
Minimiser la somme des produits des distances par rapport à X et Y à la fois
123
Droite des moindres carrés
La régression de y en x (ou x en y) ne se justifie que lorsqu'une des variables est
expliquée par l'autre, c'est à dire qu'on a affaire à une variable expliquée et une
variable explicative. En réalité, si les deux variables se situent sur le même pied
d'égalité, il n y a pas de raison de minimiser la somme des carrés parallèlement à l'un
des axes de coordonnées, mais à l'un et à l'autre des deux axes à la fois.
Cette démarche nous conduit à la recherche de la droite des moindres rectangles
et débouche sur l'analyse factorielle ou analyse en composantes principales (ACP).
124
Introduction
Partie II: Statistique probabiliste
Phénomène aléatoire
Notion de probabilité
Définition
Probabilité et fréquence relative
Notion de variable aléatoire et distribution de probabilités
Paramètres d’une distribution de probabilités
Moyenne
Variance et écart type
Représentation graphique d’une distribution de probabilités
Probabilités simples (non cumulées)
n est petit
n est grand
Probabilités cumulées
n est petit
n est grand
Applications des probabilités
Quelques lois de probabilités
Loi normale
loi binomiale
Loi de Poisson
Loi de Student
Loi de Fisher –Snedecor
Loi du Khi-deux 125
Introduction
126
Phénomènes aléatoires :
Nous distinguons deux genres de phénomènes :
Ceux qui sont régis par des lois déterminées. On peut se rendre compte du résultat de
l’expérience à l’avance et sans recours à l’expérience. Par exemple pour les lois de
Newton de la pesanteur, on peut avoir une idée sur le temps de chute avec certitude
aux erreurs de mesures près d’un corps à partir d’une distance fixée.
Par contre ils existent d’autres phénomènes qui n’obéissent pas à des lois déterminées.
Par exemple si l’expérience consiste à jeter un dé on ne peut prédire avec certitude les
points qui apparaîtront sur la face supérieure.
Cela nous conduit aux définitions :
127
Exemples de phénomènes aléatoires :
1) Lancer un dé ou plus non truqués.
Mesurer le taux de pollution de l’air d’une ville chaque
année, à une date donnée.
Observer le niveau d’eau d’un barrage, à une date
donnée.
DéDés
128
On lance un dé, et on s'intéresse au nombre qui apparait sur la face
supérieure du dé. Cette expérience est une expérience aléatoire : son
résultat, qui s’appelle l’évènement, dépend du hasard.
Les résultats possibles de cette expérience aléatoire s'appelle l'univers des
possibles. Si le dé comporte 6 faces, l'univers des possibles est Ω =
{1,2,3,4,5,6} qui s’appelle aussi l’ensemble fondamental
Notion de probabilité
129
Différence entre probabilité et fréquence
Revenons sur l’exemple du dé, quel est la fréquence d’avoir la face en lançant un dé fois?
130
Notion de variables aléatoire et distribution de probabilités
De manière générale, à tout évènement aléatoire on peut associer une variable
aléatoire X susceptible de prendre certaines valeurs : x1 x2 . . . . . .xn correspondant aux
diverses éventualités possibles. Une telle variable dont les diverses valeurs possibles
sont commandées par le hasard est dite variable aléatoire: c’est une variable qui
peut prendre n’importe quelle valeur dans un univers statistique fini ou infini.
131
Pour le jet d’un dé on aura la distribution suivante:
132
EX: Pour le jet d’un dé, la moyenne est:
133
Variance et écart type d’une distribution de probabilité
L’écart type
134
Représentation graphique d’une distribution de probabilités
Probabilités simples
P
n est petit
x1 x2 x3 xn X
P
P P
1/2 2/3
1/6
1/3
P F X 1 2 3 4 5 6 X
B N X
136
n est grand Ou n ∞
f(X)
1
X
Cette courbe en cloche s’appelle la fonction de densité de probabilité symbolisée par f(x)
137
Probabilités cumulées
p1
p1
p1 p2 H=1
p2 p3
p1
p4
p1 p2 p3
p1 p2 p3 p4 p5 pn
xn
x1 x2 x3 x4 x5 X
F(X)
X
Le nombre de rectangles augmente et leurs largeur diminue de telle manière qu’ils
se transforme en bâtons. Quand on joint les limites supérieures des bâtons on
obtient la courbe cumulative qui s’appelle la fonction de répartition F(X). 141
1 1 Hn
142
P X x1)
143
P (x1 X x2)= H2 – H1= a
144
P (X >x1)= 1 - P X x1)= Hn – H1
145
Quelques lois de probabilités
La loi normale
Introduction
Lorsque le nombre d’observations augmente, le polygone représentant la
variable continue pourrait prendre la forme d’une courbe en cloche qui
représente une distribution normale.
146
On observe la distribution normale partout dans la
nature. On l'observe généralement presque partout
lorsque l'on prend des mesures. Les distributions du
poids des souris et du poids des baleines respectent
toutes les deux cette distribution. Il en va de même pour
la longueur, la température et la plupart des
caractéristiques physiques mesurables.
147
Définition
Une variable aléatoire X suit une loi normale, lorsque l’expression de sa distribution est:
= . et ℮ = .
148
Paramètres
149
Allure de la courbe
La loi normale, notée N , σ2), est
symétrique par rapport à la droite
d’abscisse .
Exemples :
150
151
0.5 0.5
µ X
Mo = M = µ
152
Z est la variable centrée réduite, elle est sans unité
Z N(0 ; 1)
153
La distribution normale centrée réduite
On dit que la distribution est centrée si son
espérance est nulle ; elle est dite réduite si sa
variance σ2(et son écart-type σ est égale à . La
distribution normale centrée réduite
N(0, 1) est donc définie par la formule
154
0.5 0.5
µ X
Mo = M = µ
155
P
0 z1
0.8561
0.1359
157
158
159
160
161
Paramètres de la loi binomiale
La loi binomiale est fondée sur une
expérience appelée expérience de
Bernoulli. La variable de Bernoulli
X prend deux valeurs: 0 et 1, telle que:
P(X = 0) = q
P(X =1) = p avec p+q = 1
La loi de Bernoulli est notée B(1, p)
162
163
164
165
166
167
168
La loi de Poisson
169
Si X P( )
170
Utilisation: La loi de Poisson est utilisée lorsqu’on étudie
un phénomène rare
171
Exemple :
La probabilité qu’il n’y ait aucune colonie sur la boite de Pétri est :
0,0067 soit approximativement 0,67 % de chance.
La probabilité qu’il y ait au moins une colonie sur la boite de Pétri est :
P(X > 0)=1- P(X = 0) = 1-0,0067 = 0,9933 soit 99,3 % de chance
d’avoir au moins une colonie bactérienne qui se développe dans la boite
de Pétri.
172
Lois liées à la loi normale
1- loi du Khi-deux
2- Loi de Student ou Student-Fisher
3- Loi de Fisher ou de Fisher- Snedecor
173
1- La loi du χ2 (Khi-deux) ou de Pearson
174
Ecart quadratique relatif =
pi = la probabilité
175
Propriétés de la loi χ2
176
Variable centrée réduite
177
l=1
l=2
l=3
l=4
l=5
178
Courbes du χ2 en fonction du nombre de degrés de liberté l
179
Tables du χ2
180
1- α
181
2- La loi de Student: permet de comparer les moyennes de deux échantillons.
Définition:
La loi de Student à l degrés de liberté est la loi de la variable Tl défini par:
182
Tables
Tα dépend du ddl et de α
183
184
185
3- La loi de Fisher ou de Fisher- Snedecor
Cette loi a été appelée F en hommage à Fisher qui a étudiée cette loi, appelée
aussi loi de Fisher - Snedecor
186
Partie III: Inférence statistique
I-Echantillonnage
II- Estimation
III- Tests statistiques
boudjelal_ferhat@yahoo.fr
187
Chapitre I: Echantillonnage
1-Introduction
Définition
Notion d’échantillonnage aléatoire
Types d’échantillonnage
2- Rappels des propriétés de la moyenne et de la variance
3- Distributions d’échantillonnage
-Distribution d’échantillonnage des moyennes
- Distribution d’échantillonnage des variances
- Distribution d’échantillonnage des fréquences
- Distribution d’échantillonnage des pourcentages
188
1-Introduction
Définition: L’échantillonnage consiste à déterminer les paramètres
des échantillons prélevés dans une population de paramètres connus. Ici, on
ne considère que les échantillons pris au hasard dans une population.
Echantillonnage aléatoire Pour qu’un échantillonnage soit
représentatif, il faut que chaque élément ait les mêmes chances
d’appartenir à cet échantillon ou d’être tiré. On dit qu’il s’agit d’un
d’échantillonnage aléatoire.
Types d’échantillonnage:
Exhaustif: l’échantillonnage est effectué sans remise dans la
population(sans remise).
Non Exhaustif: l’échantillon est remis dans la population d’origine avec
remise).
189
2-Rappels des propriétés de la moyenne et de la variance
E( aX) = a. E( X)
Var(X - µ) = var(X)
190
3-Distributions d’échantillonnage
Echantillon: X1 X2 . . . . Xi . . . . . Xn
191
192
Détermination des propriétés de l’échantillonnage
P E
Tirage aléatoire
Echantillon
Population
193
Propriétés de la population
Dans ce qui suit, nous désignons les variables par des majuscules (X, K, F .
.) et les valeurs prises par ces variables par des minuscules (x, k, f, . .)
E(X) = µ Var(X) = σ2
Si on effectue n tirages (avec remise = non exhaustifs),successifs dans
cette population de taille N, chaque tirage est représenté par une variable
aléatoire. On a ainsi n variables aléatoires de même loi que le caractère X.
194
Echantillon Echantillon observé
aléatoire
195
196
A-Distribution d’échantillonnage des
moyennes (DEM)
197
Moyenne de la distribution d'échantillonnage
des moyennes
Exemple
Une population compte 5 étudiants. Le nombre d'heures par semaine
passées devant le téléviseur par chacun d'eux est donné ci-dessous:
198
Si dans cette population de taille N = 5, on procède à un échantillonnage
non exhaustif (avec remise) pour prélever des échantillons de taille n = 3,
dans ce cas le nombre d’échantillons possibles sera de échantillons
possibles.
199
200
On constate donc que la moyenne des moyennes
échantillonnales est exactement égale à la moyenne de la
population.
On remarque aussi que ces moyennes échantillonnales se
rapprochent de la moyenne de la population
201
Caractéristiques de la distribution DEM
Lorsque la taille de l'échantillon est suffisamment grande
(on dit souvent n>30), la distribution d'échantillonnage est
approximativement une distribution normale, que la
distribution de la population soit normale ou non
202
Population
X(µ, σ2, φ, )
203
Population
X(µ, σ2, φ, )
Echantillon aléatoire
204
Il est donc possible d'utiliser une moyenne échantionnale pour
estimer la moyenne d'une population ou la moyenne de la
DEM
205
206
207
Calculons l’écart type du caractère X dans la population
208
Définition: on appelle l'écart type de la DEM l'erreur type de la moyenne
209
est un facteur de correction qui tend vers 1 à mesure que N grandit.
Par conséquent, lorsque la population est infinie, on a simplement
210
L’écart type de la DEM dépend de la taille de l’échantillon et de l’écart type de la
population d’origine
211
212
B- Distribution d’échantillonnage des variances: DEV
)l existe une relation entre la distribution d’échantillonnage des variances et la loi du chi-
carré :
Où χ2 est une variable aléatoire distribuée selon une loi du chi-carré avec = n-1
degrés de libertés
213
Connaissant l’espérance mathématique et la variance du χ2:
Nous pouvons déterminer ces mêmes caractéristiques pour la distribution de S2, dans le
cas où les échantillons proviennent d’une population infinie:
214
Moyenne de la DEV:
215
Variance de la DEV:
216
Domaine et limitations
217
C-Distribution d’échantillonnage des pourcentages:
DEP
Tout comme il est possible d'utiliser une moyenne échantillonnale
pour estimer la moyenne d'une population, on peut utiliser le
pourcentage des unités d'un échantillon qui possèdent une
caractéristique pour faire l'approximation de ce même pourcentage,
mais pour toute la population
218
Moyenne de la distribution d'échantillonnage des pourcentages
Propriété: La moyenne de la distribution d'échantillonnage des pourcentages,
notée p, de tous les échantillons aléatoires simples de taille n est égale au
pourcentage de la population, p = π
Exemple
Supposons qu'un étudiant est inscrit à 5 cours, dont 3 sont passionnants
219
Si dans cette population, nous procédons à des tirages avec remise d’échantillons de
même taille n= , le nombre d’échantillons possibles sera de =
220
221
Écart type de la distribution d'échantillonnage des pourcentages
Dans le cas d'une population finie, cette erreur type est donnée par:
222
Dans le cas d'une population infinie, on a
223
224
Si on considère non plus le nombre de garçons mais la fréquence (proportion) ,
On en déduit que
225
Conclusion
226
2- Ecart type de la DEF(DEP): démonstration
227
Lorsque la population est finie on doit introduire le facteur de correction
228
Résumé
boudjelal_ferhat@yahoo.fr
229
230
Ces estimations peuvent s’exprimer par une seule valeur (estimation
ponctuelle), soit par un intervalle (estimation par intervalle de confiance).
Bien sûr, comme l’échantillon ne donne qu’une information partielle, ces
estimations seront accompagnées d’une certaine marge d’erreur.
Estimation
231
2. ESTIMATION PONCTUELLE
DEFINITION
232
233
234
Dans Le chapitre Echantillonnage nous a appris que :
235
A- Estimation ponctuelle de la moyenne µ de la population
Variance de l’échantillon
236
3. ESTIMATION PAR INTERVALLE DE
CONFIANCE
DEFINITION
237
P(LI θ LS) = 1-α P(θ L) = P θ LS) = α/2
238
avec :
L) : limite inférieure de l’intervalle de confiance.
LS : limite supérieure de l’intervalle de confiance
1-α : probabilité associée à l’intervalle d’encadrer la vraie
valeur du paramètre.
239
A- Estimation par intervalle de la moyenne µ de la population
1-α
240
Deux cas sont à distinguer:
1- σ est connu
241
2- σ est inconnu
Population infinie:
Population
finie:
242
B- Estimation du pourcentage π de la population
Les formules précédentes deviennent:
Si n > 30
Population infinie
Population finie
243
Si n < 30
La DEP suit une loi de Student à n - 1 ddl
Population infinie
Population finie
244
C- Estimation de la proportion de la population
Si n > 30
Population infinie
Population finie
245
Si n < 30
Population infinie
Population finie
246
C- Estimation de la variance de la population
P L) σ2 Pop LS = -α
247
A. La population est « normale » et on dispose d’un grand
échantillon (n 3 )
248
B. La population est « normale » et on dispose
d’un petit échantillon n < 30)
On a donc
donc
249
D’une population normale, on extrait un échantillon aléatoire
simple de taille n < . Si s² est la variance de l’échantillon, une
estimation de la variance σ² de la population par intervalle de
confiance au niveau 1-α est l’intervalle :
250