Académique Documents
Professionnel Documents
Culture Documents
…………………..
UFR S2ATA
SECTION PVA/DUT1
COURS DE BIOSTATISTIQUE
Dr. Lamine Diop, 2022
0. INTRODUCTION
Hommes,
Money,
Bonne
santé, etc
Eau, Air,
Nutriments;
C02
Sol
comme
réservoir
1. Identification et comprehension du
problème
5. etc.
3. Collecte de l’information et traitement des données
Détermination des besoins en eau
• Température minimale
• Température maximale
• Humidité relative
• Vitesse du vent
• Radiation solaire
Panneau solaire
100 W Modem Wifi
Régulateur de Prise électrique
tension CM30D
Transformateur
12V – 220V
Seaux
Console
Station météo
Batterie
50 Ah
3. Collecte de l’information et traitement des données
Conversion des quantités d’eau en
nombre de seaux ou d’arrosoirs
Bassins
Seau de 10 L Arrosoir de 11 L
3. Collecte de l’information et traitement des données
Nguéthiouro
Population
Echantillonnage
aléatoire
v Echantillon
On peut
faire de
l’inférence
Caractéristiques
de l’échantillon
POPULATION
Un ensemble généralement très grand, voire infini, d‘ individus ou
d'objets de même nature.
Exemple : Population des insectes d’une zone, population des
parcelles du delta du fleuve Sénégal, Population des étudiants
agés de 20- 23 ans de l’UGB
Individus?
Echantill
Population on
N n
Le taux d’échantillonnage est définit par le rapport n/N
Une liste conceptuelle est utilisée pour une population qui existe
seulement au cours de l’enquête. Exemple : la liste de tous les
étudiants qui viennent à l’UGB 2 entre 8h et 12h le 04 avril 2022.
Echantillonage
2- systématique
La procédure de tirage systématique consiste à choisir le premier
élément de manière aléatoire, les éléments suivants étant ensuite
sélectionnés à intervalles réguliers.
2- systématique
Exemple :
On veut sélectionner un échantillon de 30 fermes au sein
d’une population de 1800 fermes.
K = 1800/30 = 60
On va tirer une ferme toutes les 60 en partant d’un nombre tiré
aléatoirement entre 1 et 60.
Qualitative
Quantitative
Discrète Ordinale
Nombre d’insectes Préférence ( Plus ou moins forte)
Nombre d’enfants Taille ( très petite, petite, grande, etc
Continue Nominale
Température, pluviométrie, Poids, Type de variété, type de
taille, rendement saison, sexe
Comment représenter les variables qualitatives
a) Diagramme à Bande
Diagramme en Baton avec excel
50
45
40
35
30
Nombre
25
20
15
10
0
Divorcé marié celibataire Veuve
Etat matrimonal
b) Diagramme à secteur
Diagramme à secteur avec excel
10
20
12
Divorcé
marié
celibataire
Veuve
45
Variable qualitative nominale
ni fi
N°individu formation
1 2
2 2
3 6
4 1 formation Total %
5
6
2
6
1 7 33,3%
7 2 2 9 42,9%
…. ….
17 3 3 1 4,8%
18 2
19 2 6 4 19,0%
20
21
6
2
Total 21 100,0%
1: Sc.Eco 2: Sc de gestion 3:
ni
Gde école Où fi
N
4: droit 5: ingénieur 6: autre
38
Comment représenter les variables quantitatives
Continues
a) Histogramme
Amplitude de la classe
Centre de la classe
Densité de la classe ( effectif corrigé)
Exemple
Ranger en 7 classes dont la première classe regroupe les scores inférieurs ou égale à 85 et la
dernière classe regroupe les valeurs supérieures à 135. L’amplitude des classe est de 10 pour
les classes restantes. Présenter les résultats en fréquence.
Solution
HISTOGRAMME avec Microsoft Excel
Histogram
7
4
Frequency
0
20 25 30 35 40 More
Bin
a) Courbe en ligne
Ici NON
Distribution
symétrique. La
moyenne résume
bien la série
b. La moyenne géométrique
La moyenne géométrique est toujours inférieure (ou égale) à la moyenne
arithmétique. Elle est donnée par:
Montrer
que
?
c. Moyenne harmonique
Nombre
impair
Nombre
pair
le mode est la (ou les) valeur(s) pour laquelle les effectifs sont
maximums, il est en général assez difficile de l’ évaluer sur des
échantillons de petite taille
(distribution bi modale)
4. Les Quantiles
1. Ecart type
2. Variance
Plus la variable est dispersée, plus les écarts à la moyenne
sont grands et donc plus la variance est grande.
0,1
0,08
0,06
0,04
0,02
0
1 11 21 31 41 51 61 71 81 91
Les Paramètres de Forme
0,1
0,08
0,06
0,04
0,02
0
1 11 21 31 41 51 61 71 81 91
les paramètres Skewness et Kurtosis sont respectivement définis par
1’
summary(PANFK)
Fatick Kaolack
> mean(PANFK$Kaolack)
Min. :314.7 Min. :328.9 [1] 553
1st Qu.:456.8 1st Qu.:448.2 > sd(PANFK$Kaolack)
Median :546.4 Median :551.6 [1] 150
Mean :567.0 Mean :552.7 > max(PANFK$Kaolack)
3rd Qu.:669.8 3rd Qu.:614.8 [1] 850
> median(PANFK$Kaolack)
Max. :910.0 Max. :850.4
[1] 552
NA's :1
Or
install.packages("pastecs")
library(pastecs)
options(scipen=100)
options(digits=2)
stat.desc(PANFK)
Boite à moustaches (Boxplot )
Quelques graphiques
Loi de probabilité
Loi de Probabilité
La loi de probabilité (ou distribution ou fonction de
densité) décrit les répartitions des fréquences d’apparition
des résultats d’une expérience aléatoire.
Variable aléatoire discrète
Dans le cas de la constitution d’une fratrie de deux enfants, si l’on fait
l’hypothèse que la probabilité d’avoir un garçon est égale à celle
d’avoir une fille (1/2), alors la distribution de probabilité ou loi de
probabilité du nombre de filles dans une fratrie de deux enfants est
Ensemble des évènements possible
G et G
F et G ou G et F
F et F
Exemple
𝐸 𝑋 2 = σ𝑛𝑖=1 𝑥 2 𝑖 𝑓 𝑥𝑖
Variance, V(X)
Exemple
Calculer l ’espérance et la variance
Variable aléatoire continue
Fonction de répartition
Propriétés
Fonction de densité
Propriétés
Espérance
Variance, V(X)
Loi normale
Loi de χ2
Loi de Bernouilli Loi de poisson
Loi Binominale
Loi de student
Loi de Fisher
Loi de Bernouilli
C’est la loi de probabilité la plus simple: l’individu peut se trouver dans deux
états (en général notés 0 et 1)
X 0 1
Espérance :E(X) = p
Variance : V(X) = pq
Pi = P( X=xi) Q=1-p p
Loi Binominale
La distribution binomiale donne la probabilité de voir apparaître un
événement 0, 1, 2, 3, …,i, …, n fois au cours de n essais ou épreuves
indépendants et identiques
Seulement deux évènements peuvent apparaître.
B(n,p) : n est le nombre d’épreuves, p est la probabilité d’un des deux
évènements (succès), q est la probabilité complémentaire (échec).
La probabilité de voir apparaître x fois le même événement
de probabilité p au cours de n épreuves indépendantes peut
s’écrire:
n x n! n x x
P( x) C q
x
n p
x
q p
(n x)! x!
Espérance :E(X) = np
Variance : V(X) = npq
Exemple
Une famille de 7 enfants, quelle est la probabilité d’avoir x
garçons?
Loi de Poisson
n!
P( x ) qn x p x
(n x )! x!
Tend vers:
np x np x
P( x) e ou P ( x) e
x! x!
Le médiane est le point qui divise la courbe en deux parties égales ( surface)
La moyenne est le point d’équilibre qui balance la courbe
On voit l'influence
de la moyenne et
de la variance sur
la forme de la
courbe.
Moyennes différentes
mais même écarts
types
loi normale centrée réduite
On effectue une transformation sur l’équation précédente de la
loi de Gauss ou Laplace non centrée
(b)
(c)
6. Relations entre deux
variables
1. Généralités
Nuage de Points
GRAPHIQUE
(Scatterplots)
D’ABORD
X : VARIABLE INDEPENDANTE
(Explanatory variable)
Y : VARIABLE DEPENDANTE
(Response Variable)
Forme et Direction
Y Y
X X
Absence de corrélation r ~ 0 Absence de corrélation linéaire
r ~ 0 – Présence d’une liaison
de forme parabolique
Y
Absence de corrélation linéaire
r ~0 – Présence d’une liaison
exponentielle
X
139
X X y
y
Pas de relation entre X et Y les deux variables
sont indépendantes
Force de la relation
Outliers ( Valeurs aberrantes ou exceptionnelles
outliers
Exemple
2. Corrélation
Mesure l’intensité de la liaison linéaire entre les 2 variables : Coefficient de
corrélation, elle mesure la direction et la force de la liaison entre les variables
X et Y. COMMENT LE CALCULER
et le standard de déviation
exceptionnelles .
Propriétés de r
?
Méthode des
moindres Carrés
•Somme des carrés des écarts entre les observations et les prédictions (notée SCE)
i
n
(Y
SCE i
Ŷ
i
i
1
2
)
Y = 𝜶 + 𝜷𝒙
α : ordonnée à l’origine (valeur de Y pour x = 0)
β : pente (variation moyenne de la valeur de Y pour une augmentation d’une
unité de X)
Estimation par
méthodes des
moindres carré
𝑆𝑦
𝑏=𝑟
𝑆𝑥 r coefficient de corrélation
Sy : écart type de la série Y
Sx : écart type de la série X
a= 𝑦ത − 𝑏𝑥ҧ
Comment interpréter a et b
attention)
SCEreg .lin.
R
2
Coefficient de détermination
SCET
0≤ R 2 ≤1
Analyse de la variance pour le modèle de régression linéaire simple
i 1
SCEe/n-p
le cas d’une
simple
régresssion)
N
Total n- 1
SCEt = i
( Y Y ) 2
i 1
Le coefficient de détermination est aussi le
Intervalle de confiance
Estimating a value of a Echantillonnage aléatoire
1 population parameter
1
x
X ~ N x ,
N
Calcul de l’intervalle de confiance pour une population dont l’écart
type de la population est connu
Exemple
Nous avons
1
2
Est à 80, 98, 60 %, etc, quelle est l’intervalle de
3 Confiance?
Impossible
d’appliquer
cette règle
Utiliser une
table pour
cette valeur
Table D
Ou Excel
Now, calculer l’intervalle de Confiance? pour 80 %
Résultats
En se basant sur ces propriétés comment on peut calculer la taille
de notre échantillon lors d’une expérimentation
Exemple
n = 11
Calcul de l’intervalle de confiance pour une population dont l’écart
type de la population n’est pas connu
MERCI