Statistique Dut1 2022 VF

UNIVERSITE GASTON BERGER
…………………..
UFR S2ATA
SECTION PVA/DUT1
COURS DE BIOSTATISTIQUE
Dr. Lamine Diop, 2022
0. INTRODUCTION
Hommes,
Money,
Bonne
santé, etc
Eau, Air,
Nutriments;
C02
Sol
comme
réservoir
Des méthodes et outils ( Biostatistique, Modélisation, logiciels, etc

DÉMARCHE POUR MENER UNE ÉTUDE STATISTIQUE
1. Identification et comprehension du
problème
2. Identification et Description des données

à collecter en rapport avec la
problématique.
3. Collecte de l’information et traitement

des données.
1. Identification et comprehension du
problème
EFFET DU DEFICIT IRRIGATION SUR LES

PARAMETRES DE CROISSANCE ET DE
RENDEMENT DE L’ARACHIDE ?
2. Identification et Description des données
à collecter en rapport avec la
problématique.
1. Les besoins en eau d’irrigation

2. Les mesures d’humidité du sol
3. Les paramètres de croissance de l’arachide ( diamètre au collet, hauteur, date de

floraison
4. Les paramètres de rendement de l’arachide (Le nombre de gousses par pied, Le

nombre de graines par gousse, Le poids moyen de 100 gousses, biomasse fraiche et de
la biomasse sèche, etc.)
5. etc.
3. Collecte de l’information et traitement des données
Détermination des besoins en eau
• Température minimale
• Température maximale
• Humidité relative
• Vitesse du vent
• Radiation solaire
Panneau solaire
100 W Modem Wifi
Régulateur de Prise électrique
tension CM30D
Transformateur
12V – 220V
Seaux
Console
Station météo
Batterie
50 Ah
Conversion des quantités d’eau en
nombre de seaux ou d’arrosoirs
Bassins
Seau de 10 L Arrosoir de 11 L
Les besoins bruts et les volumes

apportés par le producteur
Nguéthiouro
Les apports paysans dépassent largement les besoins

bruts
2 TYPES
STATISTIQUE DESCRIPTIVE : nombres utilisés pour
synthétiser et décrire les données. Pas de
généralisation.
Pour généraliser, il faut faire appel à la statistique
inférentielle
STATISTIQUE INFÉRENTIELLE : based on the

assumption that sampling is random ( échantillonage est
aléatoire). On se base sur les caractéristiques de
l’échantillon pour généraliser au niveau de la population
1. Notions de Population,
d’échantillon et de variables
POPULATION ET ECHANTILLON
Population
Echantillonnage
aléatoire
v Echantillon
On peut
faire de
l’inférence
Caractéristiques
de l’échantillon
POPULATION
Un ensemble généralement très grand, voire infini, d‘ individus ou
d'objets de même nature.
Exemple : Population des insectes d’une zone, population des
parcelles du delta du fleuve Sénégal, Population des étudiants
agés de 20- 23 ans de l’UGB
Individus?
2 CAS 1. Recensement : Si tous les individus sont étudiés
2. Echantillon : certains individus de la population sont étudiés

ECHANTILLONAGE
Echantill
Population on
N n
Le taux d’échantillonnage est définit par le rapport n/N
Coefficient d’extrapolation est l’ inverse du taux de sondage = N/n
Pour un échantillonnage, l’idéal est d’avoir une base de sondage

Base de sondage : Exemple liste de tous les villages d’une zone à
étudier, liste de toutes les parcelles , etc..
La base de sondage
C’est une liste exhaustive ou un fichier des éléments de la population à

étudier à partir de laquelle on prélève l’échantillon en procédant à un
tirage. Elle sert aussi à identifier les unités de la population d’enquête.
Une liste peut être physique, conceptuelle

Exemple de listes physiques : répertoire des villages, producteurs,
etc, Annuaire téléphonique, Listes de membres d’une ONG, Liste des
étudiants.
Une liste conceptuelle est utilisée pour une population qui existe
seulement au cours de l’enquête. Exemple : la liste de tous les
étudiants qui viennent à l’UGB 2 entre 8h et 12h le 04 avril 2022.
Echantillonage
Deux grands types
L’échantillonnage non probabiliste : un moyen rapide, facile et bon

marché de sélectionner des unités de la population, mais la méthode
de sélection est subjective.
Échantillonnage probabiliste : plus complexe; plus de temps et coûte

habituellement plus cher que l’échantillonnage non probabiliste.
la sélection des unités de la population est aléatoire, des estimations
fiables sont possibles, ainsi que des estimations d’erreur
d’échantillonnage et des déductions sur la population. Donc méthode
plus objective.
Les sondages non probabiliste
Les sondages empiriques sont souvent utilisés :
o Pour pallier à l’absence d’une base de sondage en

raison de l’absence du recours au « hasard ».
o Plus rapides, moins coûteux et plus faciles à réaliser
qu’un échantillonnage aléatoire.
o Ces méthodes nécessitent cependant des renseignements

précis et récents de La population étudiée.
Les sondages probabiliste
1. aléatoire simple
Le sondage aléatoire simple est la base de tout sondage probabiliste.
Il s’effectue à partir d’une base de sondage où tous les éléments
sont numérotés . Chaque individu de la population de référence est
choisi au hasard. Chaque individu a la même probabilité de faire
partie de l’échantillon sans aucune manipulation au préalable dans la
population
2- systématique
La procédure de tirage systématique consiste à choisir le premier
élément de manière aléatoire, les éléments suivants étant ensuite
sélectionnés à intervalles réguliers.
2- systématique
Si on connaît l’effectif total de la population N et qu’on souhaite

prélever un échantillon d’effectif n, l’intervalle entre deux unités
successives à sélectionner est donné par : k=N/n (arrondi à l’entier le
plus proche)= Pas de sondage.
Connaissant k, on choisit le plus souvent, pour débuter, un nombre

aléatoire, i, compris entre 1 et k.
2. Systématique
Exemple :
On veut sélectionner un échantillon de 30 fermes au sein
d’une population de 1800 fermes.
K = 1800/30 = 60
On va tirer une ferme toutes les 60 en partant d’un nombre tiré
aléatoirement entre 1 et 60.
Supposons ce nombre est le 15. On va donc sélectionner

la 15éme ferme puis la 75éme, la 135éme jusqu’à la 1755éme ce qui
nous donnera l’échantillon de 30 fermes.
3 – Stratifié
Le principe consiste, tout d’abord à segmenter la population à
partir d’un ou plusieurs critères définis a priori. Les éléments de
l’échantillon sont ensuite sélectionnés de manière aléatoire dans
chacune des strates en fonction d’un taux de sondage.
Exemple: Répartition proportionnelle

Dans une population de 10000 entreprises, réparties en
5000 petites entreprises, 3000 moyennes entreprises et 2000 grandes
entreprises, on souhaite avoir un échantillon de 500 entreprises.
3 . stratifié
• Exemple: Répartition proportionnelle
• Fraction de sondage constante : f = 500 / 10000 = 0.05
Strate Effectif de la strate Taille de l’échantillon

Petite 5000 5000 * 0,05 = 250
Moyenne 3000 3000 * 0,05 = 150
Grande 2000 2000 * 0,05 = 100
Total 10000 500
4. Tirage aléatoire par grappes
Le sondage en grappe consiste à tirer au sort non pas

directement un individu, mais des unités collectives (grappe).
L'ensemble des individus de la grappe sont alors enquêté.
Avantage : faciliter la réalisation de l'enquête.
• de réduire son coût, en limitant le nombre de sites à visiter
pour accéder aux individus
• mais entraîne fréquemment une perte de précision des
estimateurs.
Tirage aléatoire par grappes
Sample Size matter
La taille de l’ échantillon est très importante parceque nous renseigne sur la

représentativité de l échantillon.
Un échantillon non représentatif de la population ne permet pas de
généraliser les résultats au niveau de la population et d’en tirer des
conclusions
Variables
Dans une étude, nous collectons des données à partir d’

individus . Les individus peuvent être des personnes, des
animaux, des plantes, ou tout objet qui nous intéresse.
Une variable est toute caractéristique d’un individu. Une
variable varie selon les individus.
EXEMPLE : age, taille, pression artérielle, longueur de feuilles, rendement,

taille de parcelles, ect.
Deux types de
variables
Qualitative
Quantitative
 Discrète  Ordinale
Nombre d’insectes Préférence ( Plus ou moins forte)
Nombre d’enfants Taille ( très petite, petite, grande, etc
 Continue  Nominale
Température, pluviométrie, Poids, Type de variété, type de
taille, rendement saison, sexe
Comment représenter les variables qualitatives
a) Diagramme à Bande
Diagramme en Baton avec excel
50
45
40
35
30
Nombre
25
20
15
10
0
Divorcé marié celibataire Veuve
Etat matrimonal
b) Diagramme à secteur
Diagramme à secteur avec excel
10
20
12
Divorcé
marié
celibataire
Veuve
45
Variable qualitative nominale
Tableau statistique : classement des observations selon les modalités de ce caractère.

Exemple: la formation de base d’un groupe d’étudiant
ni fi
N°individu formation
1 2
2 2
3 6
4 1 formation Total %
5
6
2
6
1 7 33,3%
7 2 2 9 42,9%
…. ….
17 3 3 1 4,8%
18 2
19 2 6 4 19,0%
20
21
6
2
Total 21 100,0%
1: Sc.Eco 2: Sc de gestion 3:
ni
Gde école Où fi 
N
4: droit 5: ingénieur 6: autre
38
Comment représenter les variables quantitatives
Continues
a) Histogramme
 Regroupement des données par classe

 Classe de même taille le plus souvent
Amplitude de la classe
Centre de la classe
Densité de la classe ( effectif corrigé)
Exemple
Ranger en 7 classes dont la première classe regroupe les scores inférieurs ou égale à 85 et la
dernière classe regroupe les valeurs supérieures à 135. L’amplitude des classe est de 10 pour
les classes restantes. Présenter les résultats en fréquence.
Solution
HISTOGRAMME avec Microsoft Excel
Histogram
7
4
Frequency
0
20 25 30 35 40 More
Bin
a) Courbe en ligne
Une tendance ( trend) est une

augmentation ou diminution
persistante au cours temps malgré
les petites irrégularités
Une pattern qui se répète à

des intervalles de temps
réguliers est appelé
variation saisonnière
Courbes en ligne peuvent être utilisées pour comparer deux séries de
données couvrant la même période.
Diagramme en ligne en Excel
2. Les paramètres de
Position, Dispersion et de
forme
Les Paramètres de Positions
Servent à caractériser l’ordre de grandeur des données ( valeurs
centrales)
1. Moyenne
a. La moyenne arithmétique
Très facile à calculer mais affectée par les valeurs extrêmes car le calcul
donne le même poids à toutes les observations. Elle représente mal les
valeurs d ’une population hétérogène et/ou fortement asymétrique
Ici NON
Distribution
symétrique. La
moyenne résume
bien la série
b. La moyenne géométrique
La moyenne géométrique est toujours inférieure (ou égale) à la moyenne
arithmétique. Elle est donnée par:
Montrer
que
?
c. Moyenne harmonique
La moyenne harmonique est toujours inférieure (ou égale) à la

moyenne géométrique, elle est en général utilisée pour calculer des
moyennes sur des intervalles de temps qui séparent des événements.
Elle est donnée par :
2. La Médiane
Valeur de la variable statistique dans la série d ’observation ordonnée
qui partage cette série en 2 parties chacune comprenant le même
nombre d ’observations de part et d ’autre de la médiane
Nombre
impair
Nombre
pair
peu sensible aux valeurs extrêmes

Comparaison de la moyenne (mean) et de la médiane (median)
Outliers = Valeurs
exceptionnelles (ou
aberrantes)
3. Le mode
le mode est la (ou les) valeur(s) pour laquelle les effectifs sont
maximums, il est en général assez difficile de l’ évaluer sur des
échantillons de petite taille
n ’est pas affecté par les valeurs exceptionnelles (ou aberrantes)
permet de caractériser et de représenter des populations
hétérogènes qui présentent plusieurs valeurs dominantes
(distribution bi modale)
4. Les Quantiles
Correspondent à des valeurs de la

variable statistique qui partagent la
série statistique ordonnée en k parties
égales
k=2 Médiane
k=4 Quartiles
il y a 3 quartiles notés Q1, Q2 et Q3

Five number Summary ( Minimum, Première Quartile, Médiane,
Troisième quartile et Maximum)
Boite à moustaches (Boxplot )

Comparaison de l’histogramme (Histogram) et Boite à moustaches (Boxplot )
Identification de “Outliers” = Valeurs exceptionnelles (ou aberrantes
Toute valeur M ou m avec (M- Q3) ou (Q1- m) Supérieur à
1.5 ( Q3 – Q1) peut être considérée comme exceptionnelle ou
aberrante, d’après la loi des 1.5 IQR
Les Paramètres de Dispersion
1. Ecart type
L’Ecart type S est utilisée pour décrire la variation autour de la moyenne
Il faut calculer la variance avant

d’en déduire l’écart type
Comment calculer l’écart type
S égal zéro quand toutes les observations ont les mêmes valeurs
S est influencé par les « outliers » = valeurs exceptionnelles ou aberrantes
S a la même unité que les données d’observation
2. Variance
Plus la variable est dispersée, plus les écarts à la moyenne
sont grands et donc plus la variance est grande.
0,1
0,08
0,06
0,04
0,02
0
1 11 21 31 41 51 61 71 81 91
Les Paramètres de Forme
les paramètres Skewness et Kurtosis construits à partir des moments

centrés d’ordre 2,3 et 4 qui mesurent respectivement
la symétrie et l’aplatissement de la distribution dont l’ échantillon est issu.
0,1
0,08
0,06
0,04
0,02
0
1 11 21 31 41 51 61 71 81 91
les paramètres Skewness et Kurtosis sont respectivement définis par
𝜸𝟏 est nul pour une distribution symétrique.

𝜸𝟐 est nul pour une loi normale
Comment choisir les paramètres ou Statistiques
Application
avec le logiciel Excel
Le tableau suivant donne une série de données;
Déterminer les paramètres de position, de dispersion et
de forme vus en classe
30 66 41 79
30 87 31 51
54 32 28 74
25 22 88 ….
79 24 31 ….
19 84 81 ….
39 32 69 ….
38 39 57 ….
70 30 20 ….
40 74 86 ….
49 49 88 ….
59 48 47 ….
85 88 83 ….
53 69 88 ….
58 78 33 ….
19 23 66 ….
51 17 29 ….
Démarche
Excel
Démarche
R
Installer R
Et R studio
Lire votre fichier ( 2 possibilités avec R studio)
1 PANFK <- read.csv("C:/Users/diop.18/Desktop/BODIAN WETLAND/PANFK.csv", sep=";")
1’
summary(PANFK)
Fatick Kaolack
> mean(PANFK$Kaolack)
Min. :314.7 Min. :328.9 [1] 553
1st Qu.:456.8 1st Qu.:448.2 > sd(PANFK$Kaolack)
Median :546.4 Median :551.6 [1] 150
Mean :567.0 Mean :552.7 > max(PANFK$Kaolack)
3rd Qu.:669.8 3rd Qu.:614.8 [1] 850
> median(PANFK$Kaolack)
Max. :910.0 Max. :850.4
[1] 552
NA's :1
Pour plus de résultats vous pouvez installer le

package « pastecs »
1
2
4
Or
install.packages("pastecs")
library(pastecs)
options(scipen=100)
options(digits=2)
stat.desc(PANFK)
Boite à moustaches (Boxplot )
Quelques graphiques
hist(PANFK$Kaolack, main="Pluviométrie",xlab="pluie annue

lle en mm",ylab="Fréquence")
3. INTRODUCTION AUX
LOIS DE PROBABLITE
Notion de Variable aléatoire ( Va)
On considère un ensemble d’individus qui sera appelé Ω. Un

individu de cet ensemble sera noté 𝝎.
On note X(𝝎) une caractéristique de l’individu . Par exemple,Ω est
l’ensemble des plantes que l’on trouve dans la zone 𝜔 est une
plante particulière et X(𝝎) est type de la plante 𝜔.
La quantité X(.) est appelée variable aléatoire (v.a.). Les valeurs
possibles que peut prendre X(.) quand 𝜔 ∈ ρ détermine la nature
de la variable aléatoire.
Ainsi
si X(.) prend ses valeurs dans IR, on parlera de variable aléatoire
continue,
si X(.) prend ses valeurs dans un ensemble fini ou dénombrable,
X(.) sera alors appelée variable aléatoire discrète.
Exemple Variable aléatoire discrète : le nombre d’ étudiants
présents en salle, le nombre de bactéries dans 100 ml de
préparation, etc.
Exemple Variable aléatoire continue : température de l’eau,

concentration de nitrates présentes dans l’eau, etc.
Loi de probabilité
Une variable aléatoire est caractérisée par l’ensemble des valeurs

qu’elle peut prendre et par l’expression mathématique de la
probabilité de ces valeurs. Cette expression s’appelle la loi de
probabilité (ou distribution de probabilité) de la variable aléatoire
Variable aléatoire discrète
Loi de Probabilité
La loi de probabilité (ou distribution ou fonction de
densité) décrit les répartitions des fréquences d’apparition
des résultats d’une expérience aléatoire.
Variable aléatoire discrète
Dans le cas de la constitution d’une fratrie de deux enfants, si l’on fait
l’hypothèse que la probabilité d’avoir un garçon est égale à celle
d’avoir une fille (1/2), alors la distribution de probabilité ou loi de
probabilité du nombre de filles dans une fratrie de deux enfants est
Ensemble des évènements possible
G et G
F et G ou G et F
F et F
Exemple
On considère l’évènement ω « lancer de 3

pièces ». On introduit une variable
aléatoire X définie par X(ω) « nombre de
piles de l’évènement ω».
Déterminer La loi de probabilité de X
Fonction de répartition
La fonction de répartition correspond à la distribution cumulée
Espérance
L’espérance, notée E(x) correspond à une moyenne pondérée:
𝐸 𝑋 2 = σ𝑛𝑖=1 𝑥 2 𝑖 𝑓 𝑥𝑖
Si nous avons une variable aléatoire discrète X avec la probabilité de

distribution suivante
Variance, V(X)
Exemple
Calculer l ’espérance et la variance
Variable aléatoire continue
Fonction de répartition
C’est la même chose que pour les variables aléatoires discrètes,

excepté que x appartient à R cette fois.
Propriétés
Fonction de densité
C’est la même chose que pour les variables aléatoires discrètes,

excepté que x appartient à R. Il s’agit de f(x) dans la formule
précédente.
Propriétés
Espérance
En suivant exactement la même construction que pour les variables

aléatoires discrètes, on définit l’espérance:
Variance, V(X)
Idem pour la variance

REGLES POUR LE CALCUL DE LA MOY
ENNE ET DE LA VARIANCE
X une variable aléatoire, a et b des constantes
X et Y deux variables aléatoires indépendantes
X et Y deux variables aléatoires non indépendantes

Rappel
4. INTRODUCTION AUX
LOIS DE DISTRIBUTION
Lois de
Lois de Probabilité
Probabilité Continues
Discrètes
Loi normale
Loi de χ2
Loi de Bernouilli Loi de poisson
Loi Binominale
Loi de student
Loi de Fisher
Loi de Bernouilli
C’est la loi de probabilité la plus simple: l’individu peut se trouver dans deux
états (en général notés 0 et 1)
X 0 1
Espérance :E(X) = p
Variance : V(X) = pq
Pi = P( X=xi) Q=1-p p
Loi Binominale
La distribution binomiale donne la probabilité de voir apparaître un
événement 0, 1, 2, 3, …,i, …, n fois au cours de n essais ou épreuves
indépendants et identiques
Seulement deux évènements peuvent apparaître.
B(n,p) : n est le nombre d’épreuves, p est la probabilité d’un des deux
évènements (succès), q est la probabilité complémentaire (échec).
La probabilité de voir apparaître x fois le même événement
de probabilité p au cours de n épreuves indépendantes peut
s’écrire:
n x n! n x x
P( x)  C q
x
n p 
x
q p
(n  x)! x!
Espérance :E(X) = np
Variance : V(X) = npq
Exemple
Une famille de 7 enfants, quelle est la probabilité d’avoir x
garçons?
Loi de Poisson
On l’appelle aussi loi des événements rares. En effet, si X

est le nombre de fois où apparait un événement de
probabilité très petite (p), alors la loi de X peut être
approximée par une loi de poisson.
Loi binomiale tend vers Poisson si p diminue et n
augmente. En pratique un événement est rare si p <0.05.
L’approximation est satisfaisante si n > 50
Donc en pratique lorsque l’on a un « grand nombre »
d’évènements qui suivent une loi binomiale et qu’on
connaît la moyenne λ, on peut utiliser une loi de Poisson
Poisson démontre que :
n!
P( x )  qn x p x
(n  x )! x!
Tend vers:
np x  np  x 
P( x)  e ou P ( x)  e
x! x!
Avantage: un seul paramètre (m)

Exemple 1
Un certain vaccin provoque chez un individu sur 800

environ une réaction dangereuse.
Quelle probabilité y a-t-il, en vaccinant 3000 personnes,
qu'il y ait
a. trois réactions dangereuses ?
b. plus de deux réactions dangereuses ?
Soit X la variable aléatoire indiquant le nombre total de
réactions dangereuses. On a une distribution binomiale
avec p= 1 /800 ; n = 3000 ; λ =nxp= 3.75.
Exemple 2
5. Courbes de densité et
Distribution normale
Les courbes de densité peuvent être sous différentes formes. Certaines
sont mathématiquement connues et d’autres non
Moyenne ( Mean) et Médiane (Median) d’une courbe de densité
Le médiane est le point qui divise la courbe en deux parties égales ( surface)
La moyenne est le point d’équilibre qui balance la courbe
Le médiane et la moyenne sont égaux si la coure de densité est symétrique

La moyenne est le point d’équilibre qui balance la courbe
Loi Normale ou de Gauss
La loi normale joue un rôle particulièrement

important dans la théorie des probabilités et dans les
applications pratiques. La particularité fondamentale
de la loi normale la distinguant des autres lois est que
c’est une loi limite vers laquelle tendent les autres
lois pour des conditions se rencontrant fréquemment
en pratique.
Pour une loi normale de moyenne m et de variance 𝜎2, elle est
donnée par
Même moyenne mais
différents écarts types
On voit l'influence
de la moyenne et
de la variance sur
la forme de la
courbe.
Moyennes différentes
mais même écarts
types
loi normale centrée réduite
On effectue une transformation sur l’équation précédente de la
loi de Gauss ou Laplace non centrée
Permet d’utiliser des tables standards

(a)
(b)
(c)
6. Relations entre deux
variables
1. Généralités
Nuage de Points
GRAPHIQUE
(Scatterplots)
D’ABORD
Examiner la relation en regardant

o La forme ( Form)
o La Direction ( Direction)
o Et la force de la relation ( Strength)
o Et aussi déviation ( Outliers)
RELATION ENTRE DEUX VARIABLES
X : VARIABLE INDEPENDANTE
(Explanatory variable)
Y : VARIABLE DEPENDANTE
(Response Variable)
Forme et Direction
Y Y
X X
Absence de corrélation r ~ 0 Absence de corrélation linéaire
r ~ 0 – Présence d’une liaison
de forme parabolique
Y
Absence de corrélation linéaire
r ~0 – Présence d’une liaison
exponentielle
X
139
X X y
y
Pas de relation entre X et Y les deux variables
sont indépendantes
Force de la relation
Outliers ( Valeurs aberrantes ou exceptionnelles
outliers
Exemple
2. Corrélation
Mesure l’intensité de la liaison linéaire entre les 2 variables : Coefficient de
corrélation, elle mesure la direction et la force de la liaison entre les variables
X et Y. COMMENT LE CALCULER
Utiliser la moyenne et l’écart type des deux variables X et Y

a. Exemple de calcul manuel
b. Exemple de calcul avec outil Excel
Oubien la fonction CORREL ( )

Points influents
Le coefficient de corrélation est
calculé en utilisant la moyenne
et le standard de déviation
donc n’est pas résistant aux
outliers ( valeurs aberrantes et
exceptionnelles .
Propriétés de r
o la valeur r ne distingue pas X et Y;
o r n’a pas d’unité;
o La valeur de r est comprise entre -1 et 1

3. Régression Linéaire Simple
• Explorer la relation liant une variable quantitative Y à

une variable X
• La relation est linéaire : Y=a +bX
• Y : variable à expliquer ou variable dépendante
• X : variable explicative ou variables indépendante

Quelle est
la meilleure
droite ?
Parmi l’ensemble des droites possibles, la droite de
régression est celle dont les points du nuage sont en
moyenne plus proche.
?
Méthode des
moindres Carrés
•Somme des carrés des écarts entre les observations et les prédictions (notée SCE)
i
n
 (Y
SCE i 
Ŷ
i
i
1
2
)
Y = 𝜶 + 𝜷𝒙
α : ordonnée à l’origine (valeur de Y pour x = 0)
β : pente (variation moyenne de la valeur de Y pour une augmentation d’une
unité de X)
Estimation par
méthodes des
moindres carré
a et b sont les estimations de

l’ordonnée à l’origine α et de la
pente β de la droite de régression
Comment calculer a et b
𝑆𝑦
𝑏=𝑟
𝑆𝑥 r coefficient de corrélation
Sy : écart type de la série Y
Sx : écart type de la série X
a= 𝑦ത − 𝑏𝑥ҧ
Comment interpréter a et b
a : valeur de Y pour X = 0 ( faire très
attention)
b : variation moyenne de la valeur de Y pour
une augmentation d’une unité de X.

Coefficient de détermination 𝑹𝟐
Le coefficient de détermination nous permet de voir la part de la variabilité

de Y expliquée par la relation linéaire avec X . Pour le déterminer il faut la
décomposition de la variation.
Décomposition de la variation
SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)

N N N
 (Yi  Y ) 2
=  (Yi  Y ) 2
+  (Yi  Yi )2
i 1 i 1 i 1
La décomposition de la SCE permet d’estimer la part de SCE de Y
expliquée par la régression:
SCEreg .lin.
R 
2
Coefficient de détermination
SCET
0≤ R 2 ≤1
Analyse de la variance pour le modèle de régression linéaire simple
Source Degré de Somme des carrés Moyenne des

Liberté carrés
Régression P- 1 = 1 MSEr = F=
(régression N MSEr/MSEe
linéaire
simple)
SCEr =  (Yi  Y )2 SCEr/p-1
i 1
P=2
Erreur n- P N MSEe =
P= 2 ( dans SCEe =  (Yi  Yi ) 2
i 1
SCEe/n-p
le cas d’une
simple
régresssion)
N
Total n- 1
SCEt =  i
( Y  Y ) 2
i 1
Le coefficient de détermination est aussi le
carré du coefficient de corrélation.
un coefficient de détermination de 0,8
indique que 80 % de la dispersion est
expliquée par le modèle de régression.

Comparaison corrélation et régression
7. Introduction à l’Inférence
Définition
Méthode qui permet de tirer des conclusions sur la
population à partir d’un échantillon.
A. METHODES B. Conditions D’application
Intervalle de confiance
Estimating a value of a Echantillonnage aléatoire
1 population parameter
1
Les tests de significativité

Expérimentation
2 Assess evidence for a 2 Randomisée
claim about a population
Comment ça marche
Comment on calcule l’intervalle de confiance
On cherche un intervalle qui contient la valeur

estimée ( exemple : la moyenne )
avec une certaine probabilité α (95% , 99%, etc )
Rappel Théorème limite centrale
Plus N est grand, plus la distribution d’échantillonnage
de la moyenne s’apparente à une distribution normale
 x 
X ~ N  x , 
 N
Calcul de l’intervalle de confiance pour une population dont l’écart
type de la population est connu
Exemple
Nous avons
1
2
Est à 80, 98, 60 %, etc, quelle est l’intervalle de
3 Confiance?
Impossible
d’appliquer
cette règle
Utiliser une
table pour
cette valeur
Table D
Ou Excel
Now, calculer l’intervalle de Confiance? pour 80 %
Résultats
En se basant sur ces propriétés comment on peut calculer la taille
de notre échantillon lors d’une expérimentation
Exemple
n = 11
Calcul de l’intervalle de confiance pour une population dont l’écart
type de la population n’est pas connu
Supposons vous avez une distribution normale mais vous

n’avez pas la valeur de l’écart type de la population, A ce
niveau il faut estimer cette valeur en considérant l’écart type
de votre échantillon.
Dans ce cas vous ne

pouvez plus utilisé les
valeurs Z
Intervalle de Confiance = 𝑋ത ∓ m
Les détails sur les régressions, les lois de
distribution et les inférences seront vus en
master1
MERCI

Statistique Dut1 2022 VF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Dut1 2022 VF

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE GASTON BERGER

Des méthodes et outils ( Biostatistique, Modélisation, logiciels, etc

2. Identification et Description des données

3. Collecte de l’information et traitement

EFFET DU DEFICIT IRRIGATION SUR LES

1. Les besoins en eau d’irrigation

3. Les paramètres de croissance de l’arachide ( diamètre au collet, hauteur, date de

4. Les paramètres de rendement de l’arachide (Le nombre de gousses par pied, Le

Les besoins bruts et les volumes

Les apports paysans dépassent largement les besoins

STATISTIQUE INFÉRENTIELLE : based on the

2 CAS 1. Recensement : Si tous les individus sont étudiés

2. Echantillon : certains individus de la population sont étudiés

Coefficient d’extrapolation est l’ inverse du taux de sondage = N/n

Pour un échantillonnage, l’idéal est d’avoir une base de sondage

C’est une liste exhaustive ou un fichier des éléments de la population à

Une liste peut être physique, conceptuelle

Deux grands types

L’échantillonnage non probabiliste : un moyen rapide, facile et bon

Échantillonnage probabiliste : plus complexe; plus de temps et coûte

Les sondages empiriques sont souvent utilisés :

o Pour pallier à l’absence d’une base de sondage en

o Ces méthodes nécessitent cependant des renseignements

Si on connaît l’effectif total de la population N et qu’on souhaite

Connaissant k, on choisit le plus souvent, pour débuter, un nombre

Supposons ce nombre est le 15. On va donc sélectionner

Exemple: Répartition proportionnelle

Strate Effectif de la strate Taille de l’échantillon

Le sondage en grappe consiste à tirer au sort non pas

La taille de l’ échantillon est très importante parceque nous renseigne sur la

Dans une étude, nous collectons des données à partir d’

EXEMPLE : age, taille, pression artérielle, longueur de feuilles, rendement,

Tableau statistique : classement des observations selon les modalités de ce caractère.

 Regroupement des données par classe

Une tendance ( trend) est une

Une pattern qui se répète à

La moyenne harmonique est toujours inférieure (ou égale) à la

peu sensible aux valeurs extrêmes

n ’est pas affecté par les valeurs exceptionnelles (ou aberrantes)

permet de caractériser et de représenter des populations

hétérogènes qui présentent plusieurs valeurs dominantes

Correspondent à des valeurs de la

il y a 3 quartiles notés Q1, Q2 et Q3

Boite à moustaches (Boxplot )

L’Ecart type S est utilisée pour décrire la variation autour de la moyenne

Il faut calculer la variance avant

les paramètres Skewness et Kurtosis construits à partir des moments

𝜸𝟏 est nul pour une distribution symétrique.

Pour plus de résultats vous pouvez installer le

hist(PANFK$Kaolack, main="Pluviométrie",xlab="pluie annue

On considère un ensemble d’individus qui sera appelé Ω. Un

Exemple Variable aléatoire continue : température de l’eau,

Une variable aléatoire est caractérisée par l’ensemble des valeurs

On considère l’évènement ω « lancer de 3

Si nous avons une variable aléatoire discrète X avec la probabilité de

C’est la même chose que pour les variables aléatoires discrètes,

C’est la même chose que pour les variables aléatoires discrètes,

En suivant exactement la même construction que pour les variables

Idem pour la variance

X une variable aléatoire, a et b des constantes

X et Y deux variables aléatoires indépendantes

X et Y deux variables aléatoires non indépendantes

On l’appelle aussi loi des événements rares. En effet, si X