Vous êtes sur la page 1sur 184

UNIVERSITE GASTON BERGER

…………………..

UFR S2ATA
SECTION PVA/DUT1

COURS DE BIOSTATISTIQUE
Dr. Lamine Diop, 2022
0. INTRODUCTION
Hommes,
Money,
Bonne
santé, etc

Eau, Air,
Nutriments;
C02

Sol
comme
réservoir

Des méthodes et outils ( Biostatistique, Modélisation, logiciels, etc


DÉMARCHE POUR MENER UNE ÉTUDE STATISTIQUE

1. Identification et comprehension du
problème

2. Identification et Description des données


à collecter en rapport avec la
problématique.

3. Collecte de l’information et traitement


des données.
1. Identification et comprehension du
problème

EFFET DU DEFICIT IRRIGATION SUR LES


PARAMETRES DE CROISSANCE ET DE
RENDEMENT DE L’ARACHIDE ?
2. Identification et Description des données
à collecter en rapport avec la
problématique.

1. Les besoins en eau d’irrigation


2. Les mesures d’humidité du sol

3. Les paramètres de croissance de l’arachide ( diamètre au collet, hauteur, date de


floraison

4. Les paramètres de rendement de l’arachide (Le nombre de gousses par pied, Le


nombre de graines par gousse, Le poids moyen de 100 gousses, biomasse fraiche et de
la biomasse sèche, etc.)

5. etc.
3. Collecte de l’information et traitement des données
Détermination des besoins en eau

• Température minimale
• Température maximale
• Humidité relative
• Vitesse du vent
• Radiation solaire

Panneau solaire
100 W Modem Wifi
Régulateur de Prise électrique
tension CM30D

Transformateur
12V – 220V

Seaux
Console

Station météo
Batterie
50 Ah
3. Collecte de l’information et traitement des données
Conversion des quantités d’eau en
nombre de seaux ou d’arrosoirs

Bassins
Seau de 10 L Arrosoir de 11 L
3. Collecte de l’information et traitement des données

Les besoins bruts et les volumes


apportés par le producteur

Nguéthiouro

Les apports paysans dépassent largement les besoins


bruts
2 TYPES
STATISTIQUE DESCRIPTIVE : nombres utilisés pour
synthétiser et décrire les données. Pas de
généralisation.
Pour généraliser, il faut faire appel à la statistique
inférentielle

STATISTIQUE INFÉRENTIELLE : based on the


assumption that sampling is random ( échantillonage est
aléatoire). On se base sur les caractéristiques de
l’échantillon pour généraliser au niveau de la population
1. Notions de Population,
d’échantillon et de variables
POPULATION ET ECHANTILLON

Population
Echantillonnage
aléatoire

v Echantillon

On peut
faire de
l’inférence

Caractéristiques
de l’échantillon
POPULATION
Un ensemble généralement très grand, voire infini, d‘ individus ou
d'objets de même nature.
Exemple : Population des insectes d’une zone, population des
parcelles du delta du fleuve Sénégal, Population des étudiants
agés de 20- 23 ans de l’UGB
Individus?

2 CAS 1. Recensement : Si tous les individus sont étudiés

2. Echantillon : certains individus de la population sont étudiés


ECHANTILLONAGE

Echantill
Population on

N n
Le taux d’échantillonnage est définit par le rapport n/N

Coefficient d’extrapolation est l’ inverse du taux de sondage = N/n

Pour un échantillonnage, l’idéal est d’avoir une base de sondage


Base de sondage : Exemple liste de tous les villages d’une zone à
étudier, liste de toutes les parcelles , etc..
La base de sondage

C’est une liste exhaustive ou un fichier des éléments de la population à


étudier à partir de laquelle on prélève l’échantillon en procédant à un
tirage. Elle sert aussi à identifier les unités de la population d’enquête.

Une liste peut être physique, conceptuelle


Exemple de listes physiques : répertoire des villages, producteurs,
etc, Annuaire téléphonique, Listes de membres d’une ONG, Liste des
étudiants.

Une liste conceptuelle est utilisée pour une population qui existe
seulement au cours de l’enquête. Exemple : la liste de tous les
étudiants qui viennent à l’UGB 2 entre 8h et 12h le 04 avril 2022.
Echantillonage

Deux grands types

L’échantillonnage non probabiliste : un moyen rapide, facile et bon


marché de sélectionner des unités de la population, mais la méthode
de sélection est subjective.

Échantillonnage probabiliste : plus complexe; plus de temps et coûte


habituellement plus cher que l’échantillonnage non probabiliste.
la sélection des unités de la population est aléatoire, des estimations
fiables sont possibles, ainsi que des estimations d’erreur
d’échantillonnage et des déductions sur la population. Donc méthode
plus objective.
Les sondages non probabiliste

Les sondages empiriques sont souvent utilisés :

o Pour pallier à l’absence d’une base de sondage en


raison de l’absence du recours au « hasard ».
o Plus rapides, moins coûteux et plus faciles à réaliser
qu’un échantillonnage aléatoire.

o Ces méthodes nécessitent cependant des renseignements


précis et récents de La population étudiée.
Les sondages probabiliste
1. aléatoire simple
Le sondage aléatoire simple est la base de tout sondage probabiliste.
Il s’effectue à partir d’une base de sondage où tous les éléments
sont numérotés . Chaque individu de la population de référence est
choisi au hasard. Chaque individu a la même probabilité de faire
partie de l’échantillon sans aucune manipulation au préalable dans la
population

2- systématique
La procédure de tirage systématique consiste à choisir le premier
élément de manière aléatoire, les éléments suivants étant ensuite
sélectionnés à intervalles réguliers.
2- systématique

Si on connaît l’effectif total de la population N et qu’on souhaite


prélever un échantillon d’effectif n, l’intervalle entre deux unités
successives à sélectionner est donné par : k=N/n (arrondi à l’entier le
plus proche)= Pas de sondage.

Connaissant k, on choisit le plus souvent, pour débuter, un nombre


aléatoire, i, compris entre 1 et k.
2. Systématique

Exemple :
On veut sélectionner un échantillon de 30 fermes au sein
d’une population de 1800 fermes.

K = 1800/30 = 60
On va tirer une ferme toutes les 60 en partant d’un nombre tiré
aléatoirement entre 1 et 60.

Supposons ce nombre est le 15. On va donc sélectionner


la 15éme ferme puis la 75éme, la 135éme jusqu’à la 1755éme ce qui
nous donnera l’échantillon de 30 fermes.
3 – Stratifié
Le principe consiste, tout d’abord à segmenter la population à
partir d’un ou plusieurs critères définis a priori. Les éléments de
l’échantillon sont ensuite sélectionnés de manière aléatoire dans
chacune des strates en fonction d’un taux de sondage.

Exemple: Répartition proportionnelle


Dans une population de 10000 entreprises, réparties en
5000 petites entreprises, 3000 moyennes entreprises et 2000 grandes
entreprises, on souhaite avoir un échantillon de 500 entreprises.
3 . stratifié
• Exemple: Répartition proportionnelle
• Fraction de sondage constante : f = 500 / 10000 = 0.05

Strate Effectif de la strate Taille de l’échantillon


Petite 5000 5000 * 0,05 = 250
Moyenne 3000 3000 * 0,05 = 150
Grande 2000 2000 * 0,05 = 100
Total 10000 500
4. Tirage aléatoire par grappes

Le sondage en grappe consiste à tirer au sort non pas


directement un individu, mais des unités collectives (grappe).
L'ensemble des individus de la grappe sont alors enquêté.
Avantage : faciliter la réalisation de l'enquête.
• de réduire son coût, en limitant le nombre de sites à visiter
pour accéder aux individus
• mais entraîne fréquemment une perte de précision des
estimateurs.
Tirage aléatoire par grappes
Sample Size matter

La taille de l’ échantillon est très importante parceque nous renseigne sur la


représentativité de l échantillon.
Un échantillon non représentatif de la population ne permet pas de
généraliser les résultats au niveau de la population et d’en tirer des
conclusions
Variables

Dans une étude, nous collectons des données à partir d’


individus . Les individus peuvent être des personnes, des
animaux, des plantes, ou tout objet qui nous intéresse.
Une variable est toute caractéristique d’un individu. Une
variable varie selon les individus.

EXEMPLE : age, taille, pression artérielle, longueur de feuilles, rendement,


taille de parcelles, ect.
Deux types de
variables

Qualitative
Quantitative

 Discrète  Ordinale
Nombre d’insectes Préférence ( Plus ou moins forte)
Nombre d’enfants Taille ( très petite, petite, grande, etc
 Continue  Nominale
Température, pluviométrie, Poids, Type de variété, type de
taille, rendement saison, sexe
Comment représenter les variables qualitatives

a) Diagramme à Bande
Diagramme en Baton avec excel
50

45

40

35

30
Nombre

25

20

15

10

0
Divorcé marié celibataire Veuve
Etat matrimonal
b) Diagramme à secteur
Diagramme à secteur avec excel
10
20

12

Divorcé
marié
celibataire
Veuve

45
Variable qualitative nominale

Tableau statistique : classement des observations selon les modalités de ce caractère.


Exemple: la formation de base d’un groupe d’étudiant

ni fi
N°individu formation
1 2
2 2
3 6
4 1 formation Total %
5
6
2
6
1 7 33,3%
7 2 2 9 42,9%
…. ….
17 3 3 1 4,8%
18 2
19 2 6 4 19,0%
20
21
6
2
Total 21 100,0%

1: Sc.Eco 2: Sc de gestion 3:
ni
Gde école Où fi 
N
4: droit 5: ingénieur 6: autre
38
Comment représenter les variables quantitatives
Continues

a) Histogramme

 Regroupement des données par classe


 Classe de même taille le plus souvent

Amplitude de la classe
Centre de la classe
Densité de la classe ( effectif corrigé)
Exemple

Ranger en 7 classes dont la première classe regroupe les scores inférieurs ou égale à 85 et la
dernière classe regroupe les valeurs supérieures à 135. L’amplitude des classe est de 10 pour
les classes restantes. Présenter les résultats en fréquence.
Solution
HISTOGRAMME avec Microsoft Excel
Histogram
7

4
Frequency

0
20 25 30 35 40 More
Bin
a) Courbe en ligne

Une tendance ( trend) est une


augmentation ou diminution
persistante au cours temps malgré
les petites irrégularités

Une pattern qui se répète à


des intervalles de temps
réguliers est appelé
variation saisonnière
Courbes en ligne peuvent être utilisées pour comparer deux séries de
données couvrant la même période.
Diagramme en ligne en Excel
2. Les paramètres de
Position, Dispersion et de
forme
Les Paramètres de Positions
Servent à caractériser l’ordre de grandeur des données ( valeurs
centrales)
1. Moyenne
a. La moyenne arithmétique
Très facile à calculer mais affectée par les valeurs extrêmes car le calcul
donne le même poids à toutes les observations. Elle représente mal les
valeurs d ’une population hétérogène et/ou fortement asymétrique

Ici NON

Distribution
symétrique. La
moyenne résume
bien la série
b. La moyenne géométrique
La moyenne géométrique est toujours inférieure (ou égale) à la moyenne
arithmétique. Elle est donnée par:

Montrer
que

?
c. Moyenne harmonique

La moyenne harmonique est toujours inférieure (ou égale) à la


moyenne géométrique, elle est en général utilisée pour calculer des
moyennes sur des intervalles de temps qui séparent des événements.
Elle est donnée par :
2. La Médiane
Valeur de la variable statistique dans la série d ’observation ordonnée
qui partage cette série en 2 parties chacune comprenant le même
nombre d ’observations de part et d ’autre de la médiane

Nombre
impair

Nombre
pair

peu sensible aux valeurs extrêmes


Comparaison de la moyenne (mean) et de la médiane (median)
Outliers = Valeurs
exceptionnelles (ou
aberrantes)
3. Le mode

le mode est la (ou les) valeur(s) pour laquelle les effectifs sont
maximums, il est en général assez difficile de l’ évaluer sur des
échantillons de petite taille

n ’est pas affecté par les valeurs exceptionnelles (ou aberrantes)

permet de caractériser et de représenter des populations

hétérogènes qui présentent plusieurs valeurs dominantes

(distribution bi modale)
4. Les Quantiles

Correspondent à des valeurs de la


variable statistique qui partagent la
série statistique ordonnée en k parties
égales
k=2 Médiane
k=4 Quartiles

il y a 3 quartiles notés Q1, Q2 et Q3


Five number Summary ( Minimum, Première Quartile, Médiane,
Troisième quartile et Maximum)

Boite à moustaches (Boxplot )


Comparaison de l’histogramme (Histogram) et Boite à moustaches (Boxplot )
Identification de “Outliers” = Valeurs exceptionnelles (ou aberrantes
Toute valeur M ou m avec (M- Q3) ou (Q1- m) Supérieur à
1.5 ( Q3 – Q1) peut être considérée comme exceptionnelle ou
aberrante, d’après la loi des 1.5 IQR
Les Paramètres de Dispersion

1. Ecart type

L’Ecart type S est utilisée pour décrire la variation autour de la moyenne

Il faut calculer la variance avant


d’en déduire l’écart type
Comment calculer l’écart type
S égal zéro quand toutes les observations ont les mêmes valeurs
S est influencé par les « outliers » = valeurs exceptionnelles ou aberrantes
S a la même unité que les données d’observation

2. Variance
Plus la variable est dispersée, plus les écarts à la moyenne
sont grands et donc plus la variance est grande.

0,1
0,08
0,06
0,04
0,02
0
1 11 21 31 41 51 61 71 81 91
Les Paramètres de Forme

les paramètres Skewness et Kurtosis construits à partir des moments


centrés d’ordre 2,3 et 4 qui mesurent respectivement
la symétrie et l’aplatissement de la distribution dont l’ échantillon est issu.

0,1
0,08
0,06
0,04
0,02
0
1 11 21 31 41 51 61 71 81 91
les paramètres Skewness et Kurtosis sont respectivement définis par

𝜸𝟏 est nul pour une distribution symétrique.


𝜸𝟐 est nul pour une loi normale
Comment choisir les paramètres ou Statistiques
Application
avec le logiciel Excel
Le tableau suivant donne une série de données;
Déterminer les paramètres de position, de dispersion et
de forme vus en classe
30 66 41 79
30 87 31 51
54 32 28 74
25 22 88 ….
79 24 31 ….
19 84 81 ….
39 32 69 ….
38 39 57 ….
70 30 20 ….
40 74 86 ….
49 49 88 ….
59 48 47 ….
85 88 83 ….
53 69 88 ….
58 78 33 ….
19 23 66 ….
51 17 29 ….
Démarche
Excel
Démarche
R
Installer R
Et R studio
Lire votre fichier ( 2 possibilités avec R studio)
1 PANFK <- read.csv("C:/Users/diop.18/Desktop/BODIAN WETLAND/PANFK.csv", sep=";")

1’
summary(PANFK)
Fatick Kaolack
> mean(PANFK$Kaolack)
Min. :314.7 Min. :328.9 [1] 553
1st Qu.:456.8 1st Qu.:448.2 > sd(PANFK$Kaolack)
Median :546.4 Median :551.6 [1] 150
Mean :567.0 Mean :552.7 > max(PANFK$Kaolack)
3rd Qu.:669.8 3rd Qu.:614.8 [1] 850
> median(PANFK$Kaolack)
Max. :910.0 Max. :850.4
[1] 552
NA's :1

Pour plus de résultats vous pouvez installer le


package « pastecs »
1
2
4

Or

install.packages("pastecs")
library(pastecs)
options(scipen=100)

options(digits=2)

stat.desc(PANFK)
Boite à moustaches (Boxplot )
Quelques graphiques

hist(PANFK$Kaolack, main="Pluviométrie",xlab="pluie annue


lle en mm",ylab="Fréquence")
3. INTRODUCTION AUX
LOIS DE PROBABLITE
Notion de Variable aléatoire ( Va)

On considère un ensemble d’individus qui sera appelé Ω. Un


individu de cet ensemble sera noté 𝝎.
On note X(𝝎) une caractéristique de l’individu . Par exemple,Ω est
l’ensemble des plantes que l’on trouve dans la zone 𝜔 est une
plante particulière et X(𝝎) est type de la plante 𝜔.
La quantité X(.) est appelée variable aléatoire (v.a.). Les valeurs
possibles que peut prendre X(.) quand 𝜔 ∈ ρ détermine la nature
de la variable aléatoire.
Ainsi
si X(.) prend ses valeurs dans IR, on parlera de variable aléatoire
continue,
si X(.) prend ses valeurs dans un ensemble fini ou dénombrable,
X(.) sera alors appelée variable aléatoire discrète.
Exemple Variable aléatoire discrète : le nombre d’ étudiants
présents en salle, le nombre de bactéries dans 100 ml de
préparation, etc.

Exemple Variable aléatoire continue : température de l’eau,


concentration de nitrates présentes dans l’eau, etc.

Loi de probabilité

Une variable aléatoire est caractérisée par l’ensemble des valeurs


qu’elle peut prendre et par l’expression mathématique de la
probabilité de ces valeurs. Cette expression s’appelle la loi de
probabilité (ou distribution de probabilité) de la variable aléatoire
Variable aléatoire discrète

Loi de Probabilité
La loi de probabilité (ou distribution ou fonction de
densité) décrit les répartitions des fréquences d’apparition
des résultats d’une expérience aléatoire.
Variable aléatoire discrète
Dans le cas de la constitution d’une fratrie de deux enfants, si l’on fait
l’hypothèse que la probabilité d’avoir un garçon est égale à celle
d’avoir une fille (1/2), alors la distribution de probabilité ou loi de
probabilité du nombre de filles dans une fratrie de deux enfants est
Ensemble des évènements possible
G et G
F et G ou G et F
F et F
Exemple

On considère l’évènement ω « lancer de 3


pièces ». On introduit une variable
aléatoire X définie par X(ω) « nombre de
piles de l’évènement ω».
Déterminer La loi de probabilité de X
Fonction de répartition
La fonction de répartition correspond à la distribution cumulée
Espérance
L’espérance, notée E(x) correspond à une moyenne pondérée:

𝐸 𝑋 2 = σ𝑛𝑖=1 𝑥 2 𝑖 𝑓 𝑥𝑖

Si nous avons une variable aléatoire discrète X avec la probabilité de


distribution suivante

Variance, V(X)
Exemple
Calculer l ’espérance et la variance
Variable aléatoire continue
Fonction de répartition

C’est la même chose que pour les variables aléatoires discrètes,


excepté que x appartient à R cette fois.

Propriétés
Fonction de densité

C’est la même chose que pour les variables aléatoires discrètes,


excepté que x appartient à R. Il s’agit de f(x) dans la formule
précédente.

Propriétés
Espérance

En suivant exactement la même construction que pour les variables


aléatoires discrètes, on définit l’espérance:

Variance, V(X)

Idem pour la variance


REGLES POUR LE CALCUL DE LA MOY
ENNE ET DE LA VARIANCE

X une variable aléatoire, a et b des constantes

X et Y deux variables aléatoires indépendantes

X et Y deux variables aléatoires non indépendantes


Rappel
4. INTRODUCTION AUX
LOIS DE DISTRIBUTION
Lois de
Lois de Probabilité
Probabilité Continues
Discrètes

Loi normale
Loi de χ2
Loi de Bernouilli Loi de poisson

Loi Binominale
Loi de student
Loi de Fisher
Loi de Bernouilli
C’est la loi de probabilité la plus simple: l’individu peut se trouver dans deux
états (en général notés 0 et 1)

X 0 1
Espérance :E(X) = p
Variance : V(X) = pq
Pi = P( X=xi) Q=1-p p

Loi Binominale
La distribution binomiale donne la probabilité de voir apparaître un
événement 0, 1, 2, 3, …,i, …, n fois au cours de n essais ou épreuves
indépendants et identiques
Seulement deux évènements peuvent apparaître.
B(n,p) : n est le nombre d’épreuves, p est la probabilité d’un des deux
évènements (succès), q est la probabilité complémentaire (échec).
La probabilité de voir apparaître x fois le même événement
de probabilité p au cours de n épreuves indépendantes peut
s’écrire:

n x n! n x x
P( x)  C q
x
n p 
x
q p
(n  x)! x!

Espérance :E(X) = np
Variance : V(X) = npq

Exemple
Une famille de 7 enfants, quelle est la probabilité d’avoir x
garçons?
Loi de Poisson

On l’appelle aussi loi des événements rares. En effet, si X


est le nombre de fois où apparait un événement de
probabilité très petite (p), alors la loi de X peut être
approximée par une loi de poisson.
Loi binomiale tend vers Poisson si p diminue et n
augmente. En pratique un événement est rare si p <0.05.
L’approximation est satisfaisante si n > 50
Donc en pratique lorsque l’on a un « grand nombre »
d’évènements qui suivent une loi binomiale et qu’on
connaît la moyenne λ, on peut utiliser une loi de Poisson
Poisson démontre que :

n!
P( x )  qn x p x
(n  x )! x!

Tend vers:

np x  np  x 
P( x)  e ou P ( x)  e
x! x!

Avantage: un seul paramètre (m)


Exemple 1

Un certain vaccin provoque chez un individu sur 800


environ une réaction dangereuse.
Quelle probabilité y a-t-il, en vaccinant 3000 personnes,
qu'il y ait
a. trois réactions dangereuses ?
b. plus de deux réactions dangereuses ?
Soit X la variable aléatoire indiquant le nombre total de
réactions dangereuses. On a une distribution binomiale
avec p= 1 /800 ; n = 3000 ; λ =nxp= 3.75.
Exemple 2
5. Courbes de densité et
Distribution normale
Les courbes de densité peuvent être sous différentes formes. Certaines
sont mathématiquement connues et d’autres non
Moyenne ( Mean) et Médiane (Median) d’une courbe de densité

Le médiane est le point qui divise la courbe en deux parties égales ( surface)
La moyenne est le point d’équilibre qui balance la courbe

Le médiane et la moyenne sont égaux si la coure de densité est symétrique


La moyenne est le point d’équilibre qui balance la courbe
Loi Normale ou de Gauss

La loi normale joue un rôle particulièrement


important dans la théorie des probabilités et dans les
applications pratiques. La particularité fondamentale
de la loi normale la distinguant des autres lois est que
c’est une loi limite vers laquelle tendent les autres
lois pour des conditions se rencontrant fréquemment
en pratique.
Pour une loi normale de moyenne m et de variance 𝜎2, elle est
donnée par
Même moyenne mais
différents écarts types

On voit l'influence
de la moyenne et
de la variance sur
la forme de la
courbe.

Moyennes différentes
mais même écarts
types
loi normale centrée réduite
On effectue une transformation sur l’équation précédente de la
loi de Gauss ou Laplace non centrée

Permet d’utiliser des tables standards


(a)

(b)

(c)
6. Relations entre deux
variables
1. Généralités

Nuage de Points
GRAPHIQUE
(Scatterplots)
D’ABORD

Examiner la relation en regardant


o La forme ( Form)
o La Direction ( Direction)
o Et la force de la relation ( Strength)
o Et aussi déviation ( Outliers)
RELATION ENTRE DEUX VARIABLES

X : VARIABLE INDEPENDANTE

(Explanatory variable)

Y : VARIABLE DEPENDANTE

(Response Variable)
Forme et Direction
Y Y

X X
Absence de corrélation r ~ 0 Absence de corrélation linéaire
r ~ 0 – Présence d’une liaison
de forme parabolique
Y
Absence de corrélation linéaire
r ~0 – Présence d’une liaison
exponentielle

X
139
X X y
y
Pas de relation entre X et Y les deux variables
sont indépendantes
Force de la relation
Outliers ( Valeurs aberrantes ou exceptionnelles

outliers
Exemple
2. Corrélation
Mesure l’intensité de la liaison linéaire entre les 2 variables : Coefficient de
corrélation, elle mesure la direction et la force de la liaison entre les variables
X et Y. COMMENT LE CALCULER

Utiliser la moyenne et l’écart type des deux variables X et Y


a. Exemple de calcul manuel
b. Exemple de calcul avec outil Excel

Oubien la fonction CORREL ( )


Points influents

Le coefficient de corrélation est

calculé en utilisant la moyenne

et le standard de déviation

donc n’est pas résistant aux

outliers ( valeurs aberrantes et

exceptionnelles .
Propriétés de r

o la valeur r ne distingue pas X et Y;

o r n’a pas d’unité;

o La valeur de r est comprise entre -1 et 1


3. Régression Linéaire Simple

• Explorer la relation liant une variable quantitative Y à


une variable X

• La relation est linéaire : Y=a +bX

• Y : variable à expliquer ou variable dépendante

• X : variable explicative ou variables indépendante


Quelle est
la meilleure
droite ?
Parmi l’ensemble des droites possibles, la droite de
régression est celle dont les points du nuage sont en
moyenne plus proche.

?
Méthode des
moindres Carrés
•Somme des carrés des écarts entre les observations et les prédictions (notée SCE)

i
n
 (Y
SCE i 

i
i
1
2
)
Y = 𝜶 + 𝜷𝒙
α : ordonnée à l’origine (valeur de Y pour x = 0)
β : pente (variation moyenne de la valeur de Y pour une augmentation d’une
unité de X)
Estimation par
méthodes des
moindres carré

a et b sont les estimations de


l’ordonnée à l’origine α et de la
pente β de la droite de régression
Comment calculer a et b

𝑆𝑦
𝑏=𝑟
𝑆𝑥 r coefficient de corrélation
Sy : écart type de la série Y
Sx : écart type de la série X

a= 𝑦ത − 𝑏𝑥ҧ
Comment interpréter a et b

a : valeur de Y pour X = 0 ( faire très

attention)

b : variation moyenne de la valeur de Y pour

une augmentation d’une unité de X.


Coefficient de détermination 𝑹𝟐

Le coefficient de détermination nous permet de voir la part de la variabilité


de Y expliquée par la relation linéaire avec X . Pour le déterminer il faut la
décomposition de la variation.
Décomposition de la variation

SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)


N N N
 (Yi  Y ) 2
=  (Yi  Y ) 2
+  (Yi  Yi )2
i 1 i 1 i 1
La décomposition de la SCE permet d’estimer la part de SCE de Y
expliquée par la régression:

SCEreg .lin.
R 
2
Coefficient de détermination
SCET

0≤ R 2 ≤1
Analyse de la variance pour le modèle de régression linéaire simple

Source Degré de Somme des carrés Moyenne des


Liberté carrés
Régression P- 1 = 1 MSEr = F=
(régression N MSEr/MSEe
linéaire
simple)
SCEr =  (Yi  Y )2 SCEr/p-1
i 1
P=2
Erreur n- P N MSEe =
P= 2 ( dans SCEe =  (Yi  Yi ) 2

i 1
SCEe/n-p
le cas d’une
simple
régresssion)
N
Total n- 1
SCEt =  i
( Y  Y ) 2

i 1
Le coefficient de détermination est aussi le

carré du coefficient de corrélation.

un coefficient de détermination de 0,8

indique que 80 % de la dispersion est

expliquée par le modèle de régression.


Comparaison corrélation et régression
7. Introduction à l’Inférence
Définition
Méthode qui permet de tirer des conclusions sur la
population à partir d’un échantillon.
A. METHODES B. Conditions D’application

Intervalle de confiance
Estimating a value of a Echantillonnage aléatoire
1 population parameter
1

Les tests de significativité


Expérimentation
2 Assess evidence for a 2 Randomisée
claim about a population
Comment ça marche
Comment on calcule l’intervalle de confiance

On cherche un intervalle qui contient la valeur


estimée ( exemple : la moyenne )
avec une certaine probabilité α (95% , 99%, etc )
Rappel Théorème limite centrale
Plus N est grand, plus la distribution d’échantillonnage
de la moyenne s’apparente à une distribution normale

 x 
X ~ N  x , 
 N
Calcul de l’intervalle de confiance pour une population dont l’écart
type de la population est connu

Exemple
Nous avons

1
2
Est à 80, 98, 60 %, etc, quelle est l’intervalle de
3 Confiance?

Impossible
d’appliquer
cette règle

Utiliser une
table pour
cette valeur
Table D

Ou Excel
Now, calculer l’intervalle de Confiance? pour 80 %

Résultats
En se basant sur ces propriétés comment on peut calculer la taille
de notre échantillon lors d’une expérimentation

Exemple

n = 11
Calcul de l’intervalle de confiance pour une population dont l’écart
type de la population n’est pas connu

Supposons vous avez une distribution normale mais vous


n’avez pas la valeur de l’écart type de la population, A ce
niveau il faut estimer cette valeur en considérant l’écart type
de votre échantillon.

Dans ce cas vous ne


pouvez plus utilisé les
valeurs Z
Intervalle de Confiance = 𝑋ത ∓ m
Les détails sur les régressions, les lois de
distribution et les inférences seront vus en
master1

MERCI

Vous aimerez peut-être aussi