BST L3 GBRB 2324

08/11/2023
Licence en Génétique Biotechnologie et

Ressources Biologiques
ECU_1: Statistique descriptive et

analytique
UE: ANALYSE ET
TRAITEMENT ECU_2: Utilisation des logiciels
INFORMATIQUE DES statistiques
DONNÉES
ECU_3 : Saisie et codage de
l'information
1
Dr LIADY M. Nourou Dine 2023 - 2024

STATISTIQUE DESCRIPTIVE ET
ANALYTIQUE
2
1
08/11/2023
Objectif général Fournir aux étudiants, les outils de base pour décrire
et/ou analyser les données (quantitatives, qualitatives, ordinales ou
dichotomiques)
→Résumer un tableau contenant une variable et plusieurs

individus ;
→ Citer les bases de l’inférence statistique
→ Comparer deux ou plusieurs moyennes ;
À la fin de ce
cours →Résumer un tableau contenant deux variables et plusieurs
l’étudiant individus ;
doit être →Porter un jugement sur l’intensité de la liaison entre deux
capable de: variables (quantitative, qualitatives, ordinales et
dichotomiques) ;
→Analyser la liaison3 linéaire entre deux variables quantitatives.
Modalité 100% de la masse horaire en présentiel :

- 6 séances de cours théoriques (CT) avec des
exercices d’application
- Assistance permanente via whatsapp (95 44 27 50)
Chapitre 1 : DESCRIPTION STATISTIQUE A UNE DIMENSION
Chapitre 2 : QUELQUES BASES DE L'INFERENCE STATISTIQUE
Contenu Chapitre 3 : COMPARAISON DE MOYENNES
Chapitre 4 : DESCRIPTION ET INFERENCE STATISTIQUE A DEUX

DIMENSIONS
2
08/11/2023
Logistique → Note de cours

→ Tables statistiques (loi normale centrée réduite, t de
student, khi deux, r de pearson, r de spearman, …
→ Calculatrice
SESSION ORDINAIRE
Evaluations
SESSION de RATTRAPAGE
3
08/11/2023

STATISTIQUE DESCRIPTIVE ET ANALYTIQUE
Chapitre 1:
DESCRIPTION STATISTIQUE A
UNE DIMENSION
1
Objectifs pédagogiques
A la fin de ce chapitre, l’étudiant doit être capable de :

- Définir les notions : Biostatistique, individu, échantillon, population,
- Citer les étapes constitutives d’une étude biostatistique et les grandes modalités de leur
mise en œuvre,
- Citer les différents types de variables,
- Citer les objectifs de la description statistique,
- Définir ce qu’est une distribution de fréquence,
- Résumer des données brutes sous la forme de distribution de fréquences en utilisant
aussi bien des outils tabulaires que des outils graphiques.
- Résumer des données brutes à l’aide des paramètres de description statistiques ;
o Calculer/déterminer les différents paramètres de description statistique,
o Interpréter les valeurs des différents paramètres de description statistique,
- Détecter des données suspectes.
BST_2116 2023_2024 2
1
08/11/2023
Plan
Introduction
Définitions
Types de variables
Objectifs de la description statistique à une dimension
Description sous forme de distribution de fréquence
Description à l’aide des paramètres de description statistique
Détection de données atypiques/aberrantes
BST_2116 2023_2024 3
Introduction
QU’EST CE QUE LA BIOSTATISTIQUE ?
Application des outils statistiques à l’étude du monde vivant
Selon le contexte "Statistique" peut désigner:
- Un ensemble cohérent de données relatives à une population d’objets ou
d’individus. Exemple: statistiques de la production agricole, … ;
- Les paramètres caractéristiques d’une population d’individus ou de choses.

Exemple: la moyenne, le mode, …. et parfois même le paramètre caractéristique
d’un test donné (le t de student, le F de fisher, le H de Kruskal-Wallis, …
- l’ensemble des opérations mises en œuvre pour collecter et traiter

des données sur une population d’individus.
BST_2116 2023_2024 4
2
08/11/2023
Introduction
APPRENTISSAGE DE LA BIOSTATISTIQUE vs ETUDE BIOSTATISTIQUE :
LES ÉTAPES ET LEURS MODALITES
ÉTAPES MODALITES
Collecte des données - Observation

- Expérimentation
1 2
- Statistiques descriptives
Traitement des données - Inférence statistique
Dans une étude, il faut collecter les données avant de les traiter mais, est
nécessaire d’avoir des connaissances en traitement des données avant de
pouvoir planifier leur collecte: ce cours vise à initier au traitement des données
BST_2116 2023_2024 5
Introduction
DÉFINITIONS
Population: Ensemble des éléments qui forment le champ

d’analyse d’une étude particulière. Taille notée : N
Exp: Ensemble de tous les poissons d’une rivière donnée
Individu:
Elément composant la population.
Exp: Un poisson prélevé dans une rivière donnée, dans le cadre de l’étude
Recensement: Enquête complète, étude prenant en compte tous

les individus BST_2116
composant
2023_2024
une population finie. 6
3
08/11/2023
Introduction
DÉFINITIONS
Dans la plupart des cas, il

est difficile d’obtenir
l’information à partir de
la population dans son
ensemble. Comment faut-il
alors procéder pour pouvoir
tirer des conclusions
valables sur la population?
BST_2116 2023_2024 7
Introduction
DÉFINITIONS
Echantillonnage:
Enquête partielle, étude sur
une partie des individus
composant une population
finie (très délicat bien sûr).
Exemple: Pour décrire la concentration en métaux lourds dans le lac, on a considéré

un échantillons constitué de 75 prélèvements (individus) aléatoires.
Variable aléatoire "X": variable associée à une expérience ou à un

groupe d’expériences aléatoires et servant à caractériser le résultat de cette
expérience ou de ce groupe d’expérience. Elle peut être quantitative,
qualitative ou ordinale. BST_2116 2023_2024 8
4
08/11/2023
Types de variables
La reconnaissance du type de variable auquel l’on a à faire est une étape importante
dans tout processus de traitement de données: comme nous le verrons plus loin, à
chaque type de variable correspondent des méthodes de traitement appropriées.
• Qualitative (ou catégorielle)

• Binaires ou dichotomique,
• Nominale.
• ordinale
• Quantitative (généralement numérique: dénombrement ou mesure)

• Discontinues,
• Continues.
BST_2116 2023_2024 9
Types de variables
VARIABLES QUALITATIVES
Echelle binaire ou dichotomique
Il n’y a que deux catégories ou valeurs possibles.
Exp :
- la présence (notée par 1 ou +) ou l’absence (notée par 0 ou -) d’une espèce
végétale lors d’un inventaire floristique sur un territoire donné
- L’Etat physiologique "Mort" ou « Vivant" de l’individu lors d’une étude portant
sur l’effet d’un insecticide sur une espèce donnée d’insecte.
Echelle nominale
Les catégories ne peuvent pas être ordonnées naturellement.
Exp:
- ‘homme’ et ‘femme’, de la variable ‘ sexe ’, ‘
- rouge’, ‘vert’… de la variable ‘ couleur ’;
- …
BST_2116 2023_2024 10
5
08/11/2023
Types de variables
VARIABLES QUALITATIVES
Variables ordinales
Lorsque les catégories peuvent être ordonnées, on est en présence d’une échelle
ordinale. C’est par exemple le type de données auquel on a affaire lorsqu’on ne
demande pas à des examinateurs d’attribuer simplement une note à chaque
candidat, mais plutôt de classer les notes dans un ordre (décroissant ou croissant).
Exp: Ordre de franchissement d’un obstacle par un troupeau de 15 vaches

laitières désignées de A à O. Par exemple, on a observé les ordres
suivants :
- Au cours du 1er passage: G, A, B, D, I, F, J, C, E, M, H, K, N, L, O
- Au cours du 2ème passage: A, D, G, B, K, N, C, F, H, M, E, J, O, I, L
BST_2116 2023_2024 11
Types de variables
VARIABLES QUANTITATIVES
Continu
Lorsque les valeurs possibles ne sont pas
dénombrables.
Exp: La taille d’une daphnie
BST_2116 2023_2024 12
6
08/11/2023
Types de variables
VARIABLES QUANTITATIVES
Discrète
Lorsque les valeurs peuvent être énumérées généralement sous forme d’entiers
naturels (0, 1, 2, 3, …).
Exp: La densité de Daphnies dans

un échantillon d’eau (nombre
d’individus/ml)
BST_2116 2023_2024 13
Objectifs de la description statistiques à une dimension

Lors des observations, dans la plupart des cas, l’on indique la valeur du
caractère étudié, pour chacun des individus et l’ensemble des données est
présenté sous la forme de tableau brut des observations
Individu Taille (X)

Exemple: Dans le cadre d’une étude sur la taille
des poissons d’une rivière, on mesure
1 x1
la taille de 300 poissons. Le tableau 2 x2
brut des observations pourrait se
… …
présenter sous la forme ci-contre:
300 x300
Il est difficile sous cette forme de présentation, de se faire une idée
de la taille typique d’un poisson de cette rivière
Il apparait plus indiqué de résumer ces observations: c’est l’un des

objectifs de la statistique descriptive à une dimension
BST_2116 2023_2024 14
7
08/11/2023
Objectifs de la description statistiques à une dimension
Résumer les observations tel que l’on puisse facilement et rapidement en

saisir le contenu
Détecter des données atypiques
Résumer des observation sous la forme de loi de Distribution et

Orienter vers le type de test à appliquer dans un processus de
traitement de données
BST_2116 2023_2024 15
Description sous forme de Distribution des fréquences
Les distributions de fréquence se présentent sous forme de tableau ou

graphique dans lesquels on regroupe ensemble les individus ayant la même
valeur de la caractéristique étudiée, puis on indique leur fréquence (effectif)
absolue ou relative.
BST_2116 2023_2024 16
8
08/11/2023

Outils tabulaires pour Distributions non groupées (Variables qualitatives,
quantitatives discrètes)
Chaque ligne correspond à une valeur Xi ni fi Ni Fi

observée de la variable (Xi). Il y a p valeurs x1 n1 f1 N1 F1
différentes observées.
x2 n2 f2 N2 F2
ni correspond au nombre d’observations
(fréquence) absolue ayant comme valeur xi … … … … …
xp np fp Np Fp
fi correspond à la fréquence relative
(pourcentage) d’observations ayant comme
valeur xi : 𝑛𝑖 = 𝑛 1
Généralement, x1 est la plus petite valeur, et
xp la plus grande des valeurs observées
BST_2116 2023_2024 17
Outils tabulaires pour Distributions non groupées (Variables qualitatives,

quantitatives discrètes)
Xi ni fi Ni Fi
Ni est l’effectif cumulé des observations x1 n1 f1 N1 F1
ayant des valeurs inférieures ou
égales à xi x2 n2 f2 N2 F2
… … … … …
Fi est la fréquence relative cumulée des
observations ayant des valeurs xp np fp Np Fp
inférieures ou égales à xi :
𝑛𝑖 = 𝑛 1
BST_2116 2023_2024 18
9
08/11/2023
Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

Fréquence brute Fréquence relative
Classe de taille
Les valeurs (ni)
𝒏𝒊 𝒏𝒊
(𝒇𝒊 = ou 𝒇𝒊 = *100 )
𝒏 𝒏
sont mises en [xi;xi+1[ n1 f1
classes [xi+1; xi+2[ n2 f2
… … …
[xi+n-1; xi+n] np fp
𝑛𝑖 = 𝑛𝑖 1= ∑ 𝑓𝑖
Toutes les distributions relatives à des variables continues doivent être

considérées comme des distributions groupées, puisque l'infinité de valeurs
admissibles est condensée en un nombre fini de mesures en fonction de la
précision de la méthode de mesure utilisée.
BST_2116 2023_2024 19
• Les valeurs extrêmes des classes sont appelées bornes des

classes.
• Les classes sont mutuellement exclusives.
• L'amplitude ou intervalle ou module de classe est généralement
constant: Intervalle= borne supérieure - la borne inférieure=Di.
• Le point central ou encore point médian de chaque classe est
situé à mi chemin entre les deux bornes: Ci = Binfi +Di/2
• Dans certains cas la limite inférieure de la première classe ou
supérieure de la dernière classe n'est pas précisée. On parle de
classes ouvertes. A éviter !...
BST_2116 2023_2024 20
10
08/11/2023

Exercice d’application 1:
Présenter la distribution groupée des données du tableau ci-dessous:
BST_2116 2023_2024 21

Exemple de Présentation d’une distribution groupée à intervalle de classe constant
1- Trier les données
BST_2116 2023_2024 22
11
08/11/2023

2- Calculer l’étendue des mesures effectuées : 621,497 – 211,

525 = 409,972
3- Décider du nombre de classes (k) que l’on désire pour résumer les
observations. Pour ce faire, on peut appliquer la règle:
=7
4- Calculer l’amplitude d’une classe en divisant l’étendue des mesures,
𝟒𝟎𝟗,𝟗𝟕𝟐
par le nombre de classes : =61,81
𝟕
BST_2116 2023_2024 23

5- La borne inférieure de la première classe étant déjà connue, la valeur

de la borne supérieure de la première classe est calculée en ajoutant à la
valeur de la borne inférieure celle de l’étendue d’une classe.
Pour l’intervalle suivant, la valeur de la borne inférieure peut
correspondre à celle de la borne supérieure de la classe précédente, sur
laquelle il faudra cependant fermer la borne.
6- on procède ainsi de suite pour les autres classes
BST_2116 2023_2024 24
12
08/11/2023
Tableau de la distribution groupée (à intervalle de classe constant) obtenue
BST_2116 2023_2024 25
• L'intervalle de classe est généralement constant, toutefois, on utilise

parfois une amplitude variable notamment pour les classes des
valeurs extrêmes.
o En cas de classes d'amplitudes différentes, la densité de
fréquence ni/ Di permet de comparer les effectifs ou les fréquences
d'une classe à l'autre.
o la densité de fréquence est utilisée pour tracer l’histogramme.
BST_2116 2023_2024 26
13
08/11/2023

Outils graphiques pour distributions non groupées
Ils permettent de représenter le nombre d'observations correspondant à une
valeur donnée de la variable, sous la forme de bâtonnets ou d'aires colorées
ou hachurées. Ils servent également à visualiser des informations non
numériques (les espèces de plante présentes).
"camembert" ou diagramme en "quartiers de tarte", ou
"diagramme circulaire, ou encore "diagramme en secteurs"
Les données sont représentées sur un

cercle, tel que l'angle de chaque
quartier soit proportionnel à la
fréquence d'apparition de l'item, par
rapport au total de 360°.
Ce diagramme met en évidence les
fréquences relatives
BST_2116 2023_2024 27

Distribution des fréquences des embranchements de
Phytoplancton dans le canal de Cotonou
Exercice d’application 2
Rhodophytes; 3%
Embranchement Densité relative Chlorophytes; 20%
Euglenophytes; 8%
Rhodophytes 3%
Euglenophytes 8%
Cyanophytes 31% Cyanophytes; 31%
Chrysophyes 38%
Chlorophytes 20% Chysophytes; 38%
densité relative
1- Réaliser un diagramme en camembert avec les données relative aux

embranchements de phytoplancton rencontrés dans le canal de Cotonou
(Adjahouinou, 2009)
2- Reconstituer le tableau des fréquences brutes liées à des données en supposant
qu’un échantillon de 2000 individus aBST_2116
été considéré
2023_2024
dans cette étude. 28
14
08/11/2023

Exercice d’application 3
Présenter la distribution de fréquence
relative aux données d’inventaire floristique
BST_2116 2023_2024 29

Diagrammes en bâtonnets ("bar charts")
Diagramme en bâtonnets
2,5
Fréquence
1,5
0,5
-0,5 12 9 31 4 14 23 15 3 17
Nombre de cellules algales
La hauteur de chaque bâtonnet est proportionnelle à la

fréquence d'apparition de l'item considéré ici, le nombre
de cellules algales comptées dans une case de la cellule
Cellule de numération type
de numération. BST_2116 2023_2024 « Neubauer » 30
15
08/11/2023

Outils graphiques pour distributions groupées
Histogrammes A ne pas confondre avec le diagramme en bâtonnets!

Il représente graphiquement la 7
distribution de fréquences d'une 6
Fréquence brute
variable dans laquelle les 5
colonnes sont associées à des
4
intervalles de classe et dont les
3
hauteurs sont proportionnelles
à la fréquence de la classe 2
1
0
0 5 10 15 20 25 30 35 40
BST_2116 2023_2024 Catégorie (limites sup.) 31

Histogrammes
30
On peut porter la fréquence
25
relative (fi=ni/n) sur l’axe des
Fréquence (%)
ordonnées: pour ne plus dépendre 20

du nombre d'observations dans 15
l'échantillon, et pour pouvoir 10
comparer plusieurs échantillons 5
entre eux. La hauteur totale de
0
tous les rectangles de 0 5 10 15 20 25 30 35 40
l'histogramme, vaut alors l'unité Catégorie (limites sup.)
BST_2116 2023_2024 32
16
08/11/2023

Histogrammes
Mieux encore : l’axe des ordonnées 5
peut devenir une échelle de densité
Densité de fréquence
de fréquence relative. Ce 4
changement rend l'aire totale de 3
l'histogramme égale à 1. La
transformation en densité de 2
fréquence relative s'effectue en
1
divisant la fréquence relative par
"l'amplitude", ou la "largeur" de 0
0 5 10 15 20 25 30 35 40
l'intervalle (c-à-d ni/ Di )
Catégorie (limites sup.)
BST_2116 2023_2024 33
Caractéristiques de tendance centrale

Caractérisation d’une
distribution de Caractéristiques de dispersion
fréquences des
observations
Caractéristiques de formes
BST_2116 2023_2024 34
17
08/11/2023
Caractérisation d’une distribution de fréquences

Moyenne arithmétique:
• La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la

population.
• La distribution des moyennes de petits échantillons (n<30) indépendants tirés
de la même population suit une loi normale si la distribution de la variable est
normale.
• Quand n≥30, la distribution des moyennes suit une loi normale sans condition
sur la distribution de la variable. BST_2116 2023_2024 35
Caractérisation d’une distribution de fréquences Cellule de numération type

« Neubauer »
Exemple
Soit la série correspondant au nombre de
cellules algales compté dans les 21 cases
d’une cellule de numération (modèle
Neaubauer): 12; 24; 9; 18; 31; 28; 4; 11; 14;
24; 13; 23; 16; 15; 7; 3; 35; 17; 14; 20; 14.
Moyenne arithmétique:
12+24+ 9+18+31+28+4+11+14+24+13+23+16+15+7+3+35+17+14+20+14
𝑥̅ =
𝑥̅ = =16,76≈17 cellules BST_2116 2023_2024 36
18
08/11/2023

Nombre de
Effectif %age
Caractérisation d’une distribution de fréquences cellules algales
3 1 4,76
4 1 4,76
Caractéristiques de tendance centrale 7 1 4,76
Mode: est la valeur de la variable, qui possède 9 1 4,76
11 1 4,76
la fréquence la plus élevée. 12 1 4,76
Dans l’exemple 13 1 4,76
précédent, la valeur 14 3 14,29
modale est 15 1 4,76
16 1 4,76
17 1 4,76
18 1 4,76
20 1 4,76
23 1 4,76
24 2 9,52
28 1 4,76
31 1 4,76
BST_2116 2023_2024 37
35 1 4,76
Médiane: valeur de la variable qui partage la distribution en deux parties

égales.
En pratique, elle est obtenue en ordonnant les valeurs observées et en prenant la
valeur centrale de cette série.
x n   x n
Pour n impair: med  x n 1  Pour n pair:  

 1 
  med  2 2 
 2  2
Les valeurs elles-mêmes n'interviennent pas dans l'évaluation de la médiane, seul
l'ordre intervient. Elle est donc insensible aux petites variations des observations et
est assez indépendante de la forme de la distribution.
BST_2116 2023_2024 38
19
08/11/2023
n / 2   ni (inf)
med  L  c
ni ( med )
L: limite inférieure de la classe médiane
n: nombre total d’observations
∑ 𝑛𝑖(inf): somme des fréquences absolues des classes se situant avant la
classe médiane.
ni(med) : fréquence de la classe médiane
c: largeur de la classe médiane BST_2116 2023_2024 39

[algue]
Rang
Caractérisation d’une distribution de fréquences (cel/ml)
1 3
2 4
Caractéristiques de tendance centrale 3 7
4 9
5 11
6 12
7 13
Médiane 8 14
9 14
10 14
Dans l’exemple précédent, la valeur médiane est 11 15
x(21+1)/2 = x11 = 15 12 16
13 17
14 18
15 20
16 23
17 24
18 24
19 28
20 31
21 35
BST_2116 2023_2024 40
20
08/11/2023

Sur les données de l’exercice
d’application 1, rappelées ci-
contre, déterminer :
La valeur de la médiane
n / 2   ni (inf)
med  L  c
ni ( med )
BST_2116 2023_2024 41
Caractéristiques de position liées à la médiane

Quartiles:
Ce sont les valeurs Q1, Q2 et Q3 de la grandeur mesurée qui partagent la série
statistique en 4 parties d’effectifs à peu près identiques, Q2 est la médiane.
Q1 = x n+1 Q3 = 3 * ( x n+1
)
4 4
Si ces valeurs ne sont pas entières, les quartiles ne sont pas des valeurs
de la distribution, il faudrait alors réaliser une interpolation
BST_2116 2023_2024 42
21
08/11/2023

Rang [algue] (cel/ml)
Caractérisation d’une distribution de fréquences 1 3
2 4
3 7
Caractéristiques de position liées à la médiane 4

5
9
11
Quartiles: 6 12
7 13
8 14
9 14
10 14
Dans l’exemple précédent, on obtient: 11
12
15
16
Q1= x(21+1)/4 ~x6 = 12 13 17
14 18
et 15 20
Q3= x[3*(21+1)/4] ~x17 =24 16 23
17 24
18 24
19 28
20 31
21 35
BST_2116 2023_2024 43

Caractéristiques de dispersion
Etendue (range) = Maximum - minimum.
Elle utilise uniquement les valeurs extrêmes pour caractériser la dispersion
Dans l’exemple précédent, étendue= 35-3=32 cellules algales
Écart absolu moyen:

Où:
n: nombre d'observations
xi: observation
𝑥̅ :moyenne arithmétique des observations
Il mesure l'écart moyen par rapport à la moyenne des

observations, en considérant les valeurs absolues des écarts
BST_2116 2023_2024 44
22
08/11/2023

Écart quadratique moyen ou "moment d'ordre 2"
Il mesure aussi l'écart moyen par rapport à la moyenne
des observations, mais en considérant les carrés des
écarts
Variance: C'est l'écart quadratique moyen qui,
au lieu d'être divisé par n est divisé par (n-1).
Le dénominateur (n-1) est appelé degré de liberté (ddl) et indique le nombre de

source d’information disponible pour calculer la caractéristique considérée.
Le fait d'élever au carré les écarts plutôt que de prendre leur valeur absolue
permet de pondérer davantage les valeurs extrêmes.
Dans l’exemple précédent, variance =71 cellule2
BST_2116 2023_2024 45

Écart-type (standard deviation):
C’est la racine carrée de la variance
Il possède les mêmes unités que la variable de base X. Si ce n'était la division par (n-1) et non
par n, il est calculé comme une moyenne quadratique (ou Root Mean Square = RMS)
Dans l’exemple précédent, s=8 cellules
Coefficient de variation (CV):

Rapport écart-type/moyenne : c'est une sorte "d'écart-type relatif". Il est souvent
exprimé en pourcent de la moyenne.
Dans l’exemple précédent, CV=8/17=0,5
BST_2116 2023_2024 46
23
08/11/2023
Intervalle interquartile :
C’est l’écart entre le troisième et le premier quartile, Il concentre la moitié des
observations autour de la médiane
𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒍𝒆 𝒊𝒏𝒕𝒆𝒓 − 𝑸𝒖𝒂𝒓𝒕𝒊𝒍𝒆 = 𝑸𝟑 − 𝑸𝟏
Dans l’exemple précédent, IIQ=12 cellules
BST_2116 2023_2024 47
où sx est l'écart-type
Coefficient d'asymétrie (skewness) sur la variable x.
Comme le numérateur et le dénominateur de cette fraction sont affectés de l'exposant

impair 3, il est logique que le signe de l'expression globale soit indicatif d'un
déséquilibre de la distribution soit vers les écarts positifs, soit vers les écarts négatifs.
Des valeurs positives du coefficient d'asymétrie indiquent une distribution plutôt

décalée vers la gauche (queue plus longue à droite), alors qu'un coefficient d'asymétrie
négatif indique une distribution décalée vers la droite (queue plus longue à gauche).
BST_2116 2023_2024 48
24
08/11/2023
Coefficient d'asymétrie (skewness) standardisé
𝑛 ∑ (𝑥𝑖 − 𝑥) où sx est l'écart-type sur la variable x
∗ n est le nombre d’observation.
𝑛 − 1 ∗ (𝑛 − 2) 𝑠
Cette version ne change rien au signe de l'expression et donc aux conclusions ci-
dessus, mais permet d'apprécier la proximité du coefficient avec la valeur zéro. Tant
que le coefficient d'asymétrie standardisé reste à l'intérieur de l'intervalle [-2,2], on peut
considérer que sa valeur est proche de 0 et donc que la distribution est quasi normale.
Dans l’exemple précédent, coefficient d’Asymétrie=0,45

BST_2116 2023_2024 49
Coefficient d'aplatissement (kurtosis)
l'exposant de l'expression est pair et donc donne le même poids aux écarts positifs et
aux écarts négatifs par rapport à la moyenne.
La forme de l'expression reflète, indépendamment de la symétrie, l'aplatissement de la
forme de la distribution, ou encore le poids relatif des "queues" de la distribution par
rapport à la partie centrale: Une distribution possédant une grande proportion de
fréquences aux 2 extrémités est assez "plate" : elle est appelée "platykurtique", son
coefficient d'aplatissement sera négatif. Au contraire, une distribution trop pointue par
rapport à la normale est appelée "leptokurtique" et possédera un coefficient positif. Entre
les deux, une distribution quasi normale ("mésokurtique") possédera un coefficient
d'aplatissement proche de zéro.
BST_2116 2023_2024 50
25
08/11/2023
Coefficient d'aplatissement (kurtosis) standardisé
∑ ( ) ( )
∗( )
- 3* ∗( )
A nouveau, une valeur de ce coefficient normalisé située entre -2 et

2 sera "normale"
Dans l’exemple précédent, coefficient d’Aplatissement=-0,14
BST_2116 2023_2024 51

Aplatissement<0
Asymétrie <0 Aplatissement=0
Aplatissement>0
Asymétrie >0
BST_2116 2023_2024 52
26
08/11/2023
Détection des données atypiques et/ ou aberrantes: Boîte à moustâches

Boîte à moustaches (diagramme en boîte, boîte de Tukey ou box plot ou
box-and-whisker plot)
Ce graphique est constitué de :
 Une boîte centrale comportant:
- dont la longueur correspond à 50% des valeurs observées,
- une ligne verticale ou un point indiquant la médiane, et
- les côtés indiquant les percentiles 25 et 75 de la série de valeurs (valeur telle que 25% -
resp. 75%- des valeurs de la variable se trouvent en dessous de ce nombre.
 deux "moustaches" reliant la boîte aux valeurs minimum et maximum observées. Pour la plupart
des logiciels statistiques, les moustaches ne s'étendent pas au delà de 1,5 fois la distance
interquartile (la largeur de la boîte).
 Les valeurs atypiques sont représentées comme des points isolés.
 Dans STATISTICA, les points situés au-delà de 3 fois la distance interquartile sont considérés comme
"extrêmes" ou "suspects".
BST_2116 2023_2024 53
Détection des données atypiques et/ ou aberrantes: Boîte à moustâches

Boîte à moustaches (diagramme en boîte, boîte de Tukey ou box plot ou
box-and-whisker plot)
Pour l’exemple
précédent, la boîte à
moustaches obtenue
BST_2116 2023_2024 54
27
08/11/2023
Merci de votre attention
BST_2116 2023_2024 55
Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Présentation des
données dans le
logiciel
BST_2116 2023_2024 56
28
08/11/2023
Annexe 1
Illustration à l’aide du
logiciel de traitement des
données « STATISTICA »
Suite de l’exercice
d’application
Présenter la distribution de
fréquence des tailles de l’axe
mineur de Daphnia pulex
Spécification de
l’analyse dans le
logiciel
BST_2116 2023_2024 57
Annexe 1
Suite de l’exercice d’application
Présenter la distribution de
fréquence des tailles de l’axe
mineur de Daphnia pulex
Spécification de l’analyse
dans le logiciel (suite 1)
BST_2116 2023_2024 58
29
08/11/2023
Annexe 1
Spécification de l’analyse
dans le logiciel (suite 2)
BST_2116 2023_2024 59
Annexe 1
Tableau de la distribution des fréquences de tailles de Daphnia pulex
Présentation des
résultats de l’analyse
dans le logiciel
BST_2116 2023_2024 60
30
08/11/2023
Annexe 1
Histogramme de la distribution des fréquences de tailles de Daphnia pulex
Histogramme : Axe mineur dorsal (µm)
14
Présentation des
résultats de l’analyse 12
Nombre d'observations
dans le logiciel (suite) 10
0
234,84 293,55 352,26 410,97 469,68 528,39 587,10 645,81
X < Borne de catégorie
BST_2116 2023_2024 61
Annexe 2
Description statistique des données
relatives à la taille de l’axe mineur
de D. pulex à l’aide des paramètres
de description statistiques
Spécification de
l’analyse dans le
logiciel
BST_2116 2023_2024 62
31
08/11/2023
Annexe 2

Spécification de
l’analyse dans le
logiciel (suite 1)
BST_2116 2023_2024 63
Annexe 2

Spécification de
l’analyse dans le
logiciel (suite 2)
BST_2116 2023_2024 64
32
08/11/2023
Annexe 2
Description statistique des données relatives à la taille de l’axe mineur

de D. pulex à l’aide des paramètres de description statistiques
Présentation des résultats
N Actifs Moyenne Médian Mode Effectif Minimum Maximu Ecart- Asymétrie Aplatisse
e du Mode m type ment
Axe mineur
44 396,90 353,44 211,53 4,00 211,53 621,50 142,22 0,18 -1,47
dorsal (µm)
BST_2116 2023_2024 65
Annexe 3: Détection des données atypiques et/ ou aberrantes
Exercice d’application 6 dans statistica:

Réaliser une boîte à moustaches avec les données
de l’axe mineur dorsal de D. pulex
BST_2116 2023_2024 66
33
08/11/2023

Exercice
d’application
6 dans
statistica:
Réaliser une
boîte à
moustaches
avec les
données de
l’axe mineur
dorsal de D.
pulex
BST_2116 2023_2024 67

Exercice
d’application
6 dans
statistica:
Réaliser une
boîte à
moustaches
avec les
données de
l’axe mineur
dorsal de D.
pulex
BST_2116 2023_2024 68
34
08/11/2023
Exemple d’application 6
dans statistica:
Une boîte à moustaches
avec les données de
l’axe mineur dorsal de
D. pulex
BST_2116 2023_2024 69
35
08/11/2023

Chapitre 2 :
QUELQUES BASES DE L’INFERENCE
STATISTIQUE A UNE DIMENSION

1
A la fin de ce chapitre les étudiants doivent être capables d’expliquer les principaux
fondements de l’inférence statistique. De façon spécifique, ils devront être capables de :
- Définir ce qu’est une "loi de distribution",

- Démontrer l’utilité de définir des distributions de référence,
- Citer les principales lois de distributions à une dimension et les lois dérivées,
- Citer les caractéristiques de la loi normale,
- Apprécier la normalité d’une distribution de fréquences,
- Définir la notion de "densité de probabilité" et son intérêt,
- Définir la notion d’"intégrale de loi de distribution" et préciser son utilité,
- Citer les différentes lois dérivées de la loi normale et leurs applications,
- Lire les tables statistiques des principales lois dérivées de la loi normales pour résoudre
des problèmes. BST_2116 - Chapitre2 -
2
2023-2024
1
08/11/2023
Plan
Introduction
Loi de distribution
Utilité de définir des distributions de référence
Principales lois de distributions à une dimension
Etude de cas de la loi normale
Exploitation de la distribution de référence pour réaliser le test
statistique
Quelques distributions dérivées de la distribution normale et leurs
applications
Conclusion
BST_2116 - Chapitre2 - 2023-2024 3
Introduction
La statistique ne vise pas toujours uniquement, à résumer des observations. Parfois, l’objectif est de
tester des hypothèses concernant une population. Par exemple, deux échantillons prélevés de
manière aléatoire proviennent-ils de la même population? Telle moyenne et telle autre moyenne
sont-elles égales ou significativement différentes? Il s’agira dans ces cas de partir d’échantillons
représentatifs pour tirer des conclusions valables pour toute la population: on parle d’inférence
statistique. Ce type d’analyse, requiert de comprendre et de maîtriser quelques fondements de
l’inférences statistique.
Lois de distribution de fréquence

Considérant une variable aléatoire "X", on appelle loi de distribution de fréquence
(F(x)), la relation qui existe entre les valeurs "xi" que peut prendre "X" et la
fréquence relative "fi(xi)" qui lui est associée.
2
Exemple: la loi normale 1  x-μ 
1
-2  σ 
N(η,σ)
f(x)  e  
σ 2 π
BST_2116 - Chapitre2 - 2023-2024 4
2
08/11/2023

Illustration:
Supposons qu‘on veuille évaluer l'impact sur l'environnement de pratiques culturales.
L’on considère 3 parcelles sur lesquelles l’on cultive la même variété de céréale, mais
avec différents types d'engrais. La variabilité mesurée par voie chimique sur des
échantillons ramenés en laboratoire est la concentration résiduelle en azote dans le
sol, exprimée en kg d'azote par hectare.
Sur chacune des parcelles, l’on

prélève 5 échantillons, à la même
profondeur et dans des conditions
identiques.
Le tableau suivant indique un

scénario possible de résultats
BST_2116 - Chapitre2 - 2023-2024 5

Nous observons des différences entre les valeurs moyennes de quantités d'azote à
l'hectare. La question posée plus haut, pourrait être formulée de la façon suivante:
Ces différences sont-elles révélatrices d'une réelle disparité entre les trois
types d'engrais utilisés ou bien les différences trouvées entre les 3 valeurs
moyennes,, ne sont-elles dues qu'aux erreurs aléatoires de la mesure et
aux fluctuations naturelles de l'azote résiduel dans le sol ?
Pour y répondre nous devrons par exemple envisager de comparer les

moyennes dans les deux scénarios, mais dans ce cas comment procéder ?
BST_2116 - Chapitre2 -
6
2023-2024
3
08/11/2023

… nous devrons d’abord choisir le test statistique approprié pour effectuer cette
comparaison, …
… en effet, plusieurs échantillons peuvent paraître proches ou éloignées les uns des autres, sans
distribution de référence, comment pouvons nous savoir, s’ils appartiennent à la même
population?
Au regard de cet exemple, il apparaît que la description statistique à une dimension
peut d’ailleurs parfois apparaître au cours d’un processus de traitement de données,
comme la toute première étape qu’il conviendra d’observer et qui orientera vers le type
de test qu’il convient d’appliquer. Par exemple, les tests dits "paramétriques" (t de
student, F de ficher, Khi-deux, …) sont une catégorie de tests statistiques qui exigent
que la distribution des observations soit normale avant qu’ils ne puissent être appliqués.
Si non, ce sont des tests "non paramétriques" qu’il conviendra d’appliquer
La plupart des méthodes statistiques d’analyse, supposent que les variabilités observées au sein des
populations sont le fait de processus aléatoires. Celles-ci sont décrites par différentes lois selon que
la variable est discrète ou continue
BST_2116 - Chapitre2 - 2023-2024 7
Les principales lois de distributions à une

dimension et leurs dérivées
La loi binomiale et les lois dérivées (poisson, hypergéométrique, …) sont utilisées

pour décrire la plupart des données discontinues telles que le nombre d’individus
par échantillons, …
la loi normale et ses lois dérivées sont employées pour les variables continues
telles que le poids mais peuvent aussi, sous certaines conditions, peuvent être
utilisées pour les variables discontinues.
8
2023-2024
4
08/11/2023
Etude de cas: Loi normale N(η,σ)

2 f(x)
1  x-μ 
1
-2  σ 
f(x)  e  
σ 2 π
µ: moyenne(≈médiane≈mode)
σ: Écart-type X
m-s m m+s
Le tout grand intérêt de représenter la distribution des observations par une loi universelle,
valable dans la majorité des cas, est que
cette loi ne dépend que d'un nombre limité de paramètres pour sa description
Dans le cas de la loi normale, ces paramètres sont: la moyenne (µ) et l’écart-type (σ)
9
2023-2024
Quand la taille d'un échantillon augmente, la

distribution est généralement de plus en plus centrée
sur la valeur moyenne et se rapproche d'une courbe en
cloche caractéristique.
Cette distribution en cloche est la loi normale ou loi de

Gauss, bien connue des statisticiens : elle est l'image
de la nature générale de la réalité, de la "normalité"
des choses. En d'autres termes, c'est la distribution
vers laquelle tendent en général des valeurs mesurées
à partir d'un phénomène "normal".
Cette constatation est connue sous le nom "d'effet

central limite" ou de "loi des grands nombres"
10
2023-2024
5
08/11/2023

Implications de l'hypothèse de normalité
La valeur moyenne constitue effectivement la meilleure

estimation de la valeur "centrale" de la population
puisqu’elle coïncide avec la médiane et avec le mode. X
m m m
- +
Attention!!! s s
Considérons une distribution à coefficient d'asymétrie très positif (très décalée vers les
faibles valeurs de la variable). Supposons en outre que la grandeur soit strictement
positive. Dans ce cas, la valeur la plus probable, la plus représentative, est proche de
zéro, alors que la moyenne calculée sera, elle, plus grande. La médiane est à droite du
mode et la moyenne à droite de la médiane. Elle ne représente donc pas la valeur
"typique", "centrale". Donc, rien ne nous interdit de calculer des moyennes ou des
variances, mais nous ne pourrons vraiment leur donner une signification, au sens de la
statistique que si la distribution est proche d'une loi normale.
11
2023-2024

Appréciation de la normalité
Pour apprécier la normalité d'une distribution, quelques outils sont disponibles :

1- la position relative des différentes caractéristiques de tendance centrale : pour
une distribution normale, la moyenne, la médiane et le mode présentent des
valeurs très proches l'une de l'autre …
… et les coefficients d'asymétrie et d'aplatissement : des valeurs normalisées

se situant à l'intérieur de l'intervalle [-2,2] indiquent une forme de
distribution s'approchant de la loi normale
12
2023-2024
6
08/11/2023

2- le diagramme de probabilité
normale (droite d’henry)
qui place en abscisse les
points d'une distribution
normale cumulée théorique
et en ordonnée les points de
la distribution normale
cumulée observée. Si la
distribution observée est
normale, le résultat est une
ligne droite comme illustrée
sur la figure ci-dessous:
13
2023-2024

Variable : Axe majeur (µm), Distribution : Normale
Test du Chi² = 12,87, dl = 3 (ajustés) , p = 0,005
3- Test de conformité (chi carré): 8
Apprécier l'adéquation entre
Nbre d'observations
7
une série de données 6
statistiques et une loi de 5
probabilité définie a priori (ici 4
donc une loi normale théorique
estimée à partir des paramètres 𝑥̅ et 3
s) 2
1
0 400 600 800 1000 1200 1400 1600 1800 2000
500 700 900 1100 1300 1500 1700 1900 2100

14
2023-2024
7
08/11/2023

Hauteur des arbres
Exemple d’application 2.1: 23,4 22,5
Etudier la normalité de la distribution des hauteurs 24,4 22,9
d’arbres (Dagnélie, 1957) 24,6 23,7
24,9 24
25 24,4
26,2 24,5
26,3 25,3
26,8 26
26,8 26,2
26,9 26,4
27 26,7
27,6 26,9
27,7 27,4
- 28,5
15
2023-2024

Exemple d’application 2.1:
Méthode 1: Analyse des caractéristiques de tendance centrale et de formes
N Effectif du
Moyenne Médiane Mode Asymétrie Aplatissement
Actifs Mode
24,4
Hauteur des
27 25,67 26,20 26,2 2 -0,31 -0,81
arbres
26,8
16
2023-2024
8
08/11/2023

Méthode 2: Tracé du diagramme

de probabilité
normale (normal
probability plot)
BST_2116 - Chapitre2 - 2023-2024 17

Méthode 3 : Test de conformité du chi carré
Variable : Hauteur des arbres, Distribution : Nous apprendrons
Nous
découvrions plus Normale plus loin dans ce
loin dans ce Test du Chi² = 5,62, dl = 7, p = 0,59 chapitre comment
chapitre 8 déterminer ce type de
comment 7 résultat et comment
Nbre d'observations
calculer cette 6 l’interpréter

valeur de Chi 5
deux 4
3
2
1
0
21,6 22,4 23,2 24,0 24,8 25,6 26,4 27,2 28,0 28,8 29,6
BST_2116 - Chapitre2 - 2023-2024 18
9
08/11/2023
Comment exploiter la distribution de référence

pour réaliser le test statistique?
Rappel: DENSITÉ DE PROBABILITÉ
La densité de fréquence relative permet
de se libérer de l’amplitude des classes
observée dans l’histogramme et
débouche sur une courbe dont l’aire (en
dessous) vaut l’unité.
S’agissant des lois de distribution de

fréquence, on parle de densité de
probabilité qui, fait correspondre à Cette forme de représentation de la distribution n'est
cependant employée que pour vérifier la "normalité"
une valeur particulière de la variable d'un échantillon.
x, une probabilité d'occurrence p.
BST_2116 - Chapitre2 - 2023-2024 19

Intégrale des lois de probabilités: Définition
En pratique, beaucoup de procédures statistiques feront

davantage usage de la distribution cumulée, définie
comme l'intégrale de la fonction de densité de
probabilité. L'axe horizontal fait toujours référence à la
valeur de la variable étudiée, mais l'axe vertical, cette fois,
représente la probabilité d'obtenir une valeur
inférieure à la valeur x donnée. Il varie donc de 0 à 1. Ce
type de distribution cumulée prend une forme en "S", tout à
fait caractéristique.
Mais on retrouve aussi la forme en cloche:
BST_2116 - Chapitre2 - 2023-2024 20
10
08/11/2023

Intégrale des lois de probabilités: Utilité

En effet, généralement, nous ne serons pas intéressés de connaître la probabilité de
mesurer telle valeur particulière d'une grandeur. Par exemple, la probabilité de
mesurer une teneur en Magnésium exactement de 12,257 mg/l lors d'un essai est
probablement très faible et la connaissance de cette probabilité ne présente aucun
intérêt. Par contre, nous serons probablement intéressés de connaître, par exemple, la
probabilité de mesurer une teneur en Magnésium comprise entre 5 et 40 mg/l, ce
qui pourrait correspondre à un intervalle habituel pour une situation donnée. Si cette
probabilité vaut 0,97 (soit 97%), alors que nous mesurons une valeur de 52 mg/l, nous
pourrions alors conclure que la valeur mesurée est fort improbable, et donc anormale.
Dans ce cas, c'est l'intégrale de la fonction de densité de probabilité dans l'intervalle
considéré qui sera employée.
BST_2116 - Chapitre2 - 2023-2024 21

Intégrale des lois de probabilités: Définition
Il s’agit de la surface sous la

courbe comprise dans un
intervalle donné de valeur.
Cette surface correspond ainsi, à
la probabilité d’obtenir une
valeur comprise entre deux
valeurs de la variable.
BST_2116 - Chapitre2 - 2023-2024 22
11
08/11/2023

applications comme distributions de référence
Loi normale centrée réduite N(0,1)
Il est évident qu'il existe autant de lois normales qu'il existe de séries
d'observations, ou en tout cas, de couples moyenne, écart-type: l'axe horizontal de la
distribution est gradué selon la grandeur de la variable observée. Il est alors
particulièrement mal aisé de comparer entre elles deux séries d'observations ne
possédant pas les mêmes unités ou les mêmes ordres de grandeur. Afin de ramener
toujours la distribution à une même référence, indépendante de la grandeur de la
variable, on considérera non pas les xi, mais la distribution des rapports Zi tel que:
η
23
2023-2024


Propriétés
• μ = 0 et σ = 1
• Il n’y a pas d’unités
• L’aire totale sous la courbe = 1 (donc l'aire pour z allant de moins l'infini à zéro =
0,5)
• La courbe est parfaitement symétrique: ƒ(z) = ƒ(–z) (donc l'aire pour z allant de
moins l'infini à zéro = l'aire pour z allant de 0 à plus l'infini = 0,5)
• La courbe est continue, donc P(z) = 0
• Les probabilités correspondent directement à la surface sous la courbe
24
2023-2024
12
08/11/2023

L’application la plus simple: trouver la
probabilité qu'une valeur z soit inférieure
à une valeur limite zi:
Cela correspond à la surface de la courbe
normale centrée réduite située à gauche
du trait vertical marquant la position de
la valeur limite zi :
25
2023-2024


Exemple d’application 2 : Trouvez P (z < 0,21) ]:
En pratique, la réponse sera

trouvée en se servant d’une table
de la loi normale centrée réduite
26
2023-2024
13
08/11/2023
Lecture de la table statistique de la loi normale centrée réduite
La 1ère colonne de la table indique l’unité et la 1ère décimale de zi

La 1ère ligne de la table indique la deuxième
BST_2116 -
décimale
Chapitre2
2023-2024
-
de zi 27

Remarque: P(z < 0,21) = 0,5832 = P (z > –0,21) = 0,5832
P(0 < z < 0,21) = P(z<0,21)-P(z>0)=0,5832 – 0,5000 = 0,0832

P(–0,21<z <0) = P(z>-0,21)-P(z<0)= P(z< 0,21)-P(z<0)= 0,5832 – 0,5000 = 0,0832
P(–0,21 < z < 0,21) = P(–0,21 < z < 0) + P(–0,21 < z < 0) 0,0832 + 0,0832 = 0,1664
BST_2116 - Chapitre2 - 2023-2024 28
14
08/11/2023
Le frère de Moussa a pêché un poisson de 484,2 mm dans le lac Ahémé. En admettant
que la longueur des poissons de ce lac suit une loi normale N(412,3 mm; 47,9 mm),
quelle est la probabilité que Moussa pêche un poisson plus long que celui de son frère?
1) Traduction: P(x > 484,2 mm) = ?

, − 412,3 mm
2) Transformons x = 484,2 mm en z: 𝑧= =1,501
,
3) Donc: P (x > 484,2 mm) = P (z > 1,501):
Etant donné que la table de la loi normale centrée réduite nous
indique des probabilités telles que z soit inférieur à zi, par
conséquent, P(z>zi) = 1-P(z<zi). Dans le cas présent alors,
P(z > 1,501) = 1 – P(z < 1,501) = 1 – 0,9332 = 0,0668
La probabilité que Moussa pêche un poisson plus long que celui

de son frère est donc de 0,0668.
BST_2116 - Chapitre2 - 2023-2024 29

t de Student
Considérons plusieurs échantillon de ni observations de moyennes respectives 𝑥𝑖 ,
et d’écart-types respectifs si, issues d'une population parente normale. Les lois
statistiques nous montrent que toutes ces moyennes se distribuent autour de la
vraie moyenne de la population parente, η, selon une loi normale dont l'écart-type
est 𝒔 𝒏
.
L'écart d'une moyenne particulière 𝒙𝒊 par rapport à la moyenne théorique η peut
𝒙 −𝜼
donc être évalué par :𝒕 = 𝒊 𝒔 qui suit une distribution t de Student à n-1
degrés de liberté 𝒏
30
2023-2024
15
08/11/2023

t de Student
La distribution du t de Student est une distribution normale réduite où la caractéristique
σ est remplacée par l'écart-type calculé à partir de l'échantillon (𝒔 𝒏): elle dépendra du
nombre d'observations, et plus exactement du nombre de degrés de liberté, qui vaut
(n-1).
les applications les plus utilisées (de cette loi comme référence) en statistiques
sont certainement la comparaison des moyennes, l’analyse de signicativité des
coefficients d'une régression, etc.
31
2023-2024
Lecture de la table statistique du t de student
Attention!!! Les valeurs dans cette table sont des valeurs de t et non des surfaces
sous la courbe (c-à-d des valeurs de probabilité). On note ces valeurs t(α;υ).
La table ne donne que les valeurs positives car la distribution de t est symétrique.
• Les valeurs de la table sont des limites définies sur l‘axe des abscisses de la courbe.
• Les probabilités α ou α/2 (les deux lignes d'en-tête du tableau) sont des surfaces
sous la courbe. BST_2116 - Chapitre2 -
32
2023-2024
16
08/11/2023

t de Studentapplications comme distributions de référence
La distribution change en fonction du nombre de degrés de liberté ϑ. Lorsque ϑ tend
vers l'infini, la courbe de t converge vers une courbe normale centrée réduite N(0,1).
Le seuil α correspond à P(t > t (α; ϑ)), c'est-à-dire la probabilité que t soit égal ou dépasse une
certaine valeur critique, définie en fonction du seuil de probabilité et du nombre de degrés de liberté.
Attention, le seuil peut être:
unilatéral
ou bilatéral
Si le seuil est bilatéral, BST_2116

la notation : P(│t│>
- estChapitre2
2023-2024
- t (α/2: ϑ)) 33

t de Student
Trouver la probabilité en connaissant les valeurs de t(α;υ)
P(t24 > 2,492) = ? C'est-à-dire: quelle est la probabilité que la valeur de t pour 24
degrés de liberté soit plus grande que 2,492 ?
On voit que la probabilité est unilatérale
On lit dans la table t
34
2023-2024
17
08/11/2023
Question unilatérale ou bilatérale: De quoi s’agit-il???

• Les valeurs données à la ligne αbilatéral donnent la probabilité qu'une valeur de t
soit située à l'extérieur de l'intervalle délimité par [–tcritique; +tcritique]. Cet α est donc
la somme des deux plages grises situées aux deux extrémités de la courbe.
• Les valeurs données à la ligne αunilatéral donnent la probabilité qu'une valeur de t soit
supérieure au t critique (si ce t est positif; plage grise de droite) ou inférieure au t
critique (si ce t est négatif; plage grise de gauche).
• Ainsi donc la table peut être interprétée de la manière suivante (avec cet exemple) :
- si la question est unilatérale, on veut connaître la probabilité qu'une valeur de t soit
supérieure au t critique. Donc, on s'intéresse uniquement à la valeur +2,492 (et non à –
2,492). La surface située plus à droite que cette valeur limite représente 1% de la
surface totale comprise sous la courbe exprimé α = 0,01;
- par contre, dans une question bilatérale, formulée P(|t24| > 2,492), on aurait voulu
savoir quelle est la probabilité qu'une valeur de t soit située à l'extérieur de l'intervalle
délimité par [–2,492; +2,492]. Cette probabilité correspond à la somme des deux zones
grises, soit α = 0,02 .
BST_2116 - Chapitre2 - 2023-2024 35

t de Student
En pratique, on trouvera cette
probabilité sur la table du t de
student, en recherchant d’abord
la valeur indiquée (soit ici,
2,492) sur la ligne du degré de
liberté indiqué (soit ici 24),
ensuite, la probabilité
recherchée sera lue sur la ligne
qui indique les probabilités.
36
2023-2024
18
08/11/2023

Somme de tous les carrés des écarts
Le χ2 ou khi-deux rapportés aux effectifs standards
Appliquée (comme loi de référence)

La forme de la courbe de densité de pour étudier l’indépendance entre deux
probabilité change en fonction de υ variables catégorielles ou pour ajuster
des données observées à une loi de
distribution théorique
Distribution de densité des lois de degrés de

liberté:
BST_2116 - Chapitre2 - 2023-2024 37

Lecture de la table statistique de la loi de khi−carré

La table donne des valeurs de χ2 critique pour un ddl et pour un seuil repère (α)
donné
Exemple : déterminer P(Χ2[3] >7,81)
En pratique sur la table du khi−carré, on apprécie pour le degré de liberté

correspondant (soit ici 3), et pour la valeur indiquée (soit ici 7,81), cette probabilité en
lisant sur la ligne indiquant les probabilités
38
2023-2024
19
08/11/2023

Quelques distributions dérivées de la distribution normale et leurs applications
Le χ2 ou khi-deux
Pour ddl=3, la table indique que P(Χ2[3] >7,81)=0,05
La probabilité donnée dans la table

est donc unilatérale à droite.
BST_2116 - Chapitre2 - 2023-2024 39

Quelques distributions dérivées de la distribution normale et leurs applications
En plus de la distribution normale centrée réduite, de la distribution du t de student, et

de la distribution du khi carré, les autres distributions dérivée de la distribution
normale sont:
Le F de Fisher-Snedecor
Appliquée (comme loi de référence) dans l’analyse de variance notamment

dans les cas de la comparaison de plusieurs moyennes et dans l’analyse de
régression, …
BST_2116 - Chapitre2 - 2023-2024 40
20
08/11/2023
Quelques distributions dérivées de la

distribution normale et leurs applications
Lecture de la table statistique du F de Fisher-Snedecor pour α=0,05 ; 0,01 et 0,001)
La table donne des valeurs de

Fcritique pour un degré de
liberté (ddl_1) du numérateur
et un autre degré de liberté
(ddl_2) pour le dénominateur
et pour une probabilité (α)
donnée telle que
P(F>Fcritique ddl1; Ddl2)= α
Exemple:
Déterminer P(F>3,60) pour
Ddl1=11 et Ddl2=7
BST_2116 - Chapitre2 - 2023-2024 41
42
2023-2024
21
08/11/2023
Rappels sur le chapitre 2 : « Quelques bases de l’inférence statistique à

une dimension »
- Loi de distribution: définition,
- Utilité de définir des distributions de référence,
- Les principales lois de distribution à une dimension et les lois dérivées,
- Les caractéristiques de la loi normale,
- Appréciation de la normalité d’une distribution de fréquences,
- Densité de probabilité : définition et intérêt,
- Intégrale de loi de distribution: définition et utilité,
- Les différentes lois dérivées de la loi normale et leurs applications,
- Tables statistiques des principales lois dérivées de la loi normales. 1

Chapitre 3:
COMPARAISON DE MOYENNES
Dr LIADY M. Nourou Dine 2023 – 2024

2
1
08/11/2023
A la fin de ce cours les étudiants doivent être capables de :
- Définir ce qu’est un test d’hypothèse,
- Citer les catégories de tests d’hypothèse,
- Utiliser le vocabulaire des tests d’hypothèse,
- Comparer une moyenne observée à une moyenne théorique ;
- Comparer deux moyennes observées sur deux échantillons appariés ;
- Comparer deux moyennes observées sur deux échantillons indépendants;
- Expliquer la logique de l'ANOVA,
- Décomposer la variance totale dans un plan de comparaison de plus de deux moyennes sur des
échantillons indépendants,
- Citer les hypothèses de chacun des tests paramétriques étudiés,
- Vérifier le respect des hypothèses de chacun des tests paramétriques étudiés,
- Formuler les hypothèses nulles et alternatives en vue de la mise en œuvre de chacun des tests
paramétriques étudiés,
- Citer les règles de mise en œuvre de chacun des tests paramétriques étudiés
- Citer les règles de décision de chacun des tests paramétriques étudiés
- Identifier les dispositifs expérimentaux simples dans le cadre de la comparaison de moyennes3
Plan
INTRODUCTION
VOCABULAIRE DES TESTS D’HYPOTHÈSE
1ère partie : CAS DE DEUX MOYENNES
2ème partie : CAS DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS

INDÉPENDANTS
08/11/2023 Dr Liady M. Nourou Dine 4
2
08/11/2023
INTRODUCTION
Pourquoi réalise-t-on des comparaisons ?
Les raisons sont nombreuses, par exemple :
1- Pour contrôler l'efficacité d'un traitement, d'une méthodologie, on veut comparer la
moyenne des concentrations observées à une valeur normative;
2- Pour vérifier s’il y a une différence significative entre deux méthodes d’analyses mises
en œuvre sur le même milieu par deux personnes différentes. A cet effet, on peut par
exemple comparer les moyennes des deux séries de mesures;
3- Pour étudier la différence d’impact sur l’environnement entre trois types d’engrais
utilisés sur la même variété de céréale, cultivée sur le même type de parcelle. A cet effet, sur
chacune des parcelles, on peut prélever à la même profondeur et dans des conditions
identiques, 5 échantillons, et se demander si les résultats obtenus sur les trois parcelles sont
différents; le cas échéant, on pourra imputer cette différence au type d’engrais utilisé
Catégories de tests d’hypothèse

- Tests paramétriques
- Tests non paramétriques

Formulation des hypothèses
Au sens statistique du terme, une hypothèse, est une assertion / supposition au sujet
d'une population, que l'on désire mettre à l'épreuve (1) en tirant un échantillon au
hasard, et (2) en utilisant une loi de référence; cette hypothèse est l'hypothèse nulle
(H0): par exemple, la moyenne des observations est égale à une moyenne
théorique.
Par rapport à cette hypothèse nulle (H0), on va tester une alternative (H1): par exemple, la
moyenne mesurée est inférieure à la moyenne théorique, ou n'est pas égale à la
moyenne théorique, ou le rapport de variances n'est pas égal à 1, …
Pour tester cette alternative, on fixe d’abord un seuil de signification (α) ou risque de
première espèce (risque α), ou probabilité de rejeter H0 à tort c’est-à-dire, de conclure à tort
qu’un traitement est meilleur qu’un autre alors que le hasard est responsable des différences
observées ou encore, le risque d’affirmer qu’il y a une différence significative alors qu’elle
n’existe pas réellement. α = prob(rejet H0/H0 vraie)
3
08/11/2023

Règle de décision
Le niveau acceptable pour le seuil de signification α est arbitrairement fixé à 5% .
Dans les logiciels de statistique, le résultat du test est généralement exprimé par la valeur de p qui
exprime la probabilité que le hasard explique la différence observée entre les deux échantillons. Cette
valeur de p est dichotomisée en «significative» lorsque p < α et en «non significative» lorsque p> α.
Ainsi, l'hypothèse nulle H0 est :
 acceptée: lorsque p>α (la probabilité que la différence observée soit le fruit du hasard est élevée);
 rejetée: lorsque p<α (la probabilité que la différence observée soit le fruit du hasard est faible)
Le rejet de l'hypothèse nulle est traditionnellement qualifié de statistiquement significatif au seuil de
signification α.
Lorsque l’analyse est effectuée manuellement, le résultat du test sera déterminé en

recourant à la table statistique de la loi de référence utilisée. Dans cette table, il faudra
d’abord déterminer la valeur critique du test pour le seuil α choisi et le degré de liberté adapté,
puis, comparer la valeur calculée de la statistique du test à cette valeur critique. Pour la plupart des
tests paramétriques :
→ Si Valeurcalculée < Valeurcritique, H0 est acceptée;
→ Si Valeurcalculée > Valeurcritique, on rejette H0
1ère partie : CAS DE DEUX MOYENNES
PLAN
Comparaison d'une moyenne observée et d'une moyenne théorique
Comparaison de deux moyennes pour échantillons appariés
Comparaison de deux moyennes pour des échantillons indépendants
4
08/11/2023
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
Exemple de situation 3.1

Pour obtenir une eau potable, on effectue en général un traitement en trois (03) étapes :
- d’abord, un traitement primaire, par sédimentation,
- ensuite un traitement secondaire, par oxydation biologique,
- enfin, un traitement tertiaire, par adsorption sur des résines, pour enlever le reste des
composés chimiques.
Concernant l'atténuation des concentrations en composés chimiques, les deux premiers

traitements apportent de bons résultats, exceptés pour les sulfates, qu'il faut tenter d'éliminer
par un traitement tertiaire. Supposons donc que nous ayons mis au point une nouvelle résine
échangeuse d'ions et que nous désirons tester si elle apporte effectivement une amélioration
significative concernant la concentration résiduelle en sulfates dans l'eau par rapport aux
deux premiers traitements (primaire et secondaire) et aussi par rapport aux autres résines
habituellement utilisées.
Exemple de situation 3.1 suite
Imaginons que nous ayons effectué 50 mesures de concentration en sulfates, dans l'eau traitée
par notre nouvelle résine, utilisée comme traitement tertiaire. Nous obtenons par exemple, le
tableau ci-dessous qui comprend 50 valeurs variant entre 9,8 et 17,7 mg/l : la moyenne des
valeurs est 14,64 et la variance 3,41 (écart-type 1,848).
[Sulfates] (en mg/l)
17,74 15,88 14,57 17,13 12,57 13,67 14,94 14,93 11,52 13,46 16,47 13,34 16,02
12,17 16,1 12,9 14,46 13,15 14,23 13,66 14,01 17,46 13,7 17,43 11,4 15,72
12,22 16,74 12,81 14,2 16,53 15,81 9,79 14,43 14,67 14,98 16,25 14,57
13,89 17,54 14,95 16,9 13,6 16,63 13,08 16,35 15,92 14,57 11,34 15,65
Dans la littérature, nous apprenons que la valeur de concentration en sulfates typiquement
atteinte après les deux premières étapes du traitement (et donc avant le traitement par la résine) est
16 mg/l. La concentration moyenne atteinte grâce à la résine que nous avons inventée est de
14,64 mg/l. Alors, pouvons-nous conclure que nous améliorons la situation par rapport à un
traitement "simple" ?
5
08/11/2023
Mise en place du test:
Soit X, la variable aléatoire réelle
correspondant à la concentration en sulfate.
1 – Choix de la catégorie de test appropriée Variable : sulf_mg_L, Distribution : Normale
Test du Chi² = 6,96, dl = 4 (ajustés) , p = 0,14>0,05
On vérifie que X suit une loi normale (de
moyenne η1 et d’écart-type σ1) dans la 8
Nbre d'observations
population. η1 est estimée par la moyenne 𝑥̅
6
de l’échantillon
4
2 – Formulation des hypothèses à tester 0

H0: η1=η0 10 12 14 16 18
H1: η1≠η0 Catégorie (limites sup.)
3 – Choix de la loi de référence appropriée: Test du t de student (la variance de la
population, n’est pas connue, elle est estimée à partir de l’échantillon)
3.1 – Condition de mise en œuvre et logique du test t de student
Sous l’hypothèse H0: η1=η0, X suit une loi normale de moyenne η0 et d’écart-type 𝜎,
̅ η0
par conséquent, 𝑡 = suit une loi de t de student à n-1 degrés de liberté peut
être utilisée comme loi de référence .

Logique de ce test: t traduit une différence entre les deux moyennes (𝒙 𝒆𝒕 η0). Si
celles-ci sont égales, la valeur de t devrait être nulle.
Il s’agira donc de calculer la valeur de t, puis d’étudier à l’aide de la fonction de
densité de probabilité centrée sur 0 du t de student, si cette valeur est
significativement différente de 0. Le cas échéant, les deux moyennes pourraient être
considérées comme significativement différentes.
6
08/11/2023
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student
- On définit un seuil de probabilité α, en dessous duquel, la valeur de t calculée, sera

considérée comme significativement différente de 0;
- À partir des données de l’échantillon, on calcule la valeur de tobservé à l’aide de la
𝒙 η0
formule, 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é = 𝒔
𝒏
- Dans la table du t de student, on apprécie pour le degrés de liberté n-1 correspondant et pour
le seuil de probabilité (α) retenu, la valeur du tobservé , par rapport à celle du "t de référence" :
• Si tobservé < t de référence, H0 est retenue et, par conséquent 𝒙 = η0
• Si tobservé > t de référence, on rejette H0 et, par conséquent 𝒙 ≠ η0
7
08/11/2023
- Avec le logiciel, on apprécie pour le degrés de liberté n-1 correspondant, la probabilité "p"
avec laquelle la valeur tobservé est obtenue, par rapport au seuil de probabilité (α) retenu:
• Si p< α, on rejette H0 et, par conséquent 𝒙 ≠ η0
• Si p> α, H0 est retenue et, par conséquent 𝒙 = η0
Exercice d’application 3.1: Analyse de l’efficacité d’une résine échangeuse

d’ions pour l’élimination des sulfates dans l’eau
Pour l’exemple de situation décrit précédemment, vérifiez si la nouvelle résine,

utilisée comme traitement tertiaire apporte une amélioration significative de la
qualité de l’eau par rapport aux deux premiers traitements.
3 – Choix de la loi de référence appropriée: Test du t de student (la variance de la
population, n’est pas connue, elle est estimée à partir de l’échantillon)
On observe que /tcalculé/=/-5,20/=5,20 > tcritique(ddl=49, α=0,05)=1,677
Il y a donc une différence significative entre les deux moyennes, par conséquent, la
nouvelle résine, utilisée comme traitement tertiaire apporte une amélioration
significative de la qualité de l’eau par rapport aux deux premiers traitements
8
08/11/2023
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
Pour comparer la longueur des sépales et des pétales chez l’espèce d’iris appelée Setosa,
30 individus ont été considérés. Les résultats obtenus sont présentés dans le tableau ci-
dessous:
Longueur Sépales 5,1 4,9 4,7 5 5 5,4 4,6 5 4,4 4,9 5,4 4,8 4,8 4,3 5,8
Longueur Pétales 1,4 1,4 1,3 2 1,4 1,7 1,4 1,5 1,4 1,5 1,5 1,6 1,4 1,1 1,2
Longueur Sépales 5,7 5,4 5,1 6 5,1 5,4 5,1 4,6 5,1 4,8 5 5 5,2 5,2 4,7
Longueur Pétales 1,5 1,3 1,4 2 1,5 1,7 1,5 1 1,7 1,9 1,6 1,6 1,5 1,4 1,6
Il y a-t-il une différence significative entre

les longueurs de ces parties de la fleur?
Les deux échantillons sont appariés c-à-d qu’ils ne sont pas indépendants: les
deux méthodes sont appliquées chaque fois sur chacun des individus de
l’échantillon.
Ici, on s’intéresse à la différence "d" entre les deux mesures

sur chacun des individus statistiques: d=Xsépale - Xpétale
La question posée est donc de savoir si la moyenne des différences (𝐝)̅

est différente de 0, par conséquent, on est ramené en fait à comparer
une moyenne observée (celle des d) à une moyenne théorique (η0 = 0)
9
08/11/2023
1 – Choix de la catégorie de test appropriée
Etude de normalité de la distribution de la différence « d » entre les deux mesures appariées
On vérifie que d suit une loi normale dans la population de moyenne: 𝑑 et d’écart-type 𝑠 .
2 – Formulation des hypothèses

H0 : 𝑑 = 0
H1 : 𝑑̅ ≠ 0
3 – Choix de la loi de référence appropriée:
Puisque d suit une loi normale dans la population de moyenne: 𝑑 et d’écart-type
𝑠 , alors 𝑡 = suit une loi de student à n – 1 degrés de liberté, par conséquent cette loi peut
être utilisée comme référence pour réaliser cette analyse.
𝑑̅ et 𝑠 , sont estimés respectivement à partir de l’échantillon

Règle de mise en œuvre et de décision du test t de student
- On définit un seuil de probabilité α, en dessous duquel, la valeur de t calculée, sera
considérée comme significativement différente de 0;
- À partir des données, on calcule la valeur de tobservé à l’aide de la formule 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é =
10
08/11/2023
- Dans la table du t de student, on apprécie pour le degrés de liberté n-1 correspondant, la
valeur du "tobservé" par rapport à celle du t de référence :
 Si tobservé < t de référence, H0 est retenue et, par conséquent, par conséquent, 𝒅 = 𝟎
 Si tobservé > t de référence, on rejette H0 et, par conséquent, 𝒅 ≠ 𝟎
- Dans le logiciel, on apprécie pour le degrés de liberté (n-1) correspondant, la probabilité "p" avec
laquelle la valeur tobservé est obtenue, par rapport au seuil préalablement défini (généralement 5%):
• Si p< α, on rejette H0 et, par conséquent 𝒅 ≠ 𝟎
• Si p> α, H0 est retenue et, par conséquent 𝒅 = 𝟎
Exemples de résultats obtenus
On observe que tcalculé=52,57> tcritique(ddl=29, α=0,05)=2,0452

Ec-Type
Moyenne Ec-Type N Différ. t dl p
Différ.
Longueur Sépales 5,027 0,372
Longueur Pétales 1,473 0,186 30 3,553 0,370 52,57 29 0,000
11
08/11/2023
Exercice d’application 3.2: Comparaison des longueurs des sépales et
des pétales chez l’espèce d’iris appelée
Setosa
Reprenez l’exercice proposé dans l’exemple de situation 3.2
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS

En vue d’estimer les différences de productivité qui peuvent exister entre
plusieurs types de forêts de hêtre de l’ardenne belge, Dagnélie (1957) a mesuré,
en différents endroits la hauteur (qui est étroitement liée à la production en
volume) des arbres les plus gros. Trois type de hêtraies ont été considérées au
sein desquelles on a observé les hauteurs des arbres respectivement en 13
endroits, en 14 endroits et en 10 endroits différents, choisis au hasard et
indépendamment les uns des autres. En chaque endroit, les cinq arbres les
plus gros situés au sein d’une parcelle circulaire d’environ 15 m de rayon ont
été mesurées, chacun deux fois, et pour chaque lieu, la moyenne des 10
observations a été calculée. Pour éviter la présentation de données trop
nombreuse, seules ces moyennes ont été présentées dans le tableau ci-dessous :
12
08/11/2023
Exemple de situation 3.3 (suite)
Type 1 Type 2 Type 3
23,4 22,5 18,9
24,4 22,9 21,1
24,6 23,7 21,2
24,9 24 22,1
25 24,4 22,5
26,2 24,5 23,6
26,3 25,3 24,5
26,8 26 24,6
26,8 26,2 26,2
26,9 26,4 26,7
27 26,7 On voudrait savoir si la productivité est la même dans
27,6 26,9 la forêt de type 2 et dans la forêt de type 3
27,7 27,4
28,5
1 – Choix de la catégorie de test appropriée: Etude de normalité de la distribution
Ici, les deux échantillons sont indépendants
Soit X, la variable aléatoire réelle correspondant à la
hauteur des arbres.
On vérifie que X suit une loi normale dans chacun

des deux échantillons.
13
08/11/2023
Soit X, la variable aléatoire réelle correspondant à la production des arbres.
2– Formulation des hypothèses
H0: les échantillons sont issus de la même population, dans laquelle, X suit une loi
normale de moyenne η0 et d’écart-type 𝜎0
H1: les échantillons sont issus de populations différentes
Corollaires de H0:
- Les moyennes des deux populations (type 2 et type 3) sont identiques: η2=η3=η0
- Les variances des deux populations (type 2 et type 3) sont identiques: 𝜎22 = 𝜎32 = 𝜎02
homoscédasticité ou homogénéité des variances
3– Etude de l’homogénéité des variances
Test de Hartley
On calcule la variance de chacun des
échantillons à comparer, et on fait le rapport
de la plus grande sur la plus petite, ce
rapport est Fmax de Hartley.
Cette valeur est comparée, dans la table de
Hartley (ou de Fmax), à une valeur théorique
et doit lui être inférieure pour un seuil de
risque (α) choisi et les ddl calculés
14
08/11/2023
4 – Choix de la loi de référence appropriée:
Puisque X, suit une distribution normale dans chacun des deux échantillons d’une
part, et que les deux variances sont homogènes d’autre part, alors,
̅ ̅
𝑡= , suit une loi de t de student à n2 + n3 - 2 degrés de liberté, par conséquent, cette
loi peut être utilisée comme référence pour effectuer cette comparaison.
La logique du test reste identique à celle décrite plus haut: Si les deux moyennes sont
égales, t devrait tendre vers 0.
Les moyennes η2 et η3 des deux populations (type 2 et type 3) dont sont issus les deux
échantillons, sont estimées par 𝑥̅ et 𝑥̅
5- Règle de mise en œuvre et de décision du test t de student
- On définit un seuil de probabilité α (généralement 5%), en dessous duquel, la valeur de t
calculée, sera considérée comme significativement différente de 0;
- À partir des données des deux échantillons, on calcule la valeur de tobservé à l’aide de la
𝒙 𝟐 𝒙𝟑
formule, 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é
=
𝒔𝟐 𝟐
𝟐 𝒔𝟑
𝒏𝟐 𝒏𝟑
15
08/11/2023
Dans la table du t de student, on apprécie pour le degrés de liberté (n2 + n3 – 2)
correspondant, la valeur du "tobservé" par rapport à celle du t de référence :
• Si tobservé < t de référence, H0 est retenue et, par conséquent, 𝒙𝟐 = 𝒙𝟑
•Si tobservé > t de référence, on rejette H0 et, par conséquent, 𝒙𝟐 ≠ 𝒙𝟑
Avec le logiciel, on apprécie pour le degrés de liberté (n2 + n3 – 2) correspondant, la valeur du
"p" avec laquelle la valeur tobservé est obtenue, par rapport au seuil fixé:
• Si p< α, on rejette H0 et, par conséquent, 𝒙𝟐 ≠ 𝒙𝟑
• Si p> α, H0 est retenue et, par conséquent, 𝒙𝟐 = 𝒙𝟑
tobservé = 2,215
Exemples de résultats obtenus tcritique(ddl=22; α=0,05) = 2,074
Ratio p Brn- dl Brn- p Brn-
valeur F Varian Levene dl Fors Fors Fors
𝑥̅ 𝑥̅ dl p 𝑛 𝑛 𝑠 𝑠 Varian ces F(1,dl)
p Levene
F(1,dl)
t Levene
ces
Type 2
vs. 25,39 23,14 2,62 22 0,02 14 10 1,77 2,44 1,89 0,29 1,29 22 0,27 1,23 22 0,28
Type 3
Interprétez ces résultats!!!

16
08/11/2023
Exercice d’application 3.3: Comparaison de la productivité de deux

types de forêts de hêtraie
En reprenant les données présentées dans l’exemple de situation 3,

comparer les productivités des forêts de type 1 et de type 2, en considérant
que leurs coefficients d’asymétrie et d’aplatissement sur les observations
faites sont respectivement de -0,507 et -0,923 (pour le type 1) et -0,041 et -
0,575 (pour le type 2).
34
17
08/11/2023
2ème partie : CAS DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS

INDÉPENDANTS
Plan
Exemple de situation
Mise en place du test (de l’ANOVA)
Logique de l'ANOVA à 1 critère de classification
Décomposition de la variance totale
Calcul du rapport des variances (F)
Hypothèses de l’ANOVA
Vérification du respect des hypothèses de l’ANOVA sur des données à comparer
Formulation de hypothèses nulles et alternatives en vue de la mise en œuvre d’une ANOVA,
Règle de mise en œuvre de l’Analyse de Variance (ANOVA)
Règle de décision de l’Analyse de Variance (ANOVA)
Exemple de résultats
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Pour évaluer l'impact sur l'environnement de 3 types d’engrais, on considère 3 parcelles identiques sur
lesquelles on cultive la même variété de céréale, mais avec 3 types d'engrais. La variabilité mesurée par
voie chimique sur des échantillons ramenés en laboratoire est la concentration résiduelle en azote dans le
sol, exprimée en kg N/ha. Sur chacune des parcelles, l’on prélève 5 échantillons, à la même profondeur et
dans des conditions identiques. Les résultats obtenus sont présentés dans le tableau ci-dessous:
Il y a-t-il une différence

significative entre les 3 types
d’engrais ?
18
08/11/2023
Mise en place de l’ANOVA
Lorsqu’on veut comparer plus de deux moyennes, c'est la dispersion, mesurée par la variance, qu'il
faut examiner; c'est la raison pour laquelle cette analyse est appelée "analyse de la variance".
Le but de l’analyse de la variance est de tester la présence ou non de différences
significatives entre des moyennes. Elle permet également d’identifier les sources de
variation qui peuvent permettre d’expliquer les différences qu’il y a entre ces moyennes.
La Logique de l'ANOVA repose:

- d’une part, sur une décomposition de la variance totale en variance inter groupe due aux
écarts entre les moyennes et en variance intragroupe due aux écarts de moyennes entre les
différentes modalités d’un facteur,
- puis on compare à l’aide de la loi de F de Fisher-Snedecor, ces deux variances en comparant leur
ratio à l’unité,
- Lorsque le ratio est assez grand (Fcalculé>Fcritique), on conclut que les moyennes des populations
sont significativement différentes l’une de l’autre.
Mise en place du test: Analyse de Variance (ANOVA)
( − )+ -
∑𝒑𝒊 𝟏 ∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙
𝟐 = ∑𝒊
𝒑
𝟏 𝒏𝒊 𝒙 𝒊 − 𝒙
𝟐 𝒑
+ ∑𝒊 𝟏 ∑𝒌 𝟏 𝒙𝒊𝒌 −
𝒏𝒊
𝒙𝒊 𝟐
SCEt SCEα entre échantillons SCEr
19
08/11/2023

Variance de toutes Variance des Moyenne des

les observations = moyennes + variances
𝒑 𝒑
𝟏 𝟏 𝟏
∗ 𝒙𝒊 − 𝒙 𝟐 = ∗ 𝒙𝒊 − 𝒙 𝟐
+ *∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙𝒊 𝟐
N−𝟏 𝒄−𝟏 𝑵 𝒄
𝒊 𝟏 = 𝒊 𝟏
Variance totale = 𝑺𝟐𝒊𝒏𝒕𝒆𝒓𝒈𝒓𝒐𝒖𝒑𝒆 𝑺𝟐𝒊𝒏𝒕𝒓𝒂𝒈𝒓𝒐𝒖𝒑𝒆

+
Calcul du rapport des variances (F)
𝟏
𝒄 𝟏
𝒑
∗𝒏∗∑𝒊 𝟏 𝒏𝒊 𝒙𝒊 − 𝒙 𝟐
n∗variance inter groupe
𝑭= =
variance intragroupe
𝒙𝒊𝒌 − 𝒙𝒊
𝟏
𝑵 𝒄
∗ ∑𝒏𝒊
𝒌 𝟏
𝟐
Avec : n: nombre commun d’observations dans chaque groupe; c: nombre de groupes et

N: nombre total d’observation dans tous les groupes (N=Ʃn)
L’ANOVA consiste donc comparer la variance intergroupe à la variance intragroupe :

 Si ces deux variances étaient égales, leur rapport vaudrait 1.
 Si le rapport était beaucoup plus grand que l'unité, nous pourrions affirmer que la variance intergroupe est
beaucoup plus élevée que la variance commune, et donc que le facteur étudié (ici le type d’engrais) a une
influence sur le résultat (ici la concentration en azote résiduelle dans le sol).
 A l'inverse, si le rapport est largement inférieur à 1, la différence entre les moyennes ne pourrait pas être
expliquée par le facteur étudié.
20
08/11/2023

1 – Les hypothèses de l’ANOVA
Pour mettre en œuvre l’ANOVA paramétrique de Fisher, les hypothèses suivantes doivent
être vérifiées:
- Les p échantillons comparés sont indépendants;
- Normalité de la distribution: la variable quantitative étudiée suit une loi normale
dans les p populations comparées;
- Homogénéité ou homoscédasticité des variances: les p populations comparées ont la
même variance
1 – Vérification des hypothèses de l’ANOVA
Indépendance
Il n’y a pas de test statistique pour vérifier l’indépendance: ce sont les conditions dans lesquelles l’expérience a
été mise en œuvre qui déterminent si l’on est dans le cas d’indépendance.
Normalité
Plusieurs tests sont disponibles dont ceux présentés dans le chapitre 2 (quelques bases de
l’inférence statistique à une dimension)
Homogénéité
Plusieurs Tests sont disponibles : Test de Hartley, test de Brown et Forsythe, Test de
Levenne, Test de Bartlett, …
Le test de Hartley consiste à calculer le paramètre Fmax en divisant la variance la plus
élevée par la variance la plus faible, L’interprétation du résultat obtenu est réalisée à
l’aide de la table statistique du Fmax de Hartley.
21
08/11/2023
2 – Formulation des hypothèses

H0: - les échantillons sont issus de la même population, dans laquelle, X suit une loi normale de
moyenne η0 et d’écart-type 𝜎 0:
- la variance entre les groupes (inter) devrait être à peu près la même que la variance estimée
avec la variabilité à l’intérieur de chaque groupe (intra)
H1: les échantillons sont issus de populations différentes

Corollaires de H0:
- Les moyennes des trois populations (type1, type 2 et type 3) sont identiques: η1=η2=η3=η0
- Les variances des trois populations sont identiques: 𝜎12 = 𝜎22 = 𝜎32 = 𝜎02 homoscédasticité ou
homogénéité des variances
Règle de mise en œuvre de l’Analyse de Variance (ANOVA)
- On définit un seuil de probabilité α, en dessous duquel, la valeur de Fcalculée (ou Fobservé),
sera considérée comme significativement inférieure à Fcrtitique pour les dégrés de liberté c−1
et N−c, respectifs du numérateur et du dénominateur
- À partir des données, on calcule la valeur de Fobservé à l’aide de la formule,
𝟏
𝒄 𝟏
∗𝒏∗∑𝒄𝒊 𝟏 𝒏𝒊 𝒙𝒊 − 𝒙 𝟐
𝑭= =
𝟏
∗ ∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙𝒊 𝟐 variance intragroupe
𝑵 𝒄
𝒏∗
𝟏
∗∑𝒄 𝒏 𝒙
𝒑 𝟏 𝒊 𝟏 𝒊 𝒊
−
𝒙 𝟐
En fait, c'est le rapport 𝑭 = = que nous étudierons.

∗𝟏
𝑵 𝒄
∑𝒏𝒊− 𝒙𝒊 𝟐
𝒌 𝟏 𝒙𝒊𝒌
variance intragroupe
Dans cette expression, pour des raisons de cohérence des ordres de grandeur, la variance
intergroupes au numérateur est multipliée par le nombre commun d'observations (n), afin que le
rapport F fluctue autour de la valeur 1.
22
08/11/2023
- Dans la table du F de Fisher, on apprécie pour les ddl (c-1) et (N-c) correspondant, la
valeur de Fobservé par rapport à la valeur Fcritique :
• Si Fobservé < Fcritique, H0 est retenue et, par conséquent, il n’y a pas de différence
significative entre les moyennes
• Si Fobservé > Fcritique, on rejette H0 et, par conséquent les moyennes sont
significativement différentes
- Dans les logiciels on apprécie pour les degrés de liberté (c-1) et (n-c) correspondant et le
seuil α préalablement retenu, la probabilité "p" avec laquelle la valeur de Fobservé est
obtenue :
• Si p< α, on rejette H0 et, par conséquent, Fobservé> Fcritique
•Si p> α, H0 est retenue et, par conséquent, Fobservé< Fcritique
46
23
08/11/2023
Normalité de la distribution des observations
Interprétez ces résultats!!! 47
Homogénéité
des variances
On a Fmax calculé < Fmax critique

donc les variances sont homogènes
48
24
08/11/2023
Anova de Fisher
Les calculs manuels permettent de trouver:
Fcalculé = 8,30 > Fcritique (2;12)= 3,89 par

conséquent, Vintergroupe significativement
supérieure à la Vintragroupe
On en déduit, qu’il y a une différence
significative entre les 3 types d’engrais
49
Anova de Fisher
À l’aide du logiciel statistica on
obtient le résultat:
50
25
08/11/2023
Analyse a posteriori (post-hoc) des moyennes
L’Anova met en évidence l’influence d’un facteur (variable d’intérêt) en utilisant les
moyennes, il peut être intéressant de spécifier nommément sur quelles groupes portent
ces différences (il y a une influence du type d’engrais) sur la teneur en azote résiduel
dans le sol: quelle est le meilleur type d’engrais?
Si le test F est significatif cela veut dire que les moyennes sont statistiquement
différentes. Pour, avoir des précisions sur quelle moyenne diffère de quelle autre
moyenne, il faut réaliser une analyse a posteriori (post-hoc) des moyennes (comparaisons
multiples sur le même ensemble de données)
Analyse a posteriori (post-hoc) des moyennes
Il existe 3 procédures pour faire de l’inférence après avoir vu les données sans affecter le
coefficient de confiance:
 Méthode de Tukey («HSD = Honest Significant Differences »): supérieure et
recommandée, si on veut seulement faire des comparaisons entre les paires de
moyennes;
 Méthode de Scheffé pour les contrastes

 Méthode de Bonferronni pour les comparaisons prédéfinies: préférable à la procédure de
Scheffé si le nombre de contrastes d’intérêt est à peu près le même que le nombre de
modalités.
Mais, il existe également d’autres procédures pour des fonctions spécialisées. Par
exemple:
 la procédure de Dunnett pour comparer chaque traitement vis-à-vis d’un contrôle
 Procédure de Hsu : choisir le « meilleur » traitement.
26
08/11/2023
COMPARAISON DE
PLUS DE DEUX
MOYENNES POUR
ÉCHANTILLONS
INDÉPENDANTS
Exemple de résultat
obtenu de l’Analyse a
posteriori (post-hoc)
des moyennes
concernant la
comparaison de la
productivité des 3
hêtraies
Exercice d’application
Supposons qu‘on veuille évaluer l'impact sur
l'environnement de pratiques culturales. L’on considère 3
parcelles sur lesquelles l’on cultive la même variété de
céréale, mais avec différents types d'engrais. La
variabilité mesurée par voie chimique sur des échantillons
ramenés en laboratoire est la concentration résiduelle en
azote dans le sol, exprimée en kg d'azote par hectare. Sur
chacune des parcelles, l’on prélève 5 échantillons, à la
même profondeur et dans des conditions identiques.
Comparer les impacts de ces
Le tableau ci-contre indique un scénario possible de trois types d’engrais sur
résultats: l’environnement
27
08/11/2023
Merci de votre aimable attention
28
08/11/2023

Chapitre 4:
DESCRIPTION ET INFERENCE
STATISTIQUES A DEUX DIMENSIONS

1
A la fin de ce cours les étudiants doivent être capables de :
- Résumer des données brutes portant simultanément sur deux variables sous la forme de
distribution de fréquences en utilisant aussi bien des outils tabulaires que des outils graphiques;
- Définir les notions de fréquences marginales, distributions marginales, fréquences conditionnelles,
distributions conditionnelles ;
- Mesurer l'intensité de la liaison entre deux variables quantitatives ;
- Mesurer l'intensité de la liaison entre deux variables ordinales ;
- Mesurer l'intensité de la liaison entre deux variables dichotomiques (exemple, en écologie)
- Mesurer l'intensité de la liaison entre deux variables qualitatives;
- Expliquer ce qu’est la régression linéaire et ses applications,
- Connaître les principales formes du modèle linéaires,
- Décrire les étapes de l’étude de la régression linaire,
- Analyser et d’interpréter les résultats d’une régression linaire.
1
08/11/2023
PLAN
INTRODUCTION
DESCRIPTION STATISTIQUE
Distributions de fréquence à 2 dimensions et distributions associées
Caractérisation des distributions marginales et des distributions conditionnelles
INFÉRENCE STATISTIQUE
Mesure de l’intensité de la liaison entre deux variables
Cas des données quantitatives: Corrélation de Pearson
Cas des données ordinales: Corrélation de Spearman
Cas des données dichotomiques comme en écologie: Indices de similitude, de diversité
Cas des données qualitatives: Test du χ2, Test du χ2 corrigé de Yates, Comparaison de 2 proportions
Caractérisation de la nature de la liaison entre deux séries statistiques
 Cas de deux variables quantitatives (Régression linéaire simple)
1ère partie:
Description Statistique à deux dimensions et Mesure de
l'intensité de la liaison entre deux variables
PLAN
INTRODUCTION
DESCRIPTION STATISTIQUE
INFÉRENCE STATISTIQUE
Cas des données quantitatives: Corrélation de Pearson
Cas des données ordinales: Corrélation de Spearman
2
08/11/2023
Introduction
Les buts des statistiques à 2D sont identiques à ceux des statistiques à 1D, à savoir:
- Résumer les données (Description statistique) afin que l'on puisse les interpréter
aisément,
- Tirer des conclusions générales sur toute une population à partir
d’échantillons représentatifs (inférence statistique).
Pour parvenir à ces buts, la statistique à 2D procède essentiellement par :

 la description des distributions de fréquences,
 la mesure de l’intensité de la liaison entre deux variables;
 la description de la nature de la liaison entre deux séries d'observations
considérées simultanément.
Distributions de fréquence à 2D et distributions associées

Exemple de situation 4.1: Au cours d’une étude de la croissance et du développement
de la chicorée (Cichorium intybus L.), les poids des feuilles et les poids des racines ont
été mesurées chez 1000 plantes. Une partie des données est présentée comme suit:
Séries statistiques doubles
Les observations relatives à 2 variables et à plusieurs (n) individus, se présentent à
l’état brut sous la forme d’une suite de n couples de valeurs observées (xi, yi),
éventuellement rangées dans l’ordre croissant de l’une des deux variables
Feuille Racine Feuille Racine Feuille Racine
71 56 115 57 . .
76 51 . . . .
106 40 . . . . Comment procéder
108 174 . . 660 276 pour rendre ces
109 62 634 224 662 174 informations
111 59 639 332 673 290 aisées à
111 84 642 272 679 290 comprendre?
112 94 658 253 741 230
3
08/11/2023
Distribution de fréquence à deux dimensions

Comme dans le cas d’une seule variable, une première manière de condenser ces
informations consiste à les présenter sous la forme de distribution de fréquences.
Pour 2 variables, Il s’agit de combiner 2 tables de fréquences (tableau à deux
entrées) telle que chaque cellule du tableau obtenu représente une combinaison
unique des modalités des variables croisées
Ainsi:
- Une ligne est réservée à chaque valeur de la 1ère variable par exemple X
- Une colonne est réservée à chaque valeur de la 2ème variable, par exemple Y
- À l’intersection de chaque valeur xi de X et de chaque valeur yj de Y, on mentionne
la fréquence observée du couple (xi, yj)
Fréquences marginales ou totales ni. et n.j

Elles s’obtiennent en calculant les totaux relatifs de chaque ligne et de chaque
colonne. Mathématiquement elles sont exprimées par les relations:
𝑛𝑖. = 𝑛𝑖𝑗
Dans les deux cas, le point remplace
l’indice suivant lequel on a sommé
𝑛. 𝑗 = 𝑛𝑖𝑗
𝑛𝑖. = 𝑛. 𝑗 = 𝑛𝑖𝑗 = 𝑛
Par ailleurs,
on obtient que
4
08/11/2023
Distributions marginales ou totales ni. et n.j

Elles sont obtenues en associant respectivement, à chacune des fréquences
marginales ou totales obtenues précédemment, les valeurs xi (de X) et yj (de Y)
respectives. On obtient alors, deux distributions statistiques à une dimension. Les
fréquences relatives correspondantes sont:
𝑛𝑖. X n Y n 𝑛. 𝑗
𝑛 𝑖. = 𝑛 .𝑗 =
𝑛 x1. n1. y1. n.1 𝑛
x2. n2. y2. n.2
𝑛′𝑖. = 𝑛′𝑖𝑗 . . . . 𝑛′. 𝑗 = 𝑛′𝑖𝑗
. . . .
𝑛′𝑖. = 𝑛′. 𝑗 = 𝑛′𝑖𝑗 = 1

Distributions conditionnelles (ou liées) de y à la condition x=xi.

C’est la distribution que l’on obtient en considérant une ligne particulière (et donc une
valeur particulière xi. de X) du tableau à double entrée; il comporte l’ensemble des
valeurs yj et des fréquences nij correspondantes. Il existe autant de distributions
conditionnelles ou liées de y, que de valeurs observée ou de classe de x.
Distributions conditionnelles (ou liées) de x à la condition y=y.j

Elle est obtenue en considérant une colonne particulière du tableau à double entrée.
Elle comporte l’ensemble des valeurs xi et des fréquences nij correspondantes. Il
existe autant de Distributions conditionnelles ou liées de x, que de valeurs observée
ou de classe de y.
5
08/11/2023
y
x Totaux
y1 y2 . . yj . . . yq
x1 n1.1 n1.2 . . n1.j . . . n1.q n.1
Fréquences marginales des x

x2 n2.1 n2.2 . . n2.j . . . n2.q n.2
indépendamment des y
. . . . .
Fréquences . .
de la distribution . . .
. . . . .
conditionnelle. des x .pour .y=y1. . .
. . . . . . . . . . .
xi ni.1 ni.2 . Fréquences
. . .
. de la. distribution . n.i
. . . . conditionnelle
. . des.y pour . x=xp
. . .
. . . . . . . . . . .
xp np.1 np.2 . . . . . . . .
Totaux n.1 n.2 . . n.j . . . n.q n
Fréquences marginales des y indépendamment des x

Définition

Exercice d’application 4.1:
A partir du tableau de la diapo 13, déterminer :
- La distribution des fréquences relatives
- La distribution marginale des poids des racines
- La distribution marginale des poids des feuilles
- Les distributions conditionnelles des poids des racines
- Les distributions conditionnelles des poids des feuilles
6
08/11/2023
Racines
Feuilles 40 à 80 à 120 à 160 à 200 à 240 à 280 à 320 à Totaux
79 119 159 199 239 279 319 359
0 à 79 2 2
80 à 159 49 46 5 2 102
160 à 239 86 137 46 11 280
240 à 319 27 153 89 25 7 301
320 à 399 5 45 91 40 6 187
400 à 479 10 33 21 16 1 1 82
480 à 559 1 4 11 10 3 29
560 à 639 2 1 2 4 1 10
640 à 719 1 3 2 6
720 à 799 1 1
Totaux 169 392 270 112 42 11 3 1 1000

Les données employées pour cet exemple, portent sur une analyse de la
distribution de quatre types d’engrais observés dans quatre pays. Pour ce faire 100
échantillons ont été prélevés de manière aléatoire dans ces quatre pays. Les
données brutes sont fournies au cours de la séance.
Il vous est demandé de :

- Résumer ces données sous forme de tableau de contingence (tableau de
distribution à 2D).
- Présenter la distribution marginale des types d’engrais dans les quatre pays;
- Présenter la distribution conditionnelle des types d’engrais au Bénin.
7
08/11/2023
Les paramètres relatifs à une

seule variable, servent à
caractériser les distributions
Deux types de marginales et les distributions
paramètres pour conditionnelles.
caractériser les séries
statistiques doubles et les Les paramètres qui concernent
distribution de fréquence simultanément les deux variables,
à 2D: servent à décrire les relations qui
existent entre les deux séries
d'observations.
Description des distributions marginales et des distributions

conditionnelles
Moyenne et variance marginales (si variable quantitative)
1 1
𝑥̅ = 𝑛𝑖𝑥𝑖 𝑦= 𝑛𝑗𝑦𝑗
𝑝 𝑞
𝑠 = ∑ (𝑥𝑖 − 𝑥)2 𝑠 = ∑ (𝑦𝑗 − 𝑦) 2
8
08/11/2023

Cas de deux variables quantitatives
Densité
Exemple de situation 4.2: [Enzyme]
Optique
Dans le cadre d’une étude au laboratoire, il a été
0,2 0,111
mesuré sur neuf (09) différentes dilutions d’une solution
0,4 0,246
enzymatique pure, simultanément, la concentration et la
0,6 0,364
densité optique. Le résultat obtenu est présenté dans le
0,8 0,5
tableau ci-contre.
1 0,607
1,2 0,723
Peut-on affirmer que ces deux mesures sont 1,4 0,835
1,6 0,925
corrélées ? C’est-à-dire qu’elles présentent 1,8 1,08
une bonne liaison entre elles?

Covariance cov(X,Y)
La covariance entre deux variables X et Y mesure la relation linéaire entre elles.
2,0
1 1,8
𝑐𝑜𝑣 𝑋, 𝑌 = (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦) 1,6
𝑛 1,4
1,2
1,0
1
y
𝑐𝑜𝑣 𝑋, 𝑌 = [𝑛𝑖𝑗 𝑥𝑖 − 𝑥̅ 𝑦𝑗 − 𝑦 ] 0,8

𝑛 0,6
0,4
0,2
1
𝑐𝑜𝑣 𝑋, 𝑌 = (𝑥𝑖 ∗ 𝑦𝑖 − 𝑥̅ ∗ 𝑦 0,0
0,0 0,2 0,4 0,6 0,8 1,0 1,2
𝑛
x
9
08/11/2023

Covariance cov(X,Y)
covariance grande et bonne liaison entre deux variables qui
positive => évoluent dans le même sens
covariance grande et bonne liaison entre deux variables qui

négative => évoluent en sens contraire
La covariance
covariance faibleest toujours
=> inférieure
mauvaise ou égale au produit
liaison entre des
les écart
deuxtypes
variables
La covariance souffre de la dépendance par rapport à l'ordre de grandeur des valeurs
des variables et, en particulier, par rapport aux échelles employées (voir la
démonstration à travers l’exercice d’application 4, pour cette raison on emploiera
souvent le coefficient de corrélation de Pearson)

Coefficients de corrélation (r) de Pearson
Comme la covariance, le coefficient de corrélation r, mesure l’intensité
d’une relation linéaire entre deux variables. Il a pour expression:
,
r=rxy=r(x,y)= Sa valeur est toujours comprise entre [-1; 1]
Le signe du coefficient de corrélation est le même que celui de la covariance et, il

indique le sens de la relation entre X et Y :
- r > 0 : corrélation positive, les deux variables X et Y varient dans le même sens.
- r<0 : corrélation négative, les deux variables X et Y varient en sens inverses.
- r≈0 : Aucune corrélation les deux variables ne sont pas linéairement corrélées
Dr Liady M. Nourou Dine 20
10
08/11/2023

Quelques
illustrations
Attention!!!
X et Y peuvent être
liées parfaitement
par une loi
quadratique alors
que r ≈ 0

[Enzyme] Densité Calculer la cov(X,Y) et le rX,Y [Enzyme] Densité
(mg/l) Optique entre la [enzyme] et la densité (µg/l) Optique
0,2 0,111 optique dans les deux cas 200 0,111
0,4 0,246 présentés dans les deux tableaux: 400 0,246
0,6 0,364 600 0,364
0,8 0,5 800 0,5
1 0,607 1000 0,607
1,2 0,723 1200 0,723
1,4 0,835 1400 0,835
1,6 0,925 1600 0,925
1,8 1,08 1800 1,08
11
08/11/2023

Test du coefficient de corrélation
Après le calcul du coefficient de corrélation r estimé sur un échantillon,
il faut déterminer si celui-ci est significativement différent de 0.
r≈ρ
H0 : ρ = 0 (absence de liaison linéaire entre X et Y)

H1 bilatérale : ρ ≠ 0 (existence d’une liaison linéaire entre X et Y)

Test du coefficient de corrélation (test paramétrique)
Sous l’hypothèse nulle (H0), le rapport de l’estimateur du coefficient de corrélation

𝒓
(r) sur son écart-type (sr) soit suit une loi de Student à (n-2) degrés de liberté avec
𝒔𝒓
n, l’effectif de l’échantillon.
𝒓
→𝒕 𝒏 𝟐
𝒔𝒓
𝟏 − 𝒓𝟐
L’estimateur de l’écart-type du coefficient de corrélation est égal à : 𝒔𝒓 =
𝒏−𝟐
12
08/11/2023

Test du coefficient de corrélation de Pearson (test paramétrique)
Le test du coefficient de corrélation consiste
à calculer la grandeur
𝒏 𝟐
𝒕𝟎 = 𝒓 ∗
𝟏 𝒓𝟐
et à la comparer à la valeur seuil tα sur la
table de la loi de Student à n-2 degrés de
libertés.
(to : valeur observée (calculée)

de t sur l’échantillon)

Test du coefficient de corrélation de Pearson
- Dans la table du t de student, on compare pour le degré de liberté n-2 correspondant et pour le
seuil de probabilité (α) retenu, la valeur du tobservé , par rapport à celle du "tde référence" :
• Si tobservé < t de référence, H0 est retenue et, par conséquent r = 0 (absence de liaison
linéaire entre X et Y)
• Si tobservé > t de référence, on rejette H0 et, par conséquent r ≠0 (existence d’une liaison
linéaire entre X et Y)
- Les logiciels affichent généralement plutôt, la p-value :

• Quand p> 0,05: H0 est retenue (r = 0 c-à-d absence de liaison linéaire entre X et Y)
• Quand p< 0,05, on rejette H0 (r ≠0 c-à-d il y a une liaison linéaire entre X et Y)
13
08/11/2023


Exercice d’application 4.4 :
Déterminer la significativité (par
rapport à 0) du r=0,9991 trouvé
dans l’exercice 4.3 avec n=9
observations
Cas de deux variables ordinales

Lorsque les observations des variables ne se distribuent pas normalement, une
manière classique de contourner la difficulté est de classer les valeurs selon leur rang
(de la plus petite valeur vers la plus grande), puis d'oublier les valeurs initiales et de
travailler ensuite uniquement sur les rangs. On obtient ainsi une échelle ordinale.
Sur une telle échelle, les valeurs "mesurées" ne donnent une information sur la
relation avec les autres valeurs qu'en termes de "supériorité" ou "d'infériorité", mais
n'indiquent pas "dans quelle mesure" elles sont supérieures ou inférieures
Coefficient de corrélation de rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)

𝒏 𝟐
𝒊 𝟏 𝒊
𝒔 𝟑
14
08/11/2023

Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
𝒏 𝟐
𝒊 𝟏 𝒊
𝒔 𝟑
Exemple d’application 4.1

Ordre de franchissement d’un même obstacle par un troupeau de vache numérotées
à deux moments
1er passage: G, A, B, D, I, F, J, C, E, M, H, K, N, L, O
2ème passage: A, D, G, B, K, N, C, F, H, M, E, J, O, I, L
Cas de deux variables ordinales Corrélation des rangs

N° par ordre d'arrivée Report des même N° mais
d2=(X-Y)2
(𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
au 1er passage (X) par ordre de passage (Y)
G A 1 2 1
A D 2 4 4 𝟔∗ ∑𝒏𝒊 𝟏 𝒅𝟐𝒊
B G 3 1 4 𝒓𝒔 = 𝟏 −
D B 4 3 1 𝒏𝟑 − 𝒏
I K 5 12 49
F N 6 13 49
J C 7 8 1 𝒓𝒔 = 𝟎, 𝟓𝟗; (p=0,02<0,05)
C F 8 6 4
E H 9 11 4
M M 10 10 0
H E 11 9 4
K J 12 7 25
N O 13 15 4
L I 14 5 81
O L 15 14 1
08/11/2023
∑d2=
Dr Liady M. Nourou Dine
232 30
15
08/11/2023

𝒏 𝟐
𝒊 𝟏 𝒊
𝒔 𝟑
Interprétation
Le principe de cette analyse repose sur le fait que si la relation entre les deux
ensembles de rangs était parfaite, chaque différence "d" serait nulle.
Donc plus la différence entre les rangs des deux variables est grande, moins leur
relation est étroite. Toutefois, comme pour le coefficient classique de corrélation (r de
Pearson), la significativité de cette différence est appréciée par rapport au seuil de 5%

Test du coefficient de corrélation de Spearman
16
08/11/2023

Test du coefficient de
corrélation de Spearman
Pour des petits échantillons (4<n<30), les

valeurs critiques de rs aux seuils α de 0,05
et 0,01 ont été tabulées. Cette table est
unilatérale: les valeurs observées de rs
correspondent à une direction prévue, soit
positive, soit négative. Si la valeur
observée de rs égale ou supérieure à la
valeur de la table, cette valeur observée
est significative (pour un test unilatéral) au
seuil indiqué.

Exercice d’application 4.5
Déterminer la significativité (par
rapport à 0) du rs=0,58 trouvé
dans l’exemple d’application 4.1
avec n=15 observations
17
08/11/2023

t1 t2 d d2
On dose chez des
1 4 -3 9
animaux la glycémie 2 1 1 1
à deux temps 3 5 -2 4
différents et on 4 2 2 4
souhaite savoir si les 5 3 2 4
valeurs aux deux 6 7 -1 1
7 8 -1 1
𝟔∗𝟑𝟒
temps sont corrélées. 𝒓𝒔_𝒐𝒃𝒔𝒆𝒓𝒗é𝒆 = 𝟏 − =0,72
On obtient les 8 9 -1 1 𝟗𝟑 𝟗
9 6 3 9
valeurs des rangs On trouve:
suivants : Ʃ 0 34 𝒓𝒔_𝒐𝒃𝒔𝒆𝒓𝒗é𝒆=0,72>𝒓𝒔_𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆(n=9 et α=0,05)=0,70 :
les valeurs aux deux temps sont corrélées
2ème partie: Mesure de l'intensité de la liaison entre 2

variables (suite)
PLAN
Mesure de l’intensité de la liaison entre deux variables (suite 1)
Cas des données dichotomiques comme en écologie: Indices de similitude, de diversité
Cas des données qualitatives: Test du χ2, Test du χ2 corrigé de Yates, Comparaison de 2 proportions
36
18
08/11/2023

Cas de deux variables dichotomiques
Comment apprécier le degré de liaison

entre deux variables dichotomiques (qui
ne peuvent prendre que deux valeurs : 0/1, ou
Présent/Absent ou …) ?
- Les notions de moyenne et d'écart-type deviennent non significatives

- le concept de distribution autour d'une valeur centrale n'a plus de sens :
pas de chance pour que les observations soient distribuées normalement.
- comme il n'y a que 2 valeurs possibles, le réarrangement selon les rangs
et le calcul d'un coefficient de Spearman ou de Kendall ne peut se justifier.

Ces variables sont fortement

discontinues et le graphique x-y
illustrant la relation entre deux
variables dichotomiques ne peut
présenter que 4 points, à travers
lesquels il n'est pas possible d'imaginer
une quelconque relation linéaire.
Graphique de type "x-y" pour deux variables dichotomiques

(présence ou absence de plantes sur deux sites)
19
08/11/2023

La figure, relative à l'exemple de

la présence ou de l'absence de
plantes (les "observations") sur
deux sites (les "variables") n'est
d'aucune utilité pour le
traitement des données, sinon
qu'elle montre clairement qu'une
loi linéaire entre les deux sites
ne peut être appliquée.
Graphique de type "x-y" pour deux variables dichotomiques

(présence ou absence de plantes sur deux sites)

Indices de Similarité utilisé en écologie:
Indice de similarité de Jaccard (SJ)
Où:
- c est le nombre d'espèces partagées entre les deux sites et,
- a, b sont les nombres d'espèces uniquement rencontrées sur chacun des deux sites
SJ indique la proportion d'espèces communes à deux sites, parmi la liste complète

des espèces considérées sur les deux sites
20
08/11/2023

Indices de Similarité utilisé en écologie:
Coefficient de communauté de Sørensen (CC)
Dans cette relation, au lieu de diviser le nombre d'espèces partagées par le nombre total d'espèces
rencontrées sur les deux sites, on le divise par le nombre moyen d'espèces
𝟐𝒄
𝒂 𝒃 𝟐𝒄
Il indique aussi la proportion d'espèces communes à deux sites, parmi la liste
complète des espèces considérées sur les deux sites
Exemple d’application 4.7: (données à recevoir au cours)

Evaluer le degré de similitude entre les stations considérées deux à deux

Indices de Diversité utilisés en écologie:
La richesse spécifique seule, ne suffit pas pour rendre compte de la composition
floristique ou faunistique quantitative d’un peuplement végétal ou animal car,
deux peuplements présentant la même composition floristique ou faunistique
(mêmes espèces) peuvent être caractérisés par des indices de diversité très
différents :
- un peuplement dont toutes les espèces possèdent le même nombre d’individus
possède la diversité maximale,
- un peuplement dont une espèce est majoritairement dominante, possède une
diversité moindre.
21
08/11/2023

Indices de Diversité utilisés en écologie:
Prend en compte non seulement le nombre d’espèces, mais également la
distribution des individus au sein de ces espèces
Shannon-Weaver (H’) 𝒔
𝒊 𝒊 𝟐 𝒊
𝑝 : effectif relatif soit 𝑝 =
n : nombre total d'individus
ni : nombre d'individus d'une espèce donnée, i allant de 1 à S (nombre total d’espèces).
La valeur de l’indice (H’) varie de 0 (une seule espèce, ou bien une espèce dominant
très largement toutes les autres) à log S (lorsque toutes les espèces ont la même
abondance).

Indices d’équitabilité utilisé en écologie:
L’indice de Shannon est souvent accompagné par l’indice d’équitabilité de Piélou (J’):
𝑯 𝑯
=
𝑯𝒎𝒂𝒙 𝒍𝒐𝒈𝟐(𝑺)
mesure la répartition des individus au sein des espèces, indépendamment de la

richesse spécifique. Sa valeur varie de 0 (dominance d’une des espèces) à 1
(équirépartition des individus dans les espèces).
22
08/11/2023

Station 1 ni pi log2(pi) -pi*log2(pi)
Astragalus armatus 4 0,1739 -2,5236 0,4389
Deverra tortuosa 2 0,0870 -3,5236 0,3064
Exercice Zygophyllum album 1 0,0435 -4,5236 0,1967
d’application 4.8: Cynodon dactylon 1 0,0435 -4,5236 0,1967
(Source: Jauffret, 2001) Diplotaxis harra 4 0,1739 -2,5236 0,4389
Astragalus corrugatus 1 0,0435 -4,5236 0,1967
Stipa capensis 10 0,4348 -1,2016 0,5224
N 23
S 7
H' 2,2966
J 0,818
Qu’en est-il de la deuxième variable (Station 2?)

Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes
Exemple de situation 4.2:
Considérons les données de McHugh (2013) relatives à l’effet d’un vaccin sur trois
catégories de personnes et qui sont présentées dans le tableau de fréquence 3 x 2
ci-dessous.
Etat vaccinal
Etat de santé
Non vacciné vacciné
Pneumonie de type
23 5 Peut-on dire que la
pneumococcal
Pneumonie de type non
vaccination influence l’état
8 10 de santé des individus au
pneumococcal
Sain 61 77 sein de cette population?
23
08/11/2023

Test d’indépendance du χ2
Avec:
O: effectif observé et
T: effectif théorique
• Un test non paramétrique;

• Adapté pour étudier la dépendance entre deux groupes lorsque la variable
dépendante est exprimée sur une échelle nominale;
• Fourni des informations sur les deux variables en général (indépendance ou non)
mais également sur chaque groupe;
• Si le résultat du questionnaire est peu probable lorsque les variables sont
indépendantes, on rejettera cette hypothèse.

Avec:
O: effectif observé et
T: effectif théorique
Logique du test:
Si les lignes et colonnes d'une table (L*C) sont complètement indépendantes entre
elles, les effectifs théoriques (T) peuvent être reproduites à partir des totaux lignes et
colonnes seuls (totaux marginaux) et devraient être égaux aux effectifs observés (O).
Le Χ2 permet donc de mesurer les écarts entre les effectifs observés (O) et les
effectifs théoriques (T)
24
08/11/2023

1. Calcul des marges
2. Calcul des effectifs théoriques
3. Calcul des χ2 des cellules
Mise en œuvre du test : 4. Calcul du χ2 de la table
5. Calcul du degré de liberté
6. Détermination de χ2 critique
7. Interprétation.

Test d’indépendance du χ2 Variable

Etape 1: Calcul des marges dépendante
Etat vaccinal Marges des

Etat de santé
Non vacciné vacciné lignes
Pneumonie de type
23 5 28
pneumococcal
Pneumonie de type
8 10 18
non pneumococcal
Sain 61 77 138
Marges des colonnes 92 92 184
25
08/11/2023

Etape 2: Calcul des effectifs théoriques (Ti)
𝑴𝒂𝒓𝒈𝒆 𝑳𝒊𝒈𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒄𝒆𝒍𝒍𝒖𝒍𝒆 ∗ 𝑴𝒂𝒓𝒈𝒆 𝒄𝒐𝒍𝒐𝒏𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒄𝒆𝒍𝒍𝒖𝒍𝒆
𝑻𝒊 =
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒐𝒕𝒂𝒍
Etat vaccinal Profils lignes

Etat de santé
Non vacciné vacciné (marges des lignes)
Pneumonie de type pneumococcal 14 14 28
Pneumonie de type non pneumococcal 9 9 18
Sain 69 69 138
Profils colonnes (marges des colonnes) 92 92 184

𝟐
Etape 3: Calcul des χ2 des cellules 𝑶 −𝑻
Etat vaccinal χ𝟐𝒄𝒆𝒍𝒍𝒖𝒍𝒆 =
Etat de santé
𝑻
Non vacciné Vacciné
Pneumonie de type
5,79 5,79
pneumococcal
Pneumonie de type non
0,11 0,11
pneumococcal
Sain 0,93 0,93
𝟐
Etape 4: Calcul du χ2 de la table χ𝟐𝒕𝒂𝒃𝒍𝒆 = χ𝟐𝒄𝒆𝒍𝒍𝒖𝒍𝒆𝒔 =
𝑶 −𝑻
𝑻
Dans le cas présent, χ2 total =13,65
26
08/11/2023

Etape 5: Calcul du degrés de liberté
𝑑𝑑𝑙 = (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑙𝑖𝑔𝑛𝑒𝑠 − 1) ∗ (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑜𝑙𝑜𝑛𝑛𝑒𝑠 − 1)
Dans le cas présent, ddl= (3-1)*(2-1)=2

Etape 6: Détermination du χ2 critique
On voit que pour ddl=2 et au seuil α = 0,05,
χ = 5,99
27
08/11/2023

Etape 7: Interprétation
7.1 Analyse du χ2 total
Etant donné que χ é = 13,65 > χ = 5,99, l’hypothèse non nulle
(d’indépendance des deux variables) est rejetée et, l’alternative selon laquelle l’état
vaccinal influence significativement l’état de santé est acceptée.
Cependant ce résultat n’explique pas à lui seul à quoi est dû cette influence. Pour le
savoir, il faudrait analyser les χ2 des cellules.

Etape 7: Interprétation Le tableau montre que la valeur de χ2 la plus
7.2 Analyse des χ2 des cellules élevée (5,79) est observée dans la cellule 1.
Cela est dû au fait que la valeur observée (24)
Non
Etat de santé Vacciné est largement supérieure à la valeur
vacciné théorique (14); ainsi dans cette cellule il y
Pneumonie de type
5,79 5,79 beaucoup de cas observé que ce qui est
pneumococcal attendu, cette cellule présente le nombre de
Pneumonie de type
0,11 0,11 personne non vaccinées qui ont contractées la
non pneumococcal maladie et signifie donc que le nombre de
Sain 0,93 0,93 personnes non vaccinées ayant contracté la
maladie est beaucoup plus important que prévu.
28
08/11/2023

La deuxième plus importante valeur de χ2 est
7.2 Analyse des χ2 des cellules observée dans la cellule 2; cependant, dans
Non cette cellule, on constate que le nombre
Etat de santé Vacciné
vacciné de personnes observées(5) est largement
Pneumonie de type plus inférieur au nombre de personnes
5,79 5,79 attendues (14). Cela signifie qu’un nombre
pneumococcal
Pneumonie de type significativement faible de personnes
0,11 0,11 vaccinées, contractent la maladie par rapport
non pneumococcal
Sain 0,93 0,93 à ce qui aurait été observé si le vaccin n’avait
pas d’effet.

7.2 Analyse des χ2 des cellules En ce qui concerne les cellules, une
Etat de santé Non vacciné Vacciné valeur χ2 <1 peut être interprétée
comme: le nombre de cas observé
Pneumonie de type est approximativement égal au
5,79 5,79
pneumococcal nombre de cas attendu.
Pneumonie de type
0,11 0,11
non pneumococcal Ainsi, la vaccination n’a d’effet sur
Sain 0,93 0,93 aucune des autres cellules restantes
29
08/11/2023

Test d’indépendance du χ2 Exercice d’application 4.9:

Dans le but d’étudier l’influence du type de traitement
appliqué sur l’état physiologique des plantes, on a
considéré un échantillon de 90 plantes. 40 plantes ont
été soumises au traitement 1 et les 50 plantes
restantes ont été soumises au traitement 2. Les états
physiologiques observés à l’issue de l’expérience sont
présentés dans le tableau dont une vue partielle est
donnée ci-contre le fichier des données complètes vous
sera remis pendants pour effectuer l’exercice.
l’état physiologique dépend-t-il du traitement appliqué?

30
08/11/2023

Test d’indépendance du χ2 Exercice d’application 4.9

:

31
08/11/2023

Cas des tableaux 2x2
Exemple de situation 3 :
Considérons les données de Freeman et Julious (2007) présentées dans le tableau
de fréquence 2 x 2 ci-dessous relatives à l’étude de l’ulcère du pied sur 233
personnes dont 120 on été soignées dans une clinique et 113 à la maison.
Traitement À partir de l’analyse

Résultat Total
Clinique Maison de ces données, peut
Guéris 22 17 39 on dire que résultat
Non Guéris 98 96 194 obtenu dépend
Total 120 113 233 significativement du
lieu de soin?

Test d’indépendance du χ2 corrigé de Yates
Dans les tableaux 2 x 2, même lorsque les effectifs théoriques sont>5, les
approximations mathématiques pour les tests statistiques sont suboptimales, et
l’hypothèse nulle (H0) est très souvent rejetée à tort lorsque l’on applique la formule
classique de calcul du X2. Afin de pallier ce problème, la correction de continuité de
Yates est recommandée. Dans ce cas on utilise l’expression:
𝑂 − 𝑇 − 0,5 Avec:
χ = - O: Effectif observé
𝑇 - T: effectif théorique
32
08/11/2023

Pour les données du tableau précédent (Freeman et Julious, 2007), le détail des
calculs se présente dans le tableau ci-dessous:
𝟐 𝑶 − 𝑻 − 𝟎, 𝟓 𝟐
O T 𝑶 − 𝑻 − 𝟎, 𝟓 𝑶 − 𝑻 − 𝟎, 𝟓
𝑻
Guéris/Clinique 22 20,1 1,4 1,96 0,098
Non guéris/Guéris 98 99,9 1,4 1,96 0,020
Guéris/Maison 17 18,9 1,4 1,96 0,104
Non guéris/Maison 96 94,1 1,4 1,96 0,021
Total 233 233 0,242

χ =0,24 alors que χ𝒄𝒍𝒂𝒔𝒔𝒊𝒒𝒖𝒆 aurait été =0,45 si la correction de Yates n’avait pas été
appliquée.
χ , , =3,84,
Le logiciel statistica Chi-deux (dl=1) 0,45 p=0,50

donne le résultat ci Chi ² corrigé de Yates 0,25 p=0,62
contre:
Dans les 2 cas, on observe que: p>α ou encore χ=0,24 < χ

d’où le lieu de traitement n’influence pas l’état de santé
33
08/11/2023

Comparaison de 2 proportions (Approximation normale d’une distribution binomiale)
Applicable lorsque n est grand, np >5 et n(1-p)>5
Cette analyse part, de l’hypothèse nulle H0: "il y a une proportion commune π", estimée par
la proportion totale "p" d’individus pour lesquels la réponse est observée. "p" sert alors à
calculer l’erreur standard de la différence de proportion s(p1-p2).
1 1
𝑠(𝑝 − 𝑝 ) = 𝑝 1−𝑝 +
𝑛 𝑛
p1−p2
Le rapport 𝒁𝒐𝒃𝒔𝒆𝒓𝒗é = suit une distribution N(0;1) et on pourra déterminer à l’aide
s(p1−p2)
de la table statistique de N(0;1), la probabilité de trouver une valeur n’appartenant pas à
l’intervalle [-Zcalculé; Zcalculé].
Illustrons la méthode avec les données du tableau précédent

Cas de deux variables qualitatives Cas des tableaux 2x2
Comparaison de 2 proportions (Approximation normale d’une distribution binomiale)
Applicable lorsque n est grand, np >5 et n(1-p)>5 𝑎+𝑐
𝑝=
𝑎+𝑏+𝑐+𝑑
Traitement
Résultat Total
Clinique Maison 1 1
𝑠(𝑝 − 𝑝 ) = 𝑝 1−𝑝 +
Guéris 22=a (=n1p1) 17=c (=n2p2)) 39=a + c (=np) 𝑛 𝑛
Non Guéris 98=b [=n1(1-p1)] 96=d [=n2(1-p2)] 194=b + d [=n(1-p)]
𝑝 = 𝑝 =
Total 120 113 233
= a + b (=n1) = c + d (=n2) = a + b + c + d (=n) 𝑝 −𝑝
𝑍 é =
𝑠(𝑝 − 𝑝 )
On observe : p=0,167; np=39; n(1-p)=194 donc les conditions d’application de ce test sont vérifiées
p1=0,183; p2=0,150; s(p1-p2)= 0,049; p1-p2=0,033 et Zcalculé=0,672 et
p( 𝑍 > 0,672) = 2 ∗ 1 − p(𝑍 < 0,672 = 2 ∗ 1 − 0,7486 = 2 ∗ 0,2514 = 0,5028
par conséquent p>α d’où le lieu de traitement n’influence pas l’état de santé
34
08/11/2023
3ème partie: Caractérisation de la nature de la liaison entre

deux séries statistiques
Caractérisation de la nature de la liaison entre deux séries statistiques : Cas de

deux variables quantitatives (Régression linéaire simple)
69

Cas de deux variables Régression linéaire
quantitatives simple
Exemple de situation 4 : Concentration de Densité
Dans le cadre de l’établissement d’une droite de solution enzymatique Optique
calibration destinée à mesurer rapidement la (Y) (X)
concentration enzymatique, il a été mesuré sur 0,2 0,111
neuf (09) différentes dilutions d’une solution 0,4 0,246
enzymatique pure, simultanément, la 0,6 0,364
concentration et la densité optique. Le résultat 0,8 0,5
obtenu est présenté dans le tableau ci-contre. 1 0,607
1,2 0,723
Serait-il possible d’estimer la concentration 1,4 0,835
enzymatique à partir des mesures de densité 1,6 0,925
optique? Le cas échéant, établissez la droite de 1,8 1,08
calibration.
35
08/11/2023
Cas de deux variables quantitatives Corrélation - Régression

L’intérêt d’une forte corrélation linéaire tient au fait que la connaissance de l’une des
variables entraîne la capacité à estimer l’autre avec un faible risque d’erreur. Dès lors,
il convient de trouver la double relation mathématique qui existe entre les deux
variables xi et yj :
- la relation de type yj=f(xi) décrit l’évolution de la variable Y en fonction de X et
- la relation de type xi=f(yj) décrit l’évolution de la variable X en fonction de Y
La corrélation indique le degré d'une liaison entre deux variables
La régression indique la nature d'une liaison entre une variable et une ou

plusieurs autres
Cas de deux variables quantitatives Régression
- examiner la façon dont une variable, dite dépendante ou

expliquée, ou encore variable de réponse (Y), est reliée à
d'autres variables, dites indépendantes ou explicatives, encore
régresseurs (X1, X2, X3, …);
Objectifs - réduire le nombre de degrés de liberté de la connaissance du

phénomène étudié en ramenant un tableau de plusieurs centaines
de chiffres à une loi ne possédant que quelques coefficients,
dans un but, notamment, de prédiction des phénomènes (c'est-à-
dire l'estimation directe de la variable dépendante par la seule mesure des
régresseurs).
36
08/11/2023

Le tableau des observations pour les différentes variables étant donné, la régression
nécessite deux choses:
 Un modèle, par exemple, l'équation d'une droite (y=ax+b), mais qui contient encore
un certain nombre de paramètres inconnus à cette étape (notamment a et b).
 Une méthode d'ajustement, qui est en général la recherche des extrema d'une
fonction (Exemples: méthode des moindres carrés, du maximum de vraisemblance, …).
Cette méthode permettra d'évaluer les paramètres du modèle pour que celui-ci
passe "au mieux" dans le nuage des points d'observations.
Comment exploiter
le modèle de Calibration + Validation
régression ?

Régression linéaire
y=ax + b
37
08/11/2023

Régression linéaire: Les formes du modèle linéaire
Le modèle peut prendre diverses formes, il dépendra de l'application étudiée et sera
suggéré par la connaissance que l'on a du phénomène physique. On peut citer:
Y=aXb, puisque, en passant au logarithmes, on obtient : log(Y) = log(a) + b*log(X)
C'est également le cas des lois : Y=ea+bX et 1/Y=a+bX
Y=aX: Ce type de modèle pourra notamment être utilisé chaque fois que X et Y
représentent la même variable (par exemple les concentrations en chrome mesurées
par deux méthodes différentes sur les mêmes échantillons) et qu'à une valeur nulle de
X doit correspondre une valeur nulle de Y.

Régression linéaire au sens des moindres carrés
La méthode des moindres
carrés est une méthode d’ajustement
qui consiste à choisir les valeurs de a et
de b qui minimisent la somme des
carrés des écarts (résidus) entre les
valeurs observées yi et les valeurs
estimées par l'équation de la droite de
régression :𝒚𝒊 = 𝒂𝒙𝒊 + 𝒃
La somme des carrés des écarts (entre yi et 𝑦i) à minimiser vaut donc:
𝑺 = ∑𝒏𝒊 𝒚𝒊 − 𝒚𝒊 𝟐=∑𝒏𝒊 𝒚𝒊 − 𝒂𝒙𝒊 − 𝒃 𝟐
38
08/11/2023

On montre que :
𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= 𝑞𝑢𝑖 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑 à 𝑙𝑎 𝑝𝑒𝑛𝑡𝑒 𝑑𝑒 𝑙𝑎 𝑑𝑟𝑜𝑖𝑡𝑒
𝑉(𝑋)
𝑒𝑡 𝑏 = 𝑦 − 𝑎𝑥̅ qui correspond à, son ordonnée à l’origine
Ce qui signifie que la droite des moindres carrés passe par

le point moyen du nuage, de coordonnées (𝒙, y),

Hypothèses de la régression linéaire
Effectuer une régression est toujours possible, même en dehors des hypothèses pour
lesquelles la théorie est valable. Cependant, il convient alors d'être très prudent
lorsqu'on interprète et lorsqu'on utilise les résultats.
•le modèle doit, être linéaire;

•le résidu doit être une variable normale, dont la moyenne est nulle et dont
l'écart-type est égal à l'erreur commise sur la mesure de y;
•les valeurs des régresseurs xi doivent être connues avec précision,
déterministes, sans erreur;
39
08/11/2023

Hypothèses de la régression linéaire (suite)
•les valeurs ej du résidu (j allant de 1 au nombre d'observations) ne doivent pas être
autocorrélées, c'est-à-dire corrélées en série;
•s'il y a plusieurs régresseurs xi, ils ne doivent pas être corrélés (leurs covariances
doivent être faibles);
•il faut avoir "assez" de données, typiquement, de 20 à 30 observations pour un
régresseur (modèle y=a+bx), si l'on possède moins d'observations, la régression est
néanmoins possible, mais les intervalles de confiance seront plus larges;
•s, l'erreur aléatoire commise sur la mesure de y, doit être pratiquement la même pour
toutes les observations (hypothèse d'homoscédasticité);

Analyse de la régression linéaire
Les hypothèses de la régression linéaire, en l'occurrence, sont très sévères et ne sont
quasi jamais respectées. C'est la raison pour laquelle les bons logiciels de traitement
de données incluent dans la procédure de régression non seulement l'ajustement
des paramètres, mais aussi l'analyse de la régression. Cette analyse permet de :
- Apprécier la qualité de l'ajustement obtenu,
- Apprécier l’utilité de retenir un coefficient donné dans le modèle,
- Estimer les intervalles de confiance autour de la courbe ajustée,
-…
Dans ce but, elle fournit un certain nombre de résultats:
40
08/11/2023

Significativité des coefficients (test t)
La variable t mesure l'écart du coefficient particulier par rapport à 0:
 Plus t est grand, plus le coefficient peut être considéré comme significativement différent de
zéro.
 Le niveau de significativité du test en t (basé sur la comparaison avec la distribution de
Student) permet d'apprécier la dépendance de la variable Y avec le régresseur considéré.
La philosophie de ce test est toujours la même :
 si tcalculé > tcritique pour un seuil α donné (généralement 0,05) le coefficient peut être
considéré comme significativement non-nul;
 si le tcalculé < tcritique pour un seuil α donné (généralement 0,05) le coefficient peut être
considéré comme nul.

Significativité des coefficients
Test de la pente de la droite de régression
La droite de régression d’équation Y = αX + β comporte 2 paramètres (α et β).
L’hypothèse nulle (H0) est que la pente α de la droite de régression de Y en X est

égale à 0 (soit Y est égal à β, c’est-à-dire que la droite de régression est horizontale
et qu’il n’y a pas de liaison entre X et Y).
H0 : α = 0 (droite de régression horizontale : Y = β) α a≈α

H1: α ≠ 0
a
41
08/11/2023

Test de la pente de la droite de régression
Sous l’hypothèse nulle (H0), le rapport de l’estimateur de la pente (a) sur son écart-type (Sa)
suit une loi de Student à (n-2) degrés de liberté (n est l’effectif de l’échantillon).
𝟐
L’estimateur de l’écart-type ∑ 𝒚𝒊 𝒚𝒊
𝒂
→𝒕 𝒏 𝟐 de la pente (Sa) est égal à : 𝒔𝒂 = 𝒏 𝟐
𝒔𝒂 ∑ 𝒙𝒊 𝒙 𝟐
Le test de la pente consiste à calculer la grandeur ta et à

la comparer à la valeur seuil tα sur la table de la loi de
𝒂 𝒂
𝒕𝒂 = =
Student à (n-2) degrés de libertés et pour un seuil de 𝒔𝒂 ∑ 𝒚𝒊 − 𝒚𝒊 𝟐
signification α, préalablement défini.
𝒏−𝟐
08/11/2023 Dr Liady M. Nourou Dine ∑ 𝒙𝒊 − 83𝒙 𝟐

Test de l’ordonnée à l’origine de la droite de régression
Sous l’hypothèse nulle (H0), le rapport de l’estimateur de l’ordonnée b sur son écart-type
suit une loi de Student à (n-2) degrés de liberté (n est l’effectif de l’échantillon).
L’estimateur sb de
𝒃 ∑ 𝒚𝒊 − 𝒚𝒊 𝟐 𝟏 𝒙𝟐
→𝒕 𝒏 𝟐 𝒅𝒅𝒍 l’écart-type de
𝒔𝒃 = +
𝒔𝒃 l’ordonnée b est égal à: 𝒏−𝟐 𝒏 ∑ 𝒙𝒊 − 𝒙 𝟐
Le test de l’ordonnée à l’origine consiste à calculer la grandeur tb et à 𝒃

la comparer à la valeur seuil tα sur la table de la loi de Student à (n-2) 𝒕𝒃 =
degrés de libertés pour un seuil de signification α, préalablement défini. 𝑺𝒃
42
08/11/2023

Test de l’ordonnée à l’origine de la droite de régression

Lorsque la valeur de l’ordonnée à l’origine (b) n’est pas significativement différente de
0, il convient d’estimer la valeur de la pente (a) telle que:
𝒊 𝒊
𝟐
𝒊

Qualité de l’ajustement au modèle testé Analyse des variances
Soit une régression sur un modèle linéaire à un seul régresseur, décomposons la variance:
Variance expliquée
Variance Variance inexpliquée

totale
∑ (𝑦 − 𝑦)2 =∑ 𝑦 − 𝑦𝑖 2 + ∑ 𝑦𝑖 − 𝑦 2
𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

𝑦 ∶ 𝑜𝑏𝑠𝑒𝑟𝑣é; 𝑦 ∶ 𝑒𝑠𝑡𝑖𝑚é; 𝑦 : moyenne
08/11/2023 Dr Liady M. Nourou Dine
86
43
08/11/2023

Analyse de la régression linéaire Analyse des variances
Qualité de l’ajustement au modèle testé
∑ (𝑦 − 𝑦)2 =∑ 𝑦 − 𝑦𝑖 2 + ∑ 𝑦𝑖 − 𝑦 2
∑ (𝑦 − 𝑦)2 : 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝑇𝑜𝑡𝑎𝑢𝑥 (𝑆𝐶𝑇) ddl de SCT=n-1
n: nombre d’observations réalisé

∑ 𝑦 − 𝑦𝑖 2: 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝑅é𝑠𝑖𝑑𝑢𝑒𝑙𝑠 (𝑆𝐶𝑅) ddl de SCR=n-c
𝑆𝐶𝑅
𝐶𝑎𝑟𝑟é 𝑀𝑜𝑦𝑒𝑛 𝑅é𝑠𝑖𝑑𝑢𝑒𝑙 𝐶𝑀𝑅 = c: nombre de coefficients estimés à partir du modèle
𝑛−𝑐
∑ 𝑦𝑖 − 𝑦 2: 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝐸𝑥𝑝𝑙𝑖𝑞𝑢é𝑠 (𝑆𝐶𝐸) ddl de SCE= c-1
𝑆𝐶𝐸
𝐶𝑎𝑟𝑟é08/11/2023
𝑀𝑜𝑦𝑒𝑛 𝐸𝑥𝑝𝑙𝑖𝑞𝑢é 𝐶𝑀𝐸 =
𝑐 − 1 Dr Liady M. Nourou Dine 87

•Le rapport F
Variance expliquée 𝑺𝑪𝑬/(𝒄 𝟏) 𝑪𝑴𝑬 𝒏 𝒄 ∗∑ ̂ ̅

F=Variance restée inexpliquée = =
𝑺𝑪𝑹/ 𝒏 𝒄 𝑪𝑴𝑹 𝒄 𝟏 ∗∑ ̂
c: nombre de coefficients estimés à partir du modèle;

c-1 est le degré de liberté de la SCE par le modèle:
n: nombre d’observations réalisé
n-c est le degré de liberté de la SCR
44
08/11/2023

•Le rapport F
La comparaison de Fcalculé à Fcritique (au seuil α et aux degrés de libertés c-1 et n-c) fourni sur la
table statistique de Fisher-Snedecor permet de juger de la qualité de la régression :
 si Fcalculé < Fcritique, H0 est retenue : F est significativement petit et donc que le
modèle n’explique pas bien la variable dépendante Y.
 si Fcalculé > Fcritique, cela signifie que F est significativement grand, et donc que le
modèle explique bien la variable dépendante Y.
- Les logiciels affichent généralement plutôt, la p-value :
• Quand p> 0,05: H0 est acceptée
• Quand p< 0,05, on rejette H0

•Le Coefficient de détermination r2

Variance expliquée par le modèle 𝑺𝑪𝑬⁄ 𝑪 𝟏
r2= =
Variance totale 𝑺𝑪𝑻⁄ 𝒏 𝟏
Il permet de fournir un chiffre évaluant la partie de la variance de la variable

dépendante Y qui est expliquée par le modèle. En général, au-delà de 80%, le modèle
peut être considéré comme "bon".
Pour 2 variables, X et Y, r2 est égal au carré du coefficient de corrélation r de pearson

08/11/2023 Dr Liady M. Nourou Dine
90
45
08/11/2023

Analyse de la régression (linéaire)
Les intervalles de confiance, par exemple à 95%
- d'une part sur l'estimation moyenne de la variable dépendante à partir des
données fournies. Pour un modèle linéaire à un seul régresseur X, il s'agit de 2 courbes
situées de part et d'autre de la droite de régression et définissant la région de précision du
modèle. Elles permettent d'apprécier le degré de proximité entre la droite estimée par le
modèle et la vraie droite, correspondant à la population réelle. Plus ces deux courbes sont
rapprochées de la droite, plus fiable est le modèle.
- d'autre part sur la prévision de la variable dépendante à partir de nouvelles
valeurs des régresseurs. En deux dimensions, il s'agit également de deux courbes
situées de part et d'autre de la droite de régression, un peu en retrait par rapport aux deux
premières. Ces deux courbes définissent la zone d'imprécision lorsqu'on veut évaluer une
valeur de y à partir d'une nouvelle valeur de x (validation du modèle).

Analyse de la régression (linéaire)
L'analyse des résidus
Visualiser l'allure des résidus de y en fonction de

x peut nous apprendre beaucoup sur la qualité du
modèle et peut nous suggérer éventuellement
d'autres modèles à utiliser.
Les résidus provenant d'un modèle correctement
spécifié sont statistiquement indépendants; ils sont
aléatoirement distribués selon le régresseur x.
La figure ci-contre montre par exemple les résidus

correspondant à la régression de la figure précédente
46
08/11/2023

Exercice d’application 4.10: Densité
Sur les mêmes données que celles de l’exemple de [Enzyme]
Optique
situation 4.2 qui sont rappelées ci-contre: 0,2 0,111
1) Peut-on estimer la concentration enzymatique, à 0,4 0,246
partir des mesures de densité optique ? 0,6 0,364
2) Si oui, déterminer l’équation de la droite de 0,8 0,5
régression à utiliser; 1 0,607
1,2 0,723
3) Analyser la qualité de l’ajustement réalisé. 1,4 0,835
1,6 0,925
1,8 1,08

Cov(X,Y) 0,1770
SX 0,3234
SY 0,5477
r(X,Y) 0,9991
Sr 0,0164
tr 60,7457
tcritique 2,365
donc: 𝒕𝒄𝒂𝒍𝒄𝒖𝒍é > 𝒕𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 ,
𝒅 𝒐ù 𝒓 = 𝟎, 𝟗𝟗𝟗𝟏 𝒆𝒔𝒕
significativement non nul
47
08/11/2023

Exercice d’application 4.10:Analyse de la régression (linéaire)
Cas du modèle linéaire: Y=aX+b
Valeurs des coefficients et leur significativité par rapport à 0
[enzyme] (Y) [enzyme] [enzyme] [enzyme] [enzyme] [enzyme]
(param.) (Y) Err-Type (Y) t (Y) p (Y) Bêta (ß) (Y) ErTyp.ß
Ord.Orig. -0,01 0,02 -0,73 0,49
Densité optique 1,69 0,03 60,75 0,00 1,00 0,02

Multiple Ajusté R² SC dl MC SC dl MC F
R Modèle Modèle Modèle Résidus Résidus Résidus
[enzyme] 0,999 0,998 2,40 1 2,40 0,00 7 0,001 3690,039

Cas du modèle linéaire: Y=aX+b
Valeurs des coefficients, leur significativité (test t) et l’écart-type sur leur estimation
On obtient:
𝑡 é =60,75 pour n=9
𝑡𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 ( , , ) = 2,365
donc: 𝒕𝒄𝒂𝒍𝒄𝒖𝒍é > 𝒕𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 ,

𝒅 𝒐ù 𝒂 = 𝟏, 𝟔𝟗 𝒆𝒔𝒕
significativement non nul
48
08/11/2023

Exercice d’application 4.10:Analyse de la régression (linéaire)
Cas du modèle linéaire: Y=aX

Valeurs des coefficients et leur significativité par rapport à 0
[Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y)
(param.) Err-Type t p Bêta (ß) ErTyp.ß
Densité optique 1,67 0,01 136,57 0,00 1,00 0,01

Multiple Ajusté SC dl MC SC dl MC F
R R² Modèle Modèle Modèle Résidus Résidus Résidus
[enzyme] 0,999 0,998 2,40 1 2,40 0,00 8 0,001 3920,30

Exercice d’application 4.10: y = 1,67*x
Représentation graphique r² = 0,998; r = 0,999; p = 0,000
2,0
1,8
1,6
1,4
[Enzyme]
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0 1,2
08/11/2023 Dr Liady M. Nourou Dine Densité optique 98
49
08/11/2023

50

BST L3 GBRB 2324

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

BST L3 GBRB 2324

Transféré par

Droits d'auteur :

Formats disponibles

08/11/2023

Licence en Génétique Biotechnologie et

ECU_1: Statistique descriptive et

Licence en Génétique Biotechnologie et

→Résumer un tableau contenant une variable et plusieurs

Modalité 100% de la masse horaire en présentiel :

Chapitre 1 : DESCRIPTION STATISTIQUE A UNE DIMENSION

Chapitre 2 : QUELQUES BASES DE L'INFERENCE STATISTIQUE

Contenu Chapitre 3 : COMPARAISON DE MOYENNES

Chapitre 4 : DESCRIPTION ET INFERENCE STATISTIQUE A DEUX

Logistique → Note de cours

Licence en Génétique Biotechnologie et

STATISTIQUE DESCRIPTIVE ET ANALYTIQUE

A la fin de ce chapitre, l’étudiant doit être capable de :

- Les paramètres caractéristiques d’une population d’individus ou de choses.

- l’ensemble des opérations mises en œuvre pour collecter et traiter

Collecte des données - Observation

Population: Ensemble des éléments qui forment le champ

Recensement: Enquête complète, étude prenant en compte tous

Dans la plupart des cas, il

Exemple: Pour décrire la concentration en métaux lourds dans le lac, on a considéré

Variable aléatoire "X": variable associée à une expérience ou à un

• Qualitative (ou catégorielle)

• Quantitative (généralement numérique: dénombrement ou mesure)

Exp: Ordre de franchissement d’un obstacle par un troupeau de 15 vaches

Exp: La taille d’une daphnie

Exp: La densité de Daphnies dans

Objectifs de la description statistiques à une dimension

Individu Taille (X)

Il apparait plus indiqué de résumer ces observations: c’est l’un des

Objectifs de la description statistiques à une dimension

Résumer les observations tel que l’on puisse facilement et rapidement en

Détecter des données atypiques

Résumer des observation sous la forme de loi de Distribution et

Description sous forme de Distribution des fréquences

Les distributions de fréquence se présentent sous forme de tableau ou

Description sous forme de Distribution des fréquences

Chaque ligne correspond à une valeur Xi ni fi Ni Fi

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions non groupées (Variables qualitatives,

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

Toutes les distributions relatives à des variables continues doivent être

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

• Les valeurs extrêmes des classes sont appelées bornes des

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

1- Trier les données

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

2- Calculer l’étendue des mesures effectuées : 621,497 – 211,

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

5- La borne inférieure de la première classe étant déjà connue, la valeur

6- on procède ainsi de suite pour les autres classes

Tableau de la distribution groupée (à intervalle de classe constant) obtenue

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

• L'intervalle de classe est généralement constant, toutefois, on utilise

Description sous forme de Distribution des fréquences