Vous êtes sur la page 1sur 137

08/11/2023

Licence en Génétique Biotechnologie et


Ressources Biologiques

ECU_1: Statistique descriptive et


analytique
UE: ANALYSE ET
TRAITEMENT ECU_2: Utilisation des logiciels
INFORMATIQUE DES statistiques
DONNÉES
ECU_3 : Saisie et codage de
l'information

1
Dr LIADY M. Nourou Dine 2023 - 2024

Licence en Génétique Biotechnologie et


Ressources Biologiques

STATISTIQUE DESCRIPTIVE ET
ANALYTIQUE

2
Dr LIADY M. Nourou Dine 2023 - 2024

1
08/11/2023

Objectif général Fournir aux étudiants, les outils de base pour décrire
et/ou analyser les données (quantitatives, qualitatives, ordinales ou
dichotomiques)

→Résumer un tableau contenant une variable et plusieurs


individus ;
→ Citer les bases de l’inférence statistique
→ Comparer deux ou plusieurs moyennes ;
À la fin de ce
cours →Résumer un tableau contenant deux variables et plusieurs
l’étudiant individus ;
doit être →Porter un jugement sur l’intensité de la liaison entre deux
capable de: variables (quantitative, qualitatives, ordinales et
dichotomiques) ;
→Analyser la liaison3 linéaire entre deux variables quantitatives.

Modalité 100% de la masse horaire en présentiel :


- 6 séances de cours théoriques (CT) avec des
exercices d’application
- Assistance permanente via whatsapp (95 44 27 50)

Chapitre 1 : DESCRIPTION STATISTIQUE A UNE DIMENSION

Chapitre 2 : QUELQUES BASES DE L'INFERENCE STATISTIQUE

Contenu Chapitre 3 : COMPARAISON DE MOYENNES

Chapitre 4 : DESCRIPTION ET INFERENCE STATISTIQUE A DEUX


DIMENSIONS

2
08/11/2023

Logistique → Note de cours


→ Tables statistiques (loi normale centrée réduite, t de
student, khi deux, r de pearson, r de spearman, …
→ Calculatrice

SESSION ORDINAIRE
Evaluations
SESSION de RATTRAPAGE

3
08/11/2023

Licence en Génétique Biotechnologie et


Ressources Biologiques

STATISTIQUE DESCRIPTIVE ET ANALYTIQUE

Chapitre 1:
DESCRIPTION STATISTIQUE A
UNE DIMENSION
Dr LIADY M. Nourou Dine 2023 - 2024
1

Objectifs pédagogiques

A la fin de ce chapitre, l’étudiant doit être capable de :


- Définir les notions : Biostatistique, individu, échantillon, population,
- Citer les étapes constitutives d’une étude biostatistique et les grandes modalités de leur
mise en œuvre,
- Citer les différents types de variables,
- Citer les objectifs de la description statistique,
- Définir ce qu’est une distribution de fréquence,
- Résumer des données brutes sous la forme de distribution de fréquences en utilisant
aussi bien des outils tabulaires que des outils graphiques.
- Résumer des données brutes à l’aide des paramètres de description statistiques ;
o Calculer/déterminer les différents paramètres de description statistique,
o Interpréter les valeurs des différents paramètres de description statistique,
- Détecter des données suspectes.

BST_2116 2023_2024 2

1
08/11/2023

Plan

Introduction
Définitions
Types de variables
Objectifs de la description statistique à une dimension
Description sous forme de distribution de fréquence
Description à l’aide des paramètres de description statistique
Détection de données atypiques/aberrantes
BST_2116 2023_2024 3

Introduction
QU’EST CE QUE LA BIOSTATISTIQUE ?
Application des outils statistiques à l’étude du monde vivant
Selon le contexte "Statistique" peut désigner:
- Un ensemble cohérent de données relatives à une population d’objets ou
d’individus. Exemple: statistiques de la production agricole, … ;

- Les paramètres caractéristiques d’une population d’individus ou de choses.


Exemple: la moyenne, le mode, …. et parfois même le paramètre caractéristique
d’un test donné (le t de student, le F de fisher, le H de Kruskal-Wallis, …

- l’ensemble des opérations mises en œuvre pour collecter et traiter


des données sur une population d’individus.
BST_2116 2023_2024 4

2
08/11/2023

Introduction
APPRENTISSAGE DE LA BIOSTATISTIQUE vs ETUDE BIOSTATISTIQUE :
LES ÉTAPES ET LEURS MODALITES
ÉTAPES MODALITES

Collecte des données - Observation


- Expérimentation
1 2
- Statistiques descriptives
Traitement des données - Inférence statistique
Dans une étude, il faut collecter les données avant de les traiter mais, est
nécessaire d’avoir des connaissances en traitement des données avant de
pouvoir planifier leur collecte: ce cours vise à initier au traitement des données
BST_2116 2023_2024 5

Introduction
DÉFINITIONS

Population: Ensemble des éléments qui forment le champ


d’analyse d’une étude particulière. Taille notée : N
Exp: Ensemble de tous les poissons d’une rivière donnée
Individu:
Elément composant la population.
Exp: Un poisson prélevé dans une rivière donnée, dans le cadre de l’étude

Recensement: Enquête complète, étude prenant en compte tous


les individus BST_2116
composant
2023_2024
une population finie. 6

3
08/11/2023

Introduction
DÉFINITIONS

Dans la plupart des cas, il


est difficile d’obtenir
l’information à partir de
la population dans son
ensemble. Comment faut-il
alors procéder pour pouvoir
tirer des conclusions
valables sur la population?

BST_2116 2023_2024 7

Introduction
DÉFINITIONS

Echantillonnage:
Enquête partielle, étude sur
une partie des individus
composant une population
finie (très délicat bien sûr).

Exemple: Pour décrire la concentration en métaux lourds dans le lac, on a considéré


un échantillons constitué de 75 prélèvements (individus) aléatoires.

Variable aléatoire "X": variable associée à une expérience ou à un


groupe d’expériences aléatoires et servant à caractériser le résultat de cette
expérience ou de ce groupe d’expérience. Elle peut être quantitative,
qualitative ou ordinale. BST_2116 2023_2024 8

4
08/11/2023

Types de variables

La reconnaissance du type de variable auquel l’on a à faire est une étape importante
dans tout processus de traitement de données: comme nous le verrons plus loin, à
chaque type de variable correspondent des méthodes de traitement appropriées.

• Qualitative (ou catégorielle)


• Binaires ou dichotomique,
• Nominale.
• ordinale

• Quantitative (généralement numérique: dénombrement ou mesure)


• Discontinues,
• Continues.

BST_2116 2023_2024 9

Types de variables
VARIABLES QUALITATIVES
Echelle binaire ou dichotomique
Il n’y a que deux catégories ou valeurs possibles.
Exp :
- la présence (notée par 1 ou +) ou l’absence (notée par 0 ou -) d’une espèce
végétale lors d’un inventaire floristique sur un territoire donné
- L’Etat physiologique "Mort" ou « Vivant" de l’individu lors d’une étude portant
sur l’effet d’un insecticide sur une espèce donnée d’insecte.

Echelle nominale
Les catégories ne peuvent pas être ordonnées naturellement.
Exp:
- ‘homme’ et ‘femme’, de la variable ‘ sexe ’, ‘
- rouge’, ‘vert’… de la variable ‘ couleur ’;
- …
BST_2116 2023_2024 10

5
08/11/2023

Types de variables
VARIABLES QUALITATIVES
Variables ordinales
Lorsque les catégories peuvent être ordonnées, on est en présence d’une échelle
ordinale. C’est par exemple le type de données auquel on a affaire lorsqu’on ne
demande pas à des examinateurs d’attribuer simplement une note à chaque
candidat, mais plutôt de classer les notes dans un ordre (décroissant ou croissant).

Exp: Ordre de franchissement d’un obstacle par un troupeau de 15 vaches


laitières désignées de A à O. Par exemple, on a observé les ordres
suivants :
- Au cours du 1er passage: G, A, B, D, I, F, J, C, E, M, H, K, N, L, O
- Au cours du 2ème passage: A, D, G, B, K, N, C, F, H, M, E, J, O, I, L

BST_2116 2023_2024 11

Types de variables

VARIABLES QUANTITATIVES

Continu
Lorsque les valeurs possibles ne sont pas
dénombrables.

Exp: La taille d’une daphnie

BST_2116 2023_2024 12

6
08/11/2023

Types de variables

VARIABLES QUANTITATIVES
Discrète
Lorsque les valeurs peuvent être énumérées généralement sous forme d’entiers
naturels (0, 1, 2, 3, …).

Exp: La densité de Daphnies dans


un échantillon d’eau (nombre
d’individus/ml)

BST_2116 2023_2024 13

Objectifs de la description statistiques à une dimension


Lors des observations, dans la plupart des cas, l’on indique la valeur du
caractère étudié, pour chacun des individus et l’ensemble des données est
présenté sous la forme de tableau brut des observations

Individu Taille (X)


Exemple: Dans le cadre d’une étude sur la taille
des poissons d’une rivière, on mesure
1 x1
la taille de 300 poissons. Le tableau 2 x2
brut des observations pourrait se
… …
présenter sous la forme ci-contre:
300 x300
Il est difficile sous cette forme de présentation, de se faire une idée
de la taille typique d’un poisson de cette rivière

Il apparait plus indiqué de résumer ces observations: c’est l’un des


objectifs de la statistique descriptive à une dimension
BST_2116 2023_2024 14

7
08/11/2023

Objectifs de la description statistiques à une dimension

Résumer les observations tel que l’on puisse facilement et rapidement en


saisir le contenu

Détecter des données atypiques

Résumer des observation sous la forme de loi de Distribution et


Orienter vers le type de test à appliquer dans un processus de
traitement de données

BST_2116 2023_2024 15

Description sous forme de Distribution des fréquences

Les distributions de fréquence se présentent sous forme de tableau ou


graphique dans lesquels on regroupe ensemble les individus ayant la même
valeur de la caractéristique étudiée, puis on indique leur fréquence (effectif)
absolue ou relative.

BST_2116 2023_2024 16

8
08/11/2023

Description sous forme de Distribution des fréquences


Outils tabulaires pour Distributions non groupées (Variables qualitatives,
quantitatives discrètes)

Chaque ligne correspond à une valeur Xi ni fi Ni Fi


observée de la variable (Xi). Il y a p valeurs x1 n1 f1 N1 F1
différentes observées.
x2 n2 f2 N2 F2
ni correspond au nombre d’observations
(fréquence) absolue ayant comme valeur xi … … … … …
xp np fp Np Fp
fi correspond à la fréquence relative
(pourcentage) d’observations ayant comme
valeur xi : 𝑛𝑖 = 𝑛 1
Généralement, x1 est la plus petite valeur, et
xp la plus grande des valeurs observées
BST_2116 2023_2024 17

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions non groupées (Variables qualitatives,


quantitatives discrètes)

Xi ni fi Ni Fi
Ni est l’effectif cumulé des observations x1 n1 f1 N1 F1
ayant des valeurs inférieures ou
égales à xi x2 n2 f2 N2 F2
… … … … …
Fi est la fréquence relative cumulée des
observations ayant des valeurs xp np fp Np Fp
inférieures ou égales à xi :
𝑛𝑖 = 𝑛 1

BST_2116 2023_2024 18

9
08/11/2023

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)


Fréquence brute Fréquence relative
Classe de taille
Les valeurs (ni)
𝒏𝒊 𝒏𝒊
(𝒇𝒊 = ou 𝒇𝒊 = *100 )
𝒏 𝒏
sont mises en [xi;xi+1[ n1 f1
classes [xi+1; xi+2[ n2 f2
… … …
[xi+n-1; xi+n] np fp

𝑛𝑖 = 𝑛𝑖 1= ∑ 𝑓𝑖

Toutes les distributions relatives à des variables continues doivent être


considérées comme des distributions groupées, puisque l'infinité de valeurs
admissibles est condensée en un nombre fini de mesures en fonction de la
précision de la méthode de mesure utilisée.
BST_2116 2023_2024 19

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

• Les valeurs extrêmes des classes sont appelées bornes des


classes.
• Les classes sont mutuellement exclusives.
• L'amplitude ou intervalle ou module de classe est généralement
constant: Intervalle= borne supérieure - la borne inférieure=Di.
• Le point central ou encore point médian de chaque classe est
situé à mi chemin entre les deux bornes: Ci = Binfi +Di/2
• Dans certains cas la limite inférieure de la première classe ou
supérieure de la dernière classe n'est pas précisée. On parle de
classes ouvertes. A éviter !...
BST_2116 2023_2024 20

10
08/11/2023

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)


Exercice d’application 1:
Présenter la distribution groupée des données du tableau ci-dessous:

BST_2116 2023_2024 21

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)


Exemple de Présentation d’une distribution groupée à intervalle de classe constant

1- Trier les données

BST_2116 2023_2024 22

11
08/11/2023

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)


Exemple de Présentation d’une distribution groupée à intervalle de classe constant

2- Calculer l’étendue des mesures effectuées : 621,497 – 211,


525 = 409,972
3- Décider du nombre de classes (k) que l’on désire pour résumer les
observations. Pour ce faire, on peut appliquer la règle:
=7
4- Calculer l’amplitude d’une classe en divisant l’étendue des mesures,
𝟒𝟎𝟗,𝟗𝟕𝟐
par le nombre de classes : =61,81
𝟕
BST_2116 2023_2024 23

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)


Exemple de Présentation d’une distribution groupée à intervalle de classe constant

5- La borne inférieure de la première classe étant déjà connue, la valeur


de la borne supérieure de la première classe est calculée en ajoutant à la
valeur de la borne inférieure celle de l’étendue d’une classe.
Pour l’intervalle suivant, la valeur de la borne inférieure peut
correspondre à celle de la borne supérieure de la classe précédente, sur
laquelle il faudra cependant fermer la borne.

6- on procède ainsi de suite pour les autres classes

BST_2116 2023_2024 24

12
08/11/2023

Tableau de la distribution groupée (à intervalle de classe constant) obtenue

BST_2116 2023_2024 25

Description sous forme de Distribution des fréquences

Outils tabulaires pour Distributions groupées (Variables quantitatives continues)

• L'intervalle de classe est généralement constant, toutefois, on utilise


parfois une amplitude variable notamment pour les classes des
valeurs extrêmes.
o En cas de classes d'amplitudes différentes, la densité de
fréquence ni/ Di permet de comparer les effectifs ou les fréquences
d'une classe à l'autre.
o la densité de fréquence est utilisée pour tracer l’histogramme.

BST_2116 2023_2024 26

13
08/11/2023

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions non groupées
Ils permettent de représenter le nombre d'observations correspondant à une
valeur donnée de la variable, sous la forme de bâtonnets ou d'aires colorées
ou hachurées. Ils servent également à visualiser des informations non
numériques (les espèces de plante présentes).
"camembert" ou diagramme en "quartiers de tarte", ou
"diagramme circulaire, ou encore "diagramme en secteurs"

Les données sont représentées sur un


cercle, tel que l'angle de chaque
quartier soit proportionnel à la
fréquence d'apparition de l'item, par
rapport au total de 360°.
Ce diagramme met en évidence les
fréquences relatives
BST_2116 2023_2024 27

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions non groupées
Distribution des fréquences des embranchements de
Phytoplancton dans le canal de Cotonou
Exercice d’application 2
Rhodophytes; 3%
Embranchement Densité relative Chlorophytes; 20%
Euglenophytes; 8%

Rhodophytes 3%
Euglenophytes 8%
Cyanophytes 31% Cyanophytes; 31%

Chrysophyes 38%
Chlorophytes 20% Chysophytes; 38%

densité relative

1- Réaliser un diagramme en camembert avec les données relative aux


embranchements de phytoplancton rencontrés dans le canal de Cotonou
(Adjahouinou, 2009)
2- Reconstituer le tableau des fréquences brutes liées à des données en supposant
qu’un échantillon de 2000 individus aBST_2116
été considéré
2023_2024
dans cette étude. 28

14
08/11/2023

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions non groupées
Exercice d’application 3
Présenter la distribution de fréquence
relative aux données d’inventaire floristique

BST_2116 2023_2024 29

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions non groupées
Diagrammes en bâtonnets ("bar charts")

Diagramme en bâtonnets
2,5
Fréquence

1,5

0,5

-0,5 12 9 31 4 14 23 15 3 17
Nombre de cellules algales

La hauteur de chaque bâtonnet est proportionnelle à la


fréquence d'apparition de l'item considéré ici, le nombre
de cellules algales comptées dans une case de la cellule
Cellule de numération type
de numération. BST_2116 2023_2024 « Neubauer » 30

15
08/11/2023

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions groupées

Histogrammes A ne pas confondre avec le diagramme en bâtonnets!


Il représente graphiquement la 7
distribution de fréquences d'une 6

Fréquence brute
variable dans laquelle les 5
colonnes sont associées à des
4
intervalles de classe et dont les
3
hauteurs sont proportionnelles
à la fréquence de la classe 2
1
0
0 5 10 15 20 25 30 35 40
BST_2116 2023_2024 Catégorie (limites sup.) 31

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions groupées
Histogrammes
30
On peut porter la fréquence
25
relative (fi=ni/n) sur l’axe des
Fréquence (%)

ordonnées: pour ne plus dépendre 20


du nombre d'observations dans 15
l'échantillon, et pour pouvoir 10
comparer plusieurs échantillons 5
entre eux. La hauteur totale de
0
tous les rectangles de 0 5 10 15 20 25 30 35 40
l'histogramme, vaut alors l'unité Catégorie (limites sup.)

BST_2116 2023_2024 32

16
08/11/2023

Description sous forme de Distribution des fréquences


Outils graphiques pour distributions groupées
Histogrammes
Mieux encore : l’axe des ordonnées 5
peut devenir une échelle de densité

Densité de fréquence
de fréquence relative. Ce 4
changement rend l'aire totale de 3
l'histogramme égale à 1. La
transformation en densité de 2
fréquence relative s'effectue en
1
divisant la fréquence relative par
"l'amplitude", ou la "largeur" de 0
0 5 10 15 20 25 30 35 40
l'intervalle (c-à-d ni/ Di )
Catégorie (limites sup.)
BST_2116 2023_2024 33

Description à l’aide des paramètres de description statistique

Caractéristiques de tendance centrale


Caractérisation d’une
distribution de Caractéristiques de dispersion
fréquences des
observations
Caractéristiques de formes

BST_2116 2023_2024 34

17
08/11/2023

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences


Caractéristiques de tendance centrale

Moyenne arithmétique:

• La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la


population.
• La distribution des moyennes de petits échantillons (n<30) indépendants tirés
de la même population suit une loi normale si la distribution de la variable est
normale.
• Quand n≥30, la distribution des moyennes suit une loi normale sans condition
sur la distribution de la variable. BST_2116 2023_2024 35

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences Cellule de numération type


« Neubauer »
Caractéristiques de tendance centrale
Exemple
Soit la série correspondant au nombre de
cellules algales compté dans les 21 cases
d’une cellule de numération (modèle
Neaubauer): 12; 24; 9; 18; 31; 28; 4; 11; 14;
24; 13; 23; 16; 15; 7; 3; 35; 17; 14; 20; 14.

Moyenne arithmétique:
12+24+ 9+18+31+28+4+11+14+24+13+23+16+15+7+3+35+17+14+20+14
𝑥̅ =

𝑥̅ = =16,76≈17 cellules BST_2116 2023_2024 36

18
08/11/2023

Description à l’aide des paramètres de description statistique


Nombre de
Effectif %age
Caractérisation d’une distribution de fréquences cellules algales
3 1 4,76
4 1 4,76
Caractéristiques de tendance centrale 7 1 4,76
Mode: est la valeur de la variable, qui possède 9 1 4,76
11 1 4,76
la fréquence la plus élevée. 12 1 4,76
Dans l’exemple 13 1 4,76
précédent, la valeur 14 3 14,29
modale est 15 1 4,76
16 1 4,76
17 1 4,76
18 1 4,76
20 1 4,76
23 1 4,76
24 2 9,52
28 1 4,76
31 1 4,76
BST_2116 2023_2024 37
35 1 4,76

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de tendance centrale

Médiane: valeur de la variable qui partage la distribution en deux parties


égales.
En pratique, elle est obtenue en ordonnant les valeurs observées et en prenant la
valeur centrale de cette série.
x n   x n
Pour n impair: med  x n 1  Pour n pair:  

 1 
  med  2 2 
 2  2
Les valeurs elles-mêmes n'interviennent pas dans l'évaluation de la médiane, seul
l'ordre intervient. Elle est donc insensible aux petites variations des observations et
est assez indépendante de la forme de la distribution.
BST_2116 2023_2024 38

19
08/11/2023

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de tendance centrale

n / 2   ni (inf)
med  L  c
ni ( med )
L: limite inférieure de la classe médiane
n: nombre total d’observations
∑ 𝑛𝑖(inf): somme des fréquences absolues des classes se situant avant la
classe médiane.
ni(med) : fréquence de la classe médiane
c: largeur de la classe médiane BST_2116 2023_2024 39

Description à l’aide des paramètres de description statistique


[algue]
Rang
Caractérisation d’une distribution de fréquences (cel/ml)
1 3
2 4
Caractéristiques de tendance centrale 3 7
4 9
5 11
6 12
7 13
Médiane 8 14
9 14
10 14
Dans l’exemple précédent, la valeur médiane est 11 15
x(21+1)/2 = x11 = 15 12 16
13 17
14 18
15 20
16 23
17 24
18 24
19 28
20 31
21 35
BST_2116 2023_2024 40

20
08/11/2023

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences


Caractéristiques de tendance centrale
Sur les données de l’exercice
d’application 1, rappelées ci-
contre, déterminer :
La valeur de la médiane
n / 2   ni (inf)
med  L  c
ni ( med )

BST_2116 2023_2024 41

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de position liées à la médiane


Quartiles:
Ce sont les valeurs Q1, Q2 et Q3 de la grandeur mesurée qui partagent la série
statistique en 4 parties d’effectifs à peu près identiques, Q2 est la médiane.

Q1 = x n+1 Q3 = 3 * ( x n+1
)
4 4

Si ces valeurs ne sont pas entières, les quartiles ne sont pas des valeurs
de la distribution, il faudrait alors réaliser une interpolation
BST_2116 2023_2024 42

21
08/11/2023

Description à l’aide des paramètres de description statistique


Rang [algue] (cel/ml)
Caractérisation d’une distribution de fréquences 1 3
2 4
3 7

Caractéristiques de position liées à la médiane 4


5
9
11
Quartiles: 6 12
7 13
8 14
9 14
10 14
Dans l’exemple précédent, on obtient: 11
12
15
16
Q1= x(21+1)/4 ~x6 = 12 13 17
14 18
et 15 20
Q3= x[3*(21+1)/4] ~x17 =24 16 23
17 24
18 24
19 28
20 31
21 35
BST_2116 2023_2024 43

Description à l’aide des paramètres de description statistique


Caractérisation d’une distribution de fréquences

Caractéristiques de dispersion
Etendue (range) = Maximum - minimum.
Elle utilise uniquement les valeurs extrêmes pour caractériser la dispersion
Dans l’exemple précédent, étendue= 35-3=32 cellules algales

Écart absolu moyen:


Où:
n: nombre d'observations
xi: observation
𝑥̅ :moyenne arithmétique des observations

Il mesure l'écart moyen par rapport à la moyenne des


observations, en considérant les valeurs absolues des écarts
BST_2116 2023_2024 44

22
08/11/2023

Description à l’aide des paramètres de description statistique


Caractérisation d’une distribution de fréquences

Caractéristiques de dispersion
Écart quadratique moyen ou "moment d'ordre 2"
Il mesure aussi l'écart moyen par rapport à la moyenne
des observations, mais en considérant les carrés des
écarts
Variance: C'est l'écart quadratique moyen qui,
au lieu d'être divisé par n est divisé par (n-1).

Le dénominateur (n-1) est appelé degré de liberté (ddl) et indique le nombre de


source d’information disponible pour calculer la caractéristique considérée.
Le fait d'élever au carré les écarts plutôt que de prendre leur valeur absolue
permet de pondérer davantage les valeurs extrêmes.
Dans l’exemple précédent, variance =71 cellule2
BST_2116 2023_2024 45

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences


Caractéristiques de dispersion
Écart-type (standard deviation):
C’est la racine carrée de la variance
Il possède les mêmes unités que la variable de base X. Si ce n'était la division par (n-1) et non
par n, il est calculé comme une moyenne quadratique (ou Root Mean Square = RMS)

Dans l’exemple précédent, s=8 cellules

Coefficient de variation (CV):


Rapport écart-type/moyenne : c'est une sorte "d'écart-type relatif". Il est souvent
exprimé en pourcent de la moyenne.
Dans l’exemple précédent, CV=8/17=0,5
BST_2116 2023_2024 46

23
08/11/2023

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de dispersion
Intervalle interquartile :
C’est l’écart entre le troisième et le premier quartile, Il concentre la moitié des
observations autour de la médiane
𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒍𝒆 𝒊𝒏𝒕𝒆𝒓 − 𝑸𝒖𝒂𝒓𝒕𝒊𝒍𝒆 = 𝑸𝟑 − 𝑸𝟏

Dans l’exemple précédent, IIQ=12 cellules

BST_2116 2023_2024 47

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de formes
où sx est l'écart-type
Coefficient d'asymétrie (skewness) sur la variable x.

Comme le numérateur et le dénominateur de cette fraction sont affectés de l'exposant


impair 3, il est logique que le signe de l'expression globale soit indicatif d'un
déséquilibre de la distribution soit vers les écarts positifs, soit vers les écarts négatifs.

Des valeurs positives du coefficient d'asymétrie indiquent une distribution plutôt


décalée vers la gauche (queue plus longue à droite), alors qu'un coefficient d'asymétrie
négatif indique une distribution décalée vers la droite (queue plus longue à gauche).

BST_2116 2023_2024 48

24
08/11/2023

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de formes
Coefficient d'asymétrie (skewness) standardisé
𝑛 ∑ (𝑥𝑖 − 𝑥) où sx est l'écart-type sur la variable x
∗ n est le nombre d’observation.
𝑛 − 1 ∗ (𝑛 − 2) 𝑠
Cette version ne change rien au signe de l'expression et donc aux conclusions ci-
dessus, mais permet d'apprécier la proximité du coefficient avec la valeur zéro. Tant
que le coefficient d'asymétrie standardisé reste à l'intérieur de l'intervalle [-2,2], on peut
considérer que sa valeur est proche de 0 et donc que la distribution est quasi normale.

Dans l’exemple précédent, coefficient d’Asymétrie=0,45


BST_2116 2023_2024 49

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de formes
Coefficient d'aplatissement (kurtosis)

l'exposant de l'expression est pair et donc donne le même poids aux écarts positifs et
aux écarts négatifs par rapport à la moyenne.
La forme de l'expression reflète, indépendamment de la symétrie, l'aplatissement de la
forme de la distribution, ou encore le poids relatif des "queues" de la distribution par
rapport à la partie centrale: Une distribution possédant une grande proportion de
fréquences aux 2 extrémités est assez "plate" : elle est appelée "platykurtique", son
coefficient d'aplatissement sera négatif. Au contraire, une distribution trop pointue par
rapport à la normale est appelée "leptokurtique" et possédera un coefficient positif. Entre
les deux, une distribution quasi normale ("mésokurtique") possédera un coefficient
d'aplatissement proche de zéro.
BST_2116 2023_2024 50

25
08/11/2023

Description à l’aide des paramètres de description statistique

Caractérisation d’une distribution de fréquences

Caractéristiques de formes
Coefficient d'aplatissement (kurtosis) standardisé
∑ ( ) ( )
∗( )
- 3* ∗( )

A nouveau, une valeur de ce coefficient normalisé située entre -2 et


2 sera "normale"

Dans l’exemple précédent, coefficient d’Aplatissement=-0,14

BST_2116 2023_2024 51

Description à l’aide des paramètres de description statistique


Caractérisation d’une distribution de fréquences

Caractéristiques de formes
Aplatissement<0

Asymétrie <0 Aplatissement=0

Aplatissement>0
Asymétrie >0

BST_2116 2023_2024 52

26
08/11/2023

Détection des données atypiques et/ ou aberrantes: Boîte à moustâches


Boîte à moustaches (diagramme en boîte, boîte de Tukey ou box plot ou
box-and-whisker plot)
Ce graphique est constitué de :
 Une boîte centrale comportant:
- dont la longueur correspond à 50% des valeurs observées,
- une ligne verticale ou un point indiquant la médiane, et
- les côtés indiquant les percentiles 25 et 75 de la série de valeurs (valeur telle que 25% -
resp. 75%- des valeurs de la variable se trouvent en dessous de ce nombre.
 deux "moustaches" reliant la boîte aux valeurs minimum et maximum observées. Pour la plupart
des logiciels statistiques, les moustaches ne s'étendent pas au delà de 1,5 fois la distance
interquartile (la largeur de la boîte).
 Les valeurs atypiques sont représentées comme des points isolés.
 Dans STATISTICA, les points situés au-delà de 3 fois la distance interquartile sont considérés comme
"extrêmes" ou "suspects".

BST_2116 2023_2024 53

Détection des données atypiques et/ ou aberrantes: Boîte à moustâches


Boîte à moustaches (diagramme en boîte, boîte de Tukey ou box plot ou
box-and-whisker plot)

Pour l’exemple
précédent, la boîte à
moustaches obtenue

BST_2116 2023_2024 54

27
08/11/2023

Merci de votre attention

BST_2116 2023_2024 55

Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex

Présentation des
données dans le
logiciel

BST_2116 2023_2024 56

28
08/11/2023

Annexe 1
Illustration à l’aide du
logiciel de traitement des
données « STATISTICA »

Suite de l’exercice
d’application
Présenter la distribution de
fréquence des tailles de l’axe
mineur de Daphnia pulex
Spécification de
l’analyse dans le
logiciel

BST_2116 2023_2024 57

Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de
fréquence des tailles de l’axe
mineur de Daphnia pulex

Spécification de l’analyse
dans le logiciel (suite 1)

BST_2116 2023_2024 58

29
08/11/2023

Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex

Spécification de l’analyse
dans le logiciel (suite 2)

BST_2116 2023_2024 59

Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Tableau de la distribution des fréquences de tailles de Daphnia pulex

Présentation des
résultats de l’analyse
dans le logiciel

BST_2116 2023_2024 60

30
08/11/2023

Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Histogramme de la distribution des fréquences de tailles de Daphnia pulex
Histogramme : Axe mineur dorsal (µm)
14
Présentation des
résultats de l’analyse 12

Nombre d'observations
dans le logiciel (suite) 10

0
234,84 293,55 352,26 410,97 469,68 528,39 587,10 645,81
X < Borne de catégorie
BST_2116 2023_2024 61

Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Description statistique des données
relatives à la taille de l’axe mineur
de D. pulex à l’aide des paramètres
de description statistiques

Spécification de
l’analyse dans le
logiciel

BST_2116 2023_2024 62

31
08/11/2023

Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »

Description statistique des données


relatives à la taille de l’axe mineur
de D. pulex à l’aide des paramètres
de description statistiques

Spécification de
l’analyse dans le
logiciel (suite 1)

BST_2116 2023_2024 63

Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »

Description statistique des données


relatives à la taille de l’axe mineur
de D. pulex à l’aide des paramètres
de description statistiques

Spécification de
l’analyse dans le
logiciel (suite 2)

BST_2116 2023_2024 64

32
08/11/2023

Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »

Description statistique des données relatives à la taille de l’axe mineur


de D. pulex à l’aide des paramètres de description statistiques

Présentation des résultats

N Actifs Moyenne Médian Mode Effectif Minimum Maximu Ecart- Asymétrie Aplatisse
e du Mode m type ment
Axe mineur
44 396,90 353,44 211,53 4,00 211,53 621,50 142,22 0,18 -1,47
dorsal (µm)

BST_2116 2023_2024 65

Annexe 3: Détection des données atypiques et/ ou aberrantes

Exercice d’application 6 dans statistica:


Réaliser une boîte à moustaches avec les données
de l’axe mineur dorsal de D. pulex

BST_2116 2023_2024 66

33
08/11/2023

Annexe 3: Détection des données atypiques et/ ou aberrantes


Exercice
d’application
6 dans
statistica:
Réaliser une
boîte à
moustaches
avec les
données de
l’axe mineur
dorsal de D.
pulex

BST_2116 2023_2024 67

Annexe 3: Détection des données atypiques et/ ou aberrantes


Exercice
d’application
6 dans
statistica:
Réaliser une
boîte à
moustaches
avec les
données de
l’axe mineur
dorsal de D.
pulex

BST_2116 2023_2024 68

34
08/11/2023

Annexe 3: Détection des données atypiques et/ ou aberrantes

Exemple d’application 6
dans statistica:
Une boîte à moustaches
avec les données de
l’axe mineur dorsal de
D. pulex

BST_2116 2023_2024 69

35
08/11/2023

Licence en Génétique Biotechnologie et


Ressources Biologiques

STATISTIQUE DESCRIPTIVE ET ANALYTIQUE

Chapitre 2 :
QUELQUES BASES DE L’INFERENCE
STATISTIQUE A UNE DIMENSION

Dr LIADY M. Nourou Dine 2023 - 2024


1

Objectifs pédagogiques
A la fin de ce chapitre les étudiants doivent être capables d’expliquer les principaux
fondements de l’inférence statistique. De façon spécifique, ils devront être capables de :

- Définir ce qu’est une "loi de distribution",


- Démontrer l’utilité de définir des distributions de référence,
- Citer les principales lois de distributions à une dimension et les lois dérivées,
- Citer les caractéristiques de la loi normale,
- Apprécier la normalité d’une distribution de fréquences,
- Définir la notion de "densité de probabilité" et son intérêt,
- Définir la notion d’"intégrale de loi de distribution" et préciser son utilité,
- Citer les différentes lois dérivées de la loi normale et leurs applications,

- Lire les tables statistiques des principales lois dérivées de la loi normales pour résoudre
des problèmes. BST_2116 - Chapitre2 -
2
2023-2024

1
08/11/2023

Plan
Introduction
Loi de distribution
Utilité de définir des distributions de référence
Principales lois de distributions à une dimension
Etude de cas de la loi normale
Exploitation de la distribution de référence pour réaliser le test
statistique
Quelques distributions dérivées de la distribution normale et leurs
applications
Conclusion
BST_2116 - Chapitre2 - 2023-2024 3

Introduction
La statistique ne vise pas toujours uniquement, à résumer des observations. Parfois, l’objectif est de
tester des hypothèses concernant une population. Par exemple, deux échantillons prélevés de
manière aléatoire proviennent-ils de la même population? Telle moyenne et telle autre moyenne
sont-elles égales ou significativement différentes? Il s’agira dans ces cas de partir d’échantillons
représentatifs pour tirer des conclusions valables pour toute la population: on parle d’inférence
statistique. Ce type d’analyse, requiert de comprendre et de maîtriser quelques fondements de
l’inférences statistique.

Lois de distribution de fréquence


Considérant une variable aléatoire "X", on appelle loi de distribution de fréquence
(F(x)), la relation qui existe entre les valeurs "xi" que peut prendre "X" et la
fréquence relative "fi(xi)" qui lui est associée.
2
Exemple: la loi normale 1  x-μ 
1
-2  σ 
N(η,σ)
f(x)  e  
σ 2 π
BST_2116 - Chapitre2 - 2023-2024 4

2
08/11/2023

Utilité de définir des distributions de référence


Illustration:
Supposons qu‘on veuille évaluer l'impact sur l'environnement de pratiques culturales.
L’on considère 3 parcelles sur lesquelles l’on cultive la même variété de céréale, mais
avec différents types d'engrais. La variabilité mesurée par voie chimique sur des
échantillons ramenés en laboratoire est la concentration résiduelle en azote dans le
sol, exprimée en kg d'azote par hectare.

Sur chacune des parcelles, l’on


prélève 5 échantillons, à la même
profondeur et dans des conditions
identiques.

Le tableau suivant indique un


scénario possible de résultats

BST_2116 - Chapitre2 - 2023-2024 5

Utilité de définir des distributions de référence


Nous observons des différences entre les valeurs moyennes de quantités d'azote à
l'hectare. La question posée plus haut, pourrait être formulée de la façon suivante:

Ces différences sont-elles révélatrices d'une réelle disparité entre les trois
types d'engrais utilisés ou bien les différences trouvées entre les 3 valeurs
moyennes,, ne sont-elles dues qu'aux erreurs aléatoires de la mesure et
aux fluctuations naturelles de l'azote résiduel dans le sol ?

Pour y répondre nous devrons par exemple envisager de comparer les


moyennes dans les deux scénarios, mais dans ce cas comment procéder ?

BST_2116 - Chapitre2 -
6
2023-2024

3
08/11/2023

Utilité de définir des distributions de référence


… nous devrons d’abord choisir le test statistique approprié pour effectuer cette
comparaison, …
… en effet, plusieurs échantillons peuvent paraître proches ou éloignées les uns des autres, sans
distribution de référence, comment pouvons nous savoir, s’ils appartiennent à la même
population?
Au regard de cet exemple, il apparaît que la description statistique à une dimension
peut d’ailleurs parfois apparaître au cours d’un processus de traitement de données,
comme la toute première étape qu’il conviendra d’observer et qui orientera vers le type
de test qu’il convient d’appliquer. Par exemple, les tests dits "paramétriques" (t de
student, F de ficher, Khi-deux, …) sont une catégorie de tests statistiques qui exigent
que la distribution des observations soit normale avant qu’ils ne puissent être appliqués.
Si non, ce sont des tests "non paramétriques" qu’il conviendra d’appliquer
La plupart des méthodes statistiques d’analyse, supposent que les variabilités observées au sein des
populations sont le fait de processus aléatoires. Celles-ci sont décrites par différentes lois selon que
la variable est discrète ou continue
BST_2116 - Chapitre2 - 2023-2024 7

Les principales lois de distributions à une


dimension et leurs dérivées

La loi binomiale et les lois dérivées (poisson, hypergéométrique, …) sont utilisées


pour décrire la plupart des données discontinues telles que le nombre d’individus
par échantillons, …

la loi normale et ses lois dérivées sont employées pour les variables continues
telles que le poids mais peuvent aussi, sous certaines conditions, peuvent être
utilisées pour les variables discontinues.

BST_2116 - Chapitre2 -
8
2023-2024

4
08/11/2023

Etude de cas: Loi normale N(η,σ)


2 f(x)
1  x-μ 
1
-2  σ 
f(x)  e  
σ 2 π

µ: moyenne(≈médiane≈mode)
σ: Écart-type X
m-s m m+s

Le tout grand intérêt de représenter la distribution des observations par une loi universelle,
valable dans la majorité des cas, est que
cette loi ne dépend que d'un nombre limité de paramètres pour sa description

Dans le cas de la loi normale, ces paramètres sont: la moyenne (µ) et l’écart-type (σ)
BST_2116 - Chapitre2 -
9
2023-2024

Etude de cas: Loi normale N(η,σ)

Quand la taille d'un échantillon augmente, la


distribution est généralement de plus en plus centrée
sur la valeur moyenne et se rapproche d'une courbe en
cloche caractéristique.

Cette distribution en cloche est la loi normale ou loi de


Gauss, bien connue des statisticiens : elle est l'image
de la nature générale de la réalité, de la "normalité"
des choses. En d'autres termes, c'est la distribution
vers laquelle tendent en général des valeurs mesurées
à partir d'un phénomène "normal".

Cette constatation est connue sous le nom "d'effet


central limite" ou de "loi des grands nombres"
BST_2116 - Chapitre2 -
10
2023-2024

5
08/11/2023

Etude de cas: Loi normale N(η,σ)


Implications de l'hypothèse de normalité

La valeur moyenne constitue effectivement la meilleure


estimation de la valeur "centrale" de la population
puisqu’elle coïncide avec la médiane et avec le mode. X
m m m
- +
Attention!!! s s
Considérons une distribution à coefficient d'asymétrie très positif (très décalée vers les
faibles valeurs de la variable). Supposons en outre que la grandeur soit strictement
positive. Dans ce cas, la valeur la plus probable, la plus représentative, est proche de
zéro, alors que la moyenne calculée sera, elle, plus grande. La médiane est à droite du
mode et la moyenne à droite de la médiane. Elle ne représente donc pas la valeur
"typique", "centrale". Donc, rien ne nous interdit de calculer des moyennes ou des
variances, mais nous ne pourrons vraiment leur donner une signification, au sens de la
statistique que si la distribution est proche d'une loi normale.
BST_2116 - Chapitre2 -
11
2023-2024

Etude de cas: Loi normale N(η,σ)


Appréciation de la normalité

Pour apprécier la normalité d'une distribution, quelques outils sont disponibles :


1- la position relative des différentes caractéristiques de tendance centrale : pour
une distribution normale, la moyenne, la médiane et le mode présentent des
valeurs très proches l'une de l'autre …

… et les coefficients d'asymétrie et d'aplatissement : des valeurs normalisées


se situant à l'intérieur de l'intervalle [-2,2] indiquent une forme de
distribution s'approchant de la loi normale

BST_2116 - Chapitre2 -
12
2023-2024

6
08/11/2023

Etude de cas: Loi normale N(η,σ)


Appréciation de la normalité

2- le diagramme de probabilité
normale (droite d’henry)
qui place en abscisse les
points d'une distribution
normale cumulée théorique
et en ordonnée les points de
la distribution normale
cumulée observée. Si la
distribution observée est
normale, le résultat est une
ligne droite comme illustrée
sur la figure ci-dessous:
BST_2116 - Chapitre2 -
13
2023-2024

Etude de cas: Loi normale N(η,σ)


Appréciation de la normalité
Variable : Axe majeur (µm), Distribution : Normale
Test du Chi² = 12,87, dl = 3 (ajustés) , p = 0,005
3- Test de conformité (chi carré): 8
Apprécier l'adéquation entre
Nbre d'observations

7
une série de données 6
statistiques et une loi de 5
probabilité définie a priori (ici 4
donc une loi normale théorique
estimée à partir des paramètres 𝑥̅ et 3
s) 2
1
0 400 600 800 1000 1200 1400 1600 1800 2000
500 700 900 1100 1300 1500 1700 1900 2100

Catégorie (limites sup.)


BST_2116 - Chapitre2 -
14
2023-2024

7
08/11/2023

Etude de cas: Loi normale N(η,σ)


Hauteur des arbres
Exemple d’application 2.1: 23,4 22,5
Etudier la normalité de la distribution des hauteurs 24,4 22,9
d’arbres (Dagnélie, 1957) 24,6 23,7
24,9 24
25 24,4
26,2 24,5
26,3 25,3
26,8 26
26,8 26,2
26,9 26,4
27 26,7
27,6 26,9
27,7 27,4
- 28,5

BST_2116 - Chapitre2 -
15
2023-2024

Etude de cas: Loi normale N(η,σ)


Exemple d’application 2.1:

Méthode 1: Analyse des caractéristiques de tendance centrale et de formes

N Effectif du
Moyenne Médiane Mode Asymétrie Aplatissement
Actifs Mode
24,4
Hauteur des
27 25,67 26,20 26,2 2 -0,31 -0,81
arbres
26,8

BST_2116 - Chapitre2 -
16
2023-2024

8
08/11/2023

Etude de cas: Loi normale N(η,σ)


Exemple d’application 2.1:

Méthode 2: Tracé du diagramme


de probabilité
normale (normal
probability plot)

BST_2116 - Chapitre2 - 2023-2024 17

Etude de cas: Loi normale N(η,σ)


Exemple d’application 2.1:
Méthode 3 : Test de conformité du chi carré
Variable : Hauteur des arbres, Distribution : Nous apprendrons
Nous
découvrions plus Normale plus loin dans ce
loin dans ce Test du Chi² = 5,62, dl = 7, p = 0,59 chapitre comment
chapitre 8 déterminer ce type de
comment 7 résultat et comment
Nbre d'observations

calculer cette 6 l’interpréter


valeur de Chi 5
deux 4
3
2
1
0
21,6 22,4 23,2 24,0 24,8 25,6 26,4 27,2 28,0 28,8 29,6
Catégorie (limites sup.)
BST_2116 - Chapitre2 - 2023-2024 18

9
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Rappel: DENSITÉ DE PROBABILITÉ
La densité de fréquence relative permet
de se libérer de l’amplitude des classes
observée dans l’histogramme et
débouche sur une courbe dont l’aire (en
dessous) vaut l’unité.

S’agissant des lois de distribution de


fréquence, on parle de densité de
probabilité qui, fait correspondre à Cette forme de représentation de la distribution n'est
cependant employée que pour vérifier la "normalité"
une valeur particulière de la variable d'un échantillon.
x, une probabilité d'occurrence p.
BST_2116 - Chapitre2 - 2023-2024 19

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Intégrale des lois de probabilités: Définition

En pratique, beaucoup de procédures statistiques feront


davantage usage de la distribution cumulée, définie
comme l'intégrale de la fonction de densité de
probabilité. L'axe horizontal fait toujours référence à la
valeur de la variable étudiée, mais l'axe vertical, cette fois,
représente la probabilité d'obtenir une valeur
inférieure à la valeur x donnée. Il varie donc de 0 à 1. Ce
type de distribution cumulée prend une forme en "S", tout à
fait caractéristique.
Mais on retrouve aussi la forme en cloche:
BST_2116 - Chapitre2 - 2023-2024 20

10
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?

Intégrale des lois de probabilités: Utilité


En effet, généralement, nous ne serons pas intéressés de connaître la probabilité de
mesurer telle valeur particulière d'une grandeur. Par exemple, la probabilité de
mesurer une teneur en Magnésium exactement de 12,257 mg/l lors d'un essai est
probablement très faible et la connaissance de cette probabilité ne présente aucun
intérêt. Par contre, nous serons probablement intéressés de connaître, par exemple, la
probabilité de mesurer une teneur en Magnésium comprise entre 5 et 40 mg/l, ce
qui pourrait correspondre à un intervalle habituel pour une situation donnée. Si cette
probabilité vaut 0,97 (soit 97%), alors que nous mesurons une valeur de 52 mg/l, nous
pourrions alors conclure que la valeur mesurée est fort improbable, et donc anormale.
Dans ce cas, c'est l'intégrale de la fonction de densité de probabilité dans l'intervalle
considéré qui sera employée.

BST_2116 - Chapitre2 - 2023-2024 21

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Intégrale des lois de probabilités: Définition

Il s’agit de la surface sous la


courbe comprise dans un
intervalle donné de valeur.
Cette surface correspond ainsi, à
la probabilité d’obtenir une
valeur comprise entre deux
valeurs de la variable.

BST_2116 - Chapitre2 - 2023-2024 22

11
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence
Loi normale centrée réduite N(0,1)
Il est évident qu'il existe autant de lois normales qu'il existe de séries
d'observations, ou en tout cas, de couples moyenne, écart-type: l'axe horizontal de la
distribution est gradué selon la grandeur de la variable observée. Il est alors
particulièrement mal aisé de comparer entre elles deux séries d'observations ne
possédant pas les mêmes unités ou les mêmes ordres de grandeur. Afin de ramener
toujours la distribution à une même référence, indépendante de la grandeur de la
variable, on considérera non pas les xi, mais la distribution des rapports Zi tel que:

η
BST_2116 - Chapitre2 -
23
2023-2024

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence

Loi normale centrée réduite N(0,1)


Propriétés
• μ = 0 et σ = 1
• Il n’y a pas d’unités
• L’aire totale sous la courbe = 1 (donc l'aire pour z allant de moins l'infini à zéro =
0,5)
• La courbe est parfaitement symétrique: ƒ(z) = ƒ(–z) (donc l'aire pour z allant de
moins l'infini à zéro = l'aire pour z allant de 0 à plus l'infini = 0,5)
• La courbe est continue, donc P(z) = 0
• Les probabilités correspondent directement à la surface sous la courbe
BST_2116 - Chapitre2 -
24
2023-2024

12
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence
Loi normale centrée réduite N(0,1)
L’application la plus simple: trouver la
probabilité qu'une valeur z soit inférieure
à une valeur limite zi:
Cela correspond à la surface de la courbe
normale centrée réduite située à gauche
du trait vertical marquant la position de
la valeur limite zi :

BST_2116 - Chapitre2 -
25
2023-2024

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence

Loi normale centrée réduite N(0,1)


Exemple d’application 2 : Trouvez P (z < 0,21) ]:

En pratique, la réponse sera


trouvée en se servant d’une table
de la loi normale centrée réduite
BST_2116 - Chapitre2 -
26
2023-2024

13
08/11/2023

Lecture de la table statistique de la loi normale centrée réduite

La 1ère colonne de la table indique l’unité et la 1ère décimale de zi


La 1ère ligne de la table indique la deuxième
BST_2116 -
décimale
Chapitre2
2023-2024
-
de zi 27

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence
Loi normale centrée réduite N(0,1)
Remarque: P(z < 0,21) = 0,5832 = P (z > –0,21) = 0,5832

P(0 < z < 0,21) = P(z<0,21)-P(z>0)=0,5832 – 0,5000 = 0,0832


P(–0,21<z <0) = P(z>-0,21)-P(z<0)= P(z< 0,21)-P(z<0)= 0,5832 – 0,5000 = 0,0832
P(–0,21 < z < 0,21) = P(–0,21 < z < 0) + P(–0,21 < z < 0) 0,0832 + 0,0832 = 0,1664
BST_2116 - Chapitre2 - 2023-2024 28

14
08/11/2023

Exemple d’application 3
Le frère de Moussa a pêché un poisson de 484,2 mm dans le lac Ahémé. En admettant
que la longueur des poissons de ce lac suit une loi normale N(412,3 mm; 47,9 mm),
quelle est la probabilité que Moussa pêche un poisson plus long que celui de son frère?

1) Traduction: P(x > 484,2 mm) = ?


, − 412,3 mm
2) Transformons x = 484,2 mm en z: 𝑧= =1,501
,
3) Donc: P (x > 484,2 mm) = P (z > 1,501):
Etant donné que la table de la loi normale centrée réduite nous
indique des probabilités telles que z soit inférieur à zi, par
conséquent, P(z>zi) = 1-P(z<zi). Dans le cas présent alors,
P(z > 1,501) = 1 – P(z < 1,501) = 1 – 0,9332 = 0,0668

La probabilité que Moussa pêche un poisson plus long que celui


de son frère est donc de 0,0668.
BST_2116 - Chapitre2 - 2023-2024 29

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence
t de Student
Considérons plusieurs échantillon de ni observations de moyennes respectives 𝑥𝑖 ,
et d’écart-types respectifs si, issues d'une population parente normale. Les lois
statistiques nous montrent que toutes ces moyennes se distribuent autour de la
vraie moyenne de la population parente, η, selon une loi normale dont l'écart-type
est 𝒔 𝒏
.
L'écart d'une moyenne particulière 𝒙𝒊 par rapport à la moyenne théorique η peut
𝒙 −𝜼
donc être évalué par :𝒕 = 𝒊 𝒔 qui suit une distribution t de Student à n-1
degrés de liberté 𝒏
BST_2116 - Chapitre2 -
30
2023-2024

15
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence

t de Student
La distribution du t de Student est une distribution normale réduite où la caractéristique
σ est remplacée par l'écart-type calculé à partir de l'échantillon (𝒔 𝒏): elle dépendra du
nombre d'observations, et plus exactement du nombre de degrés de liberté, qui vaut
(n-1).
les applications les plus utilisées (de cette loi comme référence) en statistiques
sont certainement la comparaison des moyennes, l’analyse de signicativité des
coefficients d'une régression, etc.

BST_2116 - Chapitre2 -
31
2023-2024

Lecture de la table statistique du t de student

Attention!!! Les valeurs dans cette table sont des valeurs de t et non des surfaces
sous la courbe (c-à-d des valeurs de probabilité). On note ces valeurs t(α;υ).
La table ne donne que les valeurs positives car la distribution de t est symétrique.
• Les valeurs de la table sont des limites définies sur l‘axe des abscisses de la courbe.
• Les probabilités α ou α/2 (les deux lignes d'en-tête du tableau) sont des surfaces
sous la courbe. BST_2116 - Chapitre2 -
32
2023-2024

16
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
t de Studentapplications comme distributions de référence
La distribution change en fonction du nombre de degrés de liberté ϑ. Lorsque ϑ tend
vers l'infini, la courbe de t converge vers une courbe normale centrée réduite N(0,1).
Le seuil α correspond à P(t > t (α; ϑ)), c'est-à-dire la probabilité que t soit égal ou dépasse une
certaine valeur critique, définie en fonction du seuil de probabilité et du nombre de degrés de liberté.
Attention, le seuil peut être:

unilatéral
ou bilatéral

Si le seuil est bilatéral, BST_2116


la notation : P(│t│>
- estChapitre2
2023-2024
- t (α/2: ϑ)) 33

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence
t de Student
Exemple d’application 4
Trouver la probabilité en connaissant les valeurs de t(α;υ)
P(t24 > 2,492) = ? C'est-à-dire: quelle est la probabilité que la valeur de t pour 24
degrés de liberté soit plus grande que 2,492 ?
On voit que la probabilité est unilatérale

On lit dans la table t

BST_2116 - Chapitre2 -
34
2023-2024

17
08/11/2023

Question unilatérale ou bilatérale: De quoi s’agit-il???


• Les valeurs données à la ligne αbilatéral donnent la probabilité qu'une valeur de t
soit située à l'extérieur de l'intervalle délimité par [–tcritique; +tcritique]. Cet α est donc
la somme des deux plages grises situées aux deux extrémités de la courbe.
• Les valeurs données à la ligne αunilatéral donnent la probabilité qu'une valeur de t soit
supérieure au t critique (si ce t est positif; plage grise de droite) ou inférieure au t
critique (si ce t est négatif; plage grise de gauche).
• Ainsi donc la table peut être interprétée de la manière suivante (avec cet exemple) :
- si la question est unilatérale, on veut connaître la probabilité qu'une valeur de t soit
supérieure au t critique. Donc, on s'intéresse uniquement à la valeur +2,492 (et non à –
2,492). La surface située plus à droite que cette valeur limite représente 1% de la
surface totale comprise sous la courbe exprimé α = 0,01;
- par contre, dans une question bilatérale, formulée P(|t24| > 2,492), on aurait voulu
savoir quelle est la probabilité qu'une valeur de t soit située à l'extérieur de l'intervalle
délimité par [–2,492; +2,492]. Cette probabilité correspond à la somme des deux zones
grises, soit α = 0,02 .
BST_2116 - Chapitre2 - 2023-2024 35

Quelques distributions dérivées de la distribution normale et leurs


applications comme distributions de référence
t de Student
En pratique, on trouvera cette
probabilité sur la table du t de
student, en recherchant d’abord
la valeur indiquée (soit ici,
2,492) sur la ligne du degré de
liberté indiqué (soit ici 24),
ensuite, la probabilité
recherchée sera lue sur la ligne
qui indique les probabilités.

BST_2116 - Chapitre2 -
36
2023-2024

18
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence
Somme de tous les carrés des écarts
Le χ2 ou khi-deux rapportés aux effectifs standards

Appliquée (comme loi de référence)


La forme de la courbe de densité de pour étudier l’indépendance entre deux
probabilité change en fonction de υ variables catégorielles ou pour ajuster
des données observées à une loi de
distribution théorique

Distribution de densité des lois de degrés de


liberté:

BST_2116 - Chapitre2 - 2023-2024 37

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs
applications comme distributions de référence

Lecture de la table statistique de la loi de khi−carré


La table donne des valeurs de χ2 critique pour un ddl et pour un seuil repère (α)
donné

Exemple : déterminer P(Χ2[3] >7,81)

En pratique sur la table du khi−carré, on apprécie pour le degré de liberté


correspondant (soit ici 3), et pour la valeur indiquée (soit ici 7,81), cette probabilité en
lisant sur la ligne indiquant les probabilités
BST_2116 - Chapitre2 -
38
2023-2024

19
08/11/2023

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs applications

Le χ2 ou khi-deux
Pour ddl=3, la table indique que P(Χ2[3] >7,81)=0,05

La probabilité donnée dans la table


est donc unilatérale à droite.

BST_2116 - Chapitre2 - 2023-2024 39

Comment exploiter la distribution de référence


pour réaliser le test statistique?
Quelques distributions dérivées de la distribution normale et leurs applications

En plus de la distribution normale centrée réduite, de la distribution du t de student, et


de la distribution du khi carré, les autres distributions dérivée de la distribution
normale sont:

Le F de Fisher-Snedecor

Appliquée (comme loi de référence) dans l’analyse de variance notamment


dans les cas de la comparaison de plusieurs moyennes et dans l’analyse de
régression, …
BST_2116 - Chapitre2 - 2023-2024 40

20
08/11/2023

Quelques distributions dérivées de la


distribution normale et leurs applications
Lecture de la table statistique du F de Fisher-Snedecor pour α=0,05 ; 0,01 et 0,001)

La table donne des valeurs de


Fcritique pour un degré de
liberté (ddl_1) du numérateur
et un autre degré de liberté
(ddl_2) pour le dénominateur
et pour une probabilité (α)
donnée telle que
P(F>Fcritique ddl1; Ddl2)= α
Exemple:
Déterminer P(F>3,60) pour
Ddl1=11 et Ddl2=7
BST_2116 - Chapitre2 - 2023-2024 41

Merci de votre attention

BST_2116 - Chapitre2 -
42
2023-2024

21
08/11/2023

Rappels sur le chapitre 2 : « Quelques bases de l’inférence statistique à


une dimension »
- Loi de distribution: définition,
- Utilité de définir des distributions de référence,
- Les principales lois de distribution à une dimension et les lois dérivées,
- Les caractéristiques de la loi normale,
- Appréciation de la normalité d’une distribution de fréquences,
- Densité de probabilité : définition et intérêt,
- Intégrale de loi de distribution: définition et utilité,
- Les différentes lois dérivées de la loi normale et leurs applications,

- Tables statistiques des principales lois dérivées de la loi normales. 1

Licence en Génétique Biotechnologie et


Ressources Biologiques

STATISTIQUE DESCRIPTIVE ET ANALYTIQUE

Chapitre 3:

COMPARAISON DE MOYENNES

Dr LIADY M. Nourou Dine 2023 – 2024


2

1
08/11/2023

Objectifs pédagogiques
A la fin de ce cours les étudiants doivent être capables de :
- Définir ce qu’est un test d’hypothèse,
- Citer les catégories de tests d’hypothèse,
- Utiliser le vocabulaire des tests d’hypothèse,
- Comparer une moyenne observée à une moyenne théorique ;
- Comparer deux moyennes observées sur deux échantillons appariés ;
- Comparer deux moyennes observées sur deux échantillons indépendants;
- Expliquer la logique de l'ANOVA,
- Décomposer la variance totale dans un plan de comparaison de plus de deux moyennes sur des
échantillons indépendants,
- Citer les hypothèses de chacun des tests paramétriques étudiés,
- Vérifier le respect des hypothèses de chacun des tests paramétriques étudiés,
- Formuler les hypothèses nulles et alternatives en vue de la mise en œuvre de chacun des tests
paramétriques étudiés,
- Citer les règles de mise en œuvre de chacun des tests paramétriques étudiés
- Citer les règles de décision de chacun des tests paramétriques étudiés
- Identifier les dispositifs expérimentaux simples dans le cadre de la comparaison de moyennes3

Plan

INTRODUCTION

VOCABULAIRE DES TESTS D’HYPOTHÈSE

1ère partie : CAS DE DEUX MOYENNES

2ème partie : CAS DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS


INDÉPENDANTS

08/11/2023 Dr Liady M. Nourou Dine 4

2
08/11/2023

INTRODUCTION
Pourquoi réalise-t-on des comparaisons ?
Les raisons sont nombreuses, par exemple :
1- Pour contrôler l'efficacité d'un traitement, d'une méthodologie, on veut comparer la
moyenne des concentrations observées à une valeur normative;
2- Pour vérifier s’il y a une différence significative entre deux méthodes d’analyses mises
en œuvre sur le même milieu par deux personnes différentes. A cet effet, on peut par
exemple comparer les moyennes des deux séries de mesures;
3- Pour étudier la différence d’impact sur l’environnement entre trois types d’engrais
utilisés sur la même variété de céréale, cultivée sur le même type de parcelle. A cet effet, sur
chacune des parcelles, on peut prélever à la même profondeur et dans des conditions
identiques, 5 échantillons, et se demander si les résultats obtenus sur les trois parcelles sont
différents; le cas échéant, on pourra imputer cette différence au type d’engrais utilisé

Catégories de tests d’hypothèse


- Tests paramétriques
- Tests non paramétriques
08/11/2023 Dr Liady M. Nourou Dine 5

VOCABULAIRE DES TESTS D’HYPOTHÈSE


Formulation des hypothèses
Au sens statistique du terme, une hypothèse, est une assertion / supposition au sujet
d'une population, que l'on désire mettre à l'épreuve (1) en tirant un échantillon au
hasard, et (2) en utilisant une loi de référence; cette hypothèse est l'hypothèse nulle
(H0): par exemple, la moyenne des observations est égale à une moyenne
théorique.

Par rapport à cette hypothèse nulle (H0), on va tester une alternative (H1): par exemple, la
moyenne mesurée est inférieure à la moyenne théorique, ou n'est pas égale à la
moyenne théorique, ou le rapport de variances n'est pas égal à 1, …

Pour tester cette alternative, on fixe d’abord un seuil de signification (α) ou risque de
première espèce (risque α), ou probabilité de rejeter H0 à tort c’est-à-dire, de conclure à tort
qu’un traitement est meilleur qu’un autre alors que le hasard est responsable des différences
observées ou encore, le risque d’affirmer qu’il y a une différence significative alors qu’elle
n’existe pas réellement. α = prob(rejet H0/H0 vraie)
08/11/2023 Dr Liady M. Nourou Dine 6

3
08/11/2023

VOCABULAIRE DES TESTS D’HYPOTHÈSE


Règle de décision
Le niveau acceptable pour le seuil de signification α est arbitrairement fixé à 5% .
Dans les logiciels de statistique, le résultat du test est généralement exprimé par la valeur de p qui
exprime la probabilité que le hasard explique la différence observée entre les deux échantillons. Cette
valeur de p est dichotomisée en «significative» lorsque p < α et en «non significative» lorsque p> α.
Ainsi, l'hypothèse nulle H0 est :
 acceptée: lorsque p>α (la probabilité que la différence observée soit le fruit du hasard est élevée);
 rejetée: lorsque p<α (la probabilité que la différence observée soit le fruit du hasard est faible)
Le rejet de l'hypothèse nulle est traditionnellement qualifié de statistiquement significatif au seuil de
signification α.

Lorsque l’analyse est effectuée manuellement, le résultat du test sera déterminé en


recourant à la table statistique de la loi de référence utilisée. Dans cette table, il faudra
d’abord déterminer la valeur critique du test pour le seuil α choisi et le degré de liberté adapté,
puis, comparer la valeur calculée de la statistique du test à cette valeur critique. Pour la plupart des
tests paramétriques :
→ Si Valeurcalculée < Valeurcritique, H0 est acceptée;
→ Si Valeurcalculée > Valeurcritique, on rejette H0
08/11/2023 Dr Liady M. Nourou Dine 7

1ère partie : CAS DE DEUX MOYENNES

PLAN

Comparaison d'une moyenne observée et d'une moyenne théorique

Comparaison de deux moyennes pour échantillons appariés

Comparaison de deux moyennes pour des échantillons indépendants

08/11/2023 Dr Liady M. Nourou Dine 8

4
08/11/2023

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE

Exemple de situation 3.1


Pour obtenir une eau potable, on effectue en général un traitement en trois (03) étapes :
- d’abord, un traitement primaire, par sédimentation,
- ensuite un traitement secondaire, par oxydation biologique,
- enfin, un traitement tertiaire, par adsorption sur des résines, pour enlever le reste des
composés chimiques.

Concernant l'atténuation des concentrations en composés chimiques, les deux premiers


traitements apportent de bons résultats, exceptés pour les sulfates, qu'il faut tenter d'éliminer
par un traitement tertiaire. Supposons donc que nous ayons mis au point une nouvelle résine
échangeuse d'ions et que nous désirons tester si elle apporte effectivement une amélioration
significative concernant la concentration résiduelle en sulfates dans l'eau par rapport aux
deux premiers traitements (primaire et secondaire) et aussi par rapport aux autres résines
habituellement utilisées.

08/11/2023 Dr Liady M. Nourou Dine 9

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
Exemple de situation 3.1 suite
Imaginons que nous ayons effectué 50 mesures de concentration en sulfates, dans l'eau traitée
par notre nouvelle résine, utilisée comme traitement tertiaire. Nous obtenons par exemple, le
tableau ci-dessous qui comprend 50 valeurs variant entre 9,8 et 17,7 mg/l : la moyenne des
valeurs est 14,64 et la variance 3,41 (écart-type 1,848).
[Sulfates] (en mg/l)
17,74 15,88 14,57 17,13 12,57 13,67 14,94 14,93 11,52 13,46 16,47 13,34 16,02
12,17 16,1 12,9 14,46 13,15 14,23 13,66 14,01 17,46 13,7 17,43 11,4 15,72
12,22 16,74 12,81 14,2 16,53 15,81 9,79 14,43 14,67 14,98 16,25 14,57
13,89 17,54 14,95 16,9 13,6 16,63 13,08 16,35 15,92 14,57 11,34 15,65
Dans la littérature, nous apprenons que la valeur de concentration en sulfates typiquement
atteinte après les deux premières étapes du traitement (et donc avant le traitement par la résine) est
16 mg/l. La concentration moyenne atteinte grâce à la résine que nous avons inventée est de
14,64 mg/l. Alors, pouvons-nous conclure que nous améliorons la situation par rapport à un
traitement "simple" ?
08/11/2023 Dr Liady M. Nourou Dine 10

5
08/11/2023

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
Mise en place du test:
Soit X, la variable aléatoire réelle
correspondant à la concentration en sulfate.
1 – Choix de la catégorie de test appropriée Variable : sulf_mg_L, Distribution : Normale
Test du Chi² = 6,96, dl = 4 (ajustés) , p = 0,14>0,05
On vérifie que X suit une loi normale (de
moyenne η1 et d’écart-type σ1) dans la 8

Nbre d'observations
population. η1 est estimée par la moyenne 𝑥̅
6
de l’échantillon
4

2 – Formulation des hypothèses à tester 0


H0: η1=η0 10 12 14 16 18

H1: η1≠η0 Catégorie (limites sup.)

08/11/2023 Dr Liady M. Nourou Dine 11

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Choix de la loi de référence appropriée: Test du t de student (la variance de la
population, n’est pas connue, elle est estimée à partir de l’échantillon)
3.1 – Condition de mise en œuvre et logique du test t de student
Sous l’hypothèse H0: η1=η0, X suit une loi normale de moyenne η0 et d’écart-type 𝜎,
̅ η0
par conséquent, 𝑡 = suit une loi de t de student à n-1 degrés de liberté peut

être utilisée comme loi de référence .


Logique de ce test: t traduit une différence entre les deux moyennes (𝒙 𝒆𝒕 η0). Si
celles-ci sont égales, la valeur de t devrait être nulle.
Il s’agira donc de calculer la valeur de t, puis d’étudier à l’aide de la fonction de
densité de probabilité centrée sur 0 du t de student, si cette valeur est
significativement différente de 0. Le cas échéant, les deux moyennes pourraient être
considérées comme significativement différentes.
08/11/2023 Dr Liady M. Nourou Dine 12

6
08/11/2023

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student

- On définit un seuil de probabilité α, en dessous duquel, la valeur de t calculée, sera


considérée comme significativement différente de 0;

- À partir des données de l’échantillon, on calcule la valeur de tobservé à l’aide de la

𝒙 η0
formule, 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é = 𝒔
𝒏

08/11/2023 Dr Liady M. Nourou Dine 13

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student
- Dans la table du t de student, on apprécie pour le degrés de liberté n-1 correspondant et pour
le seuil de probabilité (α) retenu, la valeur du tobservé , par rapport à celle du "t de référence" :
• Si tobservé < t de référence, H0 est retenue et, par conséquent 𝒙 = η0
• Si tobservé > t de référence, on rejette H0 et, par conséquent 𝒙 ≠ η0

08/11/2023 Dr Liady M. Nourou Dine 14

7
08/11/2023

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student
- Avec le logiciel, on apprécie pour le degrés de liberté n-1 correspondant, la probabilité "p"
avec laquelle la valeur tobservé est obtenue, par rapport au seuil de probabilité (α) retenu:
• Si p< α, on rejette H0 et, par conséquent 𝒙 ≠ η0
• Si p> α, H0 est retenue et, par conséquent 𝒙 = η0

Exercice d’application 3.1: Analyse de l’efficacité d’une résine échangeuse


d’ions pour l’élimination des sulfates dans l’eau

Pour l’exemple de situation décrit précédemment, vérifiez si la nouvelle résine,


utilisée comme traitement tertiaire apporte une amélioration significative de la
qualité de l’eau par rapport aux deux premiers traitements.
08/11/2023 Dr Liady M. Nourou Dine 15

Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Choix de la loi de référence appropriée: Test du t de student (la variance de la
population, n’est pas connue, elle est estimée à partir de l’échantillon)

On observe que /tcalculé/=/-5,20/=5,20 > tcritique(ddl=49, α=0,05)=1,677

Il y a donc une différence significative entre les deux moyennes, par conséquent, la
nouvelle résine, utilisée comme traitement tertiaire apporte une amélioration
significative de la qualité de l’eau par rapport aux deux premiers traitements

8
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
Exemple de situation 3.2
Pour comparer la longueur des sépales et des pétales chez l’espèce d’iris appelée Setosa,
30 individus ont été considérés. Les résultats obtenus sont présentés dans le tableau ci-
dessous:
Longueur Sépales 5,1 4,9 4,7 5 5 5,4 4,6 5 4,4 4,9 5,4 4,8 4,8 4,3 5,8
Longueur Pétales 1,4 1,4 1,3 2 1,4 1,7 1,4 1,5 1,4 1,5 1,5 1,6 1,4 1,1 1,2
Longueur Sépales 5,7 5,4 5,1 6 5,1 5,4 5,1 4,6 5,1 4,8 5 5 5,2 5,2 4,7
Longueur Pétales 1,5 1,3 1,4 2 1,5 1,7 1,5 1 1,7 1,9 1,6 1,6 1,5 1,4 1,6

Il y a-t-il une différence significative entre


les longueurs de ces parties de la fleur?
08/11/2023 Dr Liady M. Nourou Dine 17

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
Mise en place du test:
Les deux échantillons sont appariés c-à-d qu’ils ne sont pas indépendants: les
deux méthodes sont appliquées chaque fois sur chacun des individus de
l’échantillon.

Ici, on s’intéresse à la différence "d" entre les deux mesures


sur chacun des individus statistiques: d=Xsépale - Xpétale

La question posée est donc de savoir si la moyenne des différences (𝐝)̅


est différente de 0, par conséquent, on est ramené en fait à comparer
une moyenne observée (celle des d) à une moyenne théorique (η0 = 0)

08/11/2023 Dr Liady M. Nourou Dine 18

9
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
1 – Choix de la catégorie de test appropriée
Etude de normalité de la distribution de la différence « d » entre les deux mesures appariées

On vérifie que d suit une loi normale dans la population de moyenne: 𝑑 et d’écart-type 𝑠 .

2 – Formulation des hypothèses


H0 : 𝑑 = 0
H1 : 𝑑̅ ≠ 0

08/11/2023 Dr Liady M. Nourou Dine 19

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Choix de la loi de référence appropriée:
Puisque d suit une loi normale dans la population de moyenne: 𝑑 et d’écart-type
𝑠 , alors 𝑡 = suit une loi de student à n – 1 degrés de liberté, par conséquent cette loi peut

être utilisée comme référence pour réaliser cette analyse.

𝑑̅ et 𝑠 , sont estimés respectivement à partir de l’échantillon


Règle de mise en œuvre et de décision du test t de student
- On définit un seuil de probabilité α, en dessous duquel, la valeur de t calculée, sera
considérée comme significativement différente de 0;

- À partir des données, on calcule la valeur de tobservé à l’aide de la formule 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é =

08/11/2023 Dr Liady M. Nourou Dine 20

10
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
- Dans la table du t de student, on apprécie pour le degrés de liberté n-1 correspondant, la
valeur du "tobservé" par rapport à celle du t de référence :
 Si tobservé < t de référence, H0 est retenue et, par conséquent, par conséquent, 𝒅 = 𝟎
 Si tobservé > t de référence, on rejette H0 et, par conséquent, 𝒅 ≠ 𝟎

08/11/2023 Dr Liady M. Nourou Dine 21

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
- Dans le logiciel, on apprécie pour le degrés de liberté (n-1) correspondant, la probabilité "p" avec
laquelle la valeur tobservé est obtenue, par rapport au seuil préalablement défini (généralement 5%):
• Si p< α, on rejette H0 et, par conséquent 𝒅 ≠ 𝟎
• Si p> α, H0 est retenue et, par conséquent 𝒅 = 𝟎
Exemples de résultats obtenus

On observe que tcalculé=52,57> tcritique(ddl=29, α=0,05)=2,0452


Ec-Type
Moyenne Ec-Type N Différ. t dl p
Différ.
Longueur Sépales 5,027 0,372
Longueur Pétales 1,473 0,186 30 3,553 0,370 52,57 29 0,000

08/11/2023 Dr Liady M. Nourou Dine 22

11
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Test du t de student (la variance de la population, n’est pas connue)
Exercice d’application 3.2: Comparaison des longueurs des sépales et
des pétales chez l’espèce d’iris appelée
Setosa

Reprenez l’exercice proposé dans l’exemple de situation 3.2

08/11/2023 Dr Liady M. Nourou Dine 23

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS

Exemple de situation 3.3


En vue d’estimer les différences de productivité qui peuvent exister entre
plusieurs types de forêts de hêtre de l’ardenne belge, Dagnélie (1957) a mesuré,
en différents endroits la hauteur (qui est étroitement liée à la production en
volume) des arbres les plus gros. Trois type de hêtraies ont été considérées au
sein desquelles on a observé les hauteurs des arbres respectivement en 13
endroits, en 14 endroits et en 10 endroits différents, choisis au hasard et
indépendamment les uns des autres. En chaque endroit, les cinq arbres les
plus gros situés au sein d’une parcelle circulaire d’environ 15 m de rayon ont
été mesurées, chacun deux fois, et pour chaque lieu, la moyenne des 10
observations a été calculée. Pour éviter la présentation de données trop
nombreuse, seules ces moyennes ont été présentées dans le tableau ci-dessous :

08/11/2023 Dr Liady M. Nourou Dine 24

12
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Exemple de situation 3.3 (suite)
Type 1 Type 2 Type 3
23,4 22,5 18,9
24,4 22,9 21,1
24,6 23,7 21,2
24,9 24 22,1
25 24,4 22,5
26,2 24,5 23,6
26,3 25,3 24,5
26,8 26 24,6
26,8 26,2 26,2
26,9 26,4 26,7
27 26,7 On voudrait savoir si la productivité est la même dans
27,6 26,9 la forêt de type 2 et dans la forêt de type 3
27,7 27,4
28,5

08/11/2023 Dr Liady M. Nourou Dine 25

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Mise en place du test:
1 – Choix de la catégorie de test appropriée: Etude de normalité de la distribution
Ici, les deux échantillons sont indépendants
Soit X, la variable aléatoire réelle correspondant à la
hauteur des arbres.

On vérifie que X suit une loi normale dans chacun


des deux échantillons.

08/11/2023 Dr Liady M. Nourou Dine 26

13
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Mise en place du test:
Soit X, la variable aléatoire réelle correspondant à la production des arbres.
2– Formulation des hypothèses
H0: les échantillons sont issus de la même population, dans laquelle, X suit une loi
normale de moyenne η0 et d’écart-type 𝜎0
H1: les échantillons sont issus de populations différentes

Corollaires de H0:
- Les moyennes des deux populations (type 2 et type 3) sont identiques: η2=η3=η0
- Les variances des deux populations (type 2 et type 3) sont identiques: 𝜎22 = 𝜎32 = 𝜎02
homoscédasticité ou homogénéité des variances

08/11/2023 Dr Liady M. Nourou Dine 27

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Mise en place du test:
Soit X, la variable aléatoire réelle correspondant à la production des arbres.
3– Etude de l’homogénéité des variances
Test de Hartley
On calcule la variance de chacun des
échantillons à comparer, et on fait le rapport
de la plus grande sur la plus petite, ce
rapport est Fmax de Hartley.
Cette valeur est comparée, dans la table de
Hartley (ou de Fmax), à une valeur théorique
et doit lui être inférieure pour un seuil de
risque (α) choisi et les ddl calculés

08/11/2023 Dr Liady M. Nourou Dine 28

14
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
4 – Choix de la loi de référence appropriée:
Puisque X, suit une distribution normale dans chacun des deux échantillons d’une
part, et que les deux variances sont homogènes d’autre part, alors,
̅ ̅
𝑡= , suit une loi de t de student à n2 + n3 - 2 degrés de liberté, par conséquent, cette

loi peut être utilisée comme référence pour effectuer cette comparaison.

La logique du test reste identique à celle décrite plus haut: Si les deux moyennes sont
égales, t devrait tendre vers 0.

Les moyennes η2 et η3 des deux populations (type 2 et type 3) dont sont issus les deux
échantillons, sont estimées par 𝑥̅ et 𝑥̅

08/11/2023 Dr Liady M. Nourou Dine 29

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
5- Règle de mise en œuvre et de décision du test t de student
- On définit un seuil de probabilité α (généralement 5%), en dessous duquel, la valeur de t
calculée, sera considérée comme significativement différente de 0;

- À partir des données des deux échantillons, on calcule la valeur de tobservé à l’aide de la

𝒙 𝟐 𝒙𝟑
formule, 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é
=
𝒔𝟐 𝟐
𝟐 𝒔𝟑
𝒏𝟐 𝒏𝟑

08/11/2023 Dr Liady M. Nourou Dine 30

15
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
Dans la table du t de student, on apprécie pour le degrés de liberté (n2 + n3 – 2)
correspondant, la valeur du "tobservé" par rapport à celle du t de référence :
• Si tobservé < t de référence, H0 est retenue et, par conséquent, 𝒙𝟐 = 𝒙𝟑
•Si tobservé > t de référence, on rejette H0 et, par conséquent, 𝒙𝟐 ≠ 𝒙𝟑

08/11/2023 Dr Liady M. Nourou Dine 31

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
Avec le logiciel, on apprécie pour le degrés de liberté (n2 + n3 – 2) correspondant, la valeur du
"p" avec laquelle la valeur tobservé est obtenue, par rapport au seuil fixé:
• Si p< α, on rejette H0 et, par conséquent, 𝒙𝟐 ≠ 𝒙𝟑
• Si p> α, H0 est retenue et, par conséquent, 𝒙𝟐 = 𝒙𝟑
tobservé = 2,215
Exemples de résultats obtenus tcritique(ddl=22; α=0,05) = 2,074
Ratio p Brn- dl Brn- p Brn-
valeur F Varian Levene dl Fors Fors Fors
𝑥̅ 𝑥̅ dl p 𝑛 𝑛 𝑠 𝑠 Varian ces F(1,dl)
p Levene
F(1,dl)
t Levene
ces
Type 2
vs. 25,39 23,14 2,62 22 0,02 14 10 1,77 2,44 1,89 0,29 1,29 22 0,27 1,23 22 0,28
Type 3

Interprétez ces résultats!!!


08/11/2023 Dr Liady M. Nourou Dine 32

16
08/11/2023

Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
3 – Test du t de student (la variance de la population, n’est pas connue)

Exercice d’application 3.3: Comparaison de la productivité de deux


types de forêts de hêtraie

En reprenant les données présentées dans l’exemple de situation 3,


comparer les productivités des forêts de type 1 et de type 2, en considérant
que leurs coefficients d’asymétrie et d’aplatissement sur les observations
faites sont respectivement de -0,507 et -0,923 (pour le type 1) et -0,041 et -
0,575 (pour le type 2).

08/11/2023 Dr Liady M. Nourou Dine 33

Merci de votre attention

34

17
08/11/2023

2ème partie : CAS DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS


INDÉPENDANTS
Plan
Exemple de situation
Mise en place du test (de l’ANOVA)
Logique de l'ANOVA à 1 critère de classification
Décomposition de la variance totale
Calcul du rapport des variances (F)
Hypothèses de l’ANOVA
Vérification du respect des hypothèses de l’ANOVA sur des données à comparer
Formulation de hypothèses nulles et alternatives en vue de la mise en œuvre d’une ANOVA,
Règle de mise en œuvre de l’Analyse de Variance (ANOVA)
Règle de décision de l’Analyse de Variance (ANOVA)
Exemple de résultats
08/11/2023 Dr Liady M. Nourou Dine 35

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de situation 3.4
Pour évaluer l'impact sur l'environnement de 3 types d’engrais, on considère 3 parcelles identiques sur
lesquelles on cultive la même variété de céréale, mais avec 3 types d'engrais. La variabilité mesurée par
voie chimique sur des échantillons ramenés en laboratoire est la concentration résiduelle en azote dans le
sol, exprimée en kg N/ha. Sur chacune des parcelles, l’on prélève 5 échantillons, à la même profondeur et
dans des conditions identiques. Les résultats obtenus sont présentés dans le tableau ci-dessous:

Il y a-t-il une différence


significative entre les 3 types
d’engrais ?

08/11/2023 Dr Liady M. Nourou Dine 36

18
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place de l’ANOVA
Lorsqu’on veut comparer plus de deux moyennes, c'est la dispersion, mesurée par la variance, qu'il
faut examiner; c'est la raison pour laquelle cette analyse est appelée "analyse de la variance".
Le but de l’analyse de la variance est de tester la présence ou non de différences
significatives entre des moyennes. Elle permet également d’identifier les sources de
variation qui peuvent permettre d’expliquer les différences qu’il y a entre ces moyennes.

La Logique de l'ANOVA repose:


- d’une part, sur une décomposition de la variance totale en variance inter groupe due aux
écarts entre les moyennes et en variance intragroupe due aux écarts de moyennes entre les
différentes modalités d’un facteur,
- puis on compare à l’aide de la loi de F de Fisher-Snedecor, ces deux variances en comparant leur
ratio à l’unité,
- Lorsque le ratio est assez grand (Fcalculé>Fcritique), on conclut que les moyennes des populations
sont significativement différentes l’une de l’autre.
08/11/2023 Dr Liady M. Nourou Dine 37

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
Décomposition de la variance totale

( − )+ -

∑𝒑𝒊 𝟏 ∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙
𝟐 = ∑𝒊
𝒑
𝟏 𝒏𝒊 𝒙 𝒊 − 𝒙
𝟐 𝒑
+ ∑𝒊 𝟏 ∑𝒌 𝟏 𝒙𝒊𝒌 −
𝒏𝒊
𝒙𝒊 𝟐

SCEt SCEα entre échantillons SCEr

08/11/2023 Dr Liady M. Nourou Dine 38

19
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS

Mise en place du test: Analyse de Variance (ANOVA)


Décomposition de la variance totale

Variance de toutes Variance des Moyenne des


les observations = moyennes + variances

𝒑 𝒑
𝟏 𝟏 𝟏
∗ 𝒙𝒊 − 𝒙 𝟐 = ∗ 𝒙𝒊 − 𝒙 𝟐
+ *∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙𝒊 𝟐
N−𝟏 𝒄−𝟏 𝑵 𝒄
𝒊 𝟏 = 𝒊 𝟏

Variance totale = 𝑺𝟐𝒊𝒏𝒕𝒆𝒓𝒈𝒓𝒐𝒖𝒑𝒆 𝑺𝟐𝒊𝒏𝒕𝒓𝒂𝒈𝒓𝒐𝒖𝒑𝒆


+
08/11/2023 Dr Liady M. Nourou Dine 39

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
Calcul du rapport des variances (F)
𝟏
𝒄 𝟏
𝒑
∗𝒏∗∑𝒊 𝟏 𝒏𝒊 𝒙𝒊 − 𝒙 𝟐
n∗variance inter groupe
𝑭= =
variance intragroupe
𝒙𝒊𝒌 − 𝒙𝒊
𝟏
𝑵 𝒄
∗ ∑𝒏𝒊
𝒌 𝟏
𝟐

Avec : n: nombre commun d’observations dans chaque groupe; c: nombre de groupes et


N: nombre total d’observation dans tous les groupes (N=Ʃn)

L’ANOVA consiste donc comparer la variance intergroupe à la variance intragroupe :


 Si ces deux variances étaient égales, leur rapport vaudrait 1.
 Si le rapport était beaucoup plus grand que l'unité, nous pourrions affirmer que la variance intergroupe est
beaucoup plus élevée que la variance commune, et donc que le facteur étudié (ici le type d’engrais) a une
influence sur le résultat (ici la concentration en azote résiduelle dans le sol).
 A l'inverse, si le rapport est largement inférieur à 1, la différence entre les moyennes ne pourrait pas être
expliquée par le facteur étudié.

08/11/2023 Dr Liady M. Nourou Dine 40

20
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS

Mise en place du test: Analyse de Variance (ANOVA)


Soit X, la variable aléatoire réelle correspondant à la production des arbres.
1 – Les hypothèses de l’ANOVA
Pour mettre en œuvre l’ANOVA paramétrique de Fisher, les hypothèses suivantes doivent
être vérifiées:
- Les p échantillons comparés sont indépendants;
- Normalité de la distribution: la variable quantitative étudiée suit une loi normale
dans les p populations comparées;
- Homogénéité ou homoscédasticité des variances: les p populations comparées ont la
même variance

08/11/2023 Dr Liady M. Nourou Dine 41

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
1 – Vérification des hypothèses de l’ANOVA
Indépendance
Il n’y a pas de test statistique pour vérifier l’indépendance: ce sont les conditions dans lesquelles l’expérience a
été mise en œuvre qui déterminent si l’on est dans le cas d’indépendance.

Normalité
Plusieurs tests sont disponibles dont ceux présentés dans le chapitre 2 (quelques bases de
l’inférence statistique à une dimension)

Homogénéité
Plusieurs Tests sont disponibles : Test de Hartley, test de Brown et Forsythe, Test de
Levenne, Test de Bartlett, …
Le test de Hartley consiste à calculer le paramètre Fmax en divisant la variance la plus
élevée par la variance la plus faible, L’interprétation du résultat obtenu est réalisée à
l’aide de la table statistique du Fmax de Hartley.
08/11/2023 Dr Liady M. Nourou Dine 42

21
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
Soit X, la variable aléatoire réelle correspondant à la production des arbres.

2 – Formulation des hypothèses


H0: - les échantillons sont issus de la même population, dans laquelle, X suit une loi normale de
moyenne η0 et d’écart-type 𝜎 0:
- la variance entre les groupes (inter) devrait être à peu près la même que la variance estimée
avec la variabilité à l’intérieur de chaque groupe (intra)

H1: les échantillons sont issus de populations différentes


Corollaires de H0:
- Les moyennes des trois populations (type1, type 2 et type 3) sont identiques: η1=η2=η3=η0
- Les variances des trois populations sont identiques: 𝜎12 = 𝜎22 = 𝜎32 = 𝜎02 homoscédasticité ou
homogénéité des variances

08/11/2023 Dr Liady M. Nourou Dine 43

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Règle de mise en œuvre de l’Analyse de Variance (ANOVA)
- On définit un seuil de probabilité α, en dessous duquel, la valeur de Fcalculée (ou Fobservé),
sera considérée comme significativement inférieure à Fcrtitique pour les dégrés de liberté c−1
et N−c, respectifs du numérateur et du dénominateur
- À partir des données, on calcule la valeur de Fobservé à l’aide de la formule,
𝟏
𝒄 𝟏
∗𝒏∗∑𝒄𝒊 𝟏 𝒏𝒊 𝒙𝒊 − 𝒙 𝟐
n∗variance inter groupe
𝑭= =
𝟏
∗ ∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙𝒊 𝟐 variance intragroupe
𝑵 𝒄

𝒏∗
𝟏
∗∑𝒄 𝒏 𝒙
𝒑 𝟏 𝒊 𝟏 𝒊 𝒊

n∗variance inter groupe
𝒙 𝟐

En fait, c'est le rapport 𝑭 = = que nous étudierons.


∗𝟏
𝑵 𝒄
∑𝒏𝒊− 𝒙𝒊 𝟐
𝒌 𝟏 𝒙𝒊𝒌
variance intragroupe
Dans cette expression, pour des raisons de cohérence des ordres de grandeur, la variance
intergroupes au numérateur est multipliée par le nombre commun d'observations (n), afin que le
rapport F fluctue autour de la valeur 1.

08/11/2023 Dr Liady M. Nourou Dine 44

22
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Règle de décision de l’Analyse de Variance (ANOVA)
- Dans la table du F de Fisher, on apprécie pour les ddl (c-1) et (N-c) correspondant, la
valeur de Fobservé par rapport à la valeur Fcritique :
• Si Fobservé < Fcritique, H0 est retenue et, par conséquent, il n’y a pas de différence
significative entre les moyennes
• Si Fobservé > Fcritique, on rejette H0 et, par conséquent les moyennes sont
significativement différentes

08/11/2023 Dr Liady M. Nourou Dine 45

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Règle de décision de l’Analyse de Variance (ANOVA)
- Dans les logiciels on apprécie pour les degrés de liberté (c-1) et (n-c) correspondant et le
seuil α préalablement retenu, la probabilité "p" avec laquelle la valeur de Fobservé est
obtenue :
• Si p< α, on rejette H0 et, par conséquent, Fobservé> Fcritique
•Si p> α, H0 est retenue et, par conséquent, Fobservé< Fcritique

46

23
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Normalité de la distribution des observations

Interprétez ces résultats!!! 47

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Homogénéité
des variances

On a Fmax calculé < Fmax critique


donc les variances sont homogènes

48

24
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Anova de Fisher
Les calculs manuels permettent de trouver:

Fcalculé = 8,30 > Fcritique (2;12)= 3,89 par


conséquent, Vintergroupe significativement
supérieure à la Vintragroupe
On en déduit, qu’il y a une différence
significative entre les 3 types d’engrais

49

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Anova de Fisher
À l’aide du logiciel statistica on
obtient le résultat:

50

25
08/11/2023

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Analyse a posteriori (post-hoc) des moyennes

L’Anova met en évidence l’influence d’un facteur (variable d’intérêt) en utilisant les
moyennes, il peut être intéressant de spécifier nommément sur quelles groupes portent
ces différences (il y a une influence du type d’engrais) sur la teneur en azote résiduel
dans le sol: quelle est le meilleur type d’engrais?

Si le test F est significatif cela veut dire que les moyennes sont statistiquement
différentes. Pour, avoir des précisions sur quelle moyenne diffère de quelle autre
moyenne, il faut réaliser une analyse a posteriori (post-hoc) des moyennes (comparaisons
multiples sur le même ensemble de données)

08/11/2023 Dr Liady M. Nourou Dine 51

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Analyse a posteriori (post-hoc) des moyennes
Il existe 3 procédures pour faire de l’inférence après avoir vu les données sans affecter le
coefficient de confiance:
 Méthode de Tukey («HSD = Honest Significant Differences »): supérieure et
recommandée, si on veut seulement faire des comparaisons entre les paires de
moyennes;

 Méthode de Scheffé pour les contrastes


 Méthode de Bonferronni pour les comparaisons prédéfinies: préférable à la procédure de
Scheffé si le nombre de contrastes d’intérêt est à peu près le même que le nombre de
modalités.
Mais, il existe également d’autres procédures pour des fonctions spécialisées. Par
exemple:
 la procédure de Dunnett pour comparer chaque traitement vis-à-vis d’un contrôle
 Procédure de Hsu : choisir le « meilleur » traitement.
08/11/2023 Dr Liady M. Nourou Dine 52

26
08/11/2023

Tests paramétriques
COMPARAISON DE
PLUS DE DEUX
MOYENNES POUR
ÉCHANTILLONS
INDÉPENDANTS

Exemple de résultat
obtenu de l’Analyse a
posteriori (post-hoc)
des moyennes
concernant la
comparaison de la
productivité des 3
hêtraies
08/11/2023 Dr Liady M. Nourou Dine 53

Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exercice d’application
Supposons qu‘on veuille évaluer l'impact sur
l'environnement de pratiques culturales. L’on considère 3
parcelles sur lesquelles l’on cultive la même variété de
céréale, mais avec différents types d'engrais. La
variabilité mesurée par voie chimique sur des échantillons
ramenés en laboratoire est la concentration résiduelle en
azote dans le sol, exprimée en kg d'azote par hectare. Sur
chacune des parcelles, l’on prélève 5 échantillons, à la
même profondeur et dans des conditions identiques.
Comparer les impacts de ces
Le tableau ci-contre indique un scénario possible de trois types d’engrais sur
résultats: l’environnement
08/11/2023 Dr Liady M. Nourou Dine 54

27
08/11/2023

Merci de votre aimable attention

08/11/2023 Dr Liady M. Nourou Dine 55

28
08/11/2023

Licence en Génétique Biotechnologie et


Ressources Biologiques

STATISTIQUE DESCRIPTIVE ET ANALYTIQUE

Chapitre 4:
DESCRIPTION ET INFERENCE
STATISTIQUES A DEUX DIMENSIONS

Dr LIADY M. Nourou Dine 2022 - 2023


1

Objectifs pédagogiques
A la fin de ce cours les étudiants doivent être capables de :
- Résumer des données brutes portant simultanément sur deux variables sous la forme de
distribution de fréquences en utilisant aussi bien des outils tabulaires que des outils graphiques;
- Définir les notions de fréquences marginales, distributions marginales, fréquences conditionnelles,
distributions conditionnelles ;
- Mesurer l'intensité de la liaison entre deux variables quantitatives ;
- Mesurer l'intensité de la liaison entre deux variables ordinales ;
- Mesurer l'intensité de la liaison entre deux variables dichotomiques (exemple, en écologie)
- Mesurer l'intensité de la liaison entre deux variables qualitatives;
- Expliquer ce qu’est la régression linéaire et ses applications,
- Connaître les principales formes du modèle linéaires,
- Décrire les étapes de l’étude de la régression linaire,
- Analyser et d’interpréter les résultats d’une régression linaire.

1
08/11/2023

PLAN
INTRODUCTION
DESCRIPTION STATISTIQUE
Distributions de fréquence à 2 dimensions et distributions associées
Caractérisation des distributions marginales et des distributions conditionnelles
INFÉRENCE STATISTIQUE
Mesure de l’intensité de la liaison entre deux variables
Cas des données quantitatives: Corrélation de Pearson
Cas des données ordinales: Corrélation de Spearman
Cas des données dichotomiques comme en écologie: Indices de similitude, de diversité
Cas des données qualitatives: Test du χ2, Test du χ2 corrigé de Yates, Comparaison de 2 proportions
Caractérisation de la nature de la liaison entre deux séries statistiques
 Cas de deux variables quantitatives (Régression linéaire simple)
08/11/2023 Dr Liady M. Nourou Dine 3

1ère partie:
Description Statistique à deux dimensions et Mesure de
l'intensité de la liaison entre deux variables
PLAN
INTRODUCTION
DESCRIPTION STATISTIQUE
Distributions de fréquence à 2 dimensions et distributions associées
Caractérisation des distributions marginales et des distributions conditionnelles
INFÉRENCE STATISTIQUE
Mesure de l’intensité de la liaison entre deux variables
Cas des données quantitatives: Corrélation de Pearson
Cas des données ordinales: Corrélation de Spearman
08/11/2023 Dr Liady M. Nourou Dine 4

2
08/11/2023

Introduction

Les buts des statistiques à 2D sont identiques à ceux des statistiques à 1D, à savoir:
- Résumer les données (Description statistique) afin que l'on puisse les interpréter
aisément,
- Tirer des conclusions générales sur toute une population à partir
d’échantillons représentatifs (inférence statistique).

Pour parvenir à ces buts, la statistique à 2D procède essentiellement par :


 la description des distributions de fréquences,
 la mesure de l’intensité de la liaison entre deux variables;
 la description de la nature de la liaison entre deux séries d'observations
considérées simultanément.

08/11/2023 Dr Liady M. Nourou Dine 5

Distributions de fréquence à 2D et distributions associées


Exemple de situation 4.1: Au cours d’une étude de la croissance et du développement
de la chicorée (Cichorium intybus L.), les poids des feuilles et les poids des racines ont
été mesurées chez 1000 plantes. Une partie des données est présentée comme suit:
Séries statistiques doubles
Les observations relatives à 2 variables et à plusieurs (n) individus, se présentent à
l’état brut sous la forme d’une suite de n couples de valeurs observées (xi, yi),
éventuellement rangées dans l’ordre croissant de l’une des deux variables
Feuille Racine Feuille Racine Feuille Racine
71 56 115 57 . .
76 51 . . . .
106 40 . . . . Comment procéder
108 174 . . 660 276 pour rendre ces
109 62 634 224 662 174 informations
111 59 639 332 673 290 aisées à
111 84 642 272 679 290 comprendre?
112 94 658 253 741 230
08/11/2023 Dr Liady M. Nourou Dine 6

3
08/11/2023

Distributions de fréquence à 2D et distributions associées

Distribution de fréquence à deux dimensions


Comme dans le cas d’une seule variable, une première manière de condenser ces
informations consiste à les présenter sous la forme de distribution de fréquences.
Pour 2 variables, Il s’agit de combiner 2 tables de fréquences (tableau à deux
entrées) telle que chaque cellule du tableau obtenu représente une combinaison
unique des modalités des variables croisées

Ainsi:
- Une ligne est réservée à chaque valeur de la 1ère variable par exemple X
- Une colonne est réservée à chaque valeur de la 2ème variable, par exemple Y
- À l’intersection de chaque valeur xi de X et de chaque valeur yj de Y, on mentionne
la fréquence observée du couple (xi, yj)

08/11/2023 Dr Liady M. Nourou Dine 7

Distributions de fréquence à 2D et distributions associées

Fréquences marginales ou totales ni. et n.j


Elles s’obtiennent en calculant les totaux relatifs de chaque ligne et de chaque
colonne. Mathématiquement elles sont exprimées par les relations:

𝑛𝑖. = 𝑛𝑖𝑗
Dans les deux cas, le point remplace
l’indice suivant lequel on a sommé
𝑛. 𝑗 = 𝑛𝑖𝑗

𝑛𝑖. = 𝑛. 𝑗 = 𝑛𝑖𝑗 = 𝑛
Par ailleurs,
on obtient que
08/11/2023 Dr Liady M. Nourou Dine 8

4
08/11/2023

Distributions de fréquence à 2D et distributions associées

Distributions marginales ou totales ni. et n.j


Elles sont obtenues en associant respectivement, à chacune des fréquences
marginales ou totales obtenues précédemment, les valeurs xi (de X) et yj (de Y)
respectives. On obtient alors, deux distributions statistiques à une dimension. Les
fréquences relatives correspondantes sont:
𝑛𝑖. X n Y n 𝑛. 𝑗
𝑛 𝑖. = 𝑛 .𝑗 =
𝑛 x1. n1. y1. n.1 𝑛
x2. n2. y2. n.2
𝑛′𝑖. = 𝑛′𝑖𝑗 . . . . 𝑛′. 𝑗 = 𝑛′𝑖𝑗
. . . .

𝑛′𝑖. = 𝑛′. 𝑗 = 𝑛′𝑖𝑗 = 1


08/11/2023 Dr Liady M. Nourou Dine 9

Distributions de fréquence à 2 dimensions et distributions associées

Distributions conditionnelles (ou liées) de y à la condition x=xi.


C’est la distribution que l’on obtient en considérant une ligne particulière (et donc une
valeur particulière xi. de X) du tableau à double entrée; il comporte l’ensemble des
valeurs yj et des fréquences nij correspondantes. Il existe autant de distributions
conditionnelles ou liées de y, que de valeurs observée ou de classe de x.

Distributions conditionnelles (ou liées) de x à la condition y=y.j


Elle est obtenue en considérant une colonne particulière du tableau à double entrée.
Elle comporte l’ensemble des valeurs xi et des fréquences nij correspondantes. Il
existe autant de Distributions conditionnelles ou liées de x, que de valeurs observée
ou de classe de y.

08/11/2023 Dr Liady M. Nourou Dine 10

5
08/11/2023

y
x Totaux
y1 y2 . . yj . . . yq
x1 n1.1 n1.2 . . n1.j . . . n1.q n.1

Fréquences marginales des x


x2 n2.1 n2.2 . . n2.j . . . n2.q n.2

indépendamment des y
. . . . .
Fréquences . .
de la distribution . . .
. . . . .
conditionnelle. des x .pour .y=y1. . .
. . . . . . . . . . .
xi ni.1 ni.2 . Fréquences
. . .
. de la. distribution . n.i
. . . . conditionnelle
. . des.y pour . x=xp
. . .
. . . . . . . . . . .
xp np.1 np.2 . . . . . . . .
Totaux n.1 n.2 . . n.j . . . n.q n

Fréquences marginales des y indépendamment des x


08/11/2023 Dr Liady M. Nourou Dine 11

Définition
Distributions de fréquence à 2 dimensions et distributions associées

Distribution de fréquence à deux dimensions


Exercice d’application 4.1:
A partir du tableau de la diapo 13, déterminer :
- La distribution des fréquences relatives
- La distribution marginale des poids des racines
- La distribution marginale des poids des feuilles
- Les distributions conditionnelles des poids des racines
- Les distributions conditionnelles des poids des feuilles

08/11/2023 Dr Liady M. Nourou Dine 12

6
08/11/2023

Racines
Feuilles 40 à 80 à 120 à 160 à 200 à 240 à 280 à 320 à Totaux
79 119 159 199 239 279 319 359
0 à 79 2 2
80 à 159 49 46 5 2 102
160 à 239 86 137 46 11 280
240 à 319 27 153 89 25 7 301
320 à 399 5 45 91 40 6 187
400 à 479 10 33 21 16 1 1 82
480 à 559 1 4 11 10 3 29
560 à 639 2 1 2 4 1 10
640 à 719 1 3 2 6
720 à 799 1 1
Totaux 169 392 270 112 42 11 3 1 1000

08/11/2023 Dr Liady M. Nourou Dine 13

Distributions de fréquence à 2 dimensions et distributions associées

Distribution de fréquence à deux dimensions


Exercice d’application 4.2:
Les données employées pour cet exemple, portent sur une analyse de la
distribution de quatre types d’engrais observés dans quatre pays. Pour ce faire 100
échantillons ont été prélevés de manière aléatoire dans ces quatre pays. Les
données brutes sont fournies au cours de la séance.

Il vous est demandé de :


- Résumer ces données sous forme de tableau de contingence (tableau de
distribution à 2D).
- Présenter la distribution marginale des types d’engrais dans les quatre pays;
- Présenter la distribution conditionnelle des types d’engrais au Bénin.

08/11/2023 Dr Liady M. Nourou Dine 14

7
08/11/2023

Les paramètres relatifs à une


seule variable, servent à
caractériser les distributions
Deux types de marginales et les distributions
paramètres pour conditionnelles.
caractériser les séries
statistiques doubles et les Les paramètres qui concernent
distribution de fréquence simultanément les deux variables,
à 2D: servent à décrire les relations qui
existent entre les deux séries
d'observations.
08/11/2023 Dr Liady M. Nourou Dine 15

Caractérisation des distributions marginales et des distributions conditionnelles

Description des distributions marginales et des distributions


conditionnelles
Moyenne et variance marginales (si variable quantitative)

1 1
𝑥̅ = 𝑛𝑖𝑥𝑖 𝑦= 𝑛𝑗𝑦𝑗
𝑝 𝑞

𝑠 = ∑ (𝑥𝑖 − 𝑥)2 𝑠 = ∑ (𝑦𝑗 − 𝑦) 2

08/11/2023 Dr Liady M. Nourou Dine 16

8
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Densité
Exemple de situation 4.2: [Enzyme]
Optique
Dans le cadre d’une étude au laboratoire, il a été
0,2 0,111
mesuré sur neuf (09) différentes dilutions d’une solution
0,4 0,246
enzymatique pure, simultanément, la concentration et la
0,6 0,364
densité optique. Le résultat obtenu est présenté dans le
0,8 0,5
tableau ci-contre.
1 0,607
1,2 0,723
Peut-on affirmer que ces deux mesures sont 1,4 0,835
1,6 0,925
corrélées ? C’est-à-dire qu’elles présentent 1,8 1,08
une bonne liaison entre elles?

08/11/2023 Dr Liady M. Nourou Dine 17

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Covariance cov(X,Y)
La covariance entre deux variables X et Y mesure la relation linéaire entre elles.
2,0

1 1,8
𝑐𝑜𝑣 𝑋, 𝑌 = (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦) 1,6
𝑛 1,4
1,2
1,0
1
y

𝑐𝑜𝑣 𝑋, 𝑌 = [𝑛𝑖𝑗 𝑥𝑖 − 𝑥̅ 𝑦𝑗 − 𝑦 ] 0,8


𝑛 0,6
0,4
0,2
1
𝑐𝑜𝑣 𝑋, 𝑌 = (𝑥𝑖 ∗ 𝑦𝑖 − 𝑥̅ ∗ 𝑦 0,0
0,0 0,2 0,4 0,6 0,8 1,0 1,2
𝑛
x
08/11/2023 Dr Liady M. Nourou Dine 18

9
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Covariance cov(X,Y)
covariance grande et bonne liaison entre deux variables qui
positive => évoluent dans le même sens

covariance grande et bonne liaison entre deux variables qui


négative => évoluent en sens contraire
La covariance
covariance faibleest toujours
=> inférieure
mauvaise ou égale au produit
liaison entre des
les écart
deuxtypes
variables
La covariance souffre de la dépendance par rapport à l'ordre de grandeur des valeurs
des variables et, en particulier, par rapport aux échelles employées (voir la
démonstration à travers l’exercice d’application 4, pour cette raison on emploiera
souvent le coefficient de corrélation de Pearson)
08/11/2023 Dr Liady M. Nourou Dine 19

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Coefficients de corrélation (r) de Pearson
Comme la covariance, le coefficient de corrélation r, mesure l’intensité
d’une relation linéaire entre deux variables. Il a pour expression:
,
r=rxy=r(x,y)= Sa valeur est toujours comprise entre [-1; 1]

Le signe du coefficient de corrélation est le même que celui de la covariance et, il


indique le sens de la relation entre X et Y :
- r > 0 : corrélation positive, les deux variables X et Y varient dans le même sens.
- r<0 : corrélation négative, les deux variables X et Y varient en sens inverses.
- r≈0 : Aucune corrélation les deux variables ne sont pas linéairement corrélées
Dr Liady M. Nourou Dine 20

10
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Coefficients de corrélation (r) de Pearson
Quelques
illustrations

Attention!!!
X et Y peuvent être
liées parfaitement
par une loi
quadratique alors
que r ≈ 0
08/11/2023 Dr Liady M. Nourou Dine 21

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Coefficients de corrélation (r) de Pearson
Exercice d’application 4.3:
[Enzyme] Densité Calculer la cov(X,Y) et le rX,Y [Enzyme] Densité
(mg/l) Optique entre la [enzyme] et la densité (µg/l) Optique
0,2 0,111 optique dans les deux cas 200 0,111
0,4 0,246 présentés dans les deux tableaux: 400 0,246
0,6 0,364 600 0,364
0,8 0,5 800 0,5
1 0,607 1000 0,607
1,2 0,723 1200 0,723
1,4 0,835 1400 0,835
1,6 0,925 1600 0,925
1,8 1,08 1800 1,08
08/11/2023 Dr Liady M. Nourou Dine 22

11
08/11/2023

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables quantitatives


Coefficients de corrélation (r) de Pearson
Test du coefficient de corrélation
Après le calcul du coefficient de corrélation r estimé sur un échantillon,
il faut déterminer si celui-ci est significativement différent de 0.

r≈ρ

H0 : ρ = 0 (absence de liaison linéaire entre X et Y)


H1 bilatérale : ρ ≠ 0 (existence d’une liaison linéaire entre X et Y)
08/11/2023 Dr Liady M. Nourou Dine 23

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables quantitatives


Coefficients de corrélation (r) de Pearson
Test du coefficient de corrélation (test paramétrique)

Sous l’hypothèse nulle (H0), le rapport de l’estimateur du coefficient de corrélation


𝒓
(r) sur son écart-type (sr) soit suit une loi de Student à (n-2) degrés de liberté avec
𝒔𝒓
n, l’effectif de l’échantillon.
𝒓
→𝒕 𝒏 𝟐
𝒔𝒓
𝟏 − 𝒓𝟐
L’estimateur de l’écart-type du coefficient de corrélation est égal à : 𝒔𝒓 =
𝒏−𝟐

08/11/2023 Dr Liady M. Nourou Dine 24

12
08/11/2023

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables quantitatives


Coefficients de corrélation (r) de Pearson
Test du coefficient de corrélation de Pearson (test paramétrique)
Le test du coefficient de corrélation consiste
à calculer la grandeur
𝒏 𝟐
𝒕𝟎 = 𝒓 ∗
𝟏 𝒓𝟐
et à la comparer à la valeur seuil tα sur la
table de la loi de Student à n-2 degrés de
libertés.

(to : valeur observée (calculée)


de t sur l’échantillon)

08/11/2023 Dr Liady M. Nourou Dine 25

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives
Coefficients de corrélation (r) de Pearson
Test du coefficient de corrélation de Pearson
- Dans la table du t de student, on compare pour le degré de liberté n-2 correspondant et pour le
seuil de probabilité (α) retenu, la valeur du tobservé , par rapport à celle du "tde référence" :
• Si tobservé < t de référence, H0 est retenue et, par conséquent r = 0 (absence de liaison
linéaire entre X et Y)
• Si tobservé > t de référence, on rejette H0 et, par conséquent r ≠0 (existence d’une liaison
linéaire entre X et Y)

- Les logiciels affichent généralement plutôt, la p-value :


• Quand p> 0,05: H0 est retenue (r = 0 c-à-d absence de liaison linéaire entre X et Y)
• Quand p< 0,05, on rejette H0 (r ≠0 c-à-d il y a une liaison linéaire entre X et Y)

08/11/2023 Dr Liady M. Nourou Dine 26

13
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables quantitatives

Coefficients de corrélation (r) de Pearson


Exercice d’application 4.4 :
Déterminer la significativité (par
rapport à 0) du r=0,9991 trouvé
dans l’exercice 4.3 avec n=9
observations

08/11/2023 Dr Liady M. Nourou Dine 27

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables ordinales


Lorsque les observations des variables ne se distribuent pas normalement, une
manière classique de contourner la difficulté est de classer les valeurs selon leur rang
(de la plus petite valeur vers la plus grande), puis d'oublier les valeurs initiales et de
travailler ensuite uniquement sur les rangs. On obtient ainsi une échelle ordinale.
Sur une telle échelle, les valeurs "mesurées" ne donnent une information sur la
relation avec les autres valeurs qu'en termes de "supériorité" ou "d'infériorité", mais
n'indiquent pas "dans quelle mesure" elles sont supérieures ou inférieures

Coefficient de corrélation de rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)


𝒏 𝟐
𝒊 𝟏 𝒊
𝒔 𝟑

08/11/2023 Dr Liady M. Nourou Dine 28

14
08/11/2023

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables ordinales


Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
𝒏 𝟐
𝒊 𝟏 𝒊
𝒔 𝟑

Exemple d’application 4.1


Ordre de franchissement d’un même obstacle par un troupeau de vache numérotées
à deux moments
1er passage: G, A, B, D, I, F, J, C, E, M, H, K, N, L, O
2ème passage: A, D, G, B, K, N, C, F, H, M, E, J, O, I, L

08/11/2023 Dr Liady M. Nourou Dine 29

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables ordinales Corrélation des rangs


N° par ordre d'arrivée Report des même N° mais
d2=(X-Y)2
(𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
au 1er passage (X) par ordre de passage (Y)
G A 1 2 1
A D 2 4 4 𝟔∗ ∑𝒏𝒊 𝟏 𝒅𝟐𝒊
B G 3 1 4 𝒓𝒔 = 𝟏 −
D B 4 3 1 𝒏𝟑 − 𝒏
I K 5 12 49
F N 6 13 49
J C 7 8 1 𝒓𝒔 = 𝟎, 𝟓𝟗; (p=0,02<0,05)
C F 8 6 4
E H 9 11 4
M M 10 10 0
H E 11 9 4
K J 12 7 25
N O 13 15 4
L I 14 5 81
O L 15 14 1

08/11/2023
∑d2=
Dr Liady M. Nourou Dine
232 30

15
08/11/2023

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables ordinales


Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
𝒏 𝟐
𝒊 𝟏 𝒊
𝒔 𝟑

Interprétation
Le principe de cette analyse repose sur le fait que si la relation entre les deux
ensembles de rangs était parfaite, chaque différence "d" serait nulle.
Donc plus la différence entre les rangs des deux variables est grande, moins leur
relation est étroite. Toutefois, comme pour le coefficient classique de corrélation (r de
Pearson), la significativité de cette différence est appréciée par rapport au seuil de 5%

08/11/2023 Dr Liady M. Nourou Dine 31

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables ordinales


Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
Test du coefficient de corrélation de Spearman

08/11/2023 Dr Liady M. Nourou Dine 32

16
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables ordinales
Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
Test du coefficient de
corrélation de Spearman

Pour des petits échantillons (4<n<30), les


valeurs critiques de rs aux seuils α de 0,05
et 0,01 ont été tabulées. Cette table est
unilatérale: les valeurs observées de rs
correspondent à une direction prévue, soit
positive, soit négative. Si la valeur
observée de rs égale ou supérieure à la
valeur de la table, cette valeur observée
est significative (pour un test unilatéral) au
seuil indiqué.
08/11/2023 Dr Liady M. Nourou Dine 33

Mesure de l’intensité de la liaison entre deux variables

Cas de deux variables ordinales


Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
Exercice d’application 4.5
Déterminer la significativité (par
rapport à 0) du rs=0,58 trouvé
dans l’exemple d’application 4.1
avec n=15 observations

08/11/2023 Dr Liady M. Nourou Dine 34

17
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables ordinales
Corrélation des rangs (𝐫 𝐝𝐞 𝐬𝐩𝐞𝐚𝐫𝐦𝐚𝐧: 𝒓𝒔)
Exercice d’application 4.6:
t1 t2 d d2
On dose chez des
1 4 -3 9
animaux la glycémie 2 1 1 1
à deux temps 3 5 -2 4
différents et on 4 2 2 4
souhaite savoir si les 5 3 2 4
valeurs aux deux 6 7 -1 1
7 8 -1 1
𝟔∗𝟑𝟒
temps sont corrélées. 𝒓𝒔_𝒐𝒃𝒔𝒆𝒓𝒗é𝒆 = 𝟏 − =0,72
On obtient les 8 9 -1 1 𝟗𝟑 𝟗
9 6 3 9
valeurs des rangs On trouve:
suivants : Ʃ 0 34 𝒓𝒔_𝒐𝒃𝒔𝒆𝒓𝒗é𝒆=0,72>𝒓𝒔_𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆(n=9 et α=0,05)=0,70 :
les valeurs aux deux temps sont corrélées
08/11/2023 Dr Liady M. Nourou Dine 35

2ème partie: Mesure de l'intensité de la liaison entre 2


variables (suite)
PLAN
Mesure de l’intensité de la liaison entre deux variables (suite 1)
Cas des données dichotomiques comme en écologie: Indices de similitude, de diversité
Cas des données qualitatives: Test du χ2, Test du χ2 corrigé de Yates, Comparaison de 2 proportions

36

18
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques

Comment apprécier le degré de liaison


entre deux variables dichotomiques (qui
ne peuvent prendre que deux valeurs : 0/1, ou
Présent/Absent ou …) ?

- Les notions de moyenne et d'écart-type deviennent non significatives


- le concept de distribution autour d'une valeur centrale n'a plus de sens :
pas de chance pour que les observations soient distribuées normalement.
- comme il n'y a que 2 valeurs possibles, le réarrangement selon les rangs
et le calcul d'un coefficient de Spearman ou de Kendall ne peut se justifier.

08/11/2023 Dr Liady M. Nourou Dine 37

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques

Ces variables sont fortement


discontinues et le graphique x-y
illustrant la relation entre deux
variables dichotomiques ne peut
présenter que 4 points, à travers
lesquels il n'est pas possible d'imaginer
une quelconque relation linéaire.

Graphique de type "x-y" pour deux variables dichotomiques


(présence ou absence de plantes sur deux sites)

08/11/2023 Dr Liady M. Nourou Dine 38

19
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques

La figure, relative à l'exemple de


la présence ou de l'absence de
plantes (les "observations") sur
deux sites (les "variables") n'est
d'aucune utilité pour le
traitement des données, sinon
qu'elle montre clairement qu'une
loi linéaire entre les deux sites
ne peut être appliquée.

Graphique de type "x-y" pour deux variables dichotomiques


(présence ou absence de plantes sur deux sites)
08/11/2023 Dr Liady M. Nourou Dine 39

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques
Indices de Similarité utilisé en écologie:
Indice de similarité de Jaccard (SJ)

Où:
- c est le nombre d'espèces partagées entre les deux sites et,
- a, b sont les nombres d'espèces uniquement rencontrées sur chacun des deux sites

SJ indique la proportion d'espèces communes à deux sites, parmi la liste complète


des espèces considérées sur les deux sites

08/11/2023 Dr Liady M. Nourou Dine 40

20
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques
Indices de Similarité utilisé en écologie:
Coefficient de communauté de Sørensen (CC)
Dans cette relation, au lieu de diviser le nombre d'espèces partagées par le nombre total d'espèces
rencontrées sur les deux sites, on le divise par le nombre moyen d'espèces

𝟐𝒄
𝒂 𝒃 𝟐𝒄
Il indique aussi la proportion d'espèces communes à deux sites, parmi la liste
complète des espèces considérées sur les deux sites

Exemple d’application 4.7: (données à recevoir au cours)


Evaluer le degré de similitude entre les stations considérées deux à deux

08/11/2023 Dr Liady M. Nourou Dine 41

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques
Indices de Diversité utilisés en écologie:
La richesse spécifique seule, ne suffit pas pour rendre compte de la composition
floristique ou faunistique quantitative d’un peuplement végétal ou animal car,
deux peuplements présentant la même composition floristique ou faunistique
(mêmes espèces) peuvent être caractérisés par des indices de diversité très
différents :
- un peuplement dont toutes les espèces possèdent le même nombre d’individus
possède la diversité maximale,
- un peuplement dont une espèce est majoritairement dominante, possède une
diversité moindre.

08/11/2023 Dr Liady M. Nourou Dine 42

21
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques
Indices de Diversité utilisés en écologie:
Prend en compte non seulement le nombre d’espèces, mais également la
distribution des individus au sein de ces espèces

Shannon-Weaver (H’) 𝒔
𝒊 𝒊 𝟐 𝒊
𝑝 : effectif relatif soit 𝑝 =
n : nombre total d'individus
ni : nombre d'individus d'une espèce donnée, i allant de 1 à S (nombre total d’espèces).
La valeur de l’indice (H’) varie de 0 (une seule espèce, ou bien une espèce dominant
très largement toutes les autres) à log S (lorsque toutes les espèces ont la même
abondance).

08/11/2023 Dr Liady M. Nourou Dine 43

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques
Indices d’équitabilité utilisé en écologie:
L’indice de Shannon est souvent accompagné par l’indice d’équitabilité de Piélou (J’):
𝑯 𝑯
=
𝑯𝒎𝒂𝒙 𝒍𝒐𝒈𝟐(𝑺)

mesure la répartition des individus au sein des espèces, indépendamment de la


richesse spécifique. Sa valeur varie de 0 (dominance d’une des espèces) à 1
(équirépartition des individus dans les espèces).

08/11/2023 Dr Liady M. Nourou Dine 44

22
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables dichotomiques
Station 1 ni pi log2(pi) -pi*log2(pi)
Astragalus armatus 4 0,1739 -2,5236 0,4389
Deverra tortuosa 2 0,0870 -3,5236 0,3064
Exercice Zygophyllum album 1 0,0435 -4,5236 0,1967
d’application 4.8: Cynodon dactylon 1 0,0435 -4,5236 0,1967
(Source: Jauffret, 2001) Diplotaxis harra 4 0,1739 -2,5236 0,4389
Astragalus corrugatus 1 0,0435 -4,5236 0,1967
Stipa capensis 10 0,4348 -1,2016 0,5224
N 23
S 7
H' 2,2966
J 0,818
Qu’en est-il de la deuxième variable (Station 2?)
08/11/2023 Dr Liady M. Nourou Dine 45

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes
Exemple de situation 4.2:
Considérons les données de McHugh (2013) relatives à l’effet d’un vaccin sur trois
catégories de personnes et qui sont présentées dans le tableau de fréquence 3 x 2
ci-dessous.
Etat vaccinal
Etat de santé
Non vacciné vacciné
Pneumonie de type
23 5 Peut-on dire que la
pneumococcal
Pneumonie de type non
vaccination influence l’état
8 10 de santé des individus au
pneumococcal
Sain 61 77 sein de cette population?
08/11/2023 Dr Liady M. Nourou Dine 46

23
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Avec:
O: effectif observé et
T: effectif théorique

• Un test non paramétrique;


• Adapté pour étudier la dépendance entre deux groupes lorsque la variable
dépendante est exprimée sur une échelle nominale;
• Fourni des informations sur les deux variables en général (indépendance ou non)
mais également sur chaque groupe;
• Si le résultat du questionnaire est peu probable lorsque les variables sont
indépendantes, on rejettera cette hypothèse.
08/11/2023 Dr Liady M. Nourou Dine 47

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Avec:
O: effectif observé et
T: effectif théorique

Logique du test:
Si les lignes et colonnes d'une table (L*C) sont complètement indépendantes entre
elles, les effectifs théoriques (T) peuvent être reproduites à partir des totaux lignes et
colonnes seuls (totaux marginaux) et devraient être égaux aux effectifs observés (O).
Le Χ2 permet donc de mesurer les écarts entre les effectifs observés (O) et les
effectifs théoriques (T)
08/11/2023 Dr Liady M. Nourou Dine 48

24
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
1. Calcul des marges
2. Calcul des effectifs théoriques
3. Calcul des χ2 des cellules
Mise en œuvre du test : 4. Calcul du χ2 de la table
5. Calcul du degré de liberté
6. Détermination de χ2 critique
7. Interprétation.

08/11/2023 Dr Liady M. Nourou Dine 49

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2 Variable


Etape 1: Calcul des marges dépendante

Etat vaccinal Marges des


Etat de santé
Non vacciné vacciné lignes
Pneumonie de type
23 5 28
pneumococcal
Pneumonie de type
8 10 18
non pneumococcal
Sain 61 77 138
Marges des colonnes 92 92 184
08/11/2023 Dr Liady M. Nourou Dine 50

25
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Etape 2: Calcul des effectifs théoriques (Ti)
𝑴𝒂𝒓𝒈𝒆 𝑳𝒊𝒈𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒄𝒆𝒍𝒍𝒖𝒍𝒆 ∗ 𝑴𝒂𝒓𝒈𝒆 𝒄𝒐𝒍𝒐𝒏𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒄𝒆𝒍𝒍𝒖𝒍𝒆
𝑻𝒊 =
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒐𝒕𝒂𝒍

Etat vaccinal Profils lignes


Etat de santé
Non vacciné vacciné (marges des lignes)
Pneumonie de type pneumococcal 14 14 28
Pneumonie de type non pneumococcal 9 9 18
Sain 69 69 138
Profils colonnes (marges des colonnes) 92 92 184
08/11/2023 Dr Liady M. Nourou Dine 51

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes
Test d’indépendance du χ2
𝟐
Etape 3: Calcul des χ2 des cellules 𝑶 −𝑻
Etat vaccinal χ𝟐𝒄𝒆𝒍𝒍𝒖𝒍𝒆 =
Etat de santé
𝑻
Non vacciné Vacciné
Pneumonie de type
5,79 5,79
pneumococcal
Pneumonie de type non
0,11 0,11
pneumococcal
Sain 0,93 0,93
𝟐
Etape 4: Calcul du χ2 de la table χ𝟐𝒕𝒂𝒃𝒍𝒆 = χ𝟐𝒄𝒆𝒍𝒍𝒖𝒍𝒆𝒔 =
𝑶 −𝑻
𝑻
Dans le cas présent, χ2 total =13,65
08/11/2023 Dr Liady M. Nourou Dine 52

26
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes
Test d’indépendance du χ2
Etape 5: Calcul du degrés de liberté
𝑑𝑑𝑙 = (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑙𝑖𝑔𝑛𝑒𝑠 − 1) ∗ (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑜𝑙𝑜𝑛𝑛𝑒𝑠 − 1)

Dans le cas présent, ddl= (3-1)*(2-1)=2

08/11/2023 Dr Liady M. Nourou Dine 53

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Etape 6: Détermination du χ2 critique
On voit que pour ddl=2 et au seuil α = 0,05,
χ = 5,99

08/11/2023 Dr Liady M. Nourou Dine 54

27
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Etape 7: Interprétation
7.1 Analyse du χ2 total
Etant donné que χ é = 13,65 > χ = 5,99, l’hypothèse non nulle
(d’indépendance des deux variables) est rejetée et, l’alternative selon laquelle l’état
vaccinal influence significativement l’état de santé est acceptée.

Cependant ce résultat n’explique pas à lui seul à quoi est dû cette influence. Pour le
savoir, il faudrait analyser les χ2 des cellules.

08/11/2023 Dr Liady M. Nourou Dine 55

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Etape 7: Interprétation Le tableau montre que la valeur de χ2 la plus
7.2 Analyse des χ2 des cellules élevée (5,79) est observée dans la cellule 1.
Cela est dû au fait que la valeur observée (24)
Non
Etat de santé Vacciné est largement supérieure à la valeur
vacciné théorique (14); ainsi dans cette cellule il y
Pneumonie de type
5,79 5,79 beaucoup de cas observé que ce qui est
pneumococcal attendu, cette cellule présente le nombre de
Pneumonie de type
0,11 0,11 personne non vaccinées qui ont contractées la
non pneumococcal maladie et signifie donc que le nombre de
Sain 0,93 0,93 personnes non vaccinées ayant contracté la
maladie est beaucoup plus important que prévu.
08/11/2023 Dr Liady M. Nourou Dine 56

28
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Etape 7: Interprétation
La deuxième plus importante valeur de χ2 est
7.2 Analyse des χ2 des cellules observée dans la cellule 2; cependant, dans
Non cette cellule, on constate que le nombre
Etat de santé Vacciné
vacciné de personnes observées(5) est largement
Pneumonie de type plus inférieur au nombre de personnes
5,79 5,79 attendues (14). Cela signifie qu’un nombre
pneumococcal
Pneumonie de type significativement faible de personnes
0,11 0,11 vaccinées, contractent la maladie par rapport
non pneumococcal
Sain 0,93 0,93 à ce qui aurait été observé si le vaccin n’avait
pas d’effet.
08/11/2023 Dr Liady M. Nourou Dine 57

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2
Etape 7: Interprétation
7.2 Analyse des χ2 des cellules En ce qui concerne les cellules, une
Etat de santé Non vacciné Vacciné valeur χ2 <1 peut être interprétée
comme: le nombre de cas observé
Pneumonie de type est approximativement égal au
5,79 5,79
pneumococcal nombre de cas attendu.
Pneumonie de type
0,11 0,11
non pneumococcal Ainsi, la vaccination n’a d’effet sur
Sain 0,93 0,93 aucune des autres cellules restantes
08/11/2023 Dr Liady M. Nourou Dine 58

29
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2 Exercice d’application 4.9:


Dans le but d’étudier l’influence du type de traitement
appliqué sur l’état physiologique des plantes, on a
considéré un échantillon de 90 plantes. 40 plantes ont
été soumises au traitement 1 et les 50 plantes
restantes ont été soumises au traitement 2. Les états
physiologiques observés à l’issue de l’expérience sont
présentés dans le tableau dont une vue partielle est
donnée ci-contre le fichier des données complètes vous
sera remis pendants pour effectuer l’exercice.

l’état physiologique dépend-t-il du traitement appliqué?

08/11/2023 Dr Liady M. Nourou Dine 59

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes
Test d’indépendance du χ2
Exercice d’application 4.9 :

08/11/2023 Dr Liady M. Nourou Dine 60

30
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes

Test d’indépendance du χ2 Exercice d’application 4.9


:

08/11/2023 Dr Liady M. Nourou Dine 61

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux à plus de 2 colonnes et/ou plus de 2 lignes
Test d’indépendance du χ2
Exercice d’application 4.9 :

08/11/2023 Dr Liady M. Nourou Dine 62

31
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux 2x2
Exemple de situation 3 :
Considérons les données de Freeman et Julious (2007) présentées dans le tableau
de fréquence 2 x 2 ci-dessous relatives à l’étude de l’ulcère du pied sur 233
personnes dont 120 on été soignées dans une clinique et 113 à la maison.

Traitement À partir de l’analyse


Résultat Total
Clinique Maison de ces données, peut
Guéris 22 17 39 on dire que résultat
Non Guéris 98 96 194 obtenu dépend
Total 120 113 233 significativement du
lieu de soin?
08/11/2023 Dr Liady M. Nourou Dine 63

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux 2x2
Test d’indépendance du χ2 corrigé de Yates
Dans les tableaux 2 x 2, même lorsque les effectifs théoriques sont>5, les
approximations mathématiques pour les tests statistiques sont suboptimales, et
l’hypothèse nulle (H0) est très souvent rejetée à tort lorsque l’on applique la formule
classique de calcul du X2. Afin de pallier ce problème, la correction de continuité de
Yates est recommandée. Dans ce cas on utilise l’expression:

𝑂 − 𝑇 − 0,5 Avec:
χ = - O: Effectif observé
𝑇 - T: effectif théorique

08/11/2023 Dr Liady M. Nourou Dine 64

32
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux 2x2
Test d’indépendance du χ2 corrigé de Yates
Pour les données du tableau précédent (Freeman et Julious, 2007), le détail des
calculs se présente dans le tableau ci-dessous:

𝟐 𝑶 − 𝑻 − 𝟎, 𝟓 𝟐
O T 𝑶 − 𝑻 − 𝟎, 𝟓 𝑶 − 𝑻 − 𝟎, 𝟓
𝑻
Guéris/Clinique 22 20,1 1,4 1,96 0,098
Non guéris/Guéris 98 99,9 1,4 1,96 0,020
Guéris/Maison 17 18,9 1,4 1,96 0,104
Non guéris/Maison 96 94,1 1,4 1,96 0,021
Total 233 233 0,242

08/11/2023 Dr Liady M. Nourou Dine 65

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux 2x2
Test d’indépendance du χ2 corrigé de Yates
χ =0,24 alors que χ𝒄𝒍𝒂𝒔𝒔𝒊𝒒𝒖𝒆 aurait été =0,45 si la correction de Yates n’avait pas été
appliquée.
χ , , =3,84,

Le logiciel statistica Chi-deux (dl=1) 0,45 p=0,50


donne le résultat ci Chi ² corrigé de Yates 0,25 p=0,62
contre:

Dans les 2 cas, on observe que: p>α ou encore χ=0,24 < χ


d’où le lieu de traitement n’influence pas l’état de santé
08/11/2023 Dr Liady M. Nourou Dine 66

33
08/11/2023

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives
Cas des tableaux 2x2
Comparaison de 2 proportions (Approximation normale d’une distribution binomiale)
Applicable lorsque n est grand, np >5 et n(1-p)>5
Cette analyse part, de l’hypothèse nulle H0: "il y a une proportion commune π", estimée par
la proportion totale "p" d’individus pour lesquels la réponse est observée. "p" sert alors à
calculer l’erreur standard de la différence de proportion s(p1-p2).
1 1
𝑠(𝑝 − 𝑝 ) = 𝑝 1−𝑝 +
𝑛 𝑛
p1−p2
Le rapport 𝒁𝒐𝒃𝒔𝒆𝒓𝒗é = suit une distribution N(0;1) et on pourra déterminer à l’aide
s(p1−p2)
de la table statistique de N(0;1), la probabilité de trouver une valeur n’appartenant pas à
l’intervalle [-Zcalculé; Zcalculé].
Illustrons la méthode avec les données du tableau précédent
08/11/2023 Dr Liady M. Nourou Dine 67

Mesure de l’intensité de la liaison entre deux variables


Cas de deux variables qualitatives Cas des tableaux 2x2
Comparaison de 2 proportions (Approximation normale d’une distribution binomiale)
Applicable lorsque n est grand, np >5 et n(1-p)>5 𝑎+𝑐
𝑝=
𝑎+𝑏+𝑐+𝑑
Traitement
Résultat Total
Clinique Maison 1 1
𝑠(𝑝 − 𝑝 ) = 𝑝 1−𝑝 +
Guéris 22=a (=n1p1) 17=c (=n2p2)) 39=a + c (=np) 𝑛 𝑛
Non Guéris 98=b [=n1(1-p1)] 96=d [=n2(1-p2)] 194=b + d [=n(1-p)]
𝑝 = 𝑝 =
Total 120 113 233
= a + b (=n1) = c + d (=n2) = a + b + c + d (=n) 𝑝 −𝑝
𝑍 é =
𝑠(𝑝 − 𝑝 )
On observe : p=0,167; np=39; n(1-p)=194 donc les conditions d’application de ce test sont vérifiées
p1=0,183; p2=0,150; s(p1-p2)= 0,049; p1-p2=0,033 et Zcalculé=0,672 et
p( 𝑍 > 0,672) = 2 ∗ 1 − p(𝑍 < 0,672 = 2 ∗ 1 − 0,7486 = 2 ∗ 0,2514 = 0,5028
par conséquent p>α d’où le lieu de traitement n’influence pas l’état de santé
08/11/2023 Dr Liady M. Nourou Dine 68

34
08/11/2023

3ème partie: Caractérisation de la nature de la liaison entre


deux séries statistiques

Caractérisation de la nature de la liaison entre deux séries statistiques : Cas de


deux variables quantitatives (Régression linéaire simple)

69

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables Régression linéaire
quantitatives simple
Exemple de situation 4 : Concentration de Densité
Dans le cadre de l’établissement d’une droite de solution enzymatique Optique
calibration destinée à mesurer rapidement la (Y) (X)
concentration enzymatique, il a été mesuré sur 0,2 0,111
neuf (09) différentes dilutions d’une solution 0,4 0,246
enzymatique pure, simultanément, la 0,6 0,364
concentration et la densité optique. Le résultat 0,8 0,5
obtenu est présenté dans le tableau ci-contre. 1 0,607
1,2 0,723
Serait-il possible d’estimer la concentration 1,4 0,835
enzymatique à partir des mesures de densité 1,6 0,925
optique? Le cas échéant, établissez la droite de 1,8 1,08
calibration.
08/11/2023 Dr Liady M. Nourou Dine 70

35
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Corrélation - Régression


L’intérêt d’une forte corrélation linéaire tient au fait que la connaissance de l’une des
variables entraîne la capacité à estimer l’autre avec un faible risque d’erreur. Dès lors,
il convient de trouver la double relation mathématique qui existe entre les deux
variables xi et yj :
- la relation de type yj=f(xi) décrit l’évolution de la variable Y en fonction de X et
- la relation de type xi=f(yj) décrit l’évolution de la variable X en fonction de Y

La corrélation indique le degré d'une liaison entre deux variables

La régression indique la nature d'une liaison entre une variable et une ou


plusieurs autres

08/11/2023 Dr Liady M. Nourou Dine 71

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression

- examiner la façon dont une variable, dite dépendante ou


expliquée, ou encore variable de réponse (Y), est reliée à
d'autres variables, dites indépendantes ou explicatives, encore
régresseurs (X1, X2, X3, …);

Objectifs - réduire le nombre de degrés de liberté de la connaissance du


phénomène étudié en ramenant un tableau de plusieurs centaines
de chiffres à une loi ne possédant que quelques coefficients,
dans un but, notamment, de prédiction des phénomènes (c'est-à-
dire l'estimation directe de la variable dépendante par la seule mesure des
régresseurs).

08/11/2023 Dr Liady M. Nourou Dine 72

36
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Le tableau des observations pour les différentes variables étant donné, la régression
nécessite deux choses:
 Un modèle, par exemple, l'équation d'une droite (y=ax+b), mais qui contient encore
un certain nombre de paramètres inconnus à cette étape (notamment a et b).
 Une méthode d'ajustement, qui est en général la recherche des extrema d'une
fonction (Exemples: méthode des moindres carrés, du maximum de vraisemblance, …).
Cette méthode permettra d'évaluer les paramètres du modèle pour que celui-ci
passe "au mieux" dans le nuage des points d'observations.

Comment exploiter
le modèle de Calibration + Validation
régression ?
08/11/2023 Dr Liady M. Nourou Dine 73

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire

y=ax + b

08/11/2023 Dr Liady M. Nourou Dine 74

37
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire: Les formes du modèle linéaire
Le modèle peut prendre diverses formes, il dépendra de l'application étudiée et sera
suggéré par la connaissance que l'on a du phénomène physique. On peut citer:
Y=aXb, puisque, en passant au logarithmes, on obtient : log(Y) = log(a) + b*log(X)
C'est également le cas des lois : Y=ea+bX et 1/Y=a+bX

Y=aX: Ce type de modèle pourra notamment être utilisé chaque fois que X et Y
représentent la même variable (par exemple les concentrations en chrome mesurées
par deux méthodes différentes sur les mêmes échantillons) et qu'à une valeur nulle de
X doit correspondre une valeur nulle de Y.

08/11/2023 Dr Liady M. Nourou Dine 75

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire au sens des moindres carrés
La méthode des moindres
carrés est une méthode d’ajustement
qui consiste à choisir les valeurs de a et
de b qui minimisent la somme des
carrés des écarts (résidus) entre les
valeurs observées yi et les valeurs
estimées par l'équation de la droite de
régression :𝒚𝒊 = 𝒂𝒙𝒊 + 𝒃

La somme des carrés des écarts (entre yi et 𝑦i) à minimiser vaut donc:
𝑺 = ∑𝒏𝒊 𝒚𝒊 − 𝒚𝒊 𝟐=∑𝒏𝒊 𝒚𝒊 − 𝒂𝒙𝒊 − 𝒃 𝟐

08/11/2023 Dr Liady M. Nourou Dine 76

38
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire au sens des moindres carrés
On montre que :
𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= 𝑞𝑢𝑖 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑 à 𝑙𝑎 𝑝𝑒𝑛𝑡𝑒 𝑑𝑒 𝑙𝑎 𝑑𝑟𝑜𝑖𝑡𝑒
𝑉(𝑋)

𝑒𝑡 𝑏 = 𝑦 − 𝑎𝑥̅ qui correspond à, son ordonnée à l’origine

Ce qui signifie que la droite des moindres carrés passe par


le point moyen du nuage, de coordonnées (𝒙, y),

08/11/2023 Dr Liady M. Nourou Dine 77

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire au sens des moindres carrés
Hypothèses de la régression linéaire
Effectuer une régression est toujours possible, même en dehors des hypothèses pour
lesquelles la théorie est valable. Cependant, il convient alors d'être très prudent
lorsqu'on interprète et lorsqu'on utilise les résultats.

•le modèle doit, être linéaire;


•le résidu doit être une variable normale, dont la moyenne est nulle et dont
l'écart-type est égal à l'erreur commise sur la mesure de y;
•les valeurs des régresseurs xi doivent être connues avec précision,
déterministes, sans erreur;

08/11/2023 Dr Liady M. Nourou Dine 78

39
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire au sens des moindres carrés
Hypothèses de la régression linéaire (suite)
•les valeurs ej du résidu (j allant de 1 au nombre d'observations) ne doivent pas être
autocorrélées, c'est-à-dire corrélées en série;
•s'il y a plusieurs régresseurs xi, ils ne doivent pas être corrélés (leurs covariances
doivent être faibles);
•il faut avoir "assez" de données, typiquement, de 20 à 30 observations pour un
régresseur (modèle y=a+bx), si l'on possède moins d'observations, la régression est
néanmoins possible, mais les intervalles de confiance seront plus larges;
•s, l'erreur aléatoire commise sur la mesure de y, doit être pratiquement la même pour
toutes les observations (hypothèse d'homoscédasticité);
08/11/2023 Dr Liady M. Nourou Dine 79

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Régression linéaire au sens des moindres carrés
Analyse de la régression linéaire
Les hypothèses de la régression linéaire, en l'occurrence, sont très sévères et ne sont
quasi jamais respectées. C'est la raison pour laquelle les bons logiciels de traitement
de données incluent dans la procédure de régression non seulement l'ajustement
des paramètres, mais aussi l'analyse de la régression. Cette analyse permet de :
- Apprécier la qualité de l'ajustement obtenu,
- Apprécier l’utilité de retenir un coefficient donné dans le modèle,
- Estimer les intervalles de confiance autour de la courbe ajustée,
-…
Dans ce but, elle fournit un certain nombre de résultats:

08/11/2023 Dr Liady M. Nourou Dine 80

40
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Analyse de la régression linéaire
Significativité des coefficients (test t)
La variable t mesure l'écart du coefficient particulier par rapport à 0:
 Plus t est grand, plus le coefficient peut être considéré comme significativement différent de
zéro.
 Le niveau de significativité du test en t (basé sur la comparaison avec la distribution de
Student) permet d'apprécier la dépendance de la variable Y avec le régresseur considéré.
La philosophie de ce test est toujours la même :
 si tcalculé > tcritique pour un seuil α donné (généralement 0,05) le coefficient peut être
considéré comme significativement non-nul;
 si le tcalculé < tcritique pour un seuil α donné (généralement 0,05) le coefficient peut être
considéré comme nul.

08/11/2023 Dr Liady M. Nourou Dine 81

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Analyse de la régression linéaire
Significativité des coefficients
Test de la pente de la droite de régression
La droite de régression d’équation Y = αX + β comporte 2 paramètres (α et β).

L’hypothèse nulle (H0) est que la pente α de la droite de régression de Y en X est


égale à 0 (soit Y est égal à β, c’est-à-dire que la droite de régression est horizontale
et qu’il n’y a pas de liaison entre X et Y).

H0 : α = 0 (droite de régression horizontale : Y = β) α a≈α


H1: α ≠ 0
a
08/11/2023 Dr Liady M. Nourou Dine 82

41
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Analyse de la régression linéaire
Significativité des coefficients
Test de la pente de la droite de régression
Sous l’hypothèse nulle (H0), le rapport de l’estimateur de la pente (a) sur son écart-type (Sa)
suit une loi de Student à (n-2) degrés de liberté (n est l’effectif de l’échantillon).

𝟐
L’estimateur de l’écart-type ∑ 𝒚𝒊 𝒚𝒊
𝒂
→𝒕 𝒏 𝟐 de la pente (Sa) est égal à : 𝒔𝒂 = 𝒏 𝟐
𝒔𝒂 ∑ 𝒙𝒊 𝒙 𝟐

Le test de la pente consiste à calculer la grandeur ta et à


la comparer à la valeur seuil tα sur la table de la loi de
𝒂 𝒂
𝒕𝒂 = =
Student à (n-2) degrés de libertés et pour un seuil de 𝒔𝒂 ∑ 𝒚𝒊 − 𝒚𝒊 𝟐
signification α, préalablement défini.
𝒏−𝟐
08/11/2023 Dr Liady M. Nourou Dine ∑ 𝒙𝒊 − 83𝒙 𝟐

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Analyse de la régression linéaire
Significativité des coefficients
Test de l’ordonnée à l’origine de la droite de régression
Sous l’hypothèse nulle (H0), le rapport de l’estimateur de l’ordonnée b sur son écart-type
suit une loi de Student à (n-2) degrés de liberté (n est l’effectif de l’échantillon).
L’estimateur sb de
𝒃 ∑ 𝒚𝒊 − 𝒚𝒊 𝟐 𝟏 𝒙𝟐
→𝒕 𝒏 𝟐 𝒅𝒅𝒍 l’écart-type de
𝒔𝒃 = +
𝒔𝒃 l’ordonnée b est égal à: 𝒏−𝟐 𝒏 ∑ 𝒙𝒊 − 𝒙 𝟐

Le test de l’ordonnée à l’origine consiste à calculer la grandeur tb et à 𝒃


la comparer à la valeur seuil tα sur la table de la loi de Student à (n-2) 𝒕𝒃 =
degrés de libertés pour un seuil de signification α, préalablement défini. 𝑺𝒃
08/11/2023 Dr Liady M. Nourou Dine 84

42
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Analyse de la régression linéaire
Significativité des coefficients

Test de l’ordonnée à l’origine de la droite de régression


Lorsque la valeur de l’ordonnée à l’origine (b) n’est pas significativement différente de
0, il convient d’estimer la valeur de la pente (a) telle que:

𝒊 𝒊
𝟐
𝒊

08/11/2023 Dr Liady M. Nourou Dine 85

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Analyse de la régression linéaire
Qualité de l’ajustement au modèle testé Analyse des variances
Soit une régression sur un modèle linéaire à un seul régresseur, décomposons la variance:

Variance expliquée

Variance Variance inexpliquée


totale
∑ (𝑦 − 𝑦)2 =∑ 𝑦 − 𝑦𝑖 2 + ∑ 𝑦𝑖 − 𝑦 2

𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸


𝑦 ∶ 𝑜𝑏𝑠𝑒𝑟𝑣é; 𝑦 ∶ 𝑒𝑠𝑡𝑖𝑚é; 𝑦 : moyenne
08/11/2023 Dr Liady M. Nourou Dine
86

43
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives


Analyse de la régression linéaire Analyse des variances
Qualité de l’ajustement au modèle testé
∑ (𝑦 − 𝑦)2 =∑ 𝑦 − 𝑦𝑖 2 + ∑ 𝑦𝑖 − 𝑦 2

∑ (𝑦 − 𝑦)2 : 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝑇𝑜𝑡𝑎𝑢𝑥 (𝑆𝐶𝑇) ddl de SCT=n-1

n: nombre d’observations réalisé


∑ 𝑦 − 𝑦𝑖 2: 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝑅é𝑠𝑖𝑑𝑢𝑒𝑙𝑠 (𝑆𝐶𝑅) ddl de SCR=n-c
𝑆𝐶𝑅
𝐶𝑎𝑟𝑟é 𝑀𝑜𝑦𝑒𝑛 𝑅é𝑠𝑖𝑑𝑢𝑒𝑙 𝐶𝑀𝑅 = c: nombre de coefficients estimés à partir du modèle
𝑛−𝑐
∑ 𝑦𝑖 − 𝑦 2: 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝐸𝑥𝑝𝑙𝑖𝑞𝑢é𝑠 (𝑆𝐶𝐸) ddl de SCE= c-1

𝑆𝐶𝐸
𝐶𝑎𝑟𝑟é08/11/2023
𝑀𝑜𝑦𝑒𝑛 𝐸𝑥𝑝𝑙𝑖𝑞𝑢é 𝐶𝑀𝐸 =
𝑐 − 1 Dr Liady M. Nourou Dine 87

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Analyse de la régression linéaire
Qualité de l’ajustement au modèle testé

•Le rapport F

Variance expliquée 𝑺𝑪𝑬/(𝒄 𝟏) 𝑪𝑴𝑬 𝒏 𝒄 ∗∑ ̂ ̅


F=Variance restée inexpliquée = =
𝑺𝑪𝑹/ 𝒏 𝒄 𝑪𝑴𝑹 𝒄 𝟏 ∗∑ ̂

c: nombre de coefficients estimés à partir du modèle;


c-1 est le degré de liberté de la SCE par le modèle:
n: nombre d’observations réalisé
n-c est le degré de liberté de la SCR

08/11/2023 Dr Liady M. Nourou Dine 88

44
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Analyse de la régression linéaire
Qualité de l’ajustement au modèle testé
•Le rapport F
La comparaison de Fcalculé à Fcritique (au seuil α et aux degrés de libertés c-1 et n-c) fourni sur la
table statistique de Fisher-Snedecor permet de juger de la qualité de la régression :
 si Fcalculé < Fcritique, H0 est retenue : F est significativement petit et donc que le
modèle n’explique pas bien la variable dépendante Y.
 si Fcalculé > Fcritique, cela signifie que F est significativement grand, et donc que le
modèle explique bien la variable dépendante Y.
- Les logiciels affichent généralement plutôt, la p-value :
• Quand p> 0,05: H0 est acceptée
• Quand p< 0,05, on rejette H0
08/11/2023 Dr Liady M. Nourou Dine 89

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Analyse de la régression linéaire
Qualité de l’ajustement au modèle testé

•Le Coefficient de détermination r2


Variance expliquée par le modèle 𝑺𝑪𝑬⁄ 𝑪 𝟏
r2= =
Variance totale 𝑺𝑪𝑻⁄ 𝒏 𝟏

Il permet de fournir un chiffre évaluant la partie de la variance de la variable


dépendante Y qui est expliquée par le modèle. En général, au-delà de 80%, le modèle
peut être considéré comme "bon".

Pour 2 variables, X et Y, r2 est égal au carré du coefficient de corrélation r de pearson


08/11/2023 Dr Liady M. Nourou Dine
90

45
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Analyse de la régression (linéaire)
Les intervalles de confiance, par exemple à 95%
- d'une part sur l'estimation moyenne de la variable dépendante à partir des
données fournies. Pour un modèle linéaire à un seul régresseur X, il s'agit de 2 courbes
situées de part et d'autre de la droite de régression et définissant la région de précision du
modèle. Elles permettent d'apprécier le degré de proximité entre la droite estimée par le
modèle et la vraie droite, correspondant à la population réelle. Plus ces deux courbes sont
rapprochées de la droite, plus fiable est le modèle.
- d'autre part sur la prévision de la variable dépendante à partir de nouvelles
valeurs des régresseurs. En deux dimensions, il s'agit également de deux courbes
situées de part et d'autre de la droite de régression, un peu en retrait par rapport aux deux
premières. Ces deux courbes définissent la zone d'imprécision lorsqu'on veut évaluer une
valeur de y à partir d'une nouvelle valeur de x (validation du modèle).
08/11/2023 Dr Liady M. Nourou Dine 91

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Analyse de la régression (linéaire)
L'analyse des résidus

Visualiser l'allure des résidus de y en fonction de


x peut nous apprendre beaucoup sur la qualité du
modèle et peut nous suggérer éventuellement
d'autres modèles à utiliser.
Les résidus provenant d'un modèle correctement
spécifié sont statistiquement indépendants; ils sont
aléatoirement distribués selon le régresseur x.

La figure ci-contre montre par exemple les résidus


correspondant à la régression de la figure précédente
08/11/2023 Dr Liady M. Nourou Dine 92

46
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Exercice d’application 4.10: Densité
Sur les mêmes données que celles de l’exemple de [Enzyme]
Optique
situation 4.2 qui sont rappelées ci-contre: 0,2 0,111
1) Peut-on estimer la concentration enzymatique, à 0,4 0,246
partir des mesures de densité optique ? 0,6 0,364
2) Si oui, déterminer l’équation de la droite de 0,8 0,5
régression à utiliser; 1 0,607
1,2 0,723
3) Analyser la qualité de l’ajustement réalisé. 1,4 0,835
1,6 0,925
1,8 1,08

08/11/2023 Dr Liady M. Nourou Dine 93

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Exercice d’application 4.10:
Cov(X,Y) 0,1770
SX 0,3234
SY 0,5477
r(X,Y) 0,9991
Sr 0,0164
tr 60,7457
tcritique 2,365
donc: 𝒕𝒄𝒂𝒍𝒄𝒖𝒍é > 𝒕𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 ,
𝒅 𝒐ù 𝒓 = 𝟎, 𝟗𝟗𝟗𝟏 𝒆𝒔𝒕
significativement non nul
08/11/2023 Dr Liady M. Nourou Dine 94

47
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Exercice d’application 4.10:Analyse de la régression (linéaire)
Cas du modèle linéaire: Y=aX+b
Valeurs des coefficients et leur significativité par rapport à 0
[enzyme] (Y) [enzyme] [enzyme] [enzyme] [enzyme] [enzyme]
(param.) (Y) Err-Type (Y) t (Y) p (Y) Bêta (ß) (Y) ErTyp.ß
Ord.Orig. -0,01 0,02 -0,73 0,49
Densité optique 1,69 0,03 60,75 0,00 1,00 0,02

Qualité de l’ajustement au modèle testé


Multiple Ajusté R² SC dl MC SC dl MC F
R Modèle Modèle Modèle Résidus Résidus Résidus
[enzyme] 0,999 0,998 2,40 1 2,40 0,00 7 0,001 3690,039

08/11/2023 Dr Liady M. Nourou Dine 95

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Exercice d’application 4.10:
Cas du modèle linéaire: Y=aX+b
Valeurs des coefficients, leur significativité (test t) et l’écart-type sur leur estimation

On obtient:

𝑡 é =60,75 pour n=9

𝑡𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 ( , , ) = 2,365

donc: 𝒕𝒄𝒂𝒍𝒄𝒖𝒍é > 𝒕𝒄𝒓𝒊𝒕𝒊𝒒𝒖𝒆 ,


𝒅 𝒐ù 𝒂 = 𝟏, 𝟔𝟗 𝒆𝒔𝒕
significativement non nul

08/11/2023 Dr Liady M. Nourou Dine 96

48
08/11/2023

Caractérisation de la nature de la liaison entre deux séries statistiques


Cas de deux variables quantitatives Régression
Exercice d’application 4.10:Analyse de la régression (linéaire)

Cas du modèle linéaire: Y=aX


Valeurs des coefficients et leur significativité par rapport à 0
[Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y) [Enzyme] (Y)
(param.) Err-Type t p Bêta (ß) ErTyp.ß
Densité optique 1,67 0,01 136,57 0,00 1,00 0,01

Qualité de l’ajustement au modèle testé


Multiple Ajusté SC dl MC SC dl MC F
R R² Modèle Modèle Modèle Résidus Résidus Résidus
[enzyme] 0,999 0,998 2,40 1 2,40 0,00 8 0,001 3920,30

08/11/2023 Dr Liady M. Nourou Dine 97

Caractérisation de la nature de la liaison entre deux séries statistiques

Cas de deux variables quantitatives Régression


Exercice d’application 4.10: y = 1,67*x
Représentation graphique r² = 0,998; r = 0,999; p = 0,000
2,0
1,8
1,6
1,4
[Enzyme]

1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0 1,2
08/11/2023 Dr Liady M. Nourou Dine Densité optique 98

49
08/11/2023

Merci de votre attention


08/11/2023 Dr Liady M. Nourou Dine 99

50

Vous aimerez peut-être aussi