Académique Documents
Professionnel Documents
Culture Documents
1
Dr LIADY M. Nourou Dine 2023 - 2024
STATISTIQUE DESCRIPTIVE ET
ANALYTIQUE
2
Dr LIADY M. Nourou Dine 2023 - 2024
1
08/11/2023
Objectif général Fournir aux étudiants, les outils de base pour décrire
et/ou analyser les données (quantitatives, qualitatives, ordinales ou
dichotomiques)
2
08/11/2023
SESSION ORDINAIRE
Evaluations
SESSION de RATTRAPAGE
3
08/11/2023
Chapitre 1:
DESCRIPTION STATISTIQUE A
UNE DIMENSION
Dr LIADY M. Nourou Dine 2023 - 2024
1
Objectifs pédagogiques
BST_2116 2023_2024 2
1
08/11/2023
Plan
Introduction
Définitions
Types de variables
Objectifs de la description statistique à une dimension
Description sous forme de distribution de fréquence
Description à l’aide des paramètres de description statistique
Détection de données atypiques/aberrantes
BST_2116 2023_2024 3
Introduction
QU’EST CE QUE LA BIOSTATISTIQUE ?
Application des outils statistiques à l’étude du monde vivant
Selon le contexte "Statistique" peut désigner:
- Un ensemble cohérent de données relatives à une population d’objets ou
d’individus. Exemple: statistiques de la production agricole, … ;
2
08/11/2023
Introduction
APPRENTISSAGE DE LA BIOSTATISTIQUE vs ETUDE BIOSTATISTIQUE :
LES ÉTAPES ET LEURS MODALITES
ÉTAPES MODALITES
Introduction
DÉFINITIONS
3
08/11/2023
Introduction
DÉFINITIONS
BST_2116 2023_2024 7
Introduction
DÉFINITIONS
Echantillonnage:
Enquête partielle, étude sur
une partie des individus
composant une population
finie (très délicat bien sûr).
4
08/11/2023
Types de variables
La reconnaissance du type de variable auquel l’on a à faire est une étape importante
dans tout processus de traitement de données: comme nous le verrons plus loin, à
chaque type de variable correspondent des méthodes de traitement appropriées.
BST_2116 2023_2024 9
Types de variables
VARIABLES QUALITATIVES
Echelle binaire ou dichotomique
Il n’y a que deux catégories ou valeurs possibles.
Exp :
- la présence (notée par 1 ou +) ou l’absence (notée par 0 ou -) d’une espèce
végétale lors d’un inventaire floristique sur un territoire donné
- L’Etat physiologique "Mort" ou « Vivant" de l’individu lors d’une étude portant
sur l’effet d’un insecticide sur une espèce donnée d’insecte.
Echelle nominale
Les catégories ne peuvent pas être ordonnées naturellement.
Exp:
- ‘homme’ et ‘femme’, de la variable ‘ sexe ’, ‘
- rouge’, ‘vert’… de la variable ‘ couleur ’;
- …
BST_2116 2023_2024 10
5
08/11/2023
Types de variables
VARIABLES QUALITATIVES
Variables ordinales
Lorsque les catégories peuvent être ordonnées, on est en présence d’une échelle
ordinale. C’est par exemple le type de données auquel on a affaire lorsqu’on ne
demande pas à des examinateurs d’attribuer simplement une note à chaque
candidat, mais plutôt de classer les notes dans un ordre (décroissant ou croissant).
BST_2116 2023_2024 11
Types de variables
VARIABLES QUANTITATIVES
Continu
Lorsque les valeurs possibles ne sont pas
dénombrables.
BST_2116 2023_2024 12
6
08/11/2023
Types de variables
VARIABLES QUANTITATIVES
Discrète
Lorsque les valeurs peuvent être énumérées généralement sous forme d’entiers
naturels (0, 1, 2, 3, …).
BST_2116 2023_2024 13
7
08/11/2023
BST_2116 2023_2024 15
BST_2116 2023_2024 16
8
08/11/2023
Xi ni fi Ni Fi
Ni est l’effectif cumulé des observations x1 n1 f1 N1 F1
ayant des valeurs inférieures ou
égales à xi x2 n2 f2 N2 F2
… … … … …
Fi est la fréquence relative cumulée des
observations ayant des valeurs xp np fp Np Fp
inférieures ou égales à xi :
𝑛𝑖 = 𝑛 1
BST_2116 2023_2024 18
9
08/11/2023
𝑛𝑖 = 𝑛𝑖 1= ∑ 𝑓𝑖
10
08/11/2023
BST_2116 2023_2024 21
BST_2116 2023_2024 22
11
08/11/2023
BST_2116 2023_2024 24
12
08/11/2023
BST_2116 2023_2024 25
BST_2116 2023_2024 26
13
08/11/2023
Rhodophytes 3%
Euglenophytes 8%
Cyanophytes 31% Cyanophytes; 31%
Chrysophyes 38%
Chlorophytes 20% Chysophytes; 38%
densité relative
14
08/11/2023
BST_2116 2023_2024 29
Diagramme en bâtonnets
2,5
Fréquence
1,5
0,5
-0,5 12 9 31 4 14 23 15 3 17
Nombre de cellules algales
15
08/11/2023
Fréquence brute
variable dans laquelle les 5
colonnes sont associées à des
4
intervalles de classe et dont les
3
hauteurs sont proportionnelles
à la fréquence de la classe 2
1
0
0 5 10 15 20 25 30 35 40
BST_2116 2023_2024 Catégorie (limites sup.) 31
BST_2116 2023_2024 32
16
08/11/2023
Densité de fréquence
de fréquence relative. Ce 4
changement rend l'aire totale de 3
l'histogramme égale à 1. La
transformation en densité de 2
fréquence relative s'effectue en
1
divisant la fréquence relative par
"l'amplitude", ou la "largeur" de 0
0 5 10 15 20 25 30 35 40
l'intervalle (c-à-d ni/ Di )
Catégorie (limites sup.)
BST_2116 2023_2024 33
BST_2116 2023_2024 34
17
08/11/2023
Moyenne arithmétique:
Moyenne arithmétique:
12+24+ 9+18+31+28+4+11+14+24+13+23+16+15+7+3+35+17+14+20+14
𝑥̅ =
18
08/11/2023
19
08/11/2023
n / 2 ni (inf)
med L c
ni ( med )
L: limite inférieure de la classe médiane
n: nombre total d’observations
∑ 𝑛𝑖(inf): somme des fréquences absolues des classes se situant avant la
classe médiane.
ni(med) : fréquence de la classe médiane
c: largeur de la classe médiane BST_2116 2023_2024 39
20
08/11/2023
BST_2116 2023_2024 41
Q1 = x n+1 Q3 = 3 * ( x n+1
)
4 4
Si ces valeurs ne sont pas entières, les quartiles ne sont pas des valeurs
de la distribution, il faudrait alors réaliser une interpolation
BST_2116 2023_2024 42
21
08/11/2023
Caractéristiques de dispersion
Etendue (range) = Maximum - minimum.
Elle utilise uniquement les valeurs extrêmes pour caractériser la dispersion
Dans l’exemple précédent, étendue= 35-3=32 cellules algales
22
08/11/2023
Caractéristiques de dispersion
Écart quadratique moyen ou "moment d'ordre 2"
Il mesure aussi l'écart moyen par rapport à la moyenne
des observations, mais en considérant les carrés des
écarts
Variance: C'est l'écart quadratique moyen qui,
au lieu d'être divisé par n est divisé par (n-1).
23
08/11/2023
Caractéristiques de dispersion
Intervalle interquartile :
C’est l’écart entre le troisième et le premier quartile, Il concentre la moitié des
observations autour de la médiane
𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒍𝒆 𝒊𝒏𝒕𝒆𝒓 − 𝑸𝒖𝒂𝒓𝒕𝒊𝒍𝒆 = 𝑸𝟑 − 𝑸𝟏
BST_2116 2023_2024 47
Caractéristiques de formes
où sx est l'écart-type
Coefficient d'asymétrie (skewness) sur la variable x.
BST_2116 2023_2024 48
24
08/11/2023
Caractéristiques de formes
Coefficient d'asymétrie (skewness) standardisé
𝑛 ∑ (𝑥𝑖 − 𝑥) où sx est l'écart-type sur la variable x
∗ n est le nombre d’observation.
𝑛 − 1 ∗ (𝑛 − 2) 𝑠
Cette version ne change rien au signe de l'expression et donc aux conclusions ci-
dessus, mais permet d'apprécier la proximité du coefficient avec la valeur zéro. Tant
que le coefficient d'asymétrie standardisé reste à l'intérieur de l'intervalle [-2,2], on peut
considérer que sa valeur est proche de 0 et donc que la distribution est quasi normale.
Caractéristiques de formes
Coefficient d'aplatissement (kurtosis)
l'exposant de l'expression est pair et donc donne le même poids aux écarts positifs et
aux écarts négatifs par rapport à la moyenne.
La forme de l'expression reflète, indépendamment de la symétrie, l'aplatissement de la
forme de la distribution, ou encore le poids relatif des "queues" de la distribution par
rapport à la partie centrale: Une distribution possédant une grande proportion de
fréquences aux 2 extrémités est assez "plate" : elle est appelée "platykurtique", son
coefficient d'aplatissement sera négatif. Au contraire, une distribution trop pointue par
rapport à la normale est appelée "leptokurtique" et possédera un coefficient positif. Entre
les deux, une distribution quasi normale ("mésokurtique") possédera un coefficient
d'aplatissement proche de zéro.
BST_2116 2023_2024 50
25
08/11/2023
Caractéristiques de formes
Coefficient d'aplatissement (kurtosis) standardisé
∑ ( ) ( )
∗( )
- 3* ∗( )
BST_2116 2023_2024 51
Caractéristiques de formes
Aplatissement<0
Aplatissement>0
Asymétrie >0
BST_2116 2023_2024 52
26
08/11/2023
BST_2116 2023_2024 53
Pour l’exemple
précédent, la boîte à
moustaches obtenue
BST_2116 2023_2024 54
27
08/11/2023
BST_2116 2023_2024 55
Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Présentation des
données dans le
logiciel
BST_2116 2023_2024 56
28
08/11/2023
Annexe 1
Illustration à l’aide du
logiciel de traitement des
données « STATISTICA »
Suite de l’exercice
d’application
Présenter la distribution de
fréquence des tailles de l’axe
mineur de Daphnia pulex
Spécification de
l’analyse dans le
logiciel
BST_2116 2023_2024 57
Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de
fréquence des tailles de l’axe
mineur de Daphnia pulex
Spécification de l’analyse
dans le logiciel (suite 1)
BST_2116 2023_2024 58
29
08/11/2023
Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Spécification de l’analyse
dans le logiciel (suite 2)
BST_2116 2023_2024 59
Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Tableau de la distribution des fréquences de tailles de Daphnia pulex
Présentation des
résultats de l’analyse
dans le logiciel
BST_2116 2023_2024 60
30
08/11/2023
Annexe 1
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Suite de l’exercice d’application
Présenter la distribution de fréquence des tailles de l’axe mineur de Daphnia pulex
Histogramme de la distribution des fréquences de tailles de Daphnia pulex
Histogramme : Axe mineur dorsal (µm)
14
Présentation des
résultats de l’analyse 12
Nombre d'observations
dans le logiciel (suite) 10
0
234,84 293,55 352,26 410,97 469,68 528,39 587,10 645,81
X < Borne de catégorie
BST_2116 2023_2024 61
Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Description statistique des données
relatives à la taille de l’axe mineur
de D. pulex à l’aide des paramètres
de description statistiques
Spécification de
l’analyse dans le
logiciel
BST_2116 2023_2024 62
31
08/11/2023
Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Spécification de
l’analyse dans le
logiciel (suite 1)
BST_2116 2023_2024 63
Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
Spécification de
l’analyse dans le
logiciel (suite 2)
BST_2116 2023_2024 64
32
08/11/2023
Annexe 2
Illustration à l’aide du logiciel de traitement des données « STATISTICA »
N Actifs Moyenne Médian Mode Effectif Minimum Maximu Ecart- Asymétrie Aplatisse
e du Mode m type ment
Axe mineur
44 396,90 353,44 211,53 4,00 211,53 621,50 142,22 0,18 -1,47
dorsal (µm)
BST_2116 2023_2024 65
BST_2116 2023_2024 66
33
08/11/2023
BST_2116 2023_2024 67
BST_2116 2023_2024 68
34
08/11/2023
Exemple d’application 6
dans statistica:
Une boîte à moustaches
avec les données de
l’axe mineur dorsal de
D. pulex
BST_2116 2023_2024 69
35
08/11/2023
Chapitre 2 :
QUELQUES BASES DE L’INFERENCE
STATISTIQUE A UNE DIMENSION
Objectifs pédagogiques
A la fin de ce chapitre les étudiants doivent être capables d’expliquer les principaux
fondements de l’inférence statistique. De façon spécifique, ils devront être capables de :
- Lire les tables statistiques des principales lois dérivées de la loi normales pour résoudre
des problèmes. BST_2116 - Chapitre2 -
2
2023-2024
1
08/11/2023
Plan
Introduction
Loi de distribution
Utilité de définir des distributions de référence
Principales lois de distributions à une dimension
Etude de cas de la loi normale
Exploitation de la distribution de référence pour réaliser le test
statistique
Quelques distributions dérivées de la distribution normale et leurs
applications
Conclusion
BST_2116 - Chapitre2 - 2023-2024 3
Introduction
La statistique ne vise pas toujours uniquement, à résumer des observations. Parfois, l’objectif est de
tester des hypothèses concernant une population. Par exemple, deux échantillons prélevés de
manière aléatoire proviennent-ils de la même population? Telle moyenne et telle autre moyenne
sont-elles égales ou significativement différentes? Il s’agira dans ces cas de partir d’échantillons
représentatifs pour tirer des conclusions valables pour toute la population: on parle d’inférence
statistique. Ce type d’analyse, requiert de comprendre et de maîtriser quelques fondements de
l’inférences statistique.
2
08/11/2023
Ces différences sont-elles révélatrices d'une réelle disparité entre les trois
types d'engrais utilisés ou bien les différences trouvées entre les 3 valeurs
moyennes,, ne sont-elles dues qu'aux erreurs aléatoires de la mesure et
aux fluctuations naturelles de l'azote résiduel dans le sol ?
BST_2116 - Chapitre2 -
6
2023-2024
3
08/11/2023
la loi normale et ses lois dérivées sont employées pour les variables continues
telles que le poids mais peuvent aussi, sous certaines conditions, peuvent être
utilisées pour les variables discontinues.
BST_2116 - Chapitre2 -
8
2023-2024
4
08/11/2023
µ: moyenne(≈médiane≈mode)
σ: Écart-type X
m-s m m+s
Le tout grand intérêt de représenter la distribution des observations par une loi universelle,
valable dans la majorité des cas, est que
cette loi ne dépend que d'un nombre limité de paramètres pour sa description
Dans le cas de la loi normale, ces paramètres sont: la moyenne (µ) et l’écart-type (σ)
BST_2116 - Chapitre2 -
9
2023-2024
5
08/11/2023
BST_2116 - Chapitre2 -
12
2023-2024
6
08/11/2023
2- le diagramme de probabilité
normale (droite d’henry)
qui place en abscisse les
points d'une distribution
normale cumulée théorique
et en ordonnée les points de
la distribution normale
cumulée observée. Si la
distribution observée est
normale, le résultat est une
ligne droite comme illustrée
sur la figure ci-dessous:
BST_2116 - Chapitre2 -
13
2023-2024
7
une série de données 6
statistiques et une loi de 5
probabilité définie a priori (ici 4
donc une loi normale théorique
estimée à partir des paramètres 𝑥̅ et 3
s) 2
1
0 400 600 800 1000 1200 1400 1600 1800 2000
500 700 900 1100 1300 1500 1700 1900 2100
7
08/11/2023
BST_2116 - Chapitre2 -
15
2023-2024
N Effectif du
Moyenne Médiane Mode Asymétrie Aplatissement
Actifs Mode
24,4
Hauteur des
27 25,67 26,20 26,2 2 -0,31 -0,81
arbres
26,8
BST_2116 - Chapitre2 -
16
2023-2024
8
08/11/2023
9
08/11/2023
10
08/11/2023
11
08/11/2023
η
BST_2116 - Chapitre2 -
23
2023-2024
12
08/11/2023
BST_2116 - Chapitre2 -
25
2023-2024
13
08/11/2023
14
08/11/2023
Exemple d’application 3
Le frère de Moussa a pêché un poisson de 484,2 mm dans le lac Ahémé. En admettant
que la longueur des poissons de ce lac suit une loi normale N(412,3 mm; 47,9 mm),
quelle est la probabilité que Moussa pêche un poisson plus long que celui de son frère?
15
08/11/2023
t de Student
La distribution du t de Student est une distribution normale réduite où la caractéristique
σ est remplacée par l'écart-type calculé à partir de l'échantillon (𝒔 𝒏): elle dépendra du
nombre d'observations, et plus exactement du nombre de degrés de liberté, qui vaut
(n-1).
les applications les plus utilisées (de cette loi comme référence) en statistiques
sont certainement la comparaison des moyennes, l’analyse de signicativité des
coefficients d'une régression, etc.
BST_2116 - Chapitre2 -
31
2023-2024
Attention!!! Les valeurs dans cette table sont des valeurs de t et non des surfaces
sous la courbe (c-à-d des valeurs de probabilité). On note ces valeurs t(α;υ).
La table ne donne que les valeurs positives car la distribution de t est symétrique.
• Les valeurs de la table sont des limites définies sur l‘axe des abscisses de la courbe.
• Les probabilités α ou α/2 (les deux lignes d'en-tête du tableau) sont des surfaces
sous la courbe. BST_2116 - Chapitre2 -
32
2023-2024
16
08/11/2023
unilatéral
ou bilatéral
BST_2116 - Chapitre2 -
34
2023-2024
17
08/11/2023
BST_2116 - Chapitre2 -
36
2023-2024
18
08/11/2023
19
08/11/2023
Le χ2 ou khi-deux
Pour ddl=3, la table indique que P(Χ2[3] >7,81)=0,05
Le F de Fisher-Snedecor
20
08/11/2023
BST_2116 - Chapitre2 -
42
2023-2024
21
08/11/2023
Chapitre 3:
COMPARAISON DE MOYENNES
1
08/11/2023
Objectifs pédagogiques
A la fin de ce cours les étudiants doivent être capables de :
- Définir ce qu’est un test d’hypothèse,
- Citer les catégories de tests d’hypothèse,
- Utiliser le vocabulaire des tests d’hypothèse,
- Comparer une moyenne observée à une moyenne théorique ;
- Comparer deux moyennes observées sur deux échantillons appariés ;
- Comparer deux moyennes observées sur deux échantillons indépendants;
- Expliquer la logique de l'ANOVA,
- Décomposer la variance totale dans un plan de comparaison de plus de deux moyennes sur des
échantillons indépendants,
- Citer les hypothèses de chacun des tests paramétriques étudiés,
- Vérifier le respect des hypothèses de chacun des tests paramétriques étudiés,
- Formuler les hypothèses nulles et alternatives en vue de la mise en œuvre de chacun des tests
paramétriques étudiés,
- Citer les règles de mise en œuvre de chacun des tests paramétriques étudiés
- Citer les règles de décision de chacun des tests paramétriques étudiés
- Identifier les dispositifs expérimentaux simples dans le cadre de la comparaison de moyennes3
Plan
INTRODUCTION
2
08/11/2023
INTRODUCTION
Pourquoi réalise-t-on des comparaisons ?
Les raisons sont nombreuses, par exemple :
1- Pour contrôler l'efficacité d'un traitement, d'une méthodologie, on veut comparer la
moyenne des concentrations observées à une valeur normative;
2- Pour vérifier s’il y a une différence significative entre deux méthodes d’analyses mises
en œuvre sur le même milieu par deux personnes différentes. A cet effet, on peut par
exemple comparer les moyennes des deux séries de mesures;
3- Pour étudier la différence d’impact sur l’environnement entre trois types d’engrais
utilisés sur la même variété de céréale, cultivée sur le même type de parcelle. A cet effet, sur
chacune des parcelles, on peut prélever à la même profondeur et dans des conditions
identiques, 5 échantillons, et se demander si les résultats obtenus sur les trois parcelles sont
différents; le cas échéant, on pourra imputer cette différence au type d’engrais utilisé
Par rapport à cette hypothèse nulle (H0), on va tester une alternative (H1): par exemple, la
moyenne mesurée est inférieure à la moyenne théorique, ou n'est pas égale à la
moyenne théorique, ou le rapport de variances n'est pas égal à 1, …
Pour tester cette alternative, on fixe d’abord un seuil de signification (α) ou risque de
première espèce (risque α), ou probabilité de rejeter H0 à tort c’est-à-dire, de conclure à tort
qu’un traitement est meilleur qu’un autre alors que le hasard est responsable des différences
observées ou encore, le risque d’affirmer qu’il y a une différence significative alors qu’elle
n’existe pas réellement. α = prob(rejet H0/H0 vraie)
08/11/2023 Dr Liady M. Nourou Dine 6
3
08/11/2023
PLAN
4
08/11/2023
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
Exemple de situation 3.1 suite
Imaginons que nous ayons effectué 50 mesures de concentration en sulfates, dans l'eau traitée
par notre nouvelle résine, utilisée comme traitement tertiaire. Nous obtenons par exemple, le
tableau ci-dessous qui comprend 50 valeurs variant entre 9,8 et 17,7 mg/l : la moyenne des
valeurs est 14,64 et la variance 3,41 (écart-type 1,848).
[Sulfates] (en mg/l)
17,74 15,88 14,57 17,13 12,57 13,67 14,94 14,93 11,52 13,46 16,47 13,34 16,02
12,17 16,1 12,9 14,46 13,15 14,23 13,66 14,01 17,46 13,7 17,43 11,4 15,72
12,22 16,74 12,81 14,2 16,53 15,81 9,79 14,43 14,67 14,98 16,25 14,57
13,89 17,54 14,95 16,9 13,6 16,63 13,08 16,35 15,92 14,57 11,34 15,65
Dans la littérature, nous apprenons que la valeur de concentration en sulfates typiquement
atteinte après les deux premières étapes du traitement (et donc avant le traitement par la résine) est
16 mg/l. La concentration moyenne atteinte grâce à la résine que nous avons inventée est de
14,64 mg/l. Alors, pouvons-nous conclure que nous améliorons la situation par rapport à un
traitement "simple" ?
08/11/2023 Dr Liady M. Nourou Dine 10
5
08/11/2023
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
Mise en place du test:
Soit X, la variable aléatoire réelle
correspondant à la concentration en sulfate.
1 – Choix de la catégorie de test appropriée Variable : sulf_mg_L, Distribution : Normale
Test du Chi² = 6,96, dl = 4 (ajustés) , p = 0,14>0,05
On vérifie que X suit une loi normale (de
moyenne η1 et d’écart-type σ1) dans la 8
Nbre d'observations
population. η1 est estimée par la moyenne 𝑥̅
6
de l’échantillon
4
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Choix de la loi de référence appropriée: Test du t de student (la variance de la
population, n’est pas connue, elle est estimée à partir de l’échantillon)
3.1 – Condition de mise en œuvre et logique du test t de student
Sous l’hypothèse H0: η1=η0, X suit une loi normale de moyenne η0 et d’écart-type 𝜎,
̅ η0
par conséquent, 𝑡 = suit une loi de t de student à n-1 degrés de liberté peut
6
08/11/2023
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student
𝒙 η0
formule, 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é = 𝒔
𝒏
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student
- Dans la table du t de student, on apprécie pour le degrés de liberté n-1 correspondant et pour
le seuil de probabilité (α) retenu, la valeur du tobservé , par rapport à celle du "t de référence" :
• Si tobservé < t de référence, H0 est retenue et, par conséquent 𝒙 = η0
• Si tobservé > t de référence, on rejette H0 et, par conséquent 𝒙 ≠ η0
7
08/11/2023
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Test du t de student (la variance de la population, n’est pas connue)
3.2 – Règle de mise en œuvre et de décision du test t de student
- Avec le logiciel, on apprécie pour le degrés de liberté n-1 correspondant, la probabilité "p"
avec laquelle la valeur tobservé est obtenue, par rapport au seuil de probabilité (α) retenu:
• Si p< α, on rejette H0 et, par conséquent 𝒙 ≠ η0
• Si p> α, H0 est retenue et, par conséquent 𝒙 = η0
Tests paramétriques
COMPARAISON D'UNE MOYENNE OBSERVÉE ET D'UNE MOYENNE THÉORIQUE
3 – Choix de la loi de référence appropriée: Test du t de student (la variance de la
population, n’est pas connue, elle est estimée à partir de l’échantillon)
Il y a donc une différence significative entre les deux moyennes, par conséquent, la
nouvelle résine, utilisée comme traitement tertiaire apporte une amélioration
significative de la qualité de l’eau par rapport aux deux premiers traitements
8
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
Exemple de situation 3.2
Pour comparer la longueur des sépales et des pétales chez l’espèce d’iris appelée Setosa,
30 individus ont été considérés. Les résultats obtenus sont présentés dans le tableau ci-
dessous:
Longueur Sépales 5,1 4,9 4,7 5 5 5,4 4,6 5 4,4 4,9 5,4 4,8 4,8 4,3 5,8
Longueur Pétales 1,4 1,4 1,3 2 1,4 1,7 1,4 1,5 1,4 1,5 1,5 1,6 1,4 1,1 1,2
Longueur Sépales 5,7 5,4 5,1 6 5,1 5,4 5,1 4,6 5,1 4,8 5 5 5,2 5,2 4,7
Longueur Pétales 1,5 1,3 1,4 2 1,5 1,7 1,5 1 1,7 1,9 1,6 1,6 1,5 1,4 1,6
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
Mise en place du test:
Les deux échantillons sont appariés c-à-d qu’ils ne sont pas indépendants: les
deux méthodes sont appliquées chaque fois sur chacun des individus de
l’échantillon.
9
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
1 – Choix de la catégorie de test appropriée
Etude de normalité de la distribution de la différence « d » entre les deux mesures appariées
On vérifie que d suit une loi normale dans la population de moyenne: 𝑑 et d’écart-type 𝑠 .
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Choix de la loi de référence appropriée:
Puisque d suit une loi normale dans la population de moyenne: 𝑑 et d’écart-type
𝑠 , alors 𝑡 = suit une loi de student à n – 1 degrés de liberté, par conséquent cette loi peut
10
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
- Dans la table du t de student, on apprécie pour le degrés de liberté n-1 correspondant, la
valeur du "tobservé" par rapport à celle du t de référence :
Si tobservé < t de référence, H0 est retenue et, par conséquent, par conséquent, 𝒅 = 𝟎
Si tobservé > t de référence, on rejette H0 et, par conséquent, 𝒅 ≠ 𝟎
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
- Dans le logiciel, on apprécie pour le degrés de liberté (n-1) correspondant, la probabilité "p" avec
laquelle la valeur tobservé est obtenue, par rapport au seuil préalablement défini (généralement 5%):
• Si p< α, on rejette H0 et, par conséquent 𝒅 ≠ 𝟎
• Si p> α, H0 est retenue et, par conséquent 𝒅 = 𝟎
Exemples de résultats obtenus
11
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR ÉCHANTILLONS APPARIÉS
3 – Test du t de student (la variance de la population, n’est pas connue)
Exercice d’application 3.2: Comparaison des longueurs des sépales et
des pétales chez l’espèce d’iris appelée
Setosa
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
12
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Exemple de situation 3.3 (suite)
Type 1 Type 2 Type 3
23,4 22,5 18,9
24,4 22,9 21,1
24,6 23,7 21,2
24,9 24 22,1
25 24,4 22,5
26,2 24,5 23,6
26,3 25,3 24,5
26,8 26 24,6
26,8 26,2 26,2
26,9 26,4 26,7
27 26,7 On voudrait savoir si la productivité est la même dans
27,6 26,9 la forêt de type 2 et dans la forêt de type 3
27,7 27,4
28,5
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Mise en place du test:
1 – Choix de la catégorie de test appropriée: Etude de normalité de la distribution
Ici, les deux échantillons sont indépendants
Soit X, la variable aléatoire réelle correspondant à la
hauteur des arbres.
13
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Mise en place du test:
Soit X, la variable aléatoire réelle correspondant à la production des arbres.
2– Formulation des hypothèses
H0: les échantillons sont issus de la même population, dans laquelle, X suit une loi
normale de moyenne η0 et d’écart-type 𝜎0
H1: les échantillons sont issus de populations différentes
Corollaires de H0:
- Les moyennes des deux populations (type 2 et type 3) sont identiques: η2=η3=η0
- Les variances des deux populations (type 2 et type 3) sont identiques: 𝜎22 = 𝜎32 = 𝜎02
homoscédasticité ou homogénéité des variances
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
Mise en place du test:
Soit X, la variable aléatoire réelle correspondant à la production des arbres.
3– Etude de l’homogénéité des variances
Test de Hartley
On calcule la variance de chacun des
échantillons à comparer, et on fait le rapport
de la plus grande sur la plus petite, ce
rapport est Fmax de Hartley.
Cette valeur est comparée, dans la table de
Hartley (ou de Fmax), à une valeur théorique
et doit lui être inférieure pour un seuil de
risque (α) choisi et les ddl calculés
14
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
4 – Choix de la loi de référence appropriée:
Puisque X, suit une distribution normale dans chacun des deux échantillons d’une
part, et que les deux variances sont homogènes d’autre part, alors,
̅ ̅
𝑡= , suit une loi de t de student à n2 + n3 - 2 degrés de liberté, par conséquent, cette
loi peut être utilisée comme référence pour effectuer cette comparaison.
La logique du test reste identique à celle décrite plus haut: Si les deux moyennes sont
égales, t devrait tendre vers 0.
Les moyennes η2 et η3 des deux populations (type 2 et type 3) dont sont issus les deux
échantillons, sont estimées par 𝑥̅ et 𝑥̅
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
5- Règle de mise en œuvre et de décision du test t de student
- On définit un seuil de probabilité α (généralement 5%), en dessous duquel, la valeur de t
calculée, sera considérée comme significativement différente de 0;
- À partir des données des deux échantillons, on calcule la valeur de tobservé à l’aide de la
𝒙 𝟐 𝒙𝟑
formule, 𝒕𝒐𝒃𝒔𝒆𝒓𝒗é
=
𝒔𝟐 𝟐
𝟐 𝒔𝟑
𝒏𝟐 𝒏𝟑
15
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
Dans la table du t de student, on apprécie pour le degrés de liberté (n2 + n3 – 2)
correspondant, la valeur du "tobservé" par rapport à celle du t de référence :
• Si tobservé < t de référence, H0 est retenue et, par conséquent, 𝒙𝟐 = 𝒙𝟑
•Si tobservé > t de référence, on rejette H0 et, par conséquent, 𝒙𝟐 ≠ 𝒙𝟑
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
3 – Test du t de student (la variance de la population, n’est pas connue)
Règle de mise en œuvre et de décision du test t de student
Avec le logiciel, on apprécie pour le degrés de liberté (n2 + n3 – 2) correspondant, la valeur du
"p" avec laquelle la valeur tobservé est obtenue, par rapport au seuil fixé:
• Si p< α, on rejette H0 et, par conséquent, 𝒙𝟐 ≠ 𝒙𝟑
• Si p> α, H0 est retenue et, par conséquent, 𝒙𝟐 = 𝒙𝟑
tobservé = 2,215
Exemples de résultats obtenus tcritique(ddl=22; α=0,05) = 2,074
Ratio p Brn- dl Brn- p Brn-
valeur F Varian Levene dl Fors Fors Fors
𝑥̅ 𝑥̅ dl p 𝑛 𝑛 𝑠 𝑠 Varian ces F(1,dl)
p Levene
F(1,dl)
t Levene
ces
Type 2
vs. 25,39 23,14 2,62 22 0,02 14 10 1,77 2,44 1,89 0,29 1,29 22 0,27 1,23 22 0,28
Type 3
16
08/11/2023
Tests paramétriques
COMPARAISON DE DEUX MOYENNES POUR DES ÉCHANTILLONS INDÉPENDANTS
3 – Test du t de student (la variance de la population, n’est pas connue)
34
17
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de situation 3.4
Pour évaluer l'impact sur l'environnement de 3 types d’engrais, on considère 3 parcelles identiques sur
lesquelles on cultive la même variété de céréale, mais avec 3 types d'engrais. La variabilité mesurée par
voie chimique sur des échantillons ramenés en laboratoire est la concentration résiduelle en azote dans le
sol, exprimée en kg N/ha. Sur chacune des parcelles, l’on prélève 5 échantillons, à la même profondeur et
dans des conditions identiques. Les résultats obtenus sont présentés dans le tableau ci-dessous:
18
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place de l’ANOVA
Lorsqu’on veut comparer plus de deux moyennes, c'est la dispersion, mesurée par la variance, qu'il
faut examiner; c'est la raison pour laquelle cette analyse est appelée "analyse de la variance".
Le but de l’analyse de la variance est de tester la présence ou non de différences
significatives entre des moyennes. Elle permet également d’identifier les sources de
variation qui peuvent permettre d’expliquer les différences qu’il y a entre ces moyennes.
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
Décomposition de la variance totale
( − )+ -
∑𝒑𝒊 𝟏 ∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙
𝟐 = ∑𝒊
𝒑
𝟏 𝒏𝒊 𝒙 𝒊 − 𝒙
𝟐 𝒑
+ ∑𝒊 𝟏 ∑𝒌 𝟏 𝒙𝒊𝒌 −
𝒏𝒊
𝒙𝒊 𝟐
19
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
𝒑 𝒑
𝟏 𝟏 𝟏
∗ 𝒙𝒊 − 𝒙 𝟐 = ∗ 𝒙𝒊 − 𝒙 𝟐
+ *∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙𝒊 𝟐
N−𝟏 𝒄−𝟏 𝑵 𝒄
𝒊 𝟏 = 𝒊 𝟏
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
Calcul du rapport des variances (F)
𝟏
𝒄 𝟏
𝒑
∗𝒏∗∑𝒊 𝟏 𝒏𝒊 𝒙𝒊 − 𝒙 𝟐
n∗variance inter groupe
𝑭= =
variance intragroupe
𝒙𝒊𝒌 − 𝒙𝒊
𝟏
𝑵 𝒄
∗ ∑𝒏𝒊
𝒌 𝟏
𝟐
20
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
1 – Vérification des hypothèses de l’ANOVA
Indépendance
Il n’y a pas de test statistique pour vérifier l’indépendance: ce sont les conditions dans lesquelles l’expérience a
été mise en œuvre qui déterminent si l’on est dans le cas d’indépendance.
Normalité
Plusieurs tests sont disponibles dont ceux présentés dans le chapitre 2 (quelques bases de
l’inférence statistique à une dimension)
Homogénéité
Plusieurs Tests sont disponibles : Test de Hartley, test de Brown et Forsythe, Test de
Levenne, Test de Bartlett, …
Le test de Hartley consiste à calculer le paramètre Fmax en divisant la variance la plus
élevée par la variance la plus faible, L’interprétation du résultat obtenu est réalisée à
l’aide de la table statistique du Fmax de Hartley.
08/11/2023 Dr Liady M. Nourou Dine 42
21
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Mise en place du test: Analyse de Variance (ANOVA)
Soit X, la variable aléatoire réelle correspondant à la production des arbres.
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Règle de mise en œuvre de l’Analyse de Variance (ANOVA)
- On définit un seuil de probabilité α, en dessous duquel, la valeur de Fcalculée (ou Fobservé),
sera considérée comme significativement inférieure à Fcrtitique pour les dégrés de liberté c−1
et N−c, respectifs du numérateur et du dénominateur
- À partir des données, on calcule la valeur de Fobservé à l’aide de la formule,
𝟏
𝒄 𝟏
∗𝒏∗∑𝒄𝒊 𝟏 𝒏𝒊 𝒙𝒊 − 𝒙 𝟐
n∗variance inter groupe
𝑭= =
𝟏
∗ ∑𝒏𝒊
𝒌 𝟏 𝒙𝒊𝒌 − 𝒙𝒊 𝟐 variance intragroupe
𝑵 𝒄
𝒏∗
𝟏
∗∑𝒄 𝒏 𝒙
𝒑 𝟏 𝒊 𝟏 𝒊 𝒊
−
n∗variance inter groupe
𝒙 𝟐
22
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Règle de décision de l’Analyse de Variance (ANOVA)
- Dans la table du F de Fisher, on apprécie pour les ddl (c-1) et (N-c) correspondant, la
valeur de Fobservé par rapport à la valeur Fcritique :
• Si Fobservé < Fcritique, H0 est retenue et, par conséquent, il n’y a pas de différence
significative entre les moyennes
• Si Fobservé > Fcritique, on rejette H0 et, par conséquent les moyennes sont
significativement différentes
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Règle de décision de l’Analyse de Variance (ANOVA)
- Dans les logiciels on apprécie pour les degrés de liberté (c-1) et (n-c) correspondant et le
seuil α préalablement retenu, la probabilité "p" avec laquelle la valeur de Fobservé est
obtenue :
• Si p< α, on rejette H0 et, par conséquent, Fobservé> Fcritique
•Si p> α, H0 est retenue et, par conséquent, Fobservé< Fcritique
46
23
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Normalité de la distribution des observations
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Homogénéité
des variances
48
24
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Anova de Fisher
Les calculs manuels permettent de trouver:
49
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exemple de résultats
Anova de Fisher
À l’aide du logiciel statistica on
obtient le résultat:
50
25
08/11/2023
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Analyse a posteriori (post-hoc) des moyennes
L’Anova met en évidence l’influence d’un facteur (variable d’intérêt) en utilisant les
moyennes, il peut être intéressant de spécifier nommément sur quelles groupes portent
ces différences (il y a une influence du type d’engrais) sur la teneur en azote résiduel
dans le sol: quelle est le meilleur type d’engrais?
Si le test F est significatif cela veut dire que les moyennes sont statistiquement
différentes. Pour, avoir des précisions sur quelle moyenne diffère de quelle autre
moyenne, il faut réaliser une analyse a posteriori (post-hoc) des moyennes (comparaisons
multiples sur le même ensemble de données)
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Analyse a posteriori (post-hoc) des moyennes
Il existe 3 procédures pour faire de l’inférence après avoir vu les données sans affecter le
coefficient de confiance:
Méthode de Tukey («HSD = Honest Significant Differences »): supérieure et
recommandée, si on veut seulement faire des comparaisons entre les paires de
moyennes;
26
08/11/2023
Tests paramétriques
COMPARAISON DE
PLUS DE DEUX
MOYENNES POUR
ÉCHANTILLONS
INDÉPENDANTS
Exemple de résultat
obtenu de l’Analyse a
posteriori (post-hoc)
des moyennes
concernant la
comparaison de la
productivité des 3
hêtraies
08/11/2023 Dr Liady M. Nourou Dine 53
Tests paramétriques
COMPARAISON DE PLUS DE DEUX MOYENNES POUR ÉCHANTILLONS INDÉPENDANTS
Exercice d’application
Supposons qu‘on veuille évaluer l'impact sur
l'environnement de pratiques culturales. L’on considère 3
parcelles sur lesquelles l’on cultive la même variété de
céréale, mais avec différents types d'engrais. La
variabilité mesurée par voie chimique sur des échantillons
ramenés en laboratoire est la concentration résiduelle en
azote dans le sol, exprimée en kg d'azote par hectare. Sur
chacune des parcelles, l’on prélève 5 échantillons, à la
même profondeur et dans des conditions identiques.
Comparer les impacts de ces
Le tableau ci-contre indique un scénario possible de trois types d’engrais sur
résultats: l’environnement
08/11/2023 Dr Liady M. Nourou Dine 54
27
08/11/2023
28
08/11/2023
Chapitre 4:
DESCRIPTION ET INFERENCE
STATISTIQUES A DEUX DIMENSIONS
Objectifs pédagogiques
A la fin de ce cours les étudiants doivent être capables de :
- Résumer des données brutes portant simultanément sur deux variables sous la forme de
distribution de fréquences en utilisant aussi bien des outils tabulaires que des outils graphiques;
- Définir les notions de fréquences marginales, distributions marginales, fréquences conditionnelles,
distributions conditionnelles ;
- Mesurer l'intensité de la liaison entre deux variables quantitatives ;
- Mesurer l'intensité de la liaison entre deux variables ordinales ;
- Mesurer l'intensité de la liaison entre deux variables dichotomiques (exemple, en écologie)
- Mesurer l'intensité de la liaison entre deux variables qualitatives;
- Expliquer ce qu’est la régression linéaire et ses applications,
- Connaître les principales formes du modèle linéaires,
- Décrire les étapes de l’étude de la régression linaire,
- Analyser et d’interpréter les résultats d’une régression linaire.
1
08/11/2023
PLAN
INTRODUCTION
DESCRIPTION STATISTIQUE
Distributions de fréquence à 2 dimensions et distributions associées
Caractérisation des distributions marginales et des distributions conditionnelles
INFÉRENCE STATISTIQUE
Mesure de l’intensité de la liaison entre deux variables
Cas des données quantitatives: Corrélation de Pearson
Cas des données ordinales: Corrélation de Spearman
Cas des données dichotomiques comme en écologie: Indices de similitude, de diversité
Cas des données qualitatives: Test du χ2, Test du χ2 corrigé de Yates, Comparaison de 2 proportions
Caractérisation de la nature de la liaison entre deux séries statistiques
Cas de deux variables quantitatives (Régression linéaire simple)
08/11/2023 Dr Liady M. Nourou Dine 3
1ère partie:
Description Statistique à deux dimensions et Mesure de
l'intensité de la liaison entre deux variables
PLAN
INTRODUCTION
DESCRIPTION STATISTIQUE
Distributions de fréquence à 2 dimensions et distributions associées
Caractérisation des distributions marginales et des distributions conditionnelles
INFÉRENCE STATISTIQUE
Mesure de l’intensité de la liaison entre deux variables
Cas des données quantitatives: Corrélation de Pearson
Cas des données ordinales: Corrélation de Spearman
08/11/2023 Dr Liady M. Nourou Dine 4
2
08/11/2023
Introduction
Les buts des statistiques à 2D sont identiques à ceux des statistiques à 1D, à savoir:
- Résumer les données (Description statistique) afin que l'on puisse les interpréter
aisément,
- Tirer des conclusions générales sur toute une population à partir
d’échantillons représentatifs (inférence statistique).
3
08/11/2023
Ainsi:
- Une ligne est réservée à chaque valeur de la 1ère variable par exemple X
- Une colonne est réservée à chaque valeur de la 2ème variable, par exemple Y
- À l’intersection de chaque valeur xi de X et de chaque valeur yj de Y, on mentionne
la fréquence observée du couple (xi, yj)
𝑛𝑖. = 𝑛𝑖𝑗
Dans les deux cas, le point remplace
l’indice suivant lequel on a sommé
𝑛. 𝑗 = 𝑛𝑖𝑗
𝑛𝑖. = 𝑛. 𝑗 = 𝑛𝑖𝑗 = 𝑛
Par ailleurs,
on obtient que
08/11/2023 Dr Liady M. Nourou Dine 8
4
08/11/2023
5
08/11/2023
y
x Totaux
y1 y2 . . yj . . . yq
x1 n1.1 n1.2 . . n1.j . . . n1.q n.1
indépendamment des y
. . . . .
Fréquences . .
de la distribution . . .
. . . . .
conditionnelle. des x .pour .y=y1. . .
. . . . . . . . . . .
xi ni.1 ni.2 . Fréquences
. . .
. de la. distribution . n.i
. . . . conditionnelle
. . des.y pour . x=xp
. . .
. . . . . . . . . . .
xp np.1 np.2 . . . . . . . .
Totaux n.1 n.2 . . n.j . . . n.q n
Définition
Distributions de fréquence à 2 dimensions et distributions associées
6
08/11/2023
Racines
Feuilles 40 à 80 à 120 à 160 à 200 à 240 à 280 à 320 à Totaux
79 119 159 199 239 279 319 359
0 à 79 2 2
80 à 159 49 46 5 2 102
160 à 239 86 137 46 11 280
240 à 319 27 153 89 25 7 301
320 à 399 5 45 91 40 6 187
400 à 479 10 33 21 16 1 1 82
480 à 559 1 4 11 10 3 29
560 à 639 2 1 2 4 1 10
640 à 719 1 3 2 6
720 à 799 1 1
Totaux 169 392 270 112 42 11 3 1 1000
7
08/11/2023
1 1
𝑥̅ = 𝑛𝑖𝑥𝑖 𝑦= 𝑛𝑗𝑦𝑗
𝑝 𝑞
8
08/11/2023
1 1,8
𝑐𝑜𝑣 𝑋, 𝑌 = (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦) 1,6
𝑛 1,4
1,2
1,0
1
y
9
08/11/2023
10
08/11/2023
Attention!!!
X et Y peuvent être
liées parfaitement
par une loi
quadratique alors
que r ≈ 0
08/11/2023 Dr Liady M. Nourou Dine 21
11
08/11/2023
r≈ρ
12
08/11/2023
13
08/11/2023
14
08/11/2023
08/11/2023
∑d2=
Dr Liady M. Nourou Dine
232 30
15
08/11/2023
Interprétation
Le principe de cette analyse repose sur le fait que si la relation entre les deux
ensembles de rangs était parfaite, chaque différence "d" serait nulle.
Donc plus la différence entre les rangs des deux variables est grande, moins leur
relation est étroite. Toutefois, comme pour le coefficient classique de corrélation (r de
Pearson), la significativité de cette différence est appréciée par rapport au seuil de 5%
16
08/11/2023
17
08/11/2023
36
18
08/11/2023
19
08/11/2023
Où:
- c est le nombre d'espèces partagées entre les deux sites et,
- a, b sont les nombres d'espèces uniquement rencontrées sur chacun des deux sites
20
08/11/2023
𝟐𝒄
𝒂 𝒃 𝟐𝒄
Il indique aussi la proportion d'espèces communes à deux sites, parmi la liste
complète des espèces considérées sur les deux sites
21
08/11/2023
Shannon-Weaver (H’) 𝒔
𝒊 𝒊 𝟐 𝒊
𝑝 : effectif relatif soit 𝑝 =
n : nombre total d'individus
ni : nombre d'individus d'une espèce donnée, i allant de 1 à S (nombre total d’espèces).
La valeur de l’indice (H’) varie de 0 (une seule espèce, ou bien une espèce dominant
très largement toutes les autres) à log S (lorsque toutes les espèces ont la même
abondance).
22
08/11/2023
23
08/11/2023
Test d’indépendance du χ2
Avec:
O: effectif observé et
T: effectif théorique
Test d’indépendance du χ2
Avec:
O: effectif observé et
T: effectif théorique
Logique du test:
Si les lignes et colonnes d'une table (L*C) sont complètement indépendantes entre
elles, les effectifs théoriques (T) peuvent être reproduites à partir des totaux lignes et
colonnes seuls (totaux marginaux) et devraient être égaux aux effectifs observés (O).
Le Χ2 permet donc de mesurer les écarts entre les effectifs observés (O) et les
effectifs théoriques (T)
08/11/2023 Dr Liady M. Nourou Dine 48
24
08/11/2023
Test d’indépendance du χ2
1. Calcul des marges
2. Calcul des effectifs théoriques
3. Calcul des χ2 des cellules
Mise en œuvre du test : 4. Calcul du χ2 de la table
5. Calcul du degré de liberté
6. Détermination de χ2 critique
7. Interprétation.
25
08/11/2023
Test d’indépendance du χ2
Etape 2: Calcul des effectifs théoriques (Ti)
𝑴𝒂𝒓𝒈𝒆 𝑳𝒊𝒈𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒄𝒆𝒍𝒍𝒖𝒍𝒆 ∗ 𝑴𝒂𝒓𝒈𝒆 𝒄𝒐𝒍𝒐𝒏𝒏𝒆 𝒅𝒆 𝒍𝒂 𝒄𝒆𝒍𝒍𝒖𝒍𝒆
𝑻𝒊 =
𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒇 𝒕𝒐𝒕𝒂𝒍
26
08/11/2023
Test d’indépendance du χ2
Etape 6: Détermination du χ2 critique
On voit que pour ddl=2 et au seuil α = 0,05,
χ = 5,99
27
08/11/2023
Test d’indépendance du χ2
Etape 7: Interprétation
7.1 Analyse du χ2 total
Etant donné que χ é = 13,65 > χ = 5,99, l’hypothèse non nulle
(d’indépendance des deux variables) est rejetée et, l’alternative selon laquelle l’état
vaccinal influence significativement l’état de santé est acceptée.
Cependant ce résultat n’explique pas à lui seul à quoi est dû cette influence. Pour le
savoir, il faudrait analyser les χ2 des cellules.
Test d’indépendance du χ2
Etape 7: Interprétation Le tableau montre que la valeur de χ2 la plus
7.2 Analyse des χ2 des cellules élevée (5,79) est observée dans la cellule 1.
Cela est dû au fait que la valeur observée (24)
Non
Etat de santé Vacciné est largement supérieure à la valeur
vacciné théorique (14); ainsi dans cette cellule il y
Pneumonie de type
5,79 5,79 beaucoup de cas observé que ce qui est
pneumococcal attendu, cette cellule présente le nombre de
Pneumonie de type
0,11 0,11 personne non vaccinées qui ont contractées la
non pneumococcal maladie et signifie donc que le nombre de
Sain 0,93 0,93 personnes non vaccinées ayant contracté la
maladie est beaucoup plus important que prévu.
08/11/2023 Dr Liady M. Nourou Dine 56
28
08/11/2023
Test d’indépendance du χ2
Etape 7: Interprétation
La deuxième plus importante valeur de χ2 est
7.2 Analyse des χ2 des cellules observée dans la cellule 2; cependant, dans
Non cette cellule, on constate que le nombre
Etat de santé Vacciné
vacciné de personnes observées(5) est largement
Pneumonie de type plus inférieur au nombre de personnes
5,79 5,79 attendues (14). Cela signifie qu’un nombre
pneumococcal
Pneumonie de type significativement faible de personnes
0,11 0,11 vaccinées, contractent la maladie par rapport
non pneumococcal
Sain 0,93 0,93 à ce qui aurait été observé si le vaccin n’avait
pas d’effet.
08/11/2023 Dr Liady M. Nourou Dine 57
Test d’indépendance du χ2
Etape 7: Interprétation
7.2 Analyse des χ2 des cellules En ce qui concerne les cellules, une
Etat de santé Non vacciné Vacciné valeur χ2 <1 peut être interprétée
comme: le nombre de cas observé
Pneumonie de type est approximativement égal au
5,79 5,79
pneumococcal nombre de cas attendu.
Pneumonie de type
0,11 0,11
non pneumococcal Ainsi, la vaccination n’a d’effet sur
Sain 0,93 0,93 aucune des autres cellules restantes
08/11/2023 Dr Liady M. Nourou Dine 58
29
08/11/2023
30
08/11/2023
31
08/11/2023
𝑂 − 𝑇 − 0,5 Avec:
χ = - O: Effectif observé
𝑇 - T: effectif théorique
32
08/11/2023
𝟐 𝑶 − 𝑻 − 𝟎, 𝟓 𝟐
O T 𝑶 − 𝑻 − 𝟎, 𝟓 𝑶 − 𝑻 − 𝟎, 𝟓
𝑻
Guéris/Clinique 22 20,1 1,4 1,96 0,098
Non guéris/Guéris 98 99,9 1,4 1,96 0,020
Guéris/Maison 17 18,9 1,4 1,96 0,104
Non guéris/Maison 96 94,1 1,4 1,96 0,021
Total 233 233 0,242
33
08/11/2023
34
08/11/2023
69
35
08/11/2023
36
08/11/2023
Comment exploiter
le modèle de Calibration + Validation
régression ?
08/11/2023 Dr Liady M. Nourou Dine 73
y=ax + b
37
08/11/2023
Y=aX: Ce type de modèle pourra notamment être utilisé chaque fois que X et Y
représentent la même variable (par exemple les concentrations en chrome mesurées
par deux méthodes différentes sur les mêmes échantillons) et qu'à une valeur nulle de
X doit correspondre une valeur nulle de Y.
La somme des carrés des écarts (entre yi et 𝑦i) à minimiser vaut donc:
𝑺 = ∑𝒏𝒊 𝒚𝒊 − 𝒚𝒊 𝟐=∑𝒏𝒊 𝒚𝒊 − 𝒂𝒙𝒊 − 𝒃 𝟐
38
08/11/2023
39
08/11/2023
40
08/11/2023
41
08/11/2023
𝟐
L’estimateur de l’écart-type ∑ 𝒚𝒊 𝒚𝒊
𝒂
→𝒕 𝒏 𝟐 de la pente (Sa) est égal à : 𝒔𝒂 = 𝒏 𝟐
𝒔𝒂 ∑ 𝒙𝒊 𝒙 𝟐
42
08/11/2023
𝒊 𝒊
𝟐
𝒊
Variance expliquée
43
08/11/2023
∑ (𝑦 − 𝑦)2 : 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝐶𝑎𝑟𝑟é𝑠 𝑑𝑒𝑠 é𝑐𝑎𝑟𝑡𝑠 𝑇𝑜𝑡𝑎𝑢𝑥 (𝑆𝐶𝑇) ddl de SCT=n-1
𝑆𝐶𝐸
𝐶𝑎𝑟𝑟é08/11/2023
𝑀𝑜𝑦𝑒𝑛 𝐸𝑥𝑝𝑙𝑖𝑞𝑢é 𝐶𝑀𝐸 =
𝑐 − 1 Dr Liady M. Nourou Dine 87
•Le rapport F
44
08/11/2023
45
08/11/2023
46
08/11/2023
47
08/11/2023
On obtient:
𝑡𝑐𝑟𝑖𝑡𝑖𝑞𝑢𝑒 ( , , ) = 2,365
48
08/11/2023
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0 1,2
08/11/2023 Dr Liady M. Nourou Dine Densité optique 98
49
08/11/2023
50