Vous êtes sur la page 1sur 218

Module : Enzymologie appliquée et

Outils biostatistiques 2
Partie 2 :
Outils biostatistiques
Pour licence Abiocq

An. Un.2021/2022 H. Messaouri


Statistique
•Graphique à barres : pour représenter la
répartition des résultats d'un sondage, les
ventes de produits par catégorie, ou les
résultats d'une compétition sportive.
•Histogramme : pour représenter la
distribution des tailles, des poids, ou des
notes d'un examen.
•Diagramme circulaire : pour représenter la
part de marché des différents concurrents,
les sources de revenus d'une entreprise, ou
les principales causes d'une maladie.
Messaouri 07/12/2023 3
•Graphe boite à moustache ou Box
plot : c’est un moyen rapide de figurer
le profil essentiel d'une série statistique
quantitative.

•Graphique linéaire : pour représenter


l'évolution du prix d'un produit, des
températures au cours d'une année, ou
des résultats d'un test expérimental.

•Nuage de points : pour représenter la


relation entre deux variables, telles que
la taille et le poids, ou le revenu et le
niveau d'éducation.
Les tableaux statistiques sont utilisés pour présenter des données de
manière concise et organisée. Ils sont un outil essentiel pour l'analyse
statistique, car ils permettent de visualiser les données et de les
comprendre plus facilement.

Tableau de données brutes : il s'agit du type de tableau le plus simple. Il


présente les données brutes, sans aucune modification.

Tableau de fréquences : ce type de tableau présente le nombre


d'observations pour chaque valeur ou catégorie. Cela peut être utile pour
mettre en évidence la répartition des données.

Messaouri 07/12/2023 5
Tableau de données groupées : ce type
de tableau présente les données
groupées en catégories. Cela peut être
utile pour mettre en évidence des
tendances ou pour comparer des groupes
différents.

Tableau de contingence : ce type de


tableau présente les données pour deux
ou plusieurs variables. Il est utilisé pour
étudier les relations entre les variables.

Messaouri 07/12/2023 6
Asymétrie Aplatissement
STATISTIQUE INFÉRENTIELLE
OBJECTIFS DE LA PARTIE DU MODULE A ENSEIGNER

• Tirer des conclusions sur une population à partir


d'un échantillon de cette population.
• Faire des estimations ou des tests sur la population
à partir des données disponibles sur l'échantillon.
• Choisir et mettre en œuvre le test statistique le
plus pertinent pour contrôler la fiabilité de la
réponse apportée
PLAN DU COURS
✓Généralité sur la statistique inférentielle
✓Choix du test
✓Réalisation de quelques tests statistiques
(paramétriques et non paramétriques)
les plus utilisées en Biologie :
• Test de Shapiro-Walk (normalité)
• Le test de Kolmogorov-Smirnov (ajustement)
• Test t de Student et test z (égalité des moyennes)
• Test F (égalité des variances)
• Analyse de variance ou ANOVA (analyse des variances)
• Test des corrélation (analyse des covariances)
• Test Khi2 (ajustement et indépendance)
• Test U de Mann et Whitney (concordance)
• Le test Rapide des signes
Choix du test statistique

Statistique descriptive

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Première étape pour analyse

• Vérification des effectifs et des fréquences


• Rechercher les cohérences
• Tri les données
• Faire des graphes de répartition (histogramme)

• Faire une analyse descriptive


• Faire l’analyse statistique inférentielle

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Distribution de fréquences
Distributions non groupées :
Quand les observations sont peu nombreuses, on peut les condenser
sous forme d'un tableau statistique (Observations séparées).

Distribution groupées :
Dans le cas de variables continues,
Distribution groupées
avec un très grand nombre
d'observations, il est nécessaire de
condenser les valeurs sous forme de
classes dans le tableau de
distribution de fréquences.
Chaque classe est caractérisée par
une borne inférieure, une borne
supérieure, une amplitude (ou
étendu) et un point central (ou
médiane).

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

• Représentations graphiques
renseignent sur la forme des distributions

Exemple :
Fréquence des longueurs de prénoms des étudiants

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Exercice fréquence
1 - Faire une série statistique formée par l’ensemble des couples
(nombres de taches par pièces , nombre de pièces tachées)
(1.50) ; (2.60) ; (7.5) ; (10.20) ; (12.10) ; (15.20) ; (20.13) ; (22.9)
2 - Calculer les fréquences absolues cumulées croissantes
3 - Calculer les fréquences relatives
4 - Calculer les fréquences relatives cumulées croissantes
5 - Donner le pourcentage de pièces ayant 10 tâches au plus
6 - Donner le pourcentage de pièces ayant au moins 15 tâches
7 - Tracer la courbe histogramme des effectifs en fonction des
nombres de tâches

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

xi ni FrRel FrRelCroi Fr%


1 50 0.26737968 0.26737968 26.7379679
2 60 0.32085561 0.58823529 58.8235294
7 5 0.02673797 0.61497326 61.4973262
10 20 0.10695187 0.72192513 72.1925134
12 10 0.05347594 0.77540107 77.540107
15 20 0.10695187 0.88235294 88.2352941
20 13 0.06951872 0.95187166 95.1871658
22 9 0.04812834 1 100
Freq abs cum 187

Au plus 10 : 72.2%
Au moins 15 : 100 – 77.5 = 22.5%

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Au plus 10 : 72.2%
Au moins 15 : 100 – 77.5 = 22.5%

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

La liste de fréquence et les


histogrammes donnent bien une
idée sur la série statistique

mais on a souvent besoin d’indices


numériques ou paramètres
numériques
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Les paramètres numériques


d’une séries
On synthétise l’information d’une série statistique par
deux types de paramètres essentiellement

1. Paramètres de position (ou de centrage)


2. Paramètres de dispersion

3. Autres paramètres supplémentaires, paramètre


de forme (asymétrie et aplatissement)
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Paramètres de position
(ou tendance centrale) :
Moyenne, médiane et mode.
1.La moyenne
Il y a plusieurs types de moyennes
• moyenne arithmétique ( )
x
• moyenne géométrique (G)
• moyenne harmonique (H)
• moyenne quadratique (Q)
Pour une même série statistique H<G< x <Q
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Calcul de la moyenne
Généralement, on prend la moyenne arithmétique comme
paramètre de position.
C’est un paramètre sensible aux valeurs extrêmes.
Il est égale à la somme des valeurs divisée par le nombre
d’individus.
X 1 + X 2 + ... + X n Représentation synthétique
m=
N
m=
 X i

N
Pour calculer la moyenne d’une distribution de fréquence on
utilise la formule 1 k
 
k
x= i =1
nixi = i =1
fixi
n
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Moyenne :
Fonction Excel =MOYENNE(plage)
A B Données
1 Données danseuse 1
51
2 4 danseuse 2
52
3 1 danseuse 3
45
4 2 danseuse 4
50
5 danseuse 5
51
0
6 danseuse 6
51
7
danseuse 7
53
7 7 danseuse 8
49
8 Moyenne Formule sumotori
235
9 3,50 =MOYENNE(A2:A7) Moyenne Formule
70,78 =MOYENNE(A2:A10)

les danseuses ont un


poids moyen de 70.78 Kg

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Analogie physique

La moyenne est le point auquel il faudrait placer un


support pour que la "planche" reste en équilibre.

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

2. La Médiane
Elle partage la série statistique en deux groupes
d’observations de même taille.
Elle est recherchée sur des séries ordonnées du
plus petit au plus grand ou l’inverse.

•si n est impaire, la médiane est la valeur


centrale
•si n est paire, la médiane est la moyenne des
deux valeurs centrales.

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Exercice médiane

Calculer la médiane des deux séries :

1. 10 25 22 8 9 20 30 4 35

2. 10 9 35 20 25 4 8 30

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Calcul de la médiane
Sur Excel =MEDIANE(plage)

4 8 9 10 20 22 25 30 35
Il y a 9 valeurs (n impaire) donc la médiane est la
(9/2+1)ième valeur donc la 5ième valeur : 20

4 8 9 10 20 25 30 35
Il y a 8 valeurs (n paire) donc la médiane est la
moyenne de la (8/2 et la 8/2+1) ième valeur donc
la moyenne de la 4ième et la 5 ième valeur
: (10+20)/2=15

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

3. Le mode (ou dominante)

C’est la valeur la plus fréquente ou la plus répétitive dans


une matrice ou une plage de données.
Fonction Excel =médiane(plage)

Exercice : mode
Retrouver le mode des deux séries suivantes :
▪ 1 1 3 3 3 5 5 5 5 6 7 7
▪ 1 2 3 4 5 6 7 8 9 10 11

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Fonction Excel =MODE(plage)


Données
7
8
8
0
3
6
Mode Formule
8 =MODE(A2:A7)

Le mode ne marche pas toujours

– Ici, toutes les fréquences sont identiques


– pas de mode ou alors modes ex aequo

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Les séries peuvent avoir


plusieurs modes
Distribution unimodale :
un seul maximum

Distribution bimodale :
2 modes

Distribution multimodale :
plusieurs modes
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Grouper les données


• Lorsque les données ont de nombreuses
valeurs, on calcule le mode après avoir groupé
les données par intervalles et représente la
classe modale.

Exemple, durées des pauses dans un discours (ms)


An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Relation entre les trois indices


• La relation dépend de la forme la distribution
• Distribution symétrique (ou à peu près)
– mode ~ médiane ~ moyenne

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Les trois paramètres de position,


moyenne, médiane et mode,

•sont confondus dans une population à


densité symétrique
•et ils sont isolés dans une population
à densité asymétrique

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Distribution asymétrique
Etalée à droite
mode < médiane < moyenne

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Distribution asymétrique
Etalée à gauche
mode > médiane > moyenne

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Quel indice choisir ?

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Quel indice choisir ?


• Mode
– peu stable, parfois inexistant
(à éviter)

• Moyenne
– la force de l’habitude
(Valable dans les distributions symétriques)

• Médiane
– Meilleur indice dans les distributions asymétriques

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Paramètres de dispersion :
L’étendu, la variance et l’écart type.

1.L’Étendu ( range en anglais)


C’est la différence entre les deux valeurs
extrêmes. Il mesure la dispersion des valeurs
de la série.

On ne l’utilise généralement que pour avoir


une idée de la répartition de la série

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Fractiles : Exemple les Quantiles

1er Quartile : la plus petite valeur des observations pour


laquelle au moins 25% de valeurs lui sont inférieurs ou
égale.

2ème Quartile : la plus petite valeur des observations pour


laquelle au moins 50% de valeurs lui sont inférieurs ou
égale. C’est généralement la médiane

3ème quartile : la plus petite valeur des observations pour


laquelle au moins 75% de valeurs lui sont inférieurs ou
égale.

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Exercice : les quartiles

Calculer le Q1, Q3 et la distance interquartiles


De la série suivante :

11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Calcul de Q1, Q3 et la distance interquartiles


11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23 (14valeurs)

1er quartile Q1 = Entier de (14*0.25=3.5) (3ème position) =13


3ème quartile Q3 = Entier de (14*0.75=10.5) (10ème position) = 19

La distance interquartiles
correspond aux 50% des données centrales appartenant à
cette série statistique «valeurs centrales» .
Elle se situe dans ce cas entre les valeurs
Q3 et Q1 = 19 - 13 = 6

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Représentation de la boîte à moustache

max

3ème quartile

médiane Distance
interquartiles
(50% des
1er quartile valeurs)

Min

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

2. La Variance
C’est la variabilité générale de la variable.
C’est 2 ou s2

Population Echantillon

An. Un. 2023/2024 H. Messaouri


0
Choix du test statistique

Exercice
Calculer la variance (var) de la série suivante
A Résistance
2 135
3 130
Formule Excel
4 137
5 132 =VAR(plage)
6 131 pour les échantillons
7 137
8 132
9 135 =VarP(plage)
10 130 pour la population entière
11 129

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Pour calculer la variance d’une distribution de


fréquence on utilise la formule
N 2

 ni( xi − x)
σ2 = i =1
N

 ni
i =1

Qui peut être remplacée par :


N

 nixi 2

σ2 =
2
i =1
−x

N
i =1
ni
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

3. L’écart type
C’est la racine carré de la variance

( xi − x ) 2

σ=
n

C’est généralement l’écart type qu’on prend


comme paramètre de dispersion.

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Exercice
Calculer l’écart type de la série suivante
A Résistance
2 135 Formule Excel
3 130
4 137 =ecartype(plage)
5 132 pour les échantillons
6 131
7 137
8 132 =ecartypeP(plage)
9 135 pour la population entière
10 130
11 129

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Pour des échantillons de petite taille (n<30)


on divise par n-1 (l’écart type est appelé
dans ce cas, la déviation standard)

Pour les échantillons de grande taille (n>30)


on divise alors par la valeur n.
L’écart type correspond alors à l’écart type
de la population.

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Exercice

Calcul de la variance et de l’écart type d’une fréquence

Notes Effectifs
1.Calculer l’effectif total [0;5[ 10
2.La moyenne globale [5 ; 8[ 8
3.La variance [8 ; 12[ 137
4.L’écart type [12 ; 15[ 132
[15 ; 20[ 131

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Autres Paramètres :

A partir des paramètres de dispersion et de


position, d’autres paramètres viennent
compléter la descriptions de l’état des
séries étudiées.
•Coefficient de Variation ,
•Coefficients de d’asymétrie
•Coefficients d’aplatissement ,
•Intervalle de confiance ….
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Le coefficient de variation CV
(Coefficient of variation, percentage standard deviation)

CV est le rapport écart type divisé par la moyenne.


Il est totalement indépendant des unités
(sans unité). Il est exprimé en pourcentage.

Il permet donc de comparer la variabilité de


distributions de variables qui ne sont pas dans les
mêmes unités.

s
CV = 100
x
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

4. L’intervalle de confiance d’une


population normale
N>= 30 La vrai valeur de la moyenne à 95% de chance
de se trouve dans l’intervalle de confiance .
   
 x − 2 ; x + 2 
 n n 

2 est une valeur constante quelque soit n


(Dans la tab stat pour n>=30
on a une valeur constante de 1.96)

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

4. L’ intervalle de confiance d’une


population normale (suite)
Pour N< 30
La l’intervalle de confiance prend la valeur

   
 x − t ; x + t 
 n n

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Sur Excel Il faut d’abord calculer la moyenne et l’écart


type. La demi amplitude est ensuite donnée par :
=INTERVALLE.CONFIANCE (alpha;écartype;n)

Et les bornes inf et sup par :

[ moyenne – demi-amplitude ; moyenne + demi-amplitude ]

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

Paramètres d'aplatissement et d’asymétrie

1/ Coefficient d’aplatissements

Une des mesures les plus utilisées de coefficient


d'aplatissement est le « kurtosis ».
C'est une mesure du degré de concentration des
observations dans les queues. Pour une distribution
normale, la valeur de la statistique de kurtosis est 0.
Pour les échantillons issus d'une distribution normale,
les valeurs du kurtosis fluctuent autour de 0.

On rejette l’asymétrie si ce coefficient


dépasse [-2 à +2]
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Paramètres d'aplatissement et d’asymétrie

2/ Coefficient de d’asymétrie (ou l’asymétrie)

Une des mesures les plus utilisées du coefficient


d’asymétrie est le « Skewness ».
Une distribution avec un coefficient d'asymétrie :
* égale à 0 indique une distribution asymétrique
* positif indique une longue queue vers la droite.
* négatif signifie une longue queue vers la gauche.

On rejette l’asymétrie si ce coefficient


dépasse [-2 à +2]
An. Un. 2023/2024 H. Messaouri
Choix du test statistique

Sur Excel :
Paramètres d'aplatissement et de d’asymétrie
sont donnés directement par le résultat de
la statistique descriptive
de l’utilitaire d’analyse

An. Un. 2023/2024 H. Messaouri


Choix du test statistique

CHOIX DU TEST STATISTIQUE

• An. Un. 2019/2020 H. Messaouri


Choix du test statistique

Avant de choisir un test statistique

Avant de choisir le test à appliquer


aux séries étudiées, il faut préciser

• La dimension de l’analyse à faire (uni, bi ou


pluridimensionnel)
• Le type de la variable (quantitative ou qualitative)
• La nature de la distribution (normale ou pas)
• Les dépendances ou non des variables
Choix du test statistique

ANALYSE UNIVARIEE (ou unidimensionnel)


(Statistique descriptive à un caractère)

Une telle variable statistique se représente par un


tableau à une seule entrée.

Dans une analyse univariée, un critère peut être


analysé sans tenir compte des autres.
Choix du test statistique

ANALYSE BIVARIEE (ou bidimensionnel)


(Variables statistiques à deux dimensions)

Une telle
variable
statistique est
représentée par
un tableau à
double entrée
appelé :
Tableau de contingence
Choix du test statistique

METHODE D’ANALYSES UNIVARIEES (ou unidimensionnel)


La variable mesurée sur une échelle d’intervalle
(longueur en m - surface en cm - âge)

Oui Non
(La variable a une distribution Gaussienne)
Tests non
Non Oui paramétriques Diapo suite

2 échantillons Tests paramétriques


Test de Student Diapo suite
Anova à 1 facteur

Tests
Appariées Test de Walsh / Test de Randomisation
non
paramét
riques Non appariés Test de Randomisation
Choix du test statistique

Test non paramétrique


La variable mesurée sur une échelle ordinale divisée en classe
N’exige pas de spécification sur la forme de la distribution parente
(pas forcément une distribution normale)

1 échantillon Oui Non


(Variable Diapo
catégorielle) suite

Test de
Kolmogorov-Smirnov
2 échantillons Plusieurs échantillons

Appariés
Test des signes Appariés
Test Wilcoxon Test de Fridman

Non appariées
Test de la médiane Non appariées
Test de Mann-Whitney Test de Kruskall-Wallis
Choix du test statistique

Test non paramétrique


(Variable catégorielle)

1 échantillon Oui
Test de
Binomial

2 échantillons Plusieurs échantillons

Apparié Appariés
Test de X2 de Mac Neman Test de Cochran

Non appariées
Test de Fischer Non appariées
Test X2 Test X2
Choix du test statistique

METHODE D’ANALYSES BIVARIEES


(ou bidimensionnel)
Y
Nominal Ordinal Continue
X
•Analyse X2 •Analyse de variance
•Test Kruskall-Wallis (ANOVA à 1 facteurs:
Nominal •Comparaison des
•Test Mann Withney indépendants ou 2 facteurs
fréquences appariées)
•Analyse de variance
•Corrélation (ANOVA à 1 facteurs:
de Spearman indépendants ou 2 facteurs
Ordinal appariées)
et
de Kendall •Corrélation des
rangs
•Coefficient de
corrélation de
Continu
Pearson
•Régression simple
Choix du test statistique

Sur Excel on peut faire les tests statistiques soit :

• Par les fonctions intégrées d’Excel


• Par l’utilitaire d’analyse des macros
complémentaires
• Par les macros adaptés
• Ou par intégration d’un logiciel de statistique
comme Xlstat
Choix du test statistique

Nombre Type de Tests Tests paramétriques :


des variables non- (Calcul sous Excel, dans
échantillon paramétriq « Utilitaire d’analyse »)
s à analyser ues
(macro
« free »,
avec calcul
sous Excel )
NOMINALE Khi2 ,
Test
///binomial
Un T. de Student
échantillon (dans“Test d’égalité des
espérances: observations pairées”)
ORDINALE Kolmogoro Pour n>30, «Test de la différence
v-Smirnov significative minimale (z-test) »
Choix du test statistique

Nombre des Type de Type Tests Tests paramétriques : Tests de


échantillons variables d’échantillon non- (Calcul sous Excel, dans Corrélation
à analyser s paramétriques « Utilitaire d’analyse »)

(macro « free »,
avec calcul
sous Excel )

NOMINALE Echantillons Khi2 pour 2 non paramétrique:


indépendants échantillons Test ρ de Spearman,

Echantillons Khi2 de τ de Kendall.


appariés McNemar

Deux ORDINALE Echantillons U de Mann- F. de Snedecor paramétrique : « r » de


échantillons indépendants Whitney, (dans: « Test d’égalité des Bravais-Pearson
Autres tests : variances »). Sous Excel, dans
Wald- T. de Student (dans “Test « analyse de
Wolfowitz, test d’égalité des espérances: 2 corrélation »
de Moses observations différentes”
Kolmogorov- Pour n>30, « Test de la différence
Smirnov significative minimale (z-test) »
Le test de la
médiane
(Mood test)
Echantillons Test de T. de Student
appariés Wilcoxon (dans“Test d’égalité des
espérances: observations pairées”)
Choix du test statistique

Nombre des Type de Type Tests Tests paramétriques : Tests de


échantillons variables d’échantillon non- (Calcul sous Excel, dans « Utilitaire Corrélation
à analyser s paramétriques d’analyse »)

(macro
« free », avec
calcul sous
Excel )
Echantillons Test de T. de Student
appariés Wilcoxon (dans“Test d’égalité des espérances:
observations pairées”)

NOMINALE Echantillons Khi2 pour k Coefficient de


indépendants échantillons contingence
(voir Khi 2 pour k
éch.)
K Echantillons Test Q de Corrélation
échantillons appariés Cochran multiple: sous
Excel, dans

ORDINALE Echantillons Test de ANOVA (dans : « analyse de « Régression


indépendants Kruskal- variance : un facteur) linéaire »
Wallis
Le test de la
médiane
Test de
Jonckheere-
Terpstra

Echantillons Test de ANOVA (dans : « analyse de Coefficient


appariés Friedman variance : deux facteurs, sans de concordance
Test de Page répétition d’expérience » de Kendall W.
Choix du test statistique
Tests Statistiques

Tests paramétriques

Les tests paramétriques utilisées en Biologie :

• Test t de Student et test z (égalité des moyennes)


• Test F (égalité des variances)
• Analyse de variance ou ANOVA (analyse des variances)
• Test des corrélation (analyse des covariances)
• Le test de la Régression linéaire
Tests Statistiques

Comparaison des moyennes


Pour une distribution normale (tests paramétriques)
•Test t de Student si on ne connaît pas la vraie variance
des populations dont sont extraits les échantillons ; et que
n<=30))

•Test z (différences minimales) variance des


populations dont sont extraits les échantillons est connue et
quand n>30.
Dans le cas de n>30, la variance de la population est
considérée comme estimateur de la population est le test à
choisir est donc le test z

Sans exigence de normalité : Tests non paramétriqques)


•Test U de Wilcoxon / test rapide des signes (k=2 appariées)
•Test de Krustal Wallis (k>2 non appariées)
Tests Statistiques

Comparaison des moyennes de deux échantillons


Test de Student

C’est un test qu’on peut appliquer à de petites séries (n<=30)


Mais avant de faire ce test il faut vérifier :

• la normalité (test de Shapiro-Wilk


ou test de Kolmogorov-Smirnov)
• l’équivariance ou égalité des variances (test F ou test de
Leaven

• La dépendance
Tests Statistiques

Tableau récapitulatif des différents tests statistiques pour vérifier


l'égalité ou la différence de variance, avec leurs conditions d'utilisation :

Exemples de Tests Condition d'utilisation


Les données doivent être normalement
distribuées. Les échantillons doivent être
Tests paramétriques :
indépendants. Les échantillons doivent
• Test de Fisher
avoir une taille suffisante (au moins 20
• Test de Bartlett
observations par échantillon).
___________________________________
Les données ne doivent pas nécessairement
Tests non suivre une distribution normale. Les
paramétriques : échantillons doivent être indépendants. Les
• Test de Levene échantillons doivent avoir une taille
• Test de Welch suffisamment grande (au moins 10
observations par échantillon).
Tests Statistiques

Test t sur Excel

=TEST.STUDENT(matrice1; matrice2; uni/bilatéral; type)


La formule renvoie à la probabilité (unilatérale) associée à un test T de Student
pour déterminer dans quelle mesure deux échantillons sont susceptibles de
provenir de deux populations sous-jacentes ayant la même moyenne.
•Matrices = séries de données.
•uni/bilatéral = type de distribution à renvoyer : unilatérale (1) ou
bilatérale (2).
•type = type de test t à effectuer.

Type Ce test est effectué


1 Sur des observations pairées
2 Sur deux échantillons de variance égale (homoscédastique)
3 Sur deux échantillons de variances différentes (hétéroscédastique)
Tests Statistiques

Formule pour obtenir la valeur de t (calculé ou critique) sachant p :


=LOI.STUDENT.INVERSE(p;ddl)

Formule pour obtenir la probabilité

=TEST.STUDENT(matrice1,matrice2,uni/bilatéral,type)

Pour la décision, il faut ajouter la formule :

=SI(|tcal|<tcrit ; « il y a égalité »;« il y a différence »)


& " entre les moyennes"
Tests Statistiques

A partir de l’Utilitaire d’analyse :

• Test d’égalité des espérances : observations pairées.


• Test d’égalité des espérances : observations indépendantes
avec égalité de variances «homoscédastique» ou homogénéité
• Test d’égalité des espérances : observations indépendantes avec
variances différentes «hétéroscédastique».

En théorie, le test t sur des échantillons indépendants suppose que les


variances sont inconnues, mais égales.
Quand les variances sont inégales (cas des tailles d’échantillons trop
réduites, Excel utilise un calcul différent pour hétéroscédastique
(Dans ce cas un il vaut mieux utiliser un test non-paramétrique …)
Tests Statistiques

Exercice comparaison des moyennes

Deux groupes de 10 lapins chacun,


nourris avec un régime enrichi en x y
23 18
cholestérol, ont été soumis à deux 15 22
traitements différents X et Y. 28 33
On voudrait savoir s'il y a une différence 26 34
entre les deux traitements. 13 19
8 12
21 27
Les résultats des dosages de la 25 32
cholestérolémies en dg/l, sont portés sur 24 31
le tableau suivant : 29 30
Tests Statistiques

Test de Shapiro-Wilk (x) :


Test d'égalité des espérances : deux
W 0.907 observations de variances égales
p-value x y
(bilatérale) 0.258 Moyenne 21.2 25.8
alpha 0.05 57.28
Variance 48.4 88889
Test de Levene Observations 10 10
Test F de Fisher / Test
(Moyenne) / Test Variance pondérée 52.8444444
bilatéral :
bilatéral : Différence
Rapport 0.845 hypothétique des
F (Valeur
F (Valeur moyennes 0
observée) 0.307
observée) 0.845 Degré de liberté 18
F (Valeur
F (Valeur -
critique) 4.414
critique) 4.026
DDL1 1 Statistique t 1.41495675
DDL1 9
DDL2 18 P(T<=t) unilatéral 0.08707433
DDL2 9
p-value Valeur critique de t
p-value (unilatéral) 1.73406361
(bilatérale) 0.806
(unilatérale) 0.587
alpha 0.05 P(T<=t) bilatéral 0.17414866
alpha 0.05
Valeur critique de t
(bilatéral) 2.10092204
Tests Statistiques

EXERCICE
Neuf malades présentant des symptômes d’anxiété reçoivent un
traitement. On évalue l’état des malades avant et après traitement par un
indice que le médecin traitant calcule d’après les réponses à une série de
questions. Si le traitement est efficace, l’indice doit diminuer. Les valeurs
de cet indice sur les neuf patients sont les suivants :

Patient 1 2 3 4 5 6 7 8 9
Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3
Après 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29

1. Transposer ces résultats sous forme de 3 colonnes :


Patient, Avant et après
2. Choisir le test adéquat à faire en justifiant votre choix.
3. Interpréter les résultats obtenus et donner votre décision concernant
l’efficacité du traitement au seuil 0.05
Tests Statistiques

Avant Après
1.83 0.88 Test de Normalité Shapiro-Wilk
0.5 0.65 Avant 0.714
1.62 0.59 Après 0.134
2.48 2.05
1.68 1.06 Test d’égalité des variances à faire
1.88 1.29 pour les échantillons non pairés
1.55 1.06
Levene Bartlett
3.06 3.14
0.859 0.912
1.3 1.29
Les observations sont pairés, et les 2 séries suivent la loi normale.
Donc Le test à faire est le test de Student à variables pairées.

Sur l’utilitaire d’analyse d’Excel : c’est le test d'égalité des espérances


observations pairées

Dans l’énoncé : on ne cherche pas seulement s’il y a une différence mais on


recherche si le traitement est efficace. Donc nous devons nous baser sur les
valeurs du test unilatéral.
Tests Statistiques

Test d'égalité des espérances observations pairées (Sur Excel)

Avant Après
Moyenne 1.766666667 1.334444444
Variance 0.512075 0.644477778
Observations 9 9
Coefficient de corrélation de Pearson 0.846846399
Différence hypothétique des moyennes 0
Degré de liberté 8
Statistique t 3.026412693
P(T<=t) unilatéral 0.008199333
Valeur critique de t (unilatéral) 1.859548038
P(T<=t) bilatéral 0.016398666
Valeur critique de t (bilatéral) 2.306004135
Tests Statistiques

Décision statistique :

La statistique de test observée est de 3.026.

Elle est supérieur à la valeur t théorique unilatérale qui est de 1.859

On est donc dans la zone de rejet de 𝐻0. On accepte 𝐻1

(l’indice avant est supérieur à l’indice après , c’est-à-dire l’indice diminue)

Le traitement est donc efficace avec une p value de 0.008.

La différence entre les deux états est très significative (P entre 1% et 1%°).
Tests Statistiques

Exemple 1 :
Test de Student pour échantillon unique
comparé à une référence sur Xlstat (en option)
D’après un rapport, on trouve que les hommes de plus de 30 ans regardent la
télévision en moyenne de 25 h par semaine. Pour cette moyenne dans une
population d’étudiants. Onze étudiants ont comptabilisé leur temps passé devant
la télévision, par semaine :

Etudiants
10
8 Différence -7.364
15 t (Valeur observée) -2.726
28
20 |t| (Valeur critique) 2.228
19 DDL 10
13
20 p-value (bilatérale) 0.021
9
alpha 0.05
14
38
Interpréter le résultat obtenue.
Tests Statistiques

Exercice 2 Comparaison des moyennes


Une étude a montré que les hommes de plus de 30 ans regardent la
télévision en moyenne 25 h par semaine.
Nous voulons comparer cette moyenne à une population d’étudiants.
Onze étudiants ont comptabilisé leur temps passé par semaine devant la
télévision :

Etudiants 10 8 15 28 20 19 13 20 9 14 38

Comparer les moyennes de temps de ces étudiants à la moyenne trouvée


dans l’étude.
Tests Statistiques

z-Test
(Comparaison des moyennes des grandes séries)

Quand n est très grand (n>30) le test « z » de deux


moyennes est plus adapté que le test t de Student.

A partir de l’Utilitaire d’analyse », cliquez sur


« =test de la différence significative minimale ».

Ce test nécessite les valeurs des variances


des séries étudiées.

Donc il faut d’abord trouver les 2 valeurs (Par exemple à


partir des résultats de la statistiques descriptives
Tests Statistiques

4,77 5,56 5,56 4,90


4,62 5,42 5,42 4,75

4,80 5,26 5,41 4,64


4,65 5,11 5,26 4,49

5,51 4,50 5,57 5,16 5,36 4,35 5,43 5,02

4,46 4,48 5,40 4,43 4,31 4,33 5,25 4,28

4,41 4,47 4,31 5,28 4,26 4,32 4,16 5,14

5,65 5,64 4,62 5,09 5,51 5,50 4,47 4,94


5,10 4,92 4,56 4,96 4,95 4,77 4,41 4,81
7,70 4,48 4,96 5,67 7,11 4,33 4,81 5,53
5,61 4,63 5,02 5,50 5,46 4,49 4,87 5,36
Appareil 1

5,50 4,39 4,57 5,02

Appareil 2
5,64 4,54 4,72 5,17
4,42 5,18 4,48 4,58 4,27 5,04 4,33 4,43
5,05 4,95 4,60 4,97 4,90 4,80 4,45 4,83
5,66 5,25 5,28 5,27 5,51 5,11 5,13 5,13
4,41 5,31 5,01 4,69 4,26 5,16 4,86 4,54
5,08 4,55 5,28 4,24 4,93 4,40 5,13 4,09
4,69 5,17 4,96 4,45 4,55 5,03 4,81 4,30
4,90 5,66 4,24 5,61 4,76 5,52 4,09 5,47
4,94 5,66 5,60 4,67 4,79 5,52 5,45 4,53
5,00 4,79 4,76 5,34 4,85 4,65 4,62 5,20
5,51 4,88 4,42 4,78 5,37 4,73 4,27 4,63
4,72 4,77 4,42 4,53 4,57 4,63 4,27 4,39
4,56 5,61 4,83 5,63 4,42 5,47 4,68 5,49
5,35 5,16 5,17 5,02 5,21 5,02 5,03 4,88
4,40 4,45 5,35 4,77 4,25 4,30 5,21 4,62
4,32 5,48 4,78 5,15 4,17 5,34 4,63 5,00
Tests Statistiques

Résultat du z-Test sous Excel


Test de la différence significative
minimale (z-Test)

Variable 1 Variable 2
Moyenne 4,997914462 4,847855027
Variances (connues) 0,24 0,23
Observations 100 100
Différence hypothétique des moyennes 0
z 2,188841821
P(Z<=z) unilatéral 0,014304169
Valeur critique de z (unilatéral) 1,644853627
P(Z<=z) bilatéral 0,028608339
Valeur critique de z (bilatéral) 1,959963985
Tests Statistiques

Exemple 2 :
Test de Z pour échantillon unique comparé à une référence
Un échantillon aléatoire de 31 barres énergétiques est prélevé de magasins différents.
Les étiquettes sur les barres indiquent que chaque barre contient 20 g de protéines
(Valeur de référence).
Pour vérifier la teneur en protéine des dosages sont faites sur chacune des barres et
les résultats sont présentés sur le tableau ci-dessus :

Barre énergétique - Grammes de protéines

20.7 21.54 16.26


27.46 21.08 17.46
22.15 22.14 20.53
19.85 19.56 22.12
21.29 21.1 25.06
24.75 18.04 22.44
20.75 24.12 19.08
22.91 19.95 19.88
25.34 19.72 21.39
20.33 18.28 22.33
25.79
Tests Statistiques
Test Z pour échantillon unique comparé à une référence sur Xlstat (en option)
Statistiques descriptives :

Obs. avec Obs. sans


données données
Variable Observations manquantes manquantes Minimum Maximum Moyenne Ecart-type
barre 31 0 31 16.260 27.460 21.400 2.542

Test t pour un échantillon / Test bilatéral :

Intervalle de confiance à 95% autour de la moyenne :


] 20.468;22.332 [

Différence 1.400
t (Valeur
observée) 3.067
|t| (Valeur
critique) 2.042
DDL 30
p-value
(bilatérale) 0.005
alpha 0.05

Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle
H0, et retenir l'hypothèse alternative Ha.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,46%.
Tests Statistiques

Analyse de variance
Conditions de validité

Pour valider les résultats de l’ANOVA, il faut vérifier :

- La normalité (normalité des résidus ou des


résidus standardisés)
- L’indépendance
- L’homogénéité (Test Levene sur les médianes)
- Peu de valeurs extrêmes (moins que 5% des
résidus normalisées inf ou sup à 2 : test de Dixon
ou de Grubbs)
Tests Statistiques

SCE Total
=SCE T
Tests Statistiques

SCE entre groupe


=SCE F
Tests Statistiques

SCE à l’intérieur des groupes


=SCE R
Tests Statistiques

Exemple : Comparaison des variances des séries A, B et C

Source Valeur
des Somme Degré de Moyenne critique
A B C
variations des carrés liberté des carrés F Probabilité pour F
7 7 7 Entre 0.782757 3.885293
Groupes 0.4 2 0.2 0.25 79 83
6 5 7
A
6 7 6 l'intérieur
5 6 6 des
groupes 9.6 12 0.8
5 5 5
Total 10 14

0.4 9.6
Moyenne des carrées = Somme des carrés/ddl 0.2
2 12
0.8

Fobs (0.25) < Fcrit (3.88) & P (0.78 > 0.05)


Hypothèse H0 est accepté
et les variances des deux groupes sont identiques
Tests Statistiques

Exercice comparaison des variances

On dispose de k=3 échantillons comprenant n=5 individus


dont les valeurs sont données dans le tableau ci-après :
il s’agit des différences de temps de réaction pour trois
souches de souris soumises à une même expérience

Souche 1 Souche 2 Souche 3


7 3 0
6 3 0
6 3 1
5 4 1
5 5 2
Tests Statistiques

Test de Shapiro-Wilk (Normalité)

(Souche 1) (Souche 2) : (Souche 3) :

W 0.881 W 0.771 W 0.881

p-value p-value p-value


(bilatérale) 0.314 (bilatérale) 0.052 (bilatérale) 0.314
alpha 0.05 alpha 0.05 alpha 0.05
Tests Statistiques

Test de Dixon pour les valeurs extrêmes


•Si vous ne savez pas si vos données comprennent des valeurs aberrantes, et
que la répartition des valeurs ne suit pas la loi Gaussienne, utilisez le test de
Grubb.

•Si vous savez que vos données comprennent une valeur aberrante ou plus, et
que la répartition est Gaussienne, utilisez le test de Dixon (souvent utilisé pour
n≤25 valeurs) mais peut être utilisé aussi pour un nombre de valeur plus élevé)

Test de Dixon pour les Test de Dixon pour les Test de Dixon pour les
valeurs extrêmes / Test valeurs extrêmes / Test valeurs extrêmes / Test
bilatéral (Souche 1) : bilatéral (Souche 2) : bilatéral (Souche 3) :

R10 (Valeur R10 (Valeur R10 (Valeur


observée) 0.500 observée) 0.500 observée) 0.500
R10 (Valeur R10 (Valeur R10 (Valeur
critique) 0.710 critique) 0.710 critique) 0.710
p-value p-value p-value
(bilatérale) 0.298 (bilatérale) 0.298 (bilatérale) 0.298
alpha 0.05 alpha 0.05 alpha 0.05
Tests Statistiques

Test de Levene pour tester l’égalité des variances

Statistiques descriptives :

Obs. avec Obs. sans


Observation données données
Variable s manquantes manquantes Minimum Maximum Moyenne Ecart-type
7 | Souche 1 4 0 4 5.000 6.000 5.500 0.577
7 | Souche 2 5 0 5 3.000 5.000 3.600 0.894
7 | Souche 3 5 0 5 0.000 2.000 0.800 0.837

Test de Levene (Moyenne) / Test bilatéral (7) :

F (Valeur observée) 0.439


F (Valeur critique) 3.982
DDL1 2
DDL2 11
p-value (unilatérale) 0.655
alpha 0.05
Tests Statistiques

Analyse de variance: un facteur

RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Souche 1 5 29 5.8 0.7
Souche 2 5 18 3.6 0.8
Souche 3 5 4 0.8 0.7

ANALYSE DE VARIANCE
Valeur
Source des Somme des Moyenne des critique
variations carrés Degré de liberté carrés F Probabilité pour F
Entre Groupes 62.8 2 31.4 42.8181818 3.4468E-06 3.88529383
A l'intérieur des
groupes 8.8 12 0.73333333

Total 71.6 14
Fobs (42.82) < Fcrit (3.44) & P (3.44E-06 > 0.05)
Hypothèse H0 est rejetée
et les variances des deux groupes sont différentes
et la différence est hautement significative p<0.001 (1%°)
Tests Statistiques

Sur Xlstat
Analyse de la variance (valeur) :

Somme des Moyenne des


Source DDL carrés carrés F Pr > F
Modèle 2 62.800 31.400 42.818 < 0,0001
Erreur 12 8.800 0.733
Total corrigé 14 71.600

Résidus normalisés / valeur

Souche 3
Souche 3
Souche 3
Souche 3
Souche 3
Observations

Souche 2
Souche 2
Souche 2
Souche 2
Souche 2
Souche 1
Souche 1
Souche 1
Souche 1
Souche 1

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2


Résidus normalisés

Valeur de tous les résidus entre -2 et 2


Tests Statistiques

Cas ou on accepte H1, il faut trouver la ou


lesquelles des séries
qui est ou qui sont différente(s)

Comparaison multiples par paires


Le test le plus utilisé est le test de Tukey

• Deux moyennes ayant au moins une lettre en commun ne


sont pas significativement différentes

• Les moyennes ayant des lettres différente sont


significativement différentes
Tests Statistiques

Comparaisons multiples

Q1 / Tukey (HSD) / Analyse des différences entre les modalités avec un intervalle de confiance à
95% (Y1) :

Différence
Contraste Différence standardisée Valeur critique Pr > Diff
Souche 1 vs Souche 3 5.000 9.232 2.668 < 0,0001
Souche 1 vs Souche 2 2.200 4.062 2.668 0.004
Souche 2 vs Souche 3 2.800 5.170 2.668 0.001
Valeur critique du d de Tukey : 3.773

Modalité Moyenne Groupes


Souche 1 5.800 A
Souche 2 3.600 B
Souche 3 0.800 C

Les trois groupes sont différents


l’un par rapport à l’autre
Tests Statistiques

Exercice comparaison des variances


Pour tester l’effet de la profondeur sur le taux d’histamine produite
par deux espèces de poissons (S et M), on a enfermé les individus
de chaque espèce dans des cages puis on les a laissées pendant
une semaine soit en surface soit en profondeur. Des dosages de
l’histamine obtenus sont portés sur le tableau ci-dessous.

Il y a t-i une différence de l'apparition de l'histamine en fonction des


espèces et de la profondeur? Profondeur Surface
S 0,55 0,8646
S 2,63 2,343
S 2,71 2,2214
S 1,93 2,134
S 2,38 2,827
M 3,8 5,58
M 4,6 7,128
M 6,80 7,08
M 4,32 6,528
M 4,63 7,412
Tests Statistiques

Analyser le
ANOVA
résultat 2 facteurs avec répétition
obtenu RAPPORT DÉTAILLÉ Profondeur Surface Total
S
Nombre d'échantillons 5 5 10

H0 est L’hypothèse Somme 10,2 10,39 20,59


Moyenne 2,04 2,078 2,059
la plus probable. Les
Variance 0,7862 0,53181628 0,586186124
variables sont
indépendante. M
Nombre d'échantillons 5 5 10
Somme 24,15 33,728 57,878
C’est qu’il n’y a pas Moyenne 4,83 6,7456 5,7878
Variance 1,3237 0,5270288 1,841858178
d’interaction entre
Total
les échantillons Nombre d'échantillons 10 10
Somme 34,35 44,118
Moyenne 3,435 4,4118
Variance 3,099983333 6,522400524
ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627

Total 91,37214592 19

Pour l’interaction, p<0.05 donc H1 : Il y a interaction entre les deux facteurs


Tests Statistiques

ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627

Total 91,37214592 19

On a une interaction quand l’effet d’un facteur


dépend de la modalité d’un autre facteur

H0 : Il n’y a pas d’interaction entre les facteurs


H1 : Il y a interaction entre les facteurs

p<0.05 donc on rejette H0 (absence d’interaction)


Et on accepte H1 : Il y a interaction entre les deux facteurs
Tests Statistiques

Graphe moyenne des 2 espèces


en fonction du profondeur
8
7
6
Moyennel

5
4
3
2
1
0
Profondeur Surface
prof

espece-M espece-S
Tests Statistiques

Résultat de Xlstat

Obs20
Obs19
Obs18
Obs17
Obs16
Observations

Obs15
Obs14
Obs13
Obs12
Obs11
Obs10
Obs9
Obs8
Obs7
Obs6
Obs5
Obs4
Obs3
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

Résidus normalisés
Les résidus centrés réduits, doivent être distribués
suivant une loi normale N(0,1).
Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96,
1.96]. Ici, seul l’observation 8 est aberrante
Tests Statistiques

Résultat ou output Xlstat


Analyse Type III Sum of Squares
(val) :

Somme des Moyenne


Source DDL carrés des carrés F Pr > F
prof 1 4.771 4.771 6.022 0.026
espece 1 69.520 69.520 87.757 < 0,0001
prof*espece 1 4.407 4.407 5.563 0.031

Paramètres du modèle (val) :

Borne inférieure Borne supérieure


Source Valeur Erreur standard t Pr > |t| (95%) (95%)
Constante 2.078 0.398 5.221 < 0,0001 1.234 2.922
prof-Profondeur -0.038 0.563 -0.068 0.947 -1.231 1.155
prof-Surface 0.000 0.000
espece-M 4.668 0.563 8.292 < 0,0001 3.474 5.861
espece-S 0.000 0.000
prof-Profondeur
*espece-M -1.878 0.796 -2.359 0.031 -3.565 -0.190
prof-Profondeur
*espece-S 0.000 0.000
prof-
Surface*espece-
M 0.000 0.000
prof-
Surface*espece-S 0.000 0.000

Equation du modèle (val) :


val = 2,078-3,80000000000023E-02*prof-Profondeur +4,6676*espece-M-1,8776*prof-Profondeur *espece-M
Tests Statistiques

Exemple de comparaisons multiples par paires selon


la méthode de Tukey

• Les moyennes ont des lettres différentes (A, B ou C).


• Elles sont donc toutes significativement différentes
Tests Statistiques

Régression linéaire
Exemple 1 de la régression linéaire
x Y
53 504
1 Faire le graphe de type nuage de points de y = f(x)
66 610
2 Ajouter la courbe de tendance 92 854
3 Afficher le r2 et l'équation de la droite 80 750
84 795
3 Utiliser les fonctions Excel pour calculer la pente,
48 440
l’ordonné à l’origine 61 580
6 Utiliser la fonctions Excel pour calculer le coefficient de 74 695
détermination 58 550
97 915
7 Vérifier ces valeurs avec ceux affichés sur le graphe
70 672
42 394
Tests Statistiques

Résultat de la régression sur l’utilitaire d’analyse

Y Statistiques de la régression
1000
y = 9,4005x + 0,2959
800 R² = 0,9976 Coefficient de détermination multiple 0.99882135
600
Coefficient de détermination R^2 0.99764408
400
Coefficient de détermination R^2 0.99740849
200 Erreur-type 0.88230008
0 Observations 12
0 20 40 60 80 100 120

Y Courbe de régression Coefficients Erreur-type Statistique t Probabilité


120 Constante 0.13056841 1.08480569 0.12036111 0.90658104
x
y = 0,1061x + 0,1306 Y 0.1061262 0.00163085 65.0740666 1.7878E-14
100
R² = 1
80
Prévisions x
60
x

40
Coefficients
20 H0 X et Y ne sont pas liés
0
Erreur-type
H1 X et Y sont liés
0 500 1000
-20
Y

Confiance =1-Probabilité obtenue =1 - 1.7 10-14  1


Tests Statistiques
Tests Statistiques

Résultat de la régression avec Xlstat


Paramètres du modèle (Y) :

Borne Borne
Erreur inférieure supérieure
Source Valeur standard t Pr > |t| (95%) (95%)
Constante 0.296 10.217 0.029 0.977 -22.468 23.060
x 9.401 0.144 65.074 < 0,0001 9.079 9.722

Résidus normalisés / Y
Obs12
Régression de Y par x (R²=0,998) Obs11
1000 Obs10
900 Obs9

Observations
Obs8
800
Obs7
700
Obs6
Y

600 Obs5
500 Obs4
400 Obs3
300 Obs2
30 50 70 90 110 Obs1
Echantillonx d'apprentissage
-2 -1 0 1 2
Modèle(Y)
Résidus normalisés
Int. de conf. (Moyenne 95%)
Int. de conf. (Obs 95%)
Tests Statistiques

Exercice 2 Prédictions à partir d'une régression linéaire

But: Prédire la concentration C d'un composé à partir


de la mesure de l'absorbance de la lumière A ; Loi
de Beer-Lambert: A=kC
[étalon] absorbance
(en ppm) Un étalonnage est fait à partir de 10 échantillons
0 0.040068354 préparés et donc de concentrations connues (C= 0
1 0.012271218 à 10). Pour chaque échantillon est fait une mesure
2 0.101924988 d'absorbance.
3 0.127855901
4 0.127932973 Déterminer les paramètres de la droite de régression
5 0.190596394 en utilisant les 2 méthodes Excel :
6 0.215880197 • courbe de tendance
7 0.184214217 • et fonction Excel
8 0.227856204 Faire une prévision linéaire pour retrouver la valeur de
9 0.316637749 la concentration pour une DO de 0.3
10 0.332678811
Utiliser la fonction matricielle droite de régression à 2
colonnes et 3 lignes et donner l’équation de la
relation qui relie les x et les y
Tests Statistiques

Régression linéaire
Exemple 2 de la régression linéaire
Analyse à partir du graphe
x y1 y2 y3
1/ Calculer la moyenne des y pour chaque X 1.00 10.00 11.00 12.00
2/ Calculer l’écart type sur les moyennes des y pour chaque X 2.00 11.00 10.00 13.00
5.00 10.00 9.00 12.00
3/ Faire un graphe de type nuage de points 9.00 13.00 15.00 14.00
12.00 15.00 16.00 14.00
4/ Porter l'écart type sur les moyennes 14.00 12.00 13.00 15.00
5/ Tracer la courbe de tendance et donner l'équation de 17.00 14.00 14.00 15.00
21.00 17.00 18.00 16.00
la régression et le coefficient de détermination 23.00 15.00 16.00 17.00
27.00 15.00 14.00 18.00
Utilisation des fonctions intégrées d’Excel
30.00 18.00 20.00 18.00
6/ Donner la valeur de la pente de y=f(x) 32.00 16.00 16.00 18.00
37.00 18.00 18.00 17.00
7/ Calculer la valeur de l’ordonnée à l’origine de y=f(x) 42.00 22.00 20.00 21.00
45.00 22.00 22.00 24.00
8/ Calculer la valeur de l’abscisse de y=f(x)
50.00 23.00 22.00 23.00
9/ Donner l’équation de la courbe y=f(x)
10/ Faire une extrapolation de Y pour X=100
Tests Statistiques

Exemple de résultat de la régression linéaire

Equation du modèle :

y = 8925 + 66.87.VAR1 + 2.93.VAR2 + 31.30.VAR3


Tests Statistiques

Tests de corrélation , le r
ou la « force » d’une liaison entre deux séries de données
(analyse bivariée) ou plus (analyse multivariée).

Le test « r » de Bravais-Pearson donne


le coefficient r de corrélation de Pearson r

Si r est proche de +1, cela signifie que les deux variables


sont très fortement corrélées de façon proportionnelle).

Si r est proche de -1, cela signifie que les deux variables


sont très fortement corrélées mais cette corrélation est
inversement proportionnelle.

Si r est proche de 0, il n’existe aucune corrélation entre les


deux variables : les variations de X n’ont pas d’influences
sur les variations de Y.
Tests Statistiques

Coefficient de détermination r²

Le coefficient de détermination r² reflète, d’une façon plus


fidèle, le degré de cette relation linéaire à la population; C’est la
proportion de la variable dépendante (y) qui est expliquée par la
variable indépendante variable (x)

• Si R2 est proche de 1 alors le modèle est proche de la


réalité on peut conclure une corrélation entre les deux séries.
• Si R2 << 1 une mauvaise corrélation.

Pour une valeur proche de «0» Il faut trouver un modèle


meilleur.

𝒓𝟐 ∶ 𝟎 ≤ 𝒓𝟐 ≤1
Tests Statistiques

Test de la pente ou Test de la nullité de la pente.

Il teste s’il existe une relation linéaire entre x et y


dans la population.
C’est également un test qui vérifie l’indépendance
des deux variables X et Y

• H0 : b 1=0 (X et Y sont indépendants)


• H1 : b1 0 (X et Y sont liés et la corrélation
entre X et Y existe également)
Tests Statistiques

Les variables étudiées


peuvent être

•Contrôlé (=expérimentale) •aléatoire


•aléatoire •aléatoire

Possibilité
d’interprétation causale Pas de causalité

r et r2 r
Tests Statistiques

Droite de régression y = ax +b

Sur Excel
• pente a
= PENTE(plage)

• L'ordonnée à l'origine b
= ORDONNEE.ORIGINE(plage)

• Le Coefficient de corrélation (r)


=COEFFICIENT.CORRELATION(plage)

Sur des graphes en nuages de point l’équation ax+b et le r2


sont données directement par la courbe de tendance linéaire.
Tests Statistiques

Test du CHI2 ou Khi2 ou X2 de Pearson


L Le test du CHI2 est un test non paramétrique qui s'utilise pour comparer
des événements (effet du traitement ou pas d’effet ; c’est un test
unilatéral).

Le test du khi-carré recouvre plusieurs tests statistiques


• Le test d’ajustement ou d’adéquation, qui compare globalement la
distribution observée dans un échantillon statistique à une distribution
théorique, celle du khi-carré.
• Le test d'indépendance du khi-carré qui permet de contrôler
l'indépendance de deux caractères dans une population donnée. Les
variables sont toutes qualitatives où lorsqu’un caractère est quantitatif
et l’autre qualitatif, ou bien encore lorsque les deux caractères sont
tous quantitatives.
• Le test d'homogénéité du khi-carré qui teste si des échantillons sont
issus d'une même population. Les variables sont quantitatives

• Le Khi2 est élargie au test de contingence dans le cas de statistique


bivariées.
.
Tests Statistiques

Le Khi2 de contingence permet de tester l'indépendance


de deux variables qualitatives nominales
(H0 : les deux variables sont indépendant
H1 : les deux variables sont dépendantes).

Condition n°1 :
L'effectif total du tableau de contingence (N..) doit être
supérieur ou égal à 20

Condition n°2 :
L'effectif marginal du tableau de contingence (Ni. ou N.j)
doit toujours être supérieur ou égal à 5.

Condition n°3 :
L'effectif théorique (N*ij) des cases du tableau de
contingence doit être supérieur à 5 dans 80% des cases
du tableau de contingence.
Tests Statistiques

Le Khi2 de contingence permet de tester l'indépendance


de deux variables qualitatives nominales
(H0 : les deux groupes sont indépendant).

• Lorsque l’effectif théorique des cases est inférieur à 5, on


applique un regroupement des valeurs ou on applique la
correction de Yates.
• Quand le tableau de contingence est de 2x2 cases, on
applique la correction de Fischer. [si dans le cas de 2x2
les effectifs sont inférieurs à 5 il vaut mieux faire le test
de Kolmogorov-Smirnov]
• Pour un tableau de contingence supérieur à 2x2, il ne
faut pas avoir plus de 20% de cases où l’effectif
théorique < 5 (regroupement ou test de Kolmogorov-
Smirnov) et aucune case où l’effectif théorique =1.
Tests Statistiques

Test khi2 sur Excel


Si on a les valeurs observés et les valeurs théoriques, on peut
utiliser directement la fonction :
=TEST.KHIDEUX (plage réelle;plage attendue)
Elle donne la valeur de p
[A partir du tableau des valeurs observées
on calcul les fréquences théoriques ] puis la fonction

=KHIDEUX.INVERSE(p;ddl) [ddl = (l-1)x(c-1)]


donne la valeur du khi2obs ou Khi2crit (pour p Choisie)

=LOI.KHIDEUX(khi2obs ; ddl) donne la valeur p calculé/p critique

Pour la décision, il faut ajouter la formule :


=SI(khi2obs<khi2crit;"Indépendance";"Dépendance") & " entre les variables"
Tests Statistiques

Dès qu’on dépasse 3 à 4 modalités,


le Khi2 de Pearson devient souvent non significatif
et on tire alors des conclusions hâtifs voire même
fautives. Dans ces cas, il faut choisir un autre test.
En général on utilise le test G quand il est présent sur le
logiciel. Le test G dérive du test du khi2
mais il est plus robuste

Dans le cas des échantillons appariés, il faut utiliser


le khi² Mac Nemar qui analyse le
changement dans les plans « avant-après »
[il faut un logiciel de statistique
ou éditer un programme sur Excel]
Tests Statistiques

Coefficients d’association
Le test de Khi2 peut être complété par les valeurs des
coefficients d’association comme :

• Phi de Pearson
• Coefficient de contingence
• V de Cramer
• T de Tschuprow
• Tau de Goodman et Kruskal (L/C)
• Tau de Goodman et Kruskal (C/L)

Les coefficients d’association varient entre 0 et 1 :


• Plus la valeur s’approche de 0 plus l’association est faible
• Plus la valeur s’approche de 1 plus l’association est grande
Tests Statistiques

V de Cramer / Khi2

Le V de cramer est un des Coefficients d'association


qui permet de mesurer la force de la relation (association)
entre deux variables.

Le test V de Cramer permet de comparer l’intensité du lien


entre les deux variables étudiées.
Plus V est proche de zéro, moins les variables étudiées sont
dépendantes.
Plus la valeur est élevée plus la liaison est forte.
Une V de Cramer = 1 veut dire que les variables sont
complètement dépendantes.
Tests Statistiques

V de Cramer / Khi2

Il existe une liaison entre les deux variables ;


le V de Cramer et le Khi2.

La force du lien statistique évalué par la valeur de V de Cramer


Tests Statistiques

Coefficient d’association : Phi de Pearson


En général, on peut interpréter les valeurs de Phi de Pearson comme suit :
•0,00 - 0,10 : Relation, variables très faiblement liées
•0,10 - 0,30 : Relation faible, variables faiblement liées
•0,30 - 0,50 : Relation modérée
•0,50 - 0,70 : Relation forte, variables très liées
•0,70 - 1,00 : Relation parfaite et variables fortement liées

Il est important de noter que la taille de l'effet de la relation entre les deux
variables dépend également du nombre de degrés de liberté du test du khi2
d'indépendance.
Phi de Person = (Khi2 / ddl)
En général, la taille de l'effet est plus faible lorsque le nombre de degrés de
liberté est faible.
Tests Statistiques

Exercice du Khi2 d’indépendance

Une population de 400 personnes est répartie par tirage au sort en 2 groupes G
et G' de 200 personnes chacun,
On se propose de comparer les réactions produites par deux vaccins
antivarioliques V et V', Le groupe G est vacciné à l'aide de V et G' à l'aide de V',
Les réactions produites par chacun des vaccins sont observées par, une
personne ignorant le vaccin utilisé,
Les résultats (effectifs observés) sont consignés dans le tableau suivant :

R B U
G (V) 20 160 20
G' (V') 16 174 10
Tests Statistiques

Effectifs observés : Coefficients d'association (1) :

R B U Total Coefficient Valeur


G (V) 20 160 20 200 Phi de Pearson 0.104
G' (V') 16 174 10 200 Coefficient de
Total 36 334 30 400 contingence 0.104
V de Cramer 0.104
T de Tschuprow 0.088
Effectifs théoriques : Tau de Goodman et
Kruskal (L/C) 0.011
R B U Total Tau de Goodman et
G (V) 18.000 167.000 15.000 200.000 Kruskal (C/L) 0.007
G' (V') 18.000 167.000 15.000 200.000
Total 36 334 30 400 Test d'indépendance entre les lignes et
les colonnes (Khi²) :
Khi² par
case : Khi² (Valeur
observée) 4.365
R B U Total Khi² (Valeur critique) 5.991
G (V) 0.222 0.293 1.667 2.182 DDL 2
G' (V') 0.222 0.293 1.667 2.182 p-value 0.113
Total 0.444 0.587 3.333 4.365 alpha 0.05
Tests Statistiques

Effectifs observés :
Test du khi-carré
Exemple : Préférence des Homme Femme Total
disciplines par genre.
Informatique 50 50 100
Soit le tableau ci-dessous, qui Géologie 110 25 135
donne les résultats d’une enquête
hypothétique effectuée auprès de Electronique 40 25 65
400 étudiants, sur leurs préférences Chimie 50 50 100
en discipline. On leur a demandé : Total 250 150 400
« Parmi ces 4 matières :
Informatique, Géologie, Electronique
et Chimie, laquelle préférez-vous ? » Effectifs théoriques :
(interdit de répondre «aucune»).
Homme Femme Total

Homme Femme Informatique 62.500 37.500 100.000


Informatique 50 50 Géologie 84.375 50.625 135.000
Géologie 110 25
Electronique 40 25 Electronique 40.625 24.375 65.000
Chimie 50 50 Chimie 62.500 37.500 100.000
Total 250 150 400
Tests Statistiques

Khi² par case :


Homme Femme Total
Informatique 2.500 4.167 6.667
Géologie 7.782 12.971 20.753
Electronique 0.010 0.016 0.026
Chimie 2.500 4.167 6.667
Total 12.792 21.320 34.112

Le degrés de liberté = (Nombre de lignes -1) x (Nombre de colonnes – 1)

Test d'indépendance entre les lignes Le khi-carré calculé est supérieur


et les colonnes (Khi²) : au khi-carré théorique : dépendance
Khi² (Valeur observée) 34.112 P-value < 0.05 la différence est
Khi² (Valeur critique) 7.815 significative. En plus le degré de
DDL 3 signification est inférieur à 1%
p-value < 0,0001 donc la différence est hautement
alpha 0.05 significative.
Tests Statistiques

Coefficients d’association

Coefficients d'association (1) :

Coefficient Valeur
Phi de Pearson 0.292
Coefficient de
contingence 0.280
V de Cramer 0.292
T de Tschuprow 0.222
Tau de Goodman et
Kruskal (L/C) 0.035
Tau de Goodman et
Kruskal (C/L) 0.085
Tests Statistiques

Exercice du Khi2 de conformité


On cherche à vérifier si la fréquence d'une maladie est
liée au groupe sanguin.

Sur 200 malades observés, on a dénombré :


• 104 du groupe [O]
• 76 du groupe [A]
• 18 du groupe [B]
• 2 du groupe [AB]

On sait que dans la population générale la répartition


entre les groupes est :
• groupe [O] 47 %
• groupe [A] 43 %
• groupe[B] 7 %
• groupe [AB] 3 %
Tests Statistiques

Résultat du Khi2 de conformité sur Xlstat


Test d'indépendance entre les
Khi² par case
lignes et les colonnes (Khi²) :
ou Khi2 partiel :
Khi² (Valeur
Obs TH Total
observée) 58.431
O 5.202 6.383 11.586
Khi² (Valeur
A 1.661 2.038 3.699
critique) 7.815
B 19.167 23.518 42.686
DDL 3
AB 0.207 0.254 0.461
p-value < 0,0001
Total 26.238 32.193 58.431
alpha 0.05

Coefficients d'association (1) :


Coefficient Valeur
Phi de Pearson 0.401
Coefficient de contingence 0.372
V de Cramer 0.401
T de Tschuprow 0.305
Tau de Goodman et Kruskal (L/C) 0.068
Tau de Goodman et Kruskal (C/L) 0.161
Tests Statistiques

Interprétation du test :

H0 : Les lignes et les colonnes du tableau sont indépendantes.


H1 : Il existe un lien entre les lignes et les colonnes du tableau.

Etant donné que la p-value calculée est inférieure au niveau de signification


alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative
H1. On rejette H0 (Hypothèse de l’indépendance) et On accepte H1 qui suggère la
dépendance entre les deux variables ici, c’est la concordance

Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,01%

Le V de Cramer est de 0.401


L’association est donc forte
Tests Statistiques

Résultat du Khi2 de conformité sur Real stat

Expected Values

Obs TH Total
O 83.1955923 67.8044077 151
A 65.5647383 53.4352617 119
B 48.4848485 39.5151515 88
AB 2.75482094 2.24517906 5
Total 200 163 363

Chi-Square Test

SUMMARY Alpha 0.05


Count Rows Cols df
363 4 2 3

CHI-SQUARE
chi-sq p-value x-crit sig Cramer V
Pearson's 58.4308002 1.2718E-12 7.8147279 yes 0.40120617
Max likelihood 60.5802239 4.4185E-13 7.8147279 yes 0.40851887
Tests Statistiques

Résultat du Khi2 de conformité sur BiostaTGV

Pearson's Chi-squared test

•Statistique observée Qobs : 58.430800240325


•p-value : 1.2718166687524E-12
•Paramètre du test : 3

•Tableau des effectifs attendus sous H0 :


Y1 Y2
X1 83.196 67.804
X2 65.565 53.435
X3 48.485 39.515
X4 2.755 2.245
Tests Statistiques

Résultat du Khi2 de conformité sur BiostaTGV

•Certaines cases des effectifs attendus sont inférieures à 5.

Les conditions de validité du Chi2 ne sont pas remplies

La valeur p (p-value) de votre test est 1.2718166687524E-


12. Toutefois, étant donné que les conditions de validité du
test ne sont pas remplies, nous vous conseillons de vous
référer au tableau de classification des tests pour choisir un
test plus approprié.

chisq.test(matrix(c(104,47,76,43,18,70,2,3),4,2,
byrow=TRUE), correct=FALSE)
Tests Statistiques

Autres tests utiles


Tests Statistiques

Equivalence entre
Tests paramétrique et non paramétrique

Test paramétrique Test non paramétrique


Test de Student
Test de Mann-Whitney
(non apparié)
Test de Student
Test de Wilcoxon
(apparié)
Test de Kruskall Wallis (k=2)
Analyse de variance
Test de Fridman (k>2)
Corrélation linéaire Test de Spearman
Tests Statistiques

Test Rapide des signes


(test unilatéral gauche des moyenne des séries de valeurs appariées)

Calculer les différences (X-Y) = d Pour chaque couple de valeur

Comptabiliser le nombre de « d » positif et de négatif

Garder le plus petit de ces deux nombres = « r »

Comparer la valeur dans la table de « r » au « ddl »= nombre de couples-1

Si r  r table ; les 2 séries Si r > r table ; les 2 séries


sont significativement différentes ne sont pas significativement différentes
(au risque choisi)
Tests Statistiques

Test U de Mann-Whitney
c’est l’adaptation aux techniques du t de Student
en estimant une comparaison entre
deux échantillons indépendants
(var. ord. Non appariées avec n total au moins égale à 10)

Les 2 échantillons n’ont pas besoin d’être identiques.


C'est un test de concordance où les deux échantillons
doivent être tirés de populations ayant la même distribution.
Le test U un test basé sur les rangs des échantillons. On
considère la somme des rangs observée dans les deux groupes
(R1 et R2) et le nombre de sujets (N1 et N2). et grâce à un calcul
simple,
le nombre U le plus faible est comparé à la valeur critique U
Tests Statistiques

Test U de Mann et Whitney


Soient en 2 séries de valeurs : respectivement n1 X et n2 Y

Mélanger les valeurs des deux séries X et Y

Classer la série des valeurs obtenues par ordre croissant

Réattribuer à chaque valeur son origine (X ou Y)

Calculer le degré d’Imbrication « I » en comptant la somme


de X<Y et Y<X (On gardera le plus petit « I »

Comparer « I » dans la table de U à la ligne (n1-n2) et la colonne du


plus petit effectif

Conclusion
Tests Statistiques

Exercice 1
Deux groupes de 10 étudiants ayant suivi une formation différente ont subi le
même examen. Le classement de l'examen est le suivant :

Groupe A : 1 3 4 5 7 8 8 12 15 17

Groupe B : 2 6 10 11 13 14 15 18 19 20

On veut déterminer si les différences de formation influencent


significativement les résultats.
(a) Montrer qu'il faut utiliser un test non paramétrique.
(b) Quel est le test non paramétrique le plus adéquat
(c) Faire le test proposé et conclure.
Tests Statistiques

Test de Mann-Whitney / Test bilatéral :

U 26.500
Espérance 50.000
Variance (U) 174.737
p-value (bilatérale) 0.082
alpha 0.05

Une approximation a été utilisée pour calculer la p-value.

Interprétation du test :
H0 : La différence de position des échantillons est égale à 0.
H1 : La différence de position des échantillons est différente de 0.

Etant donné que la p-value calculée est supérieure au niveau de


signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.

Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est de


8,19%.
Tests Statistiques

Test de Wilcoxon
C’est une adaptation à la comparaison de
deux moyennes,
pour deux échantillons k=2, Var. ord. appariés.

Le test de Wilcoxon (comme le test U de Mann-Whitney) est un test


basé sur les rangs des échantillons.
Il calcule les différences (positives et négatives), le traduit en rang, puis
compare la distribution de la somme des rangs pour les deux
échantillons, et estime la différence observée.
Tests Statistiques

Exercice
Arbres Arbres
Douze arbres sont mesurés alors debout abattus
qu'ils sont debout, par une mesure 20.4 21.7
trigonométrique. Puis les mêmes 25.4 26.3
arbres sont mesurés au sol, après 25.6 26.8
abattage. 25.6 28.1
26.6 26.2
Quel test choisir pour comparer les 28.6 27.3
deux méthodes en supposant qu’on 28.7 29.5
n’a pas pu vérifier la normalité de nos 29 32
séries 29.8 30.9
La première méthode donne-t-elle 30.5 32.3
des résultats significativement trop 30.9 32.3
faibles ou trop élevés par rapport à la 31.1 31.7
deuxième méthode ?
Tests Statistiques

Test de Wilcoxon signé / Test bilatéral :


V 8.500
Espérance 39.000
Variance (V) 162.375
p-value (bilatérale) 0.019
alpha 0.05

Une approximation a été utilisée pour calculer la p-value.

Interprétation du test :
H0 : Les deux échantillons suivent la même loi de distribution.
H1 : Les distributions des deux échantillons sont différentes.

Etant donné que la p-value calculée est inférieure au niveau de


signification alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir
l'hypothèse alternative Ha.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est
inférieur à 1,86%.
Tests Statistiques

Test de Wilcoxon signé / Test bilatéral


sur Real statisrics

one tail two tail


mean 39
std dev 12.7426449ties
z-score 2.3542993yates
effect r 0.48056933
p-norm 0.00927883 0.01855766
p-exact 0.00610352 0.01220703
p-simul N/A N/A
Tests Statistiques

Test Kruskall-Wallis

Correspond à une (Var. ord. k>2 échantillons indépendants


Similaire à l’analyse de variance à un facteur)

Tous les chiffres seront remplacés par leur rang, et le test


nous indiquera si les diverses sommes des rangs sont
suffisamment différentes pour être significatives.
Tests Statistiques

Test de Friedman
Correspond à une version non paramétrique pour
var. ord. k>2 échantillons appariés
de l’analyse de variance à deux facteurs.

Tous les chiffres par sujets sont transformés en rang, puis on


compare la somme des rangs obtenus pour chaque situation,
à la somme théorique.
La loi de probabilité de Friedman est proche de celle du Khi2.
Tests Statistiques

Exercice :
On souhaite comparer les performances de quatre méthodes
différentes pour prédire la durée de vie d'un composant
électronique.
On dispose des données de durée de vie pour 10 composants,
chacun soumis aux quatre méthodes.

Les données sont présentées dans le tableau ci-dessous :

Méthode 1 2 3 4
Méthode 1 100 90 110 120
Méthode 2 80 70 90 100
Méthode 3 70 60 80 90
Méthode 4 60 50 70 80
Tests Statistiques

Test de Friedman (par Xlstat):

Q (Valeur observée) 12.000


Q (Valeur critique) 7.815
DDL 3
p-value (bilatérale) 0.007
alpha 0.05

Friedman's Test (par Real statistics)


Alpha 0.05
Q-stat 12
df 3
p-value 0.00738316

H0 : Les échantillons proviennent de la même population.


H1 : Les échantillons proviennent de populations différentes.

Etant donné que la p-value calculée est inférieure au niveau de signification


alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse H1

Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,74%.
Tests Statistiques

Test de corrélation des rangs de Spearman


Le test de corrélation des rangs de Spearman est un test statistique non
paramétrique qui mesure la relation entre deux variables ordinales ou discrètes.
Ce test est basé sur la comparaison des rangs des valeurs des variables.

Interprétation du test :
Test de Friedman :
H0 : Les échantillons proviennent de la même
Q (Valeur population.
observée) 12.000 H1 : Les échantillons proviennent de populations
Q (Valeur différentes.
critique) 7.815
DDL 3
p-value Etant donné que la p-value calculée est inférieure au
(bilatérale) 0.007 niveau de signification alpha=0,05, on doit rejeter
alpha 0.05 l'hypothèse nulle H0, et retenir l'hypothèse alternative H1

Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est


vraie est inférieur à 0,74%.
Tests Statistiques

Choix d’une méthode d'analyse multivariée


ou Analyse des données :

Le choix d’une méthode dépend de l’objectif initial,


des types de variables manipulées.
Tests Statistiques

CHAPITRE 1

INTRODUCTION

An. Un. 2022/2023 H. Messaouri


Tests Statistiques

De la probabilité à la statistique

PROBABILITE
Calcul à priori
pour prédire des
évènements
futurs STATISTIQUE
(Tables de probabilité Calcul à postériori
selon des lois pour analyser des
déterminées) évènements passés
Tests Statistiques

INFÉRENCE STATISTIQUE

En statistique, le test d'hypothèse


est utilisé comme une règle de décision
entre deux hypothèses.

Il sous-entend une inférence, c'est à dire un


raisonnement par lequel on admet une
proposition en vertu de sa liaison avec d'autres
propositions déjà tenues pour vraies.
Tests Statistiques

INFÉRENCE STATISTIQUE

C’est prédire les caractéristiques d'une population inconnue à


partir des statistiques déterminées sur un échantillon
représentatif de cette population.
L'inférence et la déduction statistique aident l'expérimentateur
à prendre une décision en considérant un risque d'erreur
associé.
Tests Statistiques

Quelques définitions

Population : ensemble total d'objets ou d'individus à étudier,


à partir duquel sont extraits des échantillons.
Echantillon : Sous ensemble de la population. Un
échantillon représentatif est un sous-ensemble choisi au
hasard dans la population.
Echantillonnage : est la sélection d'une partie dans un tout
et qui produit une série d'échantillons à étudier.
Estimateur : il permet d'évaluer un paramètre inconnu relatif
à une loi de probabilité (comme son espérance ou sa
variance dans le cas de la loi normale). La définition et
l'utilisation de tels estimateurs constitue la statistique
inférentielle.
Tests Statistiques

Test d'hypothèse

Il met en balance deux hypothèses : l'hypothèse de départ,


hypothèse nulle ou H0 (hypothèse la plus probable et
l’hypothèse alternative ou H1. C’est la négation de l'hypothèse
nulle. Ces deux hypothèses sont exclusives.

On fixe un seuil du risque de se tromper. Le seuil standard


α = 5%
• Si la probabilité observée est supérieure à α , on considère
l'hypothèse nulle comme plausible et on l’accepte, au moins
provisoirement.
• Par contre si cette signification est inférieure au seuil fixé, on
admet que la statistique et peu compatible avec l'hypothèse
nulle et, dès lors, on admet comme vrais, l'hypothèse
alternative.
Tests Statistiques

Modèles des tests d’hypothèses


Modèle bilatéral droit gauche H0/H1
Tests Statistiques

Modèles des tests d’hypothèses


Modèle unilatéral droit H0/H1
Tests Statistiques

Modèle unilatéral droit H0/H1

S<s0 s≥s0

s0
H0 n’est pas infirmée H0 infirmée ou rejetée
(mais pas non plus confirmée à 100%) H1 acceptée
Tests Statistiques

Modèles des tests d’hypothèses


Modèle unilatéral gauche H0/H1
Tests Statistiques

Généralités sur les tests d’hypothèses

Statistique inférentielle : Modèle H0/H1

H0

H1

Seuil critique, Risque, seuil de prise de décision ou Taille du test


Tests Statistiques

Types d’erreur et puissance du test

Quand on effectue un test d'hypothèse, on doit prendre en considération le


risque d'erreur et la puissance associé au test.

1-b
1-a
En résumé, les résultats possibles d'un test
d'hypothèse sont représentées dans le tableau suivant
Définition suite au test décision

Situation réelle Accepter H0 Rejeter H0


Décision correcte Erreur de type I

H0 vrai Niveau de confiance Probabilité = α où seuil de


= Probabilité (1 - α) probabilité
Généralement 5%

Décision correcte
Erreur de type II
H0 fausse Probabilité = β Puissance
Probabilité = 1 - β
Puissance ≥ 80%
Tests Statistiques

Facteurs qui influence la puissance d’un test

• L’importance de la différence entre les deux séries


• La variabilité des valeurs dans chaque série
• La taille des échantillons

Les 2 premiers points sont imposés par le système


et on ne peut pas les modifier.

Donc, pour augmenter la puissance d’un test statistique, il


faut agir sur la taille de l’échantillon.
Tests Statistiques

Exemple d’utilisation d’un test d’hypothèse

• Étudier les pourcentages d’un échantillon


dans une population
• Comparer les moyennes
• Comparer les variances
Tests Statistiques

POPULATION
? ?
Population 1 ?
= Population 2

Echantillonnage Echantillonnage
aléatoire aléatoire

Echantillon 1 Echantillon 2

Hypothèses

NB : Lettres grecques symbolisent les paramètres de la population de départ


Tests Statistiques

Comparaison des moyennes

La comparaison des moyennes nécessite la Transformation de la variable


Tests Statistiques

Transformation de la variable
Pour la loi normale N~(µ , ), il faut toujours passer par la
transformation vers une loi centrée réduite où toutes les
moyennes sont égales à 0 et tous les écart types sont = 1,
N~(0,1)

• Pour centrer les valeurs on retranche la moyenne µ de la


population à chaque moyenne x de l’échantillon

• Pour réduire on divise la valeur obtenue par l’écart type 


de la population

Ainsi les valeurs centrées réduites seront


(𝑥−µ)
y= avec m=0 et µ =1

Tests Statistiques

Règle empirique de la loi normale


De nombreuses situations statistiques aléatoires concrètes
sont modélisées par une loi empirique appelée distribution
normale.
Lorsque la distribution des individus dans une population
obéit à la loi normale on a des propriétés communes :

• La moyenne = centre = 0
• L'écart-type = dispersion = 1

 68% des observations sont comprises dans un intervalle


de moyenne ±1 écart-type
 95% des observations sont comprises dans un intervalle
de moyenne ±2 écart-type
 99% des observations sont comprises dans un intervalle
de moyenne ±3 écart-type
Tests Statistiques

(𝑥 − µ)
y= 𝑜𝑢 𝑦 = 𝑍 𝑎𝑣𝑒𝑐

Tests Statistiques

Loi Normale : Propriétés générales


et repères graphiques

68% 95% 99%


Tests Statistiques

Loi Normale : Densité de probabilité


Densité de la probabilité dans le cas de la courbe de Gausse = 1
Théorèmes :
• P(x<-a)=P(x>a)

• P(x<-a) = 1 - P(x<a) -a -a a

• P(x>a) = 1 - P(x<a)

a a

• P(a<x<b) = P(x<b) - P(x<a)

a b a b
Tests Statistiques

Exercice 1
Distribution selon la loi normale
On a mesuré la tension artérielle systolique d'un
échantillon de grande taille de femmes (400 femmes).
La pression artérielle moyenne est de 125 millimètres de
mercure et l’écart-type est de 10 millimètres de mercure.
La distribution normale qui résume ces données est
Tests Statistiques

Loi normale centrée réduite


Pour standardiser les valeur de Y → Y
On centre les valeurs en retranchant la moyenne globale à chaque
valeur de la série (x - µ) Puis refaire la moyenne des valeurs
trouvées. Cette nouvelle moyenne est toujours égale à « 0 »
Pour réduite il faut diviser chaque valeur par 

Ainsi pour chaque valeur il faut calculer la nouvelle valeur z=(x-µ)/


On aura donc la moyenne = 0 et l’écart type =1

L’abscisse représente les L’abscisse représente


valeur expérimentales les valeurs de z
Tests Statistiques

M=125 mm Hg
Questions 1: =10 mm Hg
Quel est le pourcentage de femmes dont
68%
la pression artérielle est comprise
entre 105 et 135 millimètres
95%
de mercure ?
105 115 125 135 145

Rep 1/ =95-(95-68)/2 = 81.5 %

Questions 2:
Combien de femmes de cet échantillon ont une pression artérielle
supérieure à 145 millimètres de mercure ?

Rep 2/ 10 femmes
Tests Statistiques

Exercice 2 , Excel

On suppose qu’une variable X~N(0,1). Pour quelle proportion


d’individus est-ce que X<=1,56 ?

On doit chercher P(X<=1,56)

Sur Excel les fonctions à utiliser sont :

Pour retrouver p à partir de la valeur de z connue :


=LOI.NORMALE.STANDARD.N(1,56;1) donne la probabilité = 0,9406

Pour retrouver z à partir de la probabilité p connue :


=LOI.NORMALE.STANDARD.INVERSE.N(0.9406) donne z = 1.56
Tests Statistiques

Exercice 3, Excel
Exercice
Sur un grand nombre de personnes on a constaté que la
répartition du taux de cholestérol suit une loi normale avec
les résultats suivants :

✓ 56% ont un taux inférieur à 165 cg;


✓ 34% ont un taux compris entre 165 cg et 180 cg;
✓ 10% ont un taux supérieur à 180 cg.

Question :
Quelle est le nombre de personnes qu’il faut prévoir de
soigner dans une population de 10 000 personnes, si le taux
maximum toléré sans traitement est de 182 cg ?
Tests Statistiques

Données connues :

56% 34% 10%

165 180

56% 34% 10%

=(165-m)/ =(180-m)/)
Tests Statistiques

Calcul de m et  =LOI.NORMALE.STANDARD.INVERSE(0,56)=0.15
z->=LOI.NORMALE.STANDARD.INVERSE.N(0.56)
->

=LOI.NORMALE.STANDARD.INVERSE(0,9)=1.28

D’où
m=163 et =13.3

Calcul %

=LOI.NORMALE.STANDARD(1,42)=0.922p=LOI.NORMALE.STANDARD.N(1.42;1)

ou encore 7.8% Donc, les 7,8% du total 10 000 = 780 personnes


Tests Statistiques

Exercice 4, Excel
1. Un écologiste étudie une population de chauves-souris de l'espèce Grand
Rhinolophe. D'après la littérature, il sait que l'envergure de ces chiroptères obéit à
une distribution normale dont la moyenne est de 375 mm pour une variance de 225
mm2.
Cet écologiste capture un individu dont la taille est de 350 mm. Cet individu est-il
considéré comme conforme ou bien est-il significativement différent de ce que
prévoit le modèle avec un seuil de risque de 5% ?

Données issues de l'énoncé


μ = 375 mm x = 350 mm
σ2 = 225 mm2

-1,96<-1,66666667<1,96 c'est-à-dire que z observé est comprise entre les bornes


de l'intervalle de confiance à 95%.
On accepte donc H0 Cela veut dire qu'on n'a pas réussi à montrer que l'individu
capturé était significativement différent de la normale pour un risque
α = 0,05
Pour z entre -1,96 et 1,96 la moyenne doit être entre [345.6 et 400.4] or on a 350 mm
Tests Statistiques

Les tests les plus utilisés en biologie sont :

•Tests pour la vérification de la normalité


• Test de Shapiro-Walk (normalité)
• Le test de Kolmogorov-Smirnov (ajustement)

• Tests Paramétriques (sur variables échelles), ils exigent la


normalité
• Test t de Student et test z (égalité des moyennes)
• Test F (égalité des variances)
• Analyse de variance ou ANOVA (analyse des variances)
• Test des corrélation (analyse des covariances)

•Tests Non Paramétriques qui n’exigent pas de normalité


• Test Khi2 (ajustement et indépendance)
• Test U de Mann et Whitney (concordance)
• Le test Rapide des signes
Tests Statistiques

Vérification de la normalité.

Les méthodes de vérification de la normalité


sont nombreuses :
• Les méthodes graphiques
•Asymétrie & aplatissement
•Droite de Henry (= QQplot),
•PPplot,
•Histogrammes,
•Boxplot.(=Boite à moustache) ...

• Les méthodes basées sur la valeur du tests


•Shapiro-Wilk (*) (pour n entre 5 et 50),
•Kolmogorov-Smirnov (*),
•Khi2,
•...
(* les plus utilisés)
Tests Statistiques

La non normalité est donnée par les limites


Skewness et Kurtosis -2 à +2

Distribution normale théorique


Skewness =0
Kurtosis =0

Biais négatif
Biais positif Biais négatif

Biais positif

le degré d’asymétrie le degré d’aplatissement


(Skewness) (Kurtosis)

Si biais positif (+) :les transformations à faire: log, 1/x ou V


Si biais négatif (-) :mettre au carré ou autre puissance.
Tests Statistiques

Vérification de la normalité : Asymétrie


Skewness
Asymétrie Le coefficient d'asymétrie
de Pearson noté p, est
basé sur l'écart entre la
moyenne et le mode est
défini par :
𝑥ҧ − 𝑀o
𝑝=
𝜎

Vérification de la normalité et normalisation


- Si p > 0, biais positif (+). Alors la série est étalée vers la droite et les
transformations à faire pour la normalisation : log, 1/x ou V----
- Si p < 0, biais négatif (-). Alors la série est étalée vers la gauche et les
transformations à faire pour la normalisation : carré ou puissance.
- Pour une distribution symétrique on a 𝐥𝐚 𝐦𝐨𝐲𝐞𝐧𝐧𝐞 = 𝐦𝐨𝐝𝐞 =
ഥ- 𝑴𝒐 = p = 0.
𝐦é𝐝𝐢𝐚𝐧𝐞 𝐝𝐨𝐧𝐜 𝒙
Tests Statistiques

Vérification de la normalité : Aplatissement


Kurtosis

Leptokurtique : courbe élancée


écarts types faibles
Distribution homogène

Mésokurtique : courbe
normale en cloche

Platikurtique : courbe plate


écarts types élevées
Distribution hétérogène
Tests Statistiques

Vérification de la normalité : Paramètre de forme

Dans le cas d’une répartition


normale théorique,
ces deux paramètres de
formes sont = 0

En situation expérimentale, pour


considéré une répartition comme
normale les deux paramètres de forme
doivent être dans l’intervalle [-2, 2]

Dr. H. Elmazzoudi 11/01/2024 35


Tests Statistiques

Exercice : QQplot sur Excel


Soit la série issue d’une distribution normale N (0 ; 216) de valeurs :
-138.38 77.75 233.96 -233.56 -131.52 368.52 -36.37 -78.03 94.72
2.58 72.66 23.13 108.97 -444.99 323.42 125.54 -322.12

Utiliser le QQ plot pour vérifier la normalité de cette série de résidus.

Etapes à suivre :
1. Trié les n valeurs observées par ordre croissant,
2. Ajouter une colonne des rangs
3. Déterminer les quantiles théoriques
= LOI.NORMALE.INVERSE(probabilité de chaque rang ; moyenne ; écart ; type)
4. Tracer le nuage des points et la bissectrice des quantiles observés en fonction
des quantiles théorique calculés
Interpréter le résultat obtenu
• Une ligne droite Distribution gaussienne
• Une ligne qui n'est pas droite Pas de normalité
• Un point éloigné de la ligne Une valeur aberrante
• Une modification de la pente Une variable non identifiée
Tests Statistiques

Exercice : QQplot sur Excel


Résidus = Quantiles Rang des
Quantiles observés Quantiles Quantiles 500
observés ordonnés observés Théoriques y = 1,0427x - 20,14
400
-138.38 -444.99 1 -337.98092 R² = 0,9666
77.75 -322.12 2 -256.35559 300
233.96 -233.56 3 -200.64229
200
-233.56 -138.38 4 -155.84881

Quantiles observés
-131.52 -131.52 5 -116.94134 100
368.52 -78.03 6 -81.51666
-36.37 -36.37 7 -48.169691 0
-78.03 2.58 8 -15.938915 -400 -200 0 200 400
-100
94.72 23.13 9 15.9389151
2.58 72.66 10 48.1696915 -200
72.66 77.75 11 81.5166599
-300
23.13 94.72 12 116.941338
108.97 108.97 13 155.848813 -400
-444.99 125.54 14 200.64229
323.42 233.96 15 256.355589 -500
125.54 323.42 16 337.980918 Quantiles théoriques
-322.12 368.52 17

[NB : Quantiles théoriques : exemple =loi.normale.inverse ((C3/17);0;216) = -256.355]

Si les points s’alignent sur la première bissectrice c'est que la distribution suit
probablement une loi de distribution gaussienne normalisée.
Dans cet exercice, les points sont alignés sur une autre droite d'équation ax+b, c'est que la
distribution observée suit une loi normale
Tests Statistiques

Exercice : QQplot sur Excel

QQ plot QQ plot
2 500
y = 0,9876x - 7E-17 1,5 y = 212,92x + 2,7224 400
R² = 0,9754 R² = 0,9754
1 300
200
0,5
100
0
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 0
-0,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-100
-1
-200
-1,5 -300
-2 -400
-2,5 -500

Dans cette présentation Dans cette présentation xobs=f(ztheo), on a la


zobs=f(ztheo), on a la même même distribution avec un R² = 0,9754 proche
distribution avec un R² = 0,9754 de 1 et y = 212,92x + 2,7224
proche de 1 et y=0,9876x - 7E- Une distribution normale, de Moyenne 213
17 (sachant que pour une et d’écart type de 2,7. Les valeurs sont proche
distribution normale, (0,1) de celles des valeurs observes Moyenne 216 et
écart type de 2,7
Tests Statistiques

QQplot sur Xlstat

Le premier résultat affiché est le Q-Q plot


pour le premier échantillon. Le Q-Q plot
permet de comparer la fonction de
répartition de l'échantillon (en abscisse) à
celle qu'aurait une loi normale de même
moyenne et même variance (en
ordonnées).

Dans le cas d'un échantillon issu d'une


distribution normale, on doit observer un
alignement presque parfait avec la
première bissectrice du plan.

Dans le cas contraire des écarts doivent


être observés.
Tests Statistiques

Réalisation des boxplots

On place les différents quartiles avec le Q0 (min), le Q1


(25%), le Q2 (la médiane avec 50%), le Q3 (75%) et le
max (Q4).
On y ajoute les outliers qui correspondent à des
observations dont les valeurs sont à l’extérieur de
l’intervalle 1.5xl’interquartile :

•>Q3+1.5(Q3-Q1)
•<Q1+1.5(Q3-Q1)
Tests Statistiques

Réalisation des boxplots


On place les différents quartiles avec le Q0 (min), le Q1 (25%), le Q2 (la médiane
avec 50%), le Q3 (75%) et le max (Q4).
*

INTERPRÉTATION

Valeurs aberrantes ou valeurs


Outliers,
sont les valeurs
>1.5 fois et <3 fois l’intervalle
interquartile
au-delà de chaque
* coté de la boite
Tests Statistiques

Exemple de transformation logarithmique


pour effectuer une normalisation des données

Normalisation
Tests Statistiques

Exemple de transformation réciproque (1/x)


pour effectuer une normalisation des données

normalisation
Tests Statistiques

Tests de valeurs aberrantes

Le test de Dixon et le test de Grubbs sont tous deux des tests statistiques utilisés
pour identifier les valeurs aberrantes dans un échantillon. Cependant, ils diffèrent
de plusieurs manières :

La méthode de calcul : le test de Dixon utilise la distance entre la valeur aberrante


et la moyenne de l'échantillon, tandis que le test de Grubbs utilise la distance
entre la valeur aberrante et la médiane de l'échantillon.
La distribution des données : le test de Dixon suppose que les données suivent
une distribution normale, tandis que le test de Grubbs ne fait aucune hypothèse
sur la distribution des données.
La taille de l'échantillon : le test de Dixon est plus puissant que le test de Grubbs
pour les échantillons de petite taille.
Tests Statistiques

Conditions d'utilisation
Les deux tests ont les mêmes conditions d'utilisation suivantes :

• Les données doivent être indépendantes.


• Les valeurs aberrantes doivent être identifiées visuellement
à partir du graphique boîte à moustaches.

Le test de Dixon a également les conditions d'utilisation suivantes :

Les données doivent suivre une distribution normale. L'échantillon doit avoir
de préférence une taille maximale de 10.

Le test de Grubbs n'a pas de conditions d'utilisation sur la distribution des


données. Cependant, il est recommandé que l'échantillon ait une taille d'au
moins 25.

Le test de Dixon est basé sur la distribution de Student, tandis que le test
de Grubbs est basé sur la distribution de Kolmogorov-Smirnov.
Cela signifie que le test de Dixon est plus précis que le test de Grubbs,
mais il nécessite que la distribution des données soit normale.
Tests Statistiques

Table de la loi de Dixon

Valeur de r1 − α
Tests Statistiques

Exercice : Test de Dixon

Dans la fabrication de comprimés effervescents, il est prévu que chaque


comprimé doit contenir 1 625 mg de bicarbonate de sodium. Afin de
contrôler la fabrication de ces médicaments, on a prélevé un échantillon
de 10 comprimés et on a mesuré la quantité de bicarbonate de sodium en
mg pour chacun d’eux.

Les résultats obtenus sont résumés dans le tableau suivant:


1 620 1 621 1 623 1 628 1 633 1 635 1 637 1 641 1 643 1 659

• Réaliser un graphique sur un axe gradué pour détecter quelle(s)


valeur(s) semble(nt) aberrante(s).
• Effectuer le test de Dixon au seuil de risque 0,05 pour tester si la valeur
supérieure 1 659 est aberrante.

NB : La valeur critique tabulée est r0,95 = 0,412.


Tests Statistiques

Exercice : Test de Dixon

On teste les deux hypothèses :


H0 : "1 659 n’est pas une valeur aberrante."
H1 : "1 659 est une valeur aberrante."

n = 10 donc on utilise la variable aléatoire R qui prend comme valeur


observée
est égale à 0,410

Comme la valeur critique est r(0,95) = 0,412 et que la valeur calculé


Robs=0,41
et que la valeur calculé est < Valeur Tabulée (0,412) : on n'est pas en
mesure de rejeter H0.

Au seuil de 0.05, la valeur 1 659 ne peut pas être considérée comme


aberrante.
Tests Statistiques

Lors d’un dosage de sodium par photométrie de flamme, on a procédé à un


étalonnage (fond de flamme à 0 et solution concentrée à 100). Les mesures
figurent dans le tableau suivant :

X
Concentration de 0 5 10 15 20 25 30
sodium (en mg/L)
Y
Indication du 0 18 34 55 70 70 100
photomètre

La valeur observée pour la concentration de 25 mg/L peut-elle être


considérée comme aberrante ?
Tests Statistiques

X Y
0 0
5 18
10 34
15 55
20 70
25 70
30 100

On détermine l’équation de la droite d’ajustement de Y en X par la


méthode des moindres carrés : y = 3,1 x + 2,4.

Calcul des résidus :


Tests Statistiques

Classement des résidus par ordre croissant :

Valeur observée de R : =(-2.4-(-9.9))/(6.1-(-9.9))=0,469

Valeur critique au seuil de 0,05 : r0,95 = 0,507.

Décision : 0,469 < 0,507,


on accepte H0 au seuil de 0,05 ce qui justifie que la valeur suspectée
n’est pas aberrante.
Tests Statistiques

Test de Grubb

Pour utiliser le test de Grubb, on calcule d’abord :


X : La moyenne de l’ensemble des mesures
S : L’écart-type de l’ensemble des mesures
G : Distance entre la valeur suspectée d’être un point aberrant et la
moyenne :

On compare ensuite la valeur de G


obtenue à un G limite :

Si G > Glimite la valeur est considérée comme aberrante et inversement.


Tests Statistiques

Test de normalité : Test de Shapiro et Wilk :

Recherche de normalité pour des échantillons de taille


comprise entre 5 et 50. (5 ≤ n ≤ 50)

On choisit un risque (5 % ou 1 %) et on compare la valeur de W à une


valeur Wcrit, dite valeur critique, lue dans la table de Shapiro et Wilk.
• Si Wcal > Wcrit on accepte la normalité de la série de mesure, au
risque choisi
• Si Wcal < Wcrit on rejette l'hypothèse de normalité de la série de
mesure.
La statistique W du test peut être
aperçue comme le R2 d’une régression linéaire.
Plus elle est élevé plus on s’approche de la normalité.

Exercice 5
Tester la normalité de cette série en utilisant le test de Shapiro et Wilk
Titrage Yi : 40 ; 45 ; 50 ; 55 ; 60 ; 60 ; 60 ; 65 ; 70 ; 70 ; 80
Tests Statistiques

Test de normalité : Test de Shapiro et Wilk :

Si n est pair il y aura alors n/2 différences.


Si n est impair il y aura alors (n-1)/2 différences, l’observation médiane ne
sera pas utilisée.

Les coefficients ai sont donnés dans une table en fonction de n et i .

Comparer W à W1-α,n
W1-α,n est trouvé dans la table de Shapiro-Wilk en fonction du risque
d’erreur α et de la taille de l’échantillon (le nombre d’observations) n
On peut écrire P() = 1- α

si W < W1-α,n la distribution NE SUIT PAS UNE LOI NORMALE


si W ≥ W1-α,n la distribution SUIT UNE LOI NORMALE
Tests Statistiques

Test de Shapiro
(Test Unilatéral Gauche)

Calculer :
1/ la moyenne de yi
2/ (yi-moyenne)2 puis
3/ somme des (yi-moyenne)2
4/ dj = yn - y1 ; yn-1 – y2 ; …
5/ [aj : Pour n=10 i=? (à rechercher
sur la table de Shapiro)]
6/ Calculer aj*dj ; (aj*dj)2 puis
7/ somme des (aj*dj)2
8/ Calculer Wcal avec :
Wcal = (ajdj)2 /
(yi – moyenne)2
Wcal=0.959
Tests Statistiques

TABLE
DES COEFFICIENTS
POUR UN TEST
DE SHAPIRO et WILK

Les
coefficients
pour n=10
sont
encadrés en
rouge
Tests Statistiques

TABLE DE
SHAPIRO
et WILK

Pour n =10
et un
risque
de 5%

W= 0,842
Tests Statistiques

On lit dans la table de Shapiro et Wilk pour n =10 et


un risque de 5% la valeur de Wcrit = 0,842

La valeur calculée étant Wcal=0.959

Wcal > Wcrit,


On accepte donc, au risque de 5%,
l'hypothèse de normalité de la distribution statistique
de cette série de donnée.
Tests Statistiques

Tester la Normalité de la série de données ci-joint en


Exercice
utilisant le Test de Shapiro-Wilk:

Données Résultat :
1 Test de Shapiro-Wilk = W0.907
7 p-value (bilatérale) = 0.196 pour un seuil a=0,05
18
9 -----------------
9
18 Interprétation du test :
27 H0 : La variable dont provient l'échantillon suit une loi Normale.
12 H1 : La variable dont provient l'échantillon ne suit pas une loi Normale.
10
32 Etant donné que la p-value calculée = 0.196 est supérieure au
6 niveau de signification seuil a=0,05, on ne peut pas rejeter
37 l'hypothèse nulle H0.
Tests Statistiques

Test Shapiro Wilk:

Exercice 6
On a prélevé un échantillon de 10 feuilles de vigne puis on a testé la minéralisation.
À partir de la série de données suivantes dire si la quantité de minéraux dans les
feuilles de vignes suit une loi normale pour un risque d’erreur de 5%.

1.08 7.68 8.28 8.23 7.63 11.74


10.3 10.05 12.87 9.02 11.72

Réponse (basée sur la p-value)

p-value calculée est supérieur à la W 0.864


probabilité du risque fixée. p-value (bilatérale) 0.064
La distribution de la quantité de minéraux
alpha 0.05
dans les feuilles de vigne suit donc une
loi normale

Vous aimerez peut-être aussi