0 INTRO 23 24 - Merged

Module : Enzymologie appliquée et
Outils biostatistiques 2
Partie 2 :
Outils biostatistiques
Pour licence Abiocq
An. Un.2021/2022 H. Messaouri

Statistique
•Graphique à barres : pour représenter la
répartition des résultats d'un sondage, les
ventes de produits par catégorie, ou les
résultats d'une compétition sportive.
•Histogramme : pour représenter la
distribution des tailles, des poids, ou des
notes d'un examen.
•Diagramme circulaire : pour représenter la
part de marché des différents concurrents,
les sources de revenus d'une entreprise, ou
les principales causes d'une maladie.
Messaouri 07/12/2023 3
•Graphe boite à moustache ou Box
plot : c’est un moyen rapide de figurer
le profil essentiel d'une série statistique
quantitative.
•Graphique linéaire : pour représenter

l'évolution du prix d'un produit, des
températures au cours d'une année, ou
des résultats d'un test expérimental.
•Nuage de points : pour représenter la

relation entre deux variables, telles que
la taille et le poids, ou le revenu et le
niveau d'éducation.
Les tableaux statistiques sont utilisés pour présenter des données de
manière concise et organisée. Ils sont un outil essentiel pour l'analyse
statistique, car ils permettent de visualiser les données et de les
comprendre plus facilement.
Tableau de données brutes : il s'agit du type de tableau le plus simple. Il

présente les données brutes, sans aucune modification.
Tableau de fréquences : ce type de tableau présente le nombre

d'observations pour chaque valeur ou catégorie. Cela peut être utile pour
mettre en évidence la répartition des données.
Tableau de données groupées : ce type
de tableau présente les données
groupées en catégories. Cela peut être
utile pour mettre en évidence des
tendances ou pour comparer des groupes
différents.
Tableau de contingence : ce type de

tableau présente les données pour deux
ou plusieurs variables. Il est utilisé pour
étudier les relations entre les variables.
Asymétrie Aplatissement
STATISTIQUE INFÉRENTIELLE
OBJECTIFS DE LA PARTIE DU MODULE A ENSEIGNER
• Tirer des conclusions sur une population à partir

d'un échantillon de cette population.
• Faire des estimations ou des tests sur la population
à partir des données disponibles sur l'échantillon.
• Choisir et mettre en œuvre le test statistique le
plus pertinent pour contrôler la fiabilité de la
réponse apportée
PLAN DU COURS
✓Généralité sur la statistique inférentielle
✓Choix du test
✓Réalisation de quelques tests statistiques
(paramétriques et non paramétriques)
les plus utilisées en Biologie :
• Test de Shapiro-Walk (normalité)
• Le test de Kolmogorov-Smirnov (ajustement)
• Test t de Student et test z (égalité des moyennes)
• Test F (égalité des variances)
• Analyse de variance ou ANOVA (analyse des variances)
• Test des corrélation (analyse des covariances)
• Test Khi2 (ajustement et indépendance)
• Test U de Mann et Whitney (concordance)
• Le test Rapide des signes
Choix du test statistique
Statistique descriptive
An. Un. 2023/2024 H. Messaouri

Première étape pour analyse
• Vérification des effectifs et des fréquences

• Rechercher les cohérences
• Tri les données
• Faire des graphes de répartition (histogramme)
• Faire une analyse descriptive

• Faire l’analyse statistique inférentielle

Distribution de fréquences
Distributions non groupées :
Quand les observations sont peu nombreuses, on peut les condenser
sous forme d'un tableau statistique (Observations séparées).
Distribution groupées :
Dans le cas de variables continues,
Distribution groupées
avec un très grand nombre
d'observations, il est nécessaire de
condenser les valeurs sous forme de
classes dans le tableau de
distribution de fréquences.
Chaque classe est caractérisée par
une borne inférieure, une borne
supérieure, une amplitude (ou
étendu) et un point central (ou
médiane).

• Représentations graphiques
renseignent sur la forme des distributions
Exemple :
Fréquence des longueurs de prénoms des étudiants

Exercice fréquence
1 - Faire une série statistique formée par l’ensemble des couples
(nombres de taches par pièces , nombre de pièces tachées)
(1.50) ; (2.60) ; (7.5) ; (10.20) ; (12.10) ; (15.20) ; (20.13) ; (22.9)
2 - Calculer les fréquences absolues cumulées croissantes
3 - Calculer les fréquences relatives
4 - Calculer les fréquences relatives cumulées croissantes
5 - Donner le pourcentage de pièces ayant 10 tâches au plus
6 - Donner le pourcentage de pièces ayant au moins 15 tâches
7 - Tracer la courbe histogramme des effectifs en fonction des
nombres de tâches

xi ni FrRel FrRelCroi Fr%

1 50 0.26737968 0.26737968 26.7379679
2 60 0.32085561 0.58823529 58.8235294
7 5 0.02673797 0.61497326 61.4973262
10 20 0.10695187 0.72192513 72.1925134
12 10 0.05347594 0.77540107 77.540107
15 20 0.10695187 0.88235294 88.2352941
20 13 0.06951872 0.95187166 95.1871658
22 9 0.04812834 1 100
Freq abs cum 187
Au plus 10 : 72.2%
Au moins 15 : 100 – 77.5 = 22.5%

Au plus 10 : 72.2%
Au moins 15 : 100 – 77.5 = 22.5%

La liste de fréquence et les

histogrammes donnent bien une
idée sur la série statistique
mais on a souvent besoin d’indices

numériques ou paramètres
numériques
Les paramètres numériques

d’une séries
On synthétise l’information d’une série statistique par
deux types de paramètres essentiellement
1. Paramètres de position (ou de centrage)

2. Paramètres de dispersion
3. Autres paramètres supplémentaires, paramètre

de forme (asymétrie et aplatissement)
Paramètres de position
(ou tendance centrale) :
Moyenne, médiane et mode.
1.La moyenne
Il y a plusieurs types de moyennes
• moyenne arithmétique ( )
x
• moyenne géométrique (G)
• moyenne harmonique (H)
• moyenne quadratique (Q)
Pour une même série statistique H<G< x <Q
Calcul de la moyenne
Généralement, on prend la moyenne arithmétique comme
paramètre de position.
C’est un paramètre sensible aux valeurs extrêmes.
Il est égale à la somme des valeurs divisée par le nombre
d’individus.
X 1 + X 2 + ... + X n Représentation synthétique
m=
N
m=
 X i
N
Pour calculer la moyenne d’une distribution de fréquence on
utilise la formule 1 k
 
k
x= i =1
nixi = i =1
fixi
n
Moyenne :
Fonction Excel =MOYENNE(plage)
A B Données
1 Données danseuse 1
51
2 4 danseuse 2
52
3 1 danseuse 3
45
4 2 danseuse 4
50
5 danseuse 5
51
0
6 danseuse 6
51
7
danseuse 7
53
7 7 danseuse 8
49
8 Moyenne Formule sumotori
235
9 3,50 =MOYENNE(A2:A7) Moyenne Formule
70,78 =MOYENNE(A2:A10)
les danseuses ont un

poids moyen de 70.78 Kg

Analogie physique
La moyenne est le point auquel il faudrait placer un

support pour que la "planche" reste en équilibre.

2. La Médiane
Elle partage la série statistique en deux groupes
d’observations de même taille.
Elle est recherchée sur des séries ordonnées du
plus petit au plus grand ou l’inverse.
•si n est impaire, la médiane est la valeur

centrale
•si n est paire, la médiane est la moyenne des
deux valeurs centrales.

Exercice médiane
Calculer la médiane des deux séries :
1. 10 25 22 8 9 20 30 4 35
2. 10 9 35 20 25 4 8 30

Calcul de la médiane
Sur Excel =MEDIANE(plage)
4 8 9 10 20 22 25 30 35
Il y a 9 valeurs (n impaire) donc la médiane est la
(9/2+1)ième valeur donc la 5ième valeur : 20
4 8 9 10 20 25 30 35
Il y a 8 valeurs (n paire) donc la médiane est la
moyenne de la (8/2 et la 8/2+1) ième valeur donc
la moyenne de la 4ième et la 5 ième valeur
: (10+20)/2=15

3. Le mode (ou dominante)
C’est la valeur la plus fréquente ou la plus répétitive dans

une matrice ou une plage de données.
Fonction Excel =médiane(plage)
Exercice : mode
Retrouver le mode des deux séries suivantes :
▪ 1 1 3 3 3 5 5 5 5 6 7 7
▪ 1 2 3 4 5 6 7 8 9 10 11

Fonction Excel =MODE(plage)

Données
7
8
8
0
3
6
Mode Formule
8 =MODE(A2:A7)
Le mode ne marche pas toujours
– Ici, toutes les fréquences sont identiques

– pas de mode ou alors modes ex aequo

Les séries peuvent avoir

plusieurs modes
Distribution unimodale :
un seul maximum
Distribution bimodale :
2 modes
Distribution multimodale :
plusieurs modes
Grouper les données

• Lorsque les données ont de nombreuses
valeurs, on calcule le mode après avoir groupé
les données par intervalles et représente la
classe modale.
Exemple, durées des pauses dans un discours (ms)

Relation entre les trois indices

• La relation dépend de la forme la distribution
• Distribution symétrique (ou à peu près)
– mode ~ médiane ~ moyenne

Les trois paramètres de position,

moyenne, médiane et mode,
•sont confondus dans une population à

densité symétrique
•et ils sont isolés dans une population
à densité asymétrique

Distribution asymétrique
Etalée à droite
mode < médiane < moyenne

Distribution asymétrique
Etalée à gauche
mode > médiane > moyenne

Quel indice choisir ?

Quel indice choisir ?

• Mode
– peu stable, parfois inexistant
(à éviter)
• Moyenne
– la force de l’habitude
(Valable dans les distributions symétriques)
• Médiane
– Meilleur indice dans les distributions asymétriques

Paramètres de dispersion :
L’étendu, la variance et l’écart type.
1.L’Étendu ( range en anglais)

C’est la différence entre les deux valeurs
extrêmes. Il mesure la dispersion des valeurs
de la série.
On ne l’utilise généralement que pour avoir

une idée de la répartition de la série

Fractiles : Exemple les Quantiles
1er Quartile : la plus petite valeur des observations pour

laquelle au moins 25% de valeurs lui sont inférieurs ou
égale.
2ème Quartile : la plus petite valeur des observations pour

égale. C’est généralement la médiane
3ème quartile : la plus petite valeur des observations pour

égale.

Exercice : les quartiles
Calculer le Q1, Q3 et la distance interquartiles

De la série suivante :
11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23

Calcul de Q1, Q3 et la distance interquartiles

11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23 (14valeurs)
1er quartile Q1 = Entier de (14*0.25=3.5) (3ème position) =13

3ème quartile Q3 = Entier de (14*0.75=10.5) (10ème position) = 19
La distance interquartiles
correspond aux 50% des données centrales appartenant à
cette série statistique «valeurs centrales» .
Elle se situe dans ce cas entre les valeurs
Q3 et Q1 = 19 - 13 = 6

Représentation de la boîte à moustache
max
3ème quartile
médiane Distance
interquartiles
(50% des
1er quartile valeurs)
Min

2. La Variance
C’est la variabilité générale de la variable.
C’est 2 ou s2
Population Echantillon

0
Exercice
Calculer la variance (var) de la série suivante
A Résistance
2 135
3 130
Formule Excel
4 137
5 132 =VAR(plage)
6 131 pour les échantillons
7 137
8 132
9 135 =VarP(plage)
10 130 pour la population entière
11 129

Pour calculer la variance d’une distribution de

fréquence on utilise la formule
N 2
 ni( xi − x)
σ2 = i =1
N
 ni
i =1
Qui peut être remplacée par :

N
 nixi 2
σ2 =
2
i =1
−x

N
i =1
ni
3. L’écart type
C’est la racine carré de la variance
( xi − x ) 2

σ=
n
C’est généralement l’écart type qu’on prend

comme paramètre de dispersion.

Exercice
Calculer l’écart type de la série suivante
A Résistance
2 135 Formule Excel
3 130
4 137 =ecartype(plage)
5 132 pour les échantillons
6 131
7 137
8 132 =ecartypeP(plage)
9 135 pour la population entière
10 130
11 129

Pour des échantillons de petite taille (n<30)

on divise par n-1 (l’écart type est appelé
dans ce cas, la déviation standard)
Pour les échantillons de grande taille (n>30)

on divise alors par la valeur n.
L’écart type correspond alors à l’écart type
de la population.

Exercice
Calcul de la variance et de l’écart type d’une fréquence
Notes Effectifs
1.Calculer l’effectif total [0;5[ 10
2.La moyenne globale [5 ; 8[ 8
3.La variance [8 ; 12[ 137
4.L’écart type [12 ; 15[ 132
[15 ; 20[ 131

Autres Paramètres :
A partir des paramètres de dispersion et de

position, d’autres paramètres viennent
compléter la descriptions de l’état des
séries étudiées.
•Coefficient de Variation ,
•Coefficients de d’asymétrie
•Coefficients d’aplatissement ,
•Intervalle de confiance ….
Le coefficient de variation CV
(Coefficient of variation, percentage standard deviation)
CV est le rapport écart type divisé par la moyenne.

Il est totalement indépendant des unités
(sans unité). Il est exprimé en pourcentage.
Il permet donc de comparer la variabilité de

distributions de variables qui ne sont pas dans les
mêmes unités.
s
CV = 100
x
4. L’intervalle de confiance d’une

population normale
N>= 30 La vrai valeur de la moyenne à 95% de chance
de se trouve dans l’intervalle de confiance .
   
 x − 2 ; x + 2 
 n n 
2 est une valeur constante quelque soit n

(Dans la tab stat pour n>=30
on a une valeur constante de 1.96)

4. L’ intervalle de confiance d’une

population normale (suite)
Pour N< 30
La l’intervalle de confiance prend la valeur
   
 x − t ; x + t 
 n n

Sur Excel Il faut d’abord calculer la moyenne et l’écart

type. La demi amplitude est ensuite donnée par :
=INTERVALLE.CONFIANCE (alpha;écartype;n)
Et les bornes inf et sup par :
[ moyenne – demi-amplitude ; moyenne + demi-amplitude ]

Paramètres d'aplatissement et d’asymétrie
1/ Coefficient d’aplatissements
Une des mesures les plus utilisées de coefficient

d'aplatissement est le « kurtosis ».
C'est une mesure du degré de concentration des
observations dans les queues. Pour une distribution
normale, la valeur de la statistique de kurtosis est 0.
Pour les échantillons issus d'une distribution normale,
les valeurs du kurtosis fluctuent autour de 0.
On rejette l’asymétrie si ce coefficient

dépasse [-2 à +2]
Paramètres d'aplatissement et d’asymétrie
2/ Coefficient de d’asymétrie (ou l’asymétrie)
Une des mesures les plus utilisées du coefficient

d’asymétrie est le « Skewness ».
Une distribution avec un coefficient d'asymétrie :
* égale à 0 indique une distribution asymétrique
* positif indique une longue queue vers la droite.
* négatif signifie une longue queue vers la gauche.
On rejette l’asymétrie si ce coefficient

dépasse [-2 à +2]
Sur Excel :
Paramètres d'aplatissement et de d’asymétrie
sont donnés directement par le résultat de
la statistique descriptive
de l’utilitaire d’analyse

CHOIX DU TEST STATISTIQUE
• An. Un. 2019/2020 H. Messaouri

Avant de choisir un test statistique
Avant de choisir le test à appliquer

aux séries étudiées, il faut préciser
• La dimension de l’analyse à faire (uni, bi ou

pluridimensionnel)
• Le type de la variable (quantitative ou qualitative)
• La nature de la distribution (normale ou pas)
• Les dépendances ou non des variables
ANALYSE UNIVARIEE (ou unidimensionnel)

(Statistique descriptive à un caractère)
Une telle variable statistique se représente par un

tableau à une seule entrée.
Dans une analyse univariée, un critère peut être

analysé sans tenir compte des autres.
ANALYSE BIVARIEE (ou bidimensionnel)

(Variables statistiques à deux dimensions)
Une telle
variable
statistique est
représentée par
un tableau à
double entrée
appelé :
Tableau de contingence
METHODE D’ANALYSES UNIVARIEES (ou unidimensionnel)

La variable mesurée sur une échelle d’intervalle
(longueur en m - surface en cm - âge)
Oui Non
(La variable a une distribution Gaussienne)
Tests non
Non Oui paramétriques Diapo suite
2 échantillons Tests paramétriques

Test de Student Diapo suite
Anova à 1 facteur
Tests
Appariées Test de Walsh / Test de Randomisation
non
paramét
riques Non appariés Test de Randomisation
Test non paramétrique

La variable mesurée sur une échelle ordinale divisée en classe
N’exige pas de spécification sur la forme de la distribution parente
(pas forcément une distribution normale)
1 échantillon Oui Non

(Variable Diapo
catégorielle) suite
Test de
Kolmogorov-Smirnov
2 échantillons Plusieurs échantillons
Appariés
Test des signes Appariés
Test Wilcoxon Test de Fridman
Non appariées
Test de la médiane Non appariées
Test de Mann-Whitney Test de Kruskall-Wallis
Test non paramétrique

(Variable catégorielle)
1 échantillon Oui
Test de
Binomial
2 échantillons Plusieurs échantillons
Apparié Appariés
Test de X2 de Mac Neman Test de Cochran
Non appariées
Test de Fischer Non appariées
Test X2 Test X2
METHODE D’ANALYSES BIVARIEES

(ou bidimensionnel)
Y
Nominal Ordinal Continue
X
•Analyse X2 •Analyse de variance
•Test Kruskall-Wallis (ANOVA à 1 facteurs:
Nominal •Comparaison des
•Test Mann Withney indépendants ou 2 facteurs
fréquences appariées)
•Analyse de variance
•Corrélation (ANOVA à 1 facteurs:
de Spearman indépendants ou 2 facteurs
Ordinal appariées)
et
de Kendall •Corrélation des
rangs
•Coefficient de
corrélation de
Continu
Pearson
•Régression simple
Sur Excel on peut faire les tests statistiques soit :
• Par les fonctions intégrées d’Excel

• Par l’utilitaire d’analyse des macros
complémentaires
• Par les macros adaptés
• Ou par intégration d’un logiciel de statistique
comme Xlstat
Nombre Type de Tests Tests paramétriques :

des variables non- (Calcul sous Excel, dans
échantillon paramétriq « Utilitaire d’analyse »)
s à analyser ues
(macro
« free »,
avec calcul
sous Excel )
NOMINALE Khi2 ,
Test
///binomial
Un T. de Student
échantillon (dans“Test d’égalité des
espérances: observations pairées”)
ORDINALE Kolmogoro Pour n>30, «Test de la différence
v-Smirnov significative minimale (z-test) »
Nombre des Type de Type Tests Tests paramétriques : Tests de

échantillons variables d’échantillon non- (Calcul sous Excel, dans Corrélation
à analyser s paramétriques « Utilitaire d’analyse »)
(macro « free »,
avec calcul
sous Excel )
NOMINALE Echantillons Khi2 pour 2 non paramétrique:

indépendants échantillons Test ρ de Spearman,
Echantillons Khi2 de τ de Kendall.

appariés McNemar
Deux ORDINALE Echantillons U de Mann- F. de Snedecor paramétrique : « r » de

échantillons indépendants Whitney, (dans: « Test d’égalité des Bravais-Pearson
Autres tests : variances »). Sous Excel, dans
Wald- T. de Student (dans “Test « analyse de
Wolfowitz, test d’égalité des espérances: 2 corrélation »
de Moses observations différentes”
Kolmogorov- Pour n>30, « Test de la différence
Smirnov significative minimale (z-test) »
Le test de la
médiane
(Mood test)
Echantillons Test de T. de Student
appariés Wilcoxon (dans“Test d’égalité des
espérances: observations pairées”)
Nombre des Type de Type Tests Tests paramétriques : Tests de

échantillons variables d’échantillon non- (Calcul sous Excel, dans « Utilitaire Corrélation
à analyser s paramétriques d’analyse »)
(macro
« free », avec
calcul sous
Excel )
Echantillons Test de T. de Student
appariés Wilcoxon (dans“Test d’égalité des espérances:
observations pairées”)
NOMINALE Echantillons Khi2 pour k Coefficient de

indépendants échantillons contingence
(voir Khi 2 pour k
éch.)
K Echantillons Test Q de Corrélation
échantillons appariés Cochran multiple: sous
Excel, dans
ORDINALE Echantillons Test de ANOVA (dans : « analyse de « Régression

indépendants Kruskal- variance : un facteur) linéaire »
Wallis
Le test de la
médiane
Test de
Jonckheere-
Terpstra
Echantillons Test de ANOVA (dans : « analyse de Coefficient

appariés Friedman variance : deux facteurs, sans de concordance
Test de Page répétition d’expérience » de Kendall W.
Tests Statistiques
Tests paramétriques
Les tests paramétriques utilisées en Biologie :

• Le test de la Régression linéaire
Tests Statistiques
Comparaison des moyennes

Pour une distribution normale (tests paramétriques)
•Test t de Student si on ne connaît pas la vraie variance
des populations dont sont extraits les échantillons ; et que
n<=30))
•Test z (différences minimales) variance des

populations dont sont extraits les échantillons est connue et
quand n>30.
Dans le cas de n>30, la variance de la population est
considérée comme estimateur de la population est le test à
choisir est donc le test z
Sans exigence de normalité : Tests non paramétriqques)

•Test U de Wilcoxon / test rapide des signes (k=2 appariées)
•Test de Krustal Wallis (k>2 non appariées)
Tests Statistiques
Comparaison des moyennes de deux échantillons

Test de Student
C’est un test qu’on peut appliquer à de petites séries (n<=30)

Mais avant de faire ce test il faut vérifier :
• la normalité (test de Shapiro-Wilk

ou test de Kolmogorov-Smirnov)
• l’équivariance ou égalité des variances (test F ou test de
Leaven
• La dépendance
Tests Statistiques
Tableau récapitulatif des différents tests statistiques pour vérifier

l'égalité ou la différence de variance, avec leurs conditions d'utilisation :
Exemples de Tests Condition d'utilisation

Les données doivent être normalement
distribuées. Les échantillons doivent être
Tests paramétriques :
indépendants. Les échantillons doivent
• Test de Fisher
avoir une taille suffisante (au moins 20
• Test de Bartlett
observations par échantillon).
___________________________________
Les données ne doivent pas nécessairement
Tests non suivre une distribution normale. Les
paramétriques : échantillons doivent être indépendants. Les
• Test de Levene échantillons doivent avoir une taille
• Test de Welch suffisamment grande (au moins 10
observations par échantillon).
Tests Statistiques
Test t sur Excel
=TEST.STUDENT(matrice1; matrice2; uni/bilatéral; type)

La formule renvoie à la probabilité (unilatérale) associée à un test T de Student
pour déterminer dans quelle mesure deux échantillons sont susceptibles de
provenir de deux populations sous-jacentes ayant la même moyenne.
•Matrices = séries de données.
•uni/bilatéral = type de distribution à renvoyer : unilatérale (1) ou
bilatérale (2).
•type = type de test t à effectuer.
Type Ce test est effectué

1 Sur des observations pairées
2 Sur deux échantillons de variance égale (homoscédastique)
3 Sur deux échantillons de variances différentes (hétéroscédastique)
Tests Statistiques
Formule pour obtenir la valeur de t (calculé ou critique) sachant p :

=LOI.STUDENT.INVERSE(p;ddl)
Formule pour obtenir la probabilité
=TEST.STUDENT(matrice1,matrice2,uni/bilatéral,type)
Pour la décision, il faut ajouter la formule :
=SI(|tcal|<tcrit ; « il y a égalité »;« il y a différence »)

& " entre les moyennes"
Tests Statistiques
A partir de l’Utilitaire d’analyse :
• Test d’égalité des espérances : observations pairées.

• Test d’égalité des espérances : observations indépendantes
avec égalité de variances «homoscédastique» ou homogénéité
• Test d’égalité des espérances : observations indépendantes avec
variances différentes «hétéroscédastique».
En théorie, le test t sur des échantillons indépendants suppose que les

variances sont inconnues, mais égales.
Quand les variances sont inégales (cas des tailles d’échantillons trop
réduites, Excel utilise un calcul différent pour hétéroscédastique
(Dans ce cas un il vaut mieux utiliser un test non-paramétrique …)
Tests Statistiques
Exercice comparaison des moyennes
Deux groupes de 10 lapins chacun,

nourris avec un régime enrichi en x y
23 18
cholestérol, ont été soumis à deux 15 22
traitements différents X et Y. 28 33
On voudrait savoir s'il y a une différence 26 34
entre les deux traitements. 13 19
8 12
21 27
Les résultats des dosages de la 25 32
cholestérolémies en dg/l, sont portés sur 24 31
le tableau suivant : 29 30
Tests Statistiques
Test de Shapiro-Wilk (x) :

Test d'égalité des espérances : deux
W 0.907 observations de variances égales
p-value x y
(bilatérale) 0.258 Moyenne 21.2 25.8
alpha 0.05 57.28
Variance 48.4 88889
Test de Levene Observations 10 10
Test F de Fisher / Test
(Moyenne) / Test Variance pondérée 52.8444444
bilatéral :
bilatéral : Différence
Rapport 0.845 hypothétique des
F (Valeur
F (Valeur moyennes 0
observée) 0.307
observée) 0.845 Degré de liberté 18
F (Valeur
F (Valeur -
critique) 4.414
critique) 4.026
DDL1 1 Statistique t 1.41495675
DDL1 9
DDL2 18 P(T<=t) unilatéral 0.08707433
DDL2 9
p-value Valeur critique de t
p-value (unilatéral) 1.73406361
(bilatérale) 0.806
(unilatérale) 0.587
alpha 0.05 P(T<=t) bilatéral 0.17414866
alpha 0.05
Valeur critique de t
(bilatéral) 2.10092204
Tests Statistiques
EXERCICE
Neuf malades présentant des symptômes d’anxiété reçoivent un
traitement. On évalue l’état des malades avant et après traitement par un
indice que le médecin traitant calcule d’après les réponses à une série de
questions. Si le traitement est efficace, l’indice doit diminuer. Les valeurs
de cet indice sur les neuf patients sont les suivants :
Patient 1 2 3 4 5 6 7 8 9
Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3
Après 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29
1. Transposer ces résultats sous forme de 3 colonnes :

Patient, Avant et après
2. Choisir le test adéquat à faire en justifiant votre choix.
3. Interpréter les résultats obtenus et donner votre décision concernant
l’efficacité du traitement au seuil 0.05
Tests Statistiques
Avant Après
1.83 0.88 Test de Normalité Shapiro-Wilk
0.5 0.65 Avant 0.714
1.62 0.59 Après 0.134
2.48 2.05
1.68 1.06 Test d’égalité des variances à faire
1.88 1.29 pour les échantillons non pairés
1.55 1.06
Levene Bartlett
3.06 3.14
0.859 0.912
1.3 1.29
Les observations sont pairés, et les 2 séries suivent la loi normale.
Donc Le test à faire est le test de Student à variables pairées.
Sur l’utilitaire d’analyse d’Excel : c’est le test d'égalité des espérances

observations pairées
Dans l’énoncé : on ne cherche pas seulement s’il y a une différence mais on

recherche si le traitement est efficace. Donc nous devons nous baser sur les
valeurs du test unilatéral.
Tests Statistiques
Test d'égalité des espérances observations pairées (Sur Excel)
Avant Après
Moyenne 1.766666667 1.334444444
Variance 0.512075 0.644477778
Observations 9 9
Coefficient de corrélation de Pearson 0.846846399
Différence hypothétique des moyennes 0
Degré de liberté 8
Statistique t 3.026412693
P(T<=t) unilatéral 0.008199333
Valeur critique de t (unilatéral) 1.859548038
P(T<=t) bilatéral 0.016398666
Valeur critique de t (bilatéral) 2.306004135
Tests Statistiques
Décision statistique :
La statistique de test observée est de 3.026.
Elle est supérieur à la valeur t théorique unilatérale qui est de 1.859
On est donc dans la zone de rejet de 𝐻0. On accepte 𝐻1
(l’indice avant est supérieur à l’indice après , c’est-à-dire l’indice diminue)
Le traitement est donc efficace avec une p value de 0.008.
La différence entre les deux états est très significative (P entre 1% et 1%°).
Tests Statistiques
Exemple 1 :
Test de Student pour échantillon unique
comparé à une référence sur Xlstat (en option)
D’après un rapport, on trouve que les hommes de plus de 30 ans regardent la
télévision en moyenne de 25 h par semaine. Pour cette moyenne dans une
population d’étudiants. Onze étudiants ont comptabilisé leur temps passé devant
la télévision, par semaine :
Etudiants
10
8 Différence -7.364
15 t (Valeur observée) -2.726
28
20 |t| (Valeur critique) 2.228
19 DDL 10
13
20 p-value (bilatérale) 0.021
9
alpha 0.05
14
38
Interpréter le résultat obtenue.
Tests Statistiques
Exercice 2 Comparaison des moyennes

Une étude a montré que les hommes de plus de 30 ans regardent la
télévision en moyenne 25 h par semaine.
Nous voulons comparer cette moyenne à une population d’étudiants.
Onze étudiants ont comptabilisé leur temps passé par semaine devant la
télévision :
Etudiants 10 8 15 28 20 19 13 20 9 14 38
Comparer les moyennes de temps de ces étudiants à la moyenne trouvée

dans l’étude.
Tests Statistiques
z-Test
(Comparaison des moyennes des grandes séries)
Quand n est très grand (n>30) le test « z » de deux

moyennes est plus adapté que le test t de Student.
A partir de l’Utilitaire d’analyse », cliquez sur

« =test de la différence significative minimale ».
Ce test nécessite les valeurs des variances

des séries étudiées.
Donc il faut d’abord trouver les 2 valeurs (Par exemple à

partir des résultats de la statistiques descriptives
Tests Statistiques
4,77 5,56 5,56 4,90

4,62 5,42 5,42 4,75
4,80 5,26 5,41 4,64

4,65 5,11 5,26 4,49
5,51 4,50 5,57 5,16 5,36 4,35 5,43 5,02
4,46 4,48 5,40 4,43 4,31 4,33 5,25 4,28
4,41 4,47 4,31 5,28 4,26 4,32 4,16 5,14
5,65 5,64 4,62 5,09 5,51 5,50 4,47 4,94

5,10 4,92 4,56 4,96 4,95 4,77 4,41 4,81
7,70 4,48 4,96 5,67 7,11 4,33 4,81 5,53
5,61 4,63 5,02 5,50 5,46 4,49 4,87 5,36
Appareil 1
5,50 4,39 4,57 5,02
Appareil 2
5,64 4,54 4,72 5,17
4,42 5,18 4,48 4,58 4,27 5,04 4,33 4,43
5,05 4,95 4,60 4,97 4,90 4,80 4,45 4,83
5,66 5,25 5,28 5,27 5,51 5,11 5,13 5,13
4,41 5,31 5,01 4,69 4,26 5,16 4,86 4,54
5,08 4,55 5,28 4,24 4,93 4,40 5,13 4,09
4,69 5,17 4,96 4,45 4,55 5,03 4,81 4,30
4,90 5,66 4,24 5,61 4,76 5,52 4,09 5,47
4,94 5,66 5,60 4,67 4,79 5,52 5,45 4,53
5,00 4,79 4,76 5,34 4,85 4,65 4,62 5,20
5,51 4,88 4,42 4,78 5,37 4,73 4,27 4,63
4,72 4,77 4,42 4,53 4,57 4,63 4,27 4,39
4,56 5,61 4,83 5,63 4,42 5,47 4,68 5,49
5,35 5,16 5,17 5,02 5,21 5,02 5,03 4,88
4,40 4,45 5,35 4,77 4,25 4,30 5,21 4,62
4,32 5,48 4,78 5,15 4,17 5,34 4,63 5,00
Tests Statistiques
Résultat du z-Test sous Excel

Test de la différence significative
minimale (z-Test)
Variable 1 Variable 2
Moyenne 4,997914462 4,847855027
Variances (connues) 0,24 0,23
Observations 100 100
Différence hypothétique des moyennes 0
z 2,188841821
P(Z<=z) unilatéral 0,014304169
Valeur critique de z (unilatéral) 1,644853627
P(Z<=z) bilatéral 0,028608339
Valeur critique de z (bilatéral) 1,959963985
Tests Statistiques
Exemple 2 :
Test de Z pour échantillon unique comparé à une référence
Un échantillon aléatoire de 31 barres énergétiques est prélevé de magasins différents.
Les étiquettes sur les barres indiquent que chaque barre contient 20 g de protéines
(Valeur de référence).
Pour vérifier la teneur en protéine des dosages sont faites sur chacune des barres et
les résultats sont présentés sur le tableau ci-dessus :
Barre énergétique - Grammes de protéines
20.7 21.54 16.26

27.46 21.08 17.46
22.15 22.14 20.53
19.85 19.56 22.12
21.29 21.1 25.06
24.75 18.04 22.44
20.75 24.12 19.08
22.91 19.95 19.88
25.34 19.72 21.39
20.33 18.28 22.33
25.79
Tests Statistiques
Test Z pour échantillon unique comparé à une référence sur Xlstat (en option)
Statistiques descriptives :
Obs. avec Obs. sans

données données
Variable Observations manquantes manquantes Minimum Maximum Moyenne Ecart-type
barre 31 0 31 16.260 27.460 21.400 2.542
Test t pour un échantillon / Test bilatéral :
Intervalle de confiance à 95% autour de la moyenne :

] 20.468;22.332 [
Différence 1.400
t (Valeur
observée) 3.067
|t| (Valeur
critique) 2.042
DDL 30
p-value
(bilatérale) 0.005
alpha 0.05
Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle
H0, et retenir l'hypothèse alternative Ha.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,46%.
Tests Statistiques
Analyse de variance
Conditions de validité
Pour valider les résultats de l’ANOVA, il faut vérifier :
- La normalité (normalité des résidus ou des

résidus standardisés)
- L’indépendance
- L’homogénéité (Test Levene sur les médianes)
- Peu de valeurs extrêmes (moins que 5% des
résidus normalisées inf ou sup à 2 : test de Dixon
ou de Grubbs)
Tests Statistiques
SCE Total
=SCE T
Tests Statistiques
SCE entre groupe

=SCE F
Tests Statistiques
SCE à l’intérieur des groupes

=SCE R
Tests Statistiques
Exemple : Comparaison des variances des séries A, B et C
Source Valeur
des Somme Degré de Moyenne critique
A B C
variations des carrés liberté des carrés F Probabilité pour F
7 7 7 Entre 0.782757 3.885293
Groupes 0.4 2 0.2 0.25 79 83
6 5 7
A
6 7 6 l'intérieur
5 6 6 des
groupes 9.6 12 0.8
5 5 5
Total 10 14
0.4 9.6
Moyenne des carrées = Somme des carrés/ddl 0.2
2 12
0.8
Fobs (0.25) < Fcrit (3.88) & P (0.78 > 0.05)

Hypothèse H0 est accepté
et les variances des deux groupes sont identiques
Tests Statistiques
Exercice comparaison des variances
On dispose de k=3 échantillons comprenant n=5 individus

dont les valeurs sont données dans le tableau ci-après :
il s’agit des différences de temps de réaction pour trois
souches de souris soumises à une même expérience
Souche 1 Souche 2 Souche 3

7 3 0
6 3 0
6 3 1
5 4 1
5 5 2
Tests Statistiques
Test de Shapiro-Wilk (Normalité)
(Souche 1) (Souche 2) : (Souche 3) :
W 0.881 W 0.771 W 0.881
p-value p-value p-value

(bilatérale) 0.314 (bilatérale) 0.052 (bilatérale) 0.314
alpha 0.05 alpha 0.05 alpha 0.05
Tests Statistiques
Test de Dixon pour les valeurs extrêmes

•Si vous ne savez pas si vos données comprennent des valeurs aberrantes, et
que la répartition des valeurs ne suit pas la loi Gaussienne, utilisez le test de
Grubb.
•Si vous savez que vos données comprennent une valeur aberrante ou plus, et
que la répartition est Gaussienne, utilisez le test de Dixon (souvent utilisé pour
n≤25 valeurs) mais peut être utilisé aussi pour un nombre de valeur plus élevé)
Test de Dixon pour les Test de Dixon pour les Test de Dixon pour les
valeurs extrêmes / Test valeurs extrêmes / Test valeurs extrêmes / Test
bilatéral (Souche 1) : bilatéral (Souche 2) : bilatéral (Souche 3) :
R10 (Valeur R10 (Valeur R10 (Valeur

observée) 0.500 observée) 0.500 observée) 0.500
R10 (Valeur R10 (Valeur R10 (Valeur
critique) 0.710 critique) 0.710 critique) 0.710
p-value p-value p-value
(bilatérale) 0.298 (bilatérale) 0.298 (bilatérale) 0.298
alpha 0.05 alpha 0.05 alpha 0.05
Tests Statistiques
Test de Levene pour tester l’égalité des variances
Statistiques descriptives :
Obs. avec Obs. sans

Observation données données
Variable s manquantes manquantes Minimum Maximum Moyenne Ecart-type
7 | Souche 1 4 0 4 5.000 6.000 5.500 0.577
7 | Souche 2 5 0 5 3.000 5.000 3.600 0.894
7 | Souche 3 5 0 5 0.000 2.000 0.800 0.837
Test de Levene (Moyenne) / Test bilatéral (7) :
F (Valeur observée) 0.439

F (Valeur critique) 3.982
DDL1 2
DDL2 11
p-value (unilatérale) 0.655
alpha 0.05
Tests Statistiques
Analyse de variance: un facteur
RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Souche 1 5 29 5.8 0.7
Souche 2 5 18 3.6 0.8
Souche 3 5 4 0.8 0.7
ANALYSE DE VARIANCE
Valeur
Source des Somme des Moyenne des critique
variations carrés Degré de liberté carrés F Probabilité pour F
Entre Groupes 62.8 2 31.4 42.8181818 3.4468E-06 3.88529383
A l'intérieur des
groupes 8.8 12 0.73333333
Total 71.6 14
Fobs (42.82) < Fcrit (3.44) & P (3.44E-06 > 0.05)
Hypothèse H0 est rejetée
et les variances des deux groupes sont différentes
et la différence est hautement significative p<0.001 (1%°)
Tests Statistiques
Sur Xlstat
Analyse de la variance (valeur) :
Somme des Moyenne des

Source DDL carrés carrés F Pr > F
Modèle 2 62.800 31.400 42.818 < 0,0001
Erreur 12 8.800 0.733
Total corrigé 14 71.600
Résidus normalisés / valeur
Souche 3
Souche 3
Souche 3
Souche 3
Souche 3
Observations
Souche 2
Souche 2
Souche 2
Souche 2
Souche 2
Souche 1
Souche 1
Souche 1
Souche 1
Souche 1
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2

Résidus normalisés
Valeur de tous les résidus entre -2 et 2

Tests Statistiques
Cas ou on accepte H1, il faut trouver la ou

lesquelles des séries
qui est ou qui sont différente(s)
Comparaison multiples par paires

Le test le plus utilisé est le test de Tukey
• Deux moyennes ayant au moins une lettre en commun ne

sont pas significativement différentes
• Les moyennes ayant des lettres différente sont

significativement différentes
Tests Statistiques
Comparaisons multiples
Q1 / Tukey (HSD) / Analyse des différences entre les modalités avec un intervalle de confiance à
95% (Y1) :
Différence
Contraste Différence standardisée Valeur critique Pr > Diff
Souche 1 vs Souche 3 5.000 9.232 2.668 < 0,0001
Souche 1 vs Souche 2 2.200 4.062 2.668 0.004
Souche 2 vs Souche 3 2.800 5.170 2.668 0.001
Valeur critique du d de Tukey : 3.773
Modalité Moyenne Groupes

Souche 1 5.800 A
Souche 2 3.600 B
Souche 3 0.800 C
Les trois groupes sont différents

l’un par rapport à l’autre
Tests Statistiques
Exercice comparaison des variances

Pour tester l’effet de la profondeur sur le taux d’histamine produite
par deux espèces de poissons (S et M), on a enfermé les individus
de chaque espèce dans des cages puis on les a laissées pendant
une semaine soit en surface soit en profondeur. Des dosages de
l’histamine obtenus sont portés sur le tableau ci-dessous.
Il y a t-i une différence de l'apparition de l'histamine en fonction des

espèces et de la profondeur? Profondeur Surface
S 0,55 0,8646
S 2,63 2,343
S 2,71 2,2214
S 1,93 2,134
S 2,38 2,827
M 3,8 5,58
M 4,6 7,128
M 6,80 7,08
M 4,32 6,528
M 4,63 7,412
Tests Statistiques
Analyser le
ANOVA
résultat 2 facteurs avec répétition
obtenu RAPPORT DÉTAILLÉ Profondeur Surface Total
S
Nombre d'échantillons 5 5 10
H0 est L’hypothèse Somme 10,2 10,39 20,59

Moyenne 2,04 2,078 2,059
la plus probable. Les
Variance 0,7862 0,53181628 0,586186124
variables sont
indépendante. M
Nombre d'échantillons 5 5 10
Somme 24,15 33,728 57,878
C’est qu’il n’y a pas Moyenne 4,83 6,7456 5,7878
Variance 1,3237 0,5270288 1,841858178
d’interaction entre
Total
les échantillons Nombre d'échantillons 10 10
Somme 34,35 44,118
Moyenne 3,435 4,4118
Variance 3,099983333 6,522400524
ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627
Total 91,37214592 19
Pour l’interaction, p<0.05 donc H1 : Il y a interaction entre les deux facteurs

Tests Statistiques
ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627
Total 91,37214592 19
On a une interaction quand l’effet d’un facteur

dépend de la modalité d’un autre facteur
H0 : Il n’y a pas d’interaction entre les facteurs

H1 : Il y a interaction entre les facteurs
p<0.05 donc on rejette H0 (absence d’interaction)

Et on accepte H1 : Il y a interaction entre les deux facteurs
Tests Statistiques
Graphe moyenne des 2 espèces

en fonction du profondeur
8
7
6
Moyennel
5
4
3
2
1
0
Profondeur Surface
prof
espece-M espece-S
Tests Statistiques
Résultat de Xlstat
Obs20
Obs19
Obs18
Obs17
Obs16
Observations
Obs15
Obs14
Obs13
Obs12
Obs11
Obs10
Obs9
Obs8
Obs7
Obs6
Obs5
Obs4
Obs3
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Les résidus centrés réduits, doivent être distribués
suivant une loi normale N(0,1).
Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96,
1.96]. Ici, seul l’observation 8 est aberrante
Tests Statistiques
Résultat ou output Xlstat

Analyse Type III Sum of Squares
(val) :
Somme des Moyenne

Source DDL carrés des carrés F Pr > F
prof 1 4.771 4.771 6.022 0.026
espece 1 69.520 69.520 87.757 < 0,0001
prof*espece 1 4.407 4.407 5.563 0.031
Paramètres du modèle (val) :
Borne inférieure Borne supérieure

Source Valeur Erreur standard t Pr > |t| (95%) (95%)
Constante 2.078 0.398 5.221 < 0,0001 1.234 2.922
prof-Profondeur -0.038 0.563 -0.068 0.947 -1.231 1.155
prof-Surface 0.000 0.000
espece-M 4.668 0.563 8.292 < 0,0001 3.474 5.861
espece-S 0.000 0.000
prof-Profondeur
*espece-M -1.878 0.796 -2.359 0.031 -3.565 -0.190
prof-Profondeur
*espece-S 0.000 0.000
prof-
Surface*espece-
M 0.000 0.000
prof-
Surface*espece-S 0.000 0.000
Equation du modèle (val) :

val = 2,078-3,80000000000023E-02*prof-Profondeur +4,6676*espece-M-1,8776*prof-Profondeur *espece-M
Tests Statistiques
Exemple de comparaisons multiples par paires selon

la méthode de Tukey
• Les moyennes ont des lettres différentes (A, B ou C).

• Elles sont donc toutes significativement différentes
Tests Statistiques
Régression linéaire
Exemple 1 de la régression linéaire
x Y
53 504
1 Faire le graphe de type nuage de points de y = f(x)
66 610
2 Ajouter la courbe de tendance 92 854
3 Afficher le r2 et l'équation de la droite 80 750
84 795
3 Utiliser les fonctions Excel pour calculer la pente,
48 440
l’ordonné à l’origine 61 580
6 Utiliser la fonctions Excel pour calculer le coefficient de 74 695
détermination 58 550
97 915
7 Vérifier ces valeurs avec ceux affichés sur le graphe
70 672
42 394
Tests Statistiques
Résultat de la régression sur l’utilitaire d’analyse
Y Statistiques de la régression
1000
y = 9,4005x + 0,2959
800 R² = 0,9976 Coefficient de détermination multiple 0.99882135
600
Coefficient de détermination R^2 0.99764408
400
Coefficient de détermination R^2 0.99740849
200 Erreur-type 0.88230008
0 Observations 12
0 20 40 60 80 100 120
Y Courbe de régression Coefficients Erreur-type Statistique t Probabilité

120 Constante 0.13056841 1.08480569 0.12036111 0.90658104
x
y = 0,1061x + 0,1306 Y 0.1061262 0.00163085 65.0740666 1.7878E-14
100
R² = 1
80
Prévisions x
60
x
40
Coefficients
20 H0 X et Y ne sont pas liés
0
Erreur-type
H1 X et Y sont liés
0 500 1000
-20
Y
Confiance =1-Probabilité obtenue =1 - 1.7 10-14  1

Tests Statistiques
Tests Statistiques
Résultat de la régression avec Xlstat

Paramètres du modèle (Y) :
Borne Borne
Erreur inférieure supérieure
Source Valeur standard t Pr > |t| (95%) (95%)
Constante 0.296 10.217 0.029 0.977 -22.468 23.060
x 9.401 0.144 65.074 < 0,0001 9.079 9.722
Résidus normalisés / Y
Obs12
Régression de Y par x (R²=0,998) Obs11
1000 Obs10
900 Obs9
Observations
Obs8
800
Obs7
700
Obs6
Y
600 Obs5
500 Obs4
400 Obs3
300 Obs2
30 50 70 90 110 Obs1
Echantillonx d'apprentissage
-2 -1 0 1 2
Modèle(Y)
Int. de conf. (Moyenne 95%)
Int. de conf. (Obs 95%)
Tests Statistiques
Exercice 2 Prédictions à partir d'une régression linéaire
But: Prédire la concentration C d'un composé à partir

de la mesure de l'absorbance de la lumière A ; Loi
de Beer-Lambert: A=kC
[étalon] absorbance
(en ppm) Un étalonnage est fait à partir de 10 échantillons
0 0.040068354 préparés et donc de concentrations connues (C= 0
1 0.012271218 à 10). Pour chaque échantillon est fait une mesure
2 0.101924988 d'absorbance.
3 0.127855901
4 0.127932973 Déterminer les paramètres de la droite de régression
5 0.190596394 en utilisant les 2 méthodes Excel :
6 0.215880197 • courbe de tendance
7 0.184214217 • et fonction Excel
8 0.227856204 Faire une prévision linéaire pour retrouver la valeur de
9 0.316637749 la concentration pour une DO de 0.3
10 0.332678811
Utiliser la fonction matricielle droite de régression à 2
colonnes et 3 lignes et donner l’équation de la
relation qui relie les x et les y
Tests Statistiques
Régression linéaire
Exemple 2 de la régression linéaire
Analyse à partir du graphe
x y1 y2 y3
1/ Calculer la moyenne des y pour chaque X 1.00 10.00 11.00 12.00
2/ Calculer l’écart type sur les moyennes des y pour chaque X 2.00 11.00 10.00 13.00
5.00 10.00 9.00 12.00
3/ Faire un graphe de type nuage de points 9.00 13.00 15.00 14.00
12.00 15.00 16.00 14.00
4/ Porter l'écart type sur les moyennes 14.00 12.00 13.00 15.00
5/ Tracer la courbe de tendance et donner l'équation de 17.00 14.00 14.00 15.00
21.00 17.00 18.00 16.00
la régression et le coefficient de détermination 23.00 15.00 16.00 17.00
27.00 15.00 14.00 18.00
Utilisation des fonctions intégrées d’Excel
30.00 18.00 20.00 18.00
6/ Donner la valeur de la pente de y=f(x) 32.00 16.00 16.00 18.00
37.00 18.00 18.00 17.00
7/ Calculer la valeur de l’ordonnée à l’origine de y=f(x) 42.00 22.00 20.00 21.00
45.00 22.00 22.00 24.00
8/ Calculer la valeur de l’abscisse de y=f(x)
50.00 23.00 22.00 23.00
9/ Donner l’équation de la courbe y=f(x)
10/ Faire une extrapolation de Y pour X=100
Tests Statistiques
Exemple de résultat de la régression linéaire
Equation du modèle :
y = 8925 + 66.87.VAR1 + 2.93.VAR2 + 31.30.VAR3

Tests Statistiques
Tests de corrélation , le r
ou la « force » d’une liaison entre deux séries de données
(analyse bivariée) ou plus (analyse multivariée).
Le test « r » de Bravais-Pearson donne

le coefficient r de corrélation de Pearson r
Si r est proche de +1, cela signifie que les deux variables

sont très fortement corrélées de façon proportionnelle).
Si r est proche de -1, cela signifie que les deux variables

sont très fortement corrélées mais cette corrélation est
inversement proportionnelle.
Si r est proche de 0, il n’existe aucune corrélation entre les

deux variables : les variations de X n’ont pas d’influences
sur les variations de Y.
Tests Statistiques
Coefficient de détermination r²
Le coefficient de détermination r² reflète, d’une façon plus

fidèle, le degré de cette relation linéaire à la population; C’est la
proportion de la variable dépendante (y) qui est expliquée par la
variable indépendante variable (x)
• Si R2 est proche de 1 alors le modèle est proche de la

réalité on peut conclure une corrélation entre les deux séries.
• Si R2 << 1 une mauvaise corrélation.
Pour une valeur proche de «0» Il faut trouver un modèle

meilleur.
𝒓𝟐 ∶ 𝟎 ≤ 𝒓𝟐 ≤1
Tests Statistiques
Test de la pente ou Test de la nullité de la pente.
Il teste s’il existe une relation linéaire entre x et y

dans la population.
C’est également un test qui vérifie l’indépendance
des deux variables X et Y
• H0 : b 1=0 (X et Y sont indépendants)

• H1 : b1 0 (X et Y sont liés et la corrélation
entre X et Y existe également)
Tests Statistiques
Les variables étudiées

peuvent être
•Contrôlé (=expérimentale) •aléatoire

•aléatoire •aléatoire
Possibilité
d’interprétation causale Pas de causalité
r et r2 r
Tests Statistiques
Droite de régression y = ax +b
Sur Excel
• pente a
= PENTE(plage)
• L'ordonnée à l'origine b
= ORDONNEE.ORIGINE(plage)
• Le Coefficient de corrélation (r)

=COEFFICIENT.CORRELATION(plage)
Sur des graphes en nuages de point l’équation ax+b et le r2

sont données directement par la courbe de tendance linéaire.
Tests Statistiques
Test du CHI2 ou Khi2 ou X2 de Pearson

L Le test du CHI2 est un test non paramétrique qui s'utilise pour comparer
des événements (effet du traitement ou pas d’effet ; c’est un test
unilatéral).
Le test du khi-carré recouvre plusieurs tests statistiques

• Le test d’ajustement ou d’adéquation, qui compare globalement la
distribution observée dans un échantillon statistique à une distribution
théorique, celle du khi-carré.
• Le test d'indépendance du khi-carré qui permet de contrôler
l'indépendance de deux caractères dans une population donnée. Les
variables sont toutes qualitatives où lorsqu’un caractère est quantitatif
et l’autre qualitatif, ou bien encore lorsque les deux caractères sont
tous quantitatives.
• Le test d'homogénéité du khi-carré qui teste si des échantillons sont
issus d'une même population. Les variables sont quantitatives
• Le Khi2 est élargie au test de contingence dans le cas de statistique

bivariées.
.
Tests Statistiques
Le Khi2 de contingence permet de tester l'indépendance

de deux variables qualitatives nominales
(H0 : les deux variables sont indépendant
H1 : les deux variables sont dépendantes).
Condition n°1 :
L'effectif total du tableau de contingence (N..) doit être
supérieur ou égal à 20
Condition n°2 :
L'effectif marginal du tableau de contingence (Ni. ou N.j)
doit toujours être supérieur ou égal à 5.
Condition n°3 :
L'effectif théorique (N*ij) des cases du tableau de
contingence doit être supérieur à 5 dans 80% des cases
du tableau de contingence.
Tests Statistiques
Le Khi2 de contingence permet de tester l'indépendance

de deux variables qualitatives nominales
(H0 : les deux groupes sont indépendant).
• Lorsque l’effectif théorique des cases est inférieur à 5, on

applique un regroupement des valeurs ou on applique la
correction de Yates.
• Quand le tableau de contingence est de 2x2 cases, on
applique la correction de Fischer. [si dans le cas de 2x2
les effectifs sont inférieurs à 5 il vaut mieux faire le test
de Kolmogorov-Smirnov]
• Pour un tableau de contingence supérieur à 2x2, il ne
faut pas avoir plus de 20% de cases où l’effectif
théorique < 5 (regroupement ou test de Kolmogorov-
Smirnov) et aucune case où l’effectif théorique =1.
Tests Statistiques
Test khi2 sur Excel

Si on a les valeurs observés et les valeurs théoriques, on peut
utiliser directement la fonction :
=TEST.KHIDEUX (plage réelle;plage attendue)
Elle donne la valeur de p
[A partir du tableau des valeurs observées
on calcul les fréquences théoriques ] puis la fonction
=KHIDEUX.INVERSE(p;ddl) [ddl = (l-1)x(c-1)]

donne la valeur du khi2obs ou Khi2crit (pour p Choisie)
=LOI.KHIDEUX(khi2obs ; ddl) donne la valeur p calculé/p critique
Pour la décision, il faut ajouter la formule :

=SI(khi2obs<khi2crit;"Indépendance";"Dépendance") & " entre les variables"
Tests Statistiques
Dès qu’on dépasse 3 à 4 modalités,

le Khi2 de Pearson devient souvent non significatif
et on tire alors des conclusions hâtifs voire même
fautives. Dans ces cas, il faut choisir un autre test.
En général on utilise le test G quand il est présent sur le
logiciel. Le test G dérive du test du khi2
mais il est plus robuste
Dans le cas des échantillons appariés, il faut utiliser

le khi² Mac Nemar qui analyse le
changement dans les plans « avant-après »
[il faut un logiciel de statistique
ou éditer un programme sur Excel]
Tests Statistiques
Coefficients d’association
Le test de Khi2 peut être complété par les valeurs des
coefficients d’association comme :
• Phi de Pearson
• Coefficient de contingence
• V de Cramer
• T de Tschuprow
• Tau de Goodman et Kruskal (L/C)
• Tau de Goodman et Kruskal (C/L)
Les coefficients d’association varient entre 0 et 1 :

• Plus la valeur s’approche de 0 plus l’association est faible
• Plus la valeur s’approche de 1 plus l’association est grande
Tests Statistiques
V de Cramer / Khi2
Le V de cramer est un des Coefficients d'association

qui permet de mesurer la force de la relation (association)
entre deux variables.
Le test V de Cramer permet de comparer l’intensité du lien

entre les deux variables étudiées.
Plus V est proche de zéro, moins les variables étudiées sont
dépendantes.
Plus la valeur est élevée plus la liaison est forte.
Une V de Cramer = 1 veut dire que les variables sont
complètement dépendantes.
Tests Statistiques
V de Cramer / Khi2
Il existe une liaison entre les deux variables ;

le V de Cramer et le Khi2.
La force du lien statistique évalué par la valeur de V de Cramer

Tests Statistiques
Coefficient d’association : Phi de Pearson

En général, on peut interpréter les valeurs de Phi de Pearson comme suit :
•0,00 - 0,10 : Relation, variables très faiblement liées
•0,10 - 0,30 : Relation faible, variables faiblement liées
•0,30 - 0,50 : Relation modérée
•0,50 - 0,70 : Relation forte, variables très liées
•0,70 - 1,00 : Relation parfaite et variables fortement liées
Il est important de noter que la taille de l'effet de la relation entre les deux
variables dépend également du nombre de degrés de liberté du test du khi2
d'indépendance.
Phi de Person = (Khi2 / ddl)
En général, la taille de l'effet est plus faible lorsque le nombre de degrés de
liberté est faible.
Tests Statistiques
Exercice du Khi2 d’indépendance
Une population de 400 personnes est répartie par tirage au sort en 2 groupes G
et G' de 200 personnes chacun,
On se propose de comparer les réactions produites par deux vaccins
antivarioliques V et V', Le groupe G est vacciné à l'aide de V et G' à l'aide de V',
Les réactions produites par chacun des vaccins sont observées par, une
personne ignorant le vaccin utilisé,
Les résultats (effectifs observés) sont consignés dans le tableau suivant :
R B U
G (V) 20 160 20
G' (V') 16 174 10
Tests Statistiques
Effectifs observés : Coefficients d'association (1) :
R B U Total Coefficient Valeur

G (V) 20 160 20 200 Phi de Pearson 0.104
G' (V') 16 174 10 200 Coefficient de
Total 36 334 30 400 contingence 0.104
V de Cramer 0.104
T de Tschuprow 0.088
Effectifs théoriques : Tau de Goodman et
Kruskal (L/C) 0.011
R B U Total Tau de Goodman et
G (V) 18.000 167.000 15.000 200.000 Kruskal (C/L) 0.007
G' (V') 18.000 167.000 15.000 200.000
Total 36 334 30 400 Test d'indépendance entre les lignes et
les colonnes (Khi²) :
Khi² par
case : Khi² (Valeur
observée) 4.365
R B U Total Khi² (Valeur critique) 5.991
G (V) 0.222 0.293 1.667 2.182 DDL 2
G' (V') 0.222 0.293 1.667 2.182 p-value 0.113
Total 0.444 0.587 3.333 4.365 alpha 0.05
Tests Statistiques
Effectifs observés :
Test du khi-carré
Exemple : Préférence des Homme Femme Total
disciplines par genre.
Informatique 50 50 100
Soit le tableau ci-dessous, qui Géologie 110 25 135
donne les résultats d’une enquête
hypothétique effectuée auprès de Electronique 40 25 65
400 étudiants, sur leurs préférences Chimie 50 50 100
en discipline. On leur a demandé : Total 250 150 400
« Parmi ces 4 matières :
Informatique, Géologie, Electronique
et Chimie, laquelle préférez-vous ? » Effectifs théoriques :
(interdit de répondre «aucune»).
Homme Femme Total
Homme Femme Informatique 62.500 37.500 100.000

Informatique 50 50 Géologie 84.375 50.625 135.000
Géologie 110 25
Electronique 40 25 Electronique 40.625 24.375 65.000
Chimie 50 50 Chimie 62.500 37.500 100.000
Total 250 150 400
Tests Statistiques
Khi² par case :

Homme Femme Total
Informatique 2.500 4.167 6.667
Géologie 7.782 12.971 20.753
Electronique 0.010 0.016 0.026
Chimie 2.500 4.167 6.667
Total 12.792 21.320 34.112
Le degrés de liberté = (Nombre de lignes -1) x (Nombre de colonnes – 1)
Test d'indépendance entre les lignes Le khi-carré calculé est supérieur

et les colonnes (Khi²) : au khi-carré théorique : dépendance
Khi² (Valeur observée) 34.112 P-value < 0.05 la différence est
Khi² (Valeur critique) 7.815 significative. En plus le degré de
DDL 3 signification est inférieur à 1%
p-value < 0,0001 donc la différence est hautement
alpha 0.05 significative.
Tests Statistiques
Coefficients d’association
Coefficients d'association (1) :
Coefficient Valeur
Phi de Pearson 0.292
Coefficient de
contingence 0.280
V de Cramer 0.292
Tau de Goodman et
Kruskal (L/C) 0.035
Tau de Goodman et
Kruskal (C/L) 0.085
Tests Statistiques
Exercice du Khi2 de conformité

On cherche à vérifier si la fréquence d'une maladie est
liée au groupe sanguin.
Sur 200 malades observés, on a dénombré :

• 104 du groupe [O]
• 76 du groupe [A]
• 18 du groupe [B]
• 2 du groupe [AB]
On sait que dans la population générale la répartition

entre les groupes est :
• groupe [O] 47 %
• groupe [A] 43 %
• groupe[B] 7 %
• groupe [AB] 3 %
Tests Statistiques
Résultat du Khi2 de conformité sur Xlstat

Test d'indépendance entre les
Khi² par case
lignes et les colonnes (Khi²) :
ou Khi2 partiel :
Khi² (Valeur
Obs TH Total
observée) 58.431
O 5.202 6.383 11.586
Khi² (Valeur
A 1.661 2.038 3.699
critique) 7.815
B 19.167 23.518 42.686
DDL 3
AB 0.207 0.254 0.461
p-value < 0,0001
Total 26.238 32.193 58.431
alpha 0.05
Coefficients d'association (1) :

Coefficient Valeur
Phi de Pearson 0.401
Coefficient de contingence 0.372
V de Cramer 0.401
Tau de Goodman et Kruskal (L/C) 0.068
Tau de Goodman et Kruskal (C/L) 0.161
Tests Statistiques
H0 : Les lignes et les colonnes du tableau sont indépendantes.

H1 : Il existe un lien entre les lignes et les colonnes du tableau.
Etant donné que la p-value calculée est inférieure au niveau de signification

alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative
H1. On rejette H0 (Hypothèse de l’indépendance) et On accepte H1 qui suggère la
dépendance entre les deux variables ici, c’est la concordance
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,01%
Le V de Cramer est de 0.401

L’association est donc forte
Tests Statistiques
Résultat du Khi2 de conformité sur Real stat
Expected Values
Obs TH Total
O 83.1955923 67.8044077 151
A 65.5647383 53.4352617 119
B 48.4848485 39.5151515 88
AB 2.75482094 2.24517906 5
Total 200 163 363
Chi-Square Test
SUMMARY Alpha 0.05

Count Rows Cols df
363 4 2 3
CHI-SQUARE
chi-sq p-value x-crit sig Cramer V
Pearson's 58.4308002 1.2718E-12 7.8147279 yes 0.40120617
Max likelihood 60.5802239 4.4185E-13 7.8147279 yes 0.40851887
Tests Statistiques
Résultat du Khi2 de conformité sur BiostaTGV
Pearson's Chi-squared test
•Statistique observée Qobs : 58.430800240325

•p-value : 1.2718166687524E-12
•Paramètre du test : 3
•Tableau des effectifs attendus sous H0 :

Y1 Y2
X1 83.196 67.804
X2 65.565 53.435
X3 48.485 39.515
X4 2.755 2.245
Tests Statistiques
Résultat du Khi2 de conformité sur BiostaTGV
•Certaines cases des effectifs attendus sont inférieures à 5.
Les conditions de validité du Chi2 ne sont pas remplies
La valeur p (p-value) de votre test est 1.2718166687524E-

12. Toutefois, étant donné que les conditions de validité du
test ne sont pas remplies, nous vous conseillons de vous
référer au tableau de classification des tests pour choisir un
test plus approprié.
chisq.test(matrix(c(104,47,76,43,18,70,2,3),4,2,
byrow=TRUE), correct=FALSE)
Tests Statistiques
Autres tests utiles

Tests Statistiques
Equivalence entre
Tests paramétrique et non paramétrique
Test paramétrique Test non paramétrique

Test de Student
Test de Mann-Whitney
(non apparié)
Test de Student
Test de Wilcoxon
(apparié)
Test de Kruskall Wallis (k=2)
Analyse de variance
Test de Fridman (k>2)
Corrélation linéaire Test de Spearman
Tests Statistiques
Test Rapide des signes

(test unilatéral gauche des moyenne des séries de valeurs appariées)
Calculer les différences (X-Y) = d Pour chaque couple de valeur
Comptabiliser le nombre de « d » positif et de négatif
Garder le plus petit de ces deux nombres = « r »
Comparer la valeur dans la table de « r » au « ddl »= nombre de couples-1
Si r  r table ; les 2 séries Si r > r table ; les 2 séries

sont significativement différentes ne sont pas significativement différentes
(au risque choisi)
Tests Statistiques
Test U de Mann-Whitney
c’est l’adaptation aux techniques du t de Student
en estimant une comparaison entre
deux échantillons indépendants
(var. ord. Non appariées avec n total au moins égale à 10)
Les 2 échantillons n’ont pas besoin d’être identiques.

C'est un test de concordance où les deux échantillons
doivent être tirés de populations ayant la même distribution.
Le test U un test basé sur les rangs des échantillons. On
considère la somme des rangs observée dans les deux groupes
(R1 et R2) et le nombre de sujets (N1 et N2). et grâce à un calcul
simple,
le nombre U le plus faible est comparé à la valeur critique U
Tests Statistiques
Test U de Mann et Whitney

Soient en 2 séries de valeurs : respectivement n1 X et n2 Y
Mélanger les valeurs des deux séries X et Y
Classer la série des valeurs obtenues par ordre croissant
Réattribuer à chaque valeur son origine (X ou Y)
Calculer le degré d’Imbrication « I » en comptant la somme

de X<Y et Y<X (On gardera le plus petit « I »
Comparer « I » dans la table de U à la ligne (n1-n2) et la colonne du

plus petit effectif
Conclusion
Tests Statistiques
Exercice 1
Deux groupes de 10 étudiants ayant suivi une formation différente ont subi le
même examen. Le classement de l'examen est le suivant :
Groupe A : 1 3 4 5 7 8 8 12 15 17
Groupe B : 2 6 10 11 13 14 15 18 19 20
On veut déterminer si les différences de formation influencent

significativement les résultats.
(a) Montrer qu'il faut utiliser un test non paramétrique.
(b) Quel est le test non paramétrique le plus adéquat
(c) Faire le test proposé et conclure.
Tests Statistiques
Test de Mann-Whitney / Test bilatéral :
U 26.500
Espérance 50.000
Variance (U) 174.737
p-value (bilatérale) 0.082
alpha 0.05
Une approximation a été utilisée pour calculer la p-value.
H0 : La différence de position des échantillons est égale à 0.
H1 : La différence de position des échantillons est différente de 0.
Etant donné que la p-value calculée est supérieure au niveau de

signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est de

8,19%.
Tests Statistiques
Test de Wilcoxon
C’est une adaptation à la comparaison de
deux moyennes,
pour deux échantillons k=2, Var. ord. appariés.
Le test de Wilcoxon (comme le test U de Mann-Whitney) est un test

basé sur les rangs des échantillons.
Il calcule les différences (positives et négatives), le traduit en rang, puis
compare la distribution de la somme des rangs pour les deux
échantillons, et estime la différence observée.
Tests Statistiques
Exercice
Arbres Arbres
Douze arbres sont mesurés alors debout abattus
qu'ils sont debout, par une mesure 20.4 21.7
trigonométrique. Puis les mêmes 25.4 26.3
arbres sont mesurés au sol, après 25.6 26.8
abattage. 25.6 28.1
26.6 26.2
Quel test choisir pour comparer les 28.6 27.3
deux méthodes en supposant qu’on 28.7 29.5
n’a pas pu vérifier la normalité de nos 29 32
séries 29.8 30.9
La première méthode donne-t-elle 30.5 32.3
des résultats significativement trop 30.9 32.3
faibles ou trop élevés par rapport à la 31.1 31.7
deuxième méthode ?
Tests Statistiques
Test de Wilcoxon signé / Test bilatéral :

V 8.500
Espérance 39.000
Variance (V) 162.375
alpha 0.05
Une approximation a été utilisée pour calculer la p-value.
H0 : Les deux échantillons suivent la même loi de distribution.
H1 : Les distributions des deux échantillons sont différentes.
Etant donné que la p-value calculée est inférieure au niveau de

signification alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir
l'hypothèse alternative Ha.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est
inférieur à 1,86%.
Tests Statistiques
Test de Wilcoxon signé / Test bilatéral

sur Real statisrics
one tail two tail

mean 39
std dev 12.7426449ties
z-score 2.3542993yates
effect r 0.48056933
p-norm 0.00927883 0.01855766
p-exact 0.00610352 0.01220703
p-simul N/A N/A
Tests Statistiques
Test Kruskall-Wallis
Correspond à une (Var. ord. k>2 échantillons indépendants

Similaire à l’analyse de variance à un facteur)
Tous les chiffres seront remplacés par leur rang, et le test

nous indiquera si les diverses sommes des rangs sont
suffisamment différentes pour être significatives.
Tests Statistiques
Test de Friedman
Correspond à une version non paramétrique pour
var. ord. k>2 échantillons appariés
de l’analyse de variance à deux facteurs.
Tous les chiffres par sujets sont transformés en rang, puis on

compare la somme des rangs obtenus pour chaque situation,
à la somme théorique.
La loi de probabilité de Friedman est proche de celle du Khi2.
Tests Statistiques
Exercice :
On souhaite comparer les performances de quatre méthodes
différentes pour prédire la durée de vie d'un composant
électronique.
On dispose des données de durée de vie pour 10 composants,
chacun soumis aux quatre méthodes.
Les données sont présentées dans le tableau ci-dessous :
Méthode 1 2 3 4
Méthode 1 100 90 110 120
Méthode 2 80 70 90 100
Méthode 3 70 60 80 90
Méthode 4 60 50 70 80
Tests Statistiques
Test de Friedman (par Xlstat):
Q (Valeur observée) 12.000

Q (Valeur critique) 7.815
DDL 3
alpha 0.05
Friedman's Test (par Real statistics)

Alpha 0.05
Q-stat 12
df 3
p-value 0.00738316
H0 : Les échantillons proviennent de la même population.

H1 : Les échantillons proviennent de populations différentes.
Etant donné que la p-value calculée est inférieure au niveau de signification

alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse H1
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,74%.
Tests Statistiques
Test de corrélation des rangs de Spearman

Le test de corrélation des rangs de Spearman est un test statistique non
paramétrique qui mesure la relation entre deux variables ordinales ou discrètes.
Ce test est basé sur la comparaison des rangs des valeurs des variables.
Test de Friedman :
H0 : Les échantillons proviennent de la même
Q (Valeur population.
observée) 12.000 H1 : Les échantillons proviennent de populations
Q (Valeur différentes.
critique) 7.815
DDL 3
p-value Etant donné que la p-value calculée est inférieure au
(bilatérale) 0.007 niveau de signification alpha=0,05, on doit rejeter
alpha 0.05 l'hypothèse nulle H0, et retenir l'hypothèse alternative H1
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est

vraie est inférieur à 0,74%.
Tests Statistiques
Choix d’une méthode d'analyse multivariée

ou Analyse des données :
Le choix d’une méthode dépend de l’objectif initial,

des types de variables manipulées.
Tests Statistiques
CHAPITRE 1
INTRODUCTION

Tests Statistiques
De la probabilité à la statistique
PROBABILITE
Calcul à priori
pour prédire des
évènements
futurs STATISTIQUE
(Tables de probabilité Calcul à postériori
selon des lois pour analyser des
déterminées) évènements passés
Tests Statistiques
INFÉRENCE STATISTIQUE
En statistique, le test d'hypothèse

est utilisé comme une règle de décision
entre deux hypothèses.
Il sous-entend une inférence, c'est à dire un

raisonnement par lequel on admet une
proposition en vertu de sa liaison avec d'autres
propositions déjà tenues pour vraies.
Tests Statistiques
INFÉRENCE STATISTIQUE
C’est prédire les caractéristiques d'une population inconnue à

partir des statistiques déterminées sur un échantillon
représentatif de cette population.
L'inférence et la déduction statistique aident l'expérimentateur
à prendre une décision en considérant un risque d'erreur
associé.
Tests Statistiques
Quelques définitions
Population : ensemble total d'objets ou d'individus à étudier,

à partir duquel sont extraits des échantillons.
Echantillon : Sous ensemble de la population. Un
échantillon représentatif est un sous-ensemble choisi au
hasard dans la population.
Echantillonnage : est la sélection d'une partie dans un tout
et qui produit une série d'échantillons à étudier.
Estimateur : il permet d'évaluer un paramètre inconnu relatif
à une loi de probabilité (comme son espérance ou sa
variance dans le cas de la loi normale). La définition et
l'utilisation de tels estimateurs constitue la statistique
inférentielle.
Tests Statistiques
Test d'hypothèse
Il met en balance deux hypothèses : l'hypothèse de départ,

hypothèse nulle ou H0 (hypothèse la plus probable et
l’hypothèse alternative ou H1. C’est la négation de l'hypothèse
nulle. Ces deux hypothèses sont exclusives.
On fixe un seuil du risque de se tromper. Le seuil standard

α = 5%
• Si la probabilité observée est supérieure à α , on considère
l'hypothèse nulle comme plausible et on l’accepte, au moins
provisoirement.
• Par contre si cette signification est inférieure au seuil fixé, on
admet que la statistique et peu compatible avec l'hypothèse
nulle et, dès lors, on admet comme vrais, l'hypothèse
alternative.
Tests Statistiques
Modèles des tests d’hypothèses

Modèle bilatéral droit gauche H0/H1
Tests Statistiques

Modèle unilatéral droit H0/H1
Tests Statistiques
Modèle unilatéral droit H0/H1
S<s0 s≥s0
s0
H0 n’est pas infirmée H0 infirmée ou rejetée
(mais pas non plus confirmée à 100%) H1 acceptée
Tests Statistiques

Modèle unilatéral gauche H0/H1
Tests Statistiques
Généralités sur les tests d’hypothèses
Statistique inférentielle : Modèle H0/H1
H0
H1
Seuil critique, Risque, seuil de prise de décision ou Taille du test

Tests Statistiques
Types d’erreur et puissance du test
Quand on effectue un test d'hypothèse, on doit prendre en considération le

risque d'erreur et la puissance associé au test.
1-b
1-a
En résumé, les résultats possibles d'un test
d'hypothèse sont représentées dans le tableau suivant
Définition suite au test décision
Situation réelle Accepter H0 Rejeter H0

Décision correcte Erreur de type I
H0 vrai Niveau de confiance Probabilité = α où seuil de

= Probabilité (1 - α) probabilité
Généralement 5%
Décision correcte
Erreur de type II
H0 fausse Probabilité = β Puissance
Probabilité = 1 - β
Puissance ≥ 80%
Tests Statistiques
Facteurs qui influence la puissance d’un test
• L’importance de la différence entre les deux séries

• La variabilité des valeurs dans chaque série
• La taille des échantillons
Les 2 premiers points sont imposés par le système

et on ne peut pas les modifier.
Donc, pour augmenter la puissance d’un test statistique, il

faut agir sur la taille de l’échantillon.
Tests Statistiques
Exemple d’utilisation d’un test d’hypothèse
• Étudier les pourcentages d’un échantillon

dans une population
• Comparer les moyennes
• Comparer les variances
Tests Statistiques
POPULATION
? ?
Population 1 ?
= Population 2
Echantillonnage Echantillonnage
aléatoire aléatoire
Echantillon 1 Echantillon 2
Hypothèses
NB : Lettres grecques symbolisent les paramètres de la population de départ

Tests Statistiques
Comparaison des moyennes
La comparaison des moyennes nécessite la Transformation de la variable

Tests Statistiques
Transformation de la variable
Pour la loi normale N~(µ , ), il faut toujours passer par la
transformation vers une loi centrée réduite où toutes les
moyennes sont égales à 0 et tous les écart types sont = 1,
N~(0,1)
• Pour centrer les valeurs on retranche la moyenne µ de la

population à chaque moyenne x de l’échantillon
• Pour réduire on divise la valeur obtenue par l’écart type 

de la population
Ainsi les valeurs centrées réduites seront

(𝑥−µ)
y= avec m=0 et µ =1

Tests Statistiques
Règle empirique de la loi normale

De nombreuses situations statistiques aléatoires concrètes
sont modélisées par une loi empirique appelée distribution
normale.
Lorsque la distribution des individus dans une population
obéit à la loi normale on a des propriétés communes :
• La moyenne = centre = 0
• L'écart-type = dispersion = 1
 68% des observations sont comprises dans un intervalle

de moyenne ±1 écart-type
Tests Statistiques
(𝑥 − µ)
y= 𝑜𝑢 𝑦 = 𝑍 𝑎𝑣𝑒𝑐

Tests Statistiques
Loi Normale : Propriétés générales

et repères graphiques
68% 95% 99%

Tests Statistiques
Loi Normale : Densité de probabilité

Densité de la probabilité dans le cas de la courbe de Gausse = 1
Théorèmes :
• P(x<-a)=P(x>a)
• P(x<-a) = 1 - P(x<a) -a -a a
• P(x>a) = 1 - P(x<a)
a a
• P(a<x<b) = P(x<b) - P(x<a)
a b a b
Tests Statistiques
Exercice 1
Distribution selon la loi normale
On a mesuré la tension artérielle systolique d'un
échantillon de grande taille de femmes (400 femmes).
La pression artérielle moyenne est de 125 millimètres de
mercure et l’écart-type est de 10 millimètres de mercure.
La distribution normale qui résume ces données est
Tests Statistiques
Loi normale centrée réduite

Pour standardiser les valeur de Y → Y
On centre les valeurs en retranchant la moyenne globale à chaque
valeur de la série (x - µ) Puis refaire la moyenne des valeurs
trouvées. Cette nouvelle moyenne est toujours égale à « 0 »
Pour réduite il faut diviser chaque valeur par 
Ainsi pour chaque valeur il faut calculer la nouvelle valeur z=(x-µ)/

On aura donc la moyenne = 0 et l’écart type =1
L’abscisse représente les L’abscisse représente

valeur expérimentales les valeurs de z
Tests Statistiques
M=125 mm Hg
Questions 1: =10 mm Hg
Quel est le pourcentage de femmes dont
68%
la pression artérielle est comprise
entre 105 et 135 millimètres
95%
de mercure ?
105 115 125 135 145
Rep 1/ =95-(95-68)/2 = 81.5 %
Questions 2:
Combien de femmes de cet échantillon ont une pression artérielle
supérieure à 145 millimètres de mercure ?
Rep 2/ 10 femmes
Tests Statistiques
Exercice 2 , Excel
On suppose qu’une variable X~N(0,1). Pour quelle proportion

d’individus est-ce que X<=1,56 ?
On doit chercher P(X<=1,56)
Sur Excel les fonctions à utiliser sont :
Pour retrouver p à partir de la valeur de z connue :

=LOI.NORMALE.STANDARD.N(1,56;1) donne la probabilité = 0,9406
Pour retrouver z à partir de la probabilité p connue :

=LOI.NORMALE.STANDARD.INVERSE.N(0.9406) donne z = 1.56
Tests Statistiques
Exercice 3, Excel
Exercice
Sur un grand nombre de personnes on a constaté que la
répartition du taux de cholestérol suit une loi normale avec
les résultats suivants :
✓ 56% ont un taux inférieur à 165 cg;

✓ 34% ont un taux compris entre 165 cg et 180 cg;
✓ 10% ont un taux supérieur à 180 cg.
Question :
Quelle est le nombre de personnes qu’il faut prévoir de
soigner dans une population de 10 000 personnes, si le taux
maximum toléré sans traitement est de 182 cg ?
Tests Statistiques
Données connues :
56% 34% 10%
165 180
56% 34% 10%
=(165-m)/ =(180-m)/)
Tests Statistiques
Calcul de m et  =LOI.NORMALE.STANDARD.INVERSE(0,56)=0.15
z->=LOI.NORMALE.STANDARD.INVERSE.N(0.56)
->
=LOI.NORMALE.STANDARD.INVERSE(0,9)=1.28
D’où
m=163 et =13.3
Calcul %
=LOI.NORMALE.STANDARD(1,42)=0.922p=LOI.NORMALE.STANDARD.N(1.42;1)
ou encore 7.8% Donc, les 7,8% du total 10 000 = 780 personnes

Tests Statistiques
Exercice 4, Excel
1. Un écologiste étudie une population de chauves-souris de l'espèce Grand
Rhinolophe. D'après la littérature, il sait que l'envergure de ces chiroptères obéit à
une distribution normale dont la moyenne est de 375 mm pour une variance de 225
mm2.
Cet écologiste capture un individu dont la taille est de 350 mm. Cet individu est-il
considéré comme conforme ou bien est-il significativement différent de ce que
prévoit le modèle avec un seuil de risque de 5% ?
Données issues de l'énoncé

μ = 375 mm x = 350 mm
σ2 = 225 mm2
-1,96<-1,66666667<1,96 c'est-à-dire que z observé est comprise entre les bornes

de l'intervalle de confiance à 95%.
On accepte donc H0 Cela veut dire qu'on n'a pas réussi à montrer que l'individu
capturé était significativement différent de la normale pour un risque
α = 0,05
Pour z entre -1,96 et 1,96 la moyenne doit être entre [345.6 et 400.4] or on a 350 mm
Tests Statistiques
Les tests les plus utilisés en biologie sont :
•Tests pour la vérification de la normalité

• Test de Shapiro-Walk (normalité)
• Le test de Kolmogorov-Smirnov (ajustement)
• Tests Paramétriques (sur variables échelles), ils exigent la

normalité
•Tests Non Paramétriques qui n’exigent pas de normalité

• Test Khi2 (ajustement et indépendance)
• Test U de Mann et Whitney (concordance)
• Le test Rapide des signes
Tests Statistiques
Vérification de la normalité.
Les méthodes de vérification de la normalité

sont nombreuses :
• Les méthodes graphiques
•Asymétrie & aplatissement
•Droite de Henry (= QQplot),
•PPplot,
•Histogrammes,
•Boxplot.(=Boite à moustache) ...
• Les méthodes basées sur la valeur du tests

•Shapiro-Wilk (*) (pour n entre 5 et 50),
•Kolmogorov-Smirnov (*),
•Khi2,
•...
(* les plus utilisés)
Tests Statistiques
La non normalité est donnée par les limites

Skewness et Kurtosis -2 à +2
Distribution normale théorique

Skewness =0
Kurtosis =0
Biais négatif
Biais positif Biais négatif
Biais positif
le degré d’asymétrie le degré d’aplatissement

(Skewness) (Kurtosis)
Si biais positif (+) :les transformations à faire: log, 1/x ou V

Si biais négatif (-) :mettre au carré ou autre puissance.
Tests Statistiques
Vérification de la normalité : Asymétrie

Skewness
Asymétrie Le coefficient d'asymétrie
de Pearson noté p, est
basé sur l'écart entre la
moyenne et le mode est
défini par :
𝑥ҧ − 𝑀o
𝑝=
𝜎
Vérification de la normalité et normalisation

- Si p > 0, biais positif (+). Alors la série est étalée vers la droite et les
transformations à faire pour la normalisation : log, 1/x ou V----
- Si p < 0, biais négatif (-). Alors la série est étalée vers la gauche et les
transformations à faire pour la normalisation : carré ou puissance.
- Pour une distribution symétrique on a 𝐥𝐚 𝐦𝐨𝐲𝐞𝐧𝐧𝐞 = 𝐦𝐨𝐝𝐞 =
ഥ- 𝑴𝒐 = p = 0.
𝐦é𝐝𝐢𝐚𝐧𝐞 𝐝𝐨𝐧𝐜 𝒙
Tests Statistiques
Vérification de la normalité : Aplatissement

Kurtosis
Leptokurtique : courbe élancée

écarts types faibles
Distribution homogène
Mésokurtique : courbe
normale en cloche
Platikurtique : courbe plate

écarts types élevées
Distribution hétérogène
Tests Statistiques
Vérification de la normalité : Paramètre de forme
Dans le cas d’une répartition

normale théorique,
ces deux paramètres de
formes sont = 0
En situation expérimentale, pour

considéré une répartition comme
normale les deux paramètres de forme
doivent être dans l’intervalle [-2, 2]
Dr. H. Elmazzoudi 11/01/2024 35

Tests Statistiques
Exercice : QQplot sur Excel

Soit la série issue d’une distribution normale N (0 ; 216) de valeurs :
-138.38 77.75 233.96 -233.56 -131.52 368.52 -36.37 -78.03 94.72
2.58 72.66 23.13 108.97 -444.99 323.42 125.54 -322.12
Utiliser le QQ plot pour vérifier la normalité de cette série de résidus.
Etapes à suivre :
1. Trié les n valeurs observées par ordre croissant,
2. Ajouter une colonne des rangs
3. Déterminer les quantiles théoriques
= LOI.NORMALE.INVERSE(probabilité de chaque rang ; moyenne ; écart ; type)
4. Tracer le nuage des points et la bissectrice des quantiles observés en fonction
des quantiles théorique calculés
Interpréter le résultat obtenu
• Une ligne droite Distribution gaussienne
• Une ligne qui n'est pas droite Pas de normalité
• Un point éloigné de la ligne Une valeur aberrante
• Une modification de la pente Une variable non identifiée
Tests Statistiques

Résidus = Quantiles Rang des
Quantiles observés Quantiles Quantiles 500
observés ordonnés observés Théoriques y = 1,0427x - 20,14
400
-138.38 -444.99 1 -337.98092 R² = 0,9666
77.75 -322.12 2 -256.35559 300
233.96 -233.56 3 -200.64229
200
-233.56 -138.38 4 -155.84881
Quantiles observés
-131.52 -131.52 5 -116.94134 100
368.52 -78.03 6 -81.51666
-36.37 -36.37 7 -48.169691 0
-78.03 2.58 8 -15.938915 -400 -200 0 200 400
-100
94.72 23.13 9 15.9389151
2.58 72.66 10 48.1696915 -200
72.66 77.75 11 81.5166599
-300
23.13 94.72 12 116.941338
108.97 108.97 13 155.848813 -400
-444.99 125.54 14 200.64229
323.42 233.96 15 256.355589 -500
125.54 323.42 16 337.980918 Quantiles théoriques
-322.12 368.52 17
[NB : Quantiles théoriques : exemple =loi.normale.inverse ((C3/17);0;216) = -256.355]
Si les points s’alignent sur la première bissectrice c'est que la distribution suit
probablement une loi de distribution gaussienne normalisée.
Dans cet exercice, les points sont alignés sur une autre droite d'équation ax+b, c'est que la
distribution observée suit une loi normale
Tests Statistiques
QQ plot QQ plot
2 500
y = 0,9876x - 7E-17 1,5 y = 212,92x + 2,7224 400
R² = 0,9754 R² = 0,9754
1 300
200
0,5
100
0
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 0
-0,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-100
-1
-200
-1,5 -300
-2 -400
-2,5 -500
Dans cette présentation Dans cette présentation xobs=f(ztheo), on a la

zobs=f(ztheo), on a la même même distribution avec un R² = 0,9754 proche
distribution avec un R² = 0,9754 de 1 et y = 212,92x + 2,7224
proche de 1 et y=0,9876x - 7E- Une distribution normale, de Moyenne 213
17 (sachant que pour une et d’écart type de 2,7. Les valeurs sont proche
distribution normale, (0,1) de celles des valeurs observes Moyenne 216 et
écart type de 2,7
Tests Statistiques
QQplot sur Xlstat
Le premier résultat affiché est le Q-Q plot

pour le premier échantillon. Le Q-Q plot
permet de comparer la fonction de
répartition de l'échantillon (en abscisse) à
celle qu'aurait une loi normale de même
moyenne et même variance (en
ordonnées).
Dans le cas d'un échantillon issu d'une

distribution normale, on doit observer un
alignement presque parfait avec la
première bissectrice du plan.
Dans le cas contraire des écarts doivent

être observés.
Tests Statistiques
Réalisation des boxplots
On place les différents quartiles avec le Q0 (min), le Q1

(25%), le Q2 (la médiane avec 50%), le Q3 (75%) et le
max (Q4).
On y ajoute les outliers qui correspondent à des
observations dont les valeurs sont à l’extérieur de
l’intervalle 1.5xl’interquartile :
•>Q3+1.5(Q3-Q1)
•<Q1+1.5(Q3-Q1)
Tests Statistiques
Réalisation des boxplots

On place les différents quartiles avec le Q0 (min), le Q1 (25%), le Q2 (la médiane
avec 50%), le Q3 (75%) et le max (Q4).
*
INTERPRÉTATION
Valeurs aberrantes ou valeurs

Outliers,
sont les valeurs
>1.5 fois et <3 fois l’intervalle
interquartile
au-delà de chaque
* coté de la boite
Tests Statistiques
Exemple de transformation logarithmique

pour effectuer une normalisation des données
Normalisation
Tests Statistiques
Exemple de transformation réciproque (1/x)

pour effectuer une normalisation des données
normalisation
Tests Statistiques
Tests de valeurs aberrantes
Le test de Dixon et le test de Grubbs sont tous deux des tests statistiques utilisés
pour identifier les valeurs aberrantes dans un échantillon. Cependant, ils diffèrent
de plusieurs manières :
La méthode de calcul : le test de Dixon utilise la distance entre la valeur aberrante

et la moyenne de l'échantillon, tandis que le test de Grubbs utilise la distance
entre la valeur aberrante et la médiane de l'échantillon.
La distribution des données : le test de Dixon suppose que les données suivent
une distribution normale, tandis que le test de Grubbs ne fait aucune hypothèse
sur la distribution des données.
La taille de l'échantillon : le test de Dixon est plus puissant que le test de Grubbs
pour les échantillons de petite taille.
Tests Statistiques
Conditions d'utilisation
Les deux tests ont les mêmes conditions d'utilisation suivantes :
• Les données doivent être indépendantes.

• Les valeurs aberrantes doivent être identifiées visuellement
à partir du graphique boîte à moustaches.
Le test de Dixon a également les conditions d'utilisation suivantes :
Les données doivent suivre une distribution normale. L'échantillon doit avoir
de préférence une taille maximale de 10.
Le test de Grubbs n'a pas de conditions d'utilisation sur la distribution des

données. Cependant, il est recommandé que l'échantillon ait une taille d'au
moins 25.
Le test de Dixon est basé sur la distribution de Student, tandis que le test
de Grubbs est basé sur la distribution de Kolmogorov-Smirnov.
Cela signifie que le test de Dixon est plus précis que le test de Grubbs,
mais il nécessite que la distribution des données soit normale.
Tests Statistiques
Table de la loi de Dixon
Valeur de r1 − α
Tests Statistiques
Exercice : Test de Dixon
Dans la fabrication de comprimés effervescents, il est prévu que chaque

comprimé doit contenir 1 625 mg de bicarbonate de sodium. Afin de
contrôler la fabrication de ces médicaments, on a prélevé un échantillon
de 10 comprimés et on a mesuré la quantité de bicarbonate de sodium en
mg pour chacun d’eux.
Les résultats obtenus sont résumés dans le tableau suivant:

1 620 1 621 1 623 1 628 1 633 1 635 1 637 1 641 1 643 1 659
• Réaliser un graphique sur un axe gradué pour détecter quelle(s)

valeur(s) semble(nt) aberrante(s).
• Effectuer le test de Dixon au seuil de risque 0,05 pour tester si la valeur
supérieure 1 659 est aberrante.
NB : La valeur critique tabulée est r0,95 = 0,412.

Tests Statistiques
Exercice : Test de Dixon
On teste les deux hypothèses :

H0 : "1 659 n’est pas une valeur aberrante."
H1 : "1 659 est une valeur aberrante."
n = 10 donc on utilise la variable aléatoire R qui prend comme valeur

observée
est égale à 0,410
Comme la valeur critique est r(0,95) = 0,412 et que la valeur calculé

Robs=0,41
et que la valeur calculé est < Valeur Tabulée (0,412) : on n'est pas en
mesure de rejeter H0.
Au seuil de 0.05, la valeur 1 659 ne peut pas être considérée comme

aberrante.
Tests Statistiques
Lors d’un dosage de sodium par photométrie de flamme, on a procédé à un

étalonnage (fond de flamme à 0 et solution concentrée à 100). Les mesures
figurent dans le tableau suivant :
X
Concentration de 0 5 10 15 20 25 30
sodium (en mg/L)
Y
Indication du 0 18 34 55 70 70 100
photomètre
La valeur observée pour la concentration de 25 mg/L peut-elle être

considérée comme aberrante ?
Tests Statistiques
X Y
0 0
5 18
10 34
15 55
20 70
25 70
30 100
On détermine l’équation de la droite d’ajustement de Y en X par la

méthode des moindres carrés : y = 3,1 x + 2,4.
Calcul des résidus :

Tests Statistiques
Classement des résidus par ordre croissant :
Valeur observée de R : =(-2.4-(-9.9))/(6.1-(-9.9))=0,469
Valeur critique au seuil de 0,05 : r0,95 = 0,507.
Décision : 0,469 < 0,507,

on accepte H0 au seuil de 0,05 ce qui justifie que la valeur suspectée
n’est pas aberrante.
Tests Statistiques
Test de Grubb
Pour utiliser le test de Grubb, on calcule d’abord :

X : La moyenne de l’ensemble des mesures
S : L’écart-type de l’ensemble des mesures
G : Distance entre la valeur suspectée d’être un point aberrant et la
moyenne :
On compare ensuite la valeur de G

obtenue à un G limite :
Si G > Glimite la valeur est considérée comme aberrante et inversement.

Tests Statistiques
Test de normalité : Test de Shapiro et Wilk :
Recherche de normalité pour des échantillons de taille

comprise entre 5 et 50. (5 ≤ n ≤ 50)
On choisit un risque (5 % ou 1 %) et on compare la valeur de W à une

valeur Wcrit, dite valeur critique, lue dans la table de Shapiro et Wilk.
• Si Wcal > Wcrit on accepte la normalité de la série de mesure, au
risque choisi
• Si Wcal < Wcrit on rejette l'hypothèse de normalité de la série de
mesure.
La statistique W du test peut être
aperçue comme le R2 d’une régression linéaire.
Plus elle est élevé plus on s’approche de la normalité.
Exercice 5
Tester la normalité de cette série en utilisant le test de Shapiro et Wilk
Titrage Yi : 40 ; 45 ; 50 ; 55 ; 60 ; 60 ; 60 ; 65 ; 70 ; 70 ; 80
Tests Statistiques
Test de normalité : Test de Shapiro et Wilk :
Si n est pair il y aura alors n/2 différences.

Si n est impair il y aura alors (n-1)/2 différences, l’observation médiane ne
sera pas utilisée.
Les coefficients ai sont donnés dans une table en fonction de n et i .
Comparer W à W1-α,n
W1-α,n est trouvé dans la table de Shapiro-Wilk en fonction du risque
d’erreur α et de la taille de l’échantillon (le nombre d’observations) n
On peut écrire P() = 1- α
si W < W1-α,n la distribution NE SUIT PAS UNE LOI NORMALE

si W ≥ W1-α,n la distribution SUIT UNE LOI NORMALE
Tests Statistiques
Test de Shapiro
(Test Unilatéral Gauche)
Calculer :
1/ la moyenne de yi
2/ (yi-moyenne)2 puis
3/ somme des (yi-moyenne)2
4/ dj = yn - y1 ; yn-1 – y2 ; …
5/ [aj : Pour n=10 i=? (à rechercher
sur la table de Shapiro)]
6/ Calculer aj*dj ; (aj*dj)2 puis
7/ somme des (aj*dj)2
8/ Calculer Wcal avec :
Wcal = (ajdj)2 /
(yi – moyenne)2
Wcal=0.959
Tests Statistiques
TABLE
DES COEFFICIENTS
POUR UN TEST
DE SHAPIRO et WILK
Les
coefficients
pour n=10
sont
encadrés en
rouge
Tests Statistiques
TABLE DE
SHAPIRO
et WILK
Pour n =10
et un
risque
de 5%
W= 0,842
Tests Statistiques
On lit dans la table de Shapiro et Wilk pour n =10 et

un risque de 5% la valeur de Wcrit = 0,842
La valeur calculée étant Wcal=0.959
Wcal > Wcrit,

On accepte donc, au risque de 5%,
l'hypothèse de normalité de la distribution statistique
de cette série de donnée.
Tests Statistiques
Tester la Normalité de la série de données ci-joint en

Exercice
utilisant le Test de Shapiro-Wilk:
Données Résultat :
1 Test de Shapiro-Wilk = W0.907
7 p-value (bilatérale) = 0.196 pour un seuil a=0,05
18
9 -----------------
9
18 Interprétation du test :
27 H0 : La variable dont provient l'échantillon suit une loi Normale.
12 H1 : La variable dont provient l'échantillon ne suit pas une loi Normale.
10
32 Etant donné que la p-value calculée = 0.196 est supérieure au
6 niveau de signification seuil a=0,05, on ne peut pas rejeter
37 l'hypothèse nulle H0.
Tests Statistiques
Test Shapiro Wilk:
Exercice 6
On a prélevé un échantillon de 10 feuilles de vigne puis on a testé la minéralisation.
À partir de la série de données suivantes dire si la quantité de minéraux dans les
feuilles de vignes suit une loi normale pour un risque d’erreur de 5%.
1.08 7.68 8.28 8.23 7.63 11.74

10.3 10.05 12.87 9.02 11.72
Réponse (basée sur la p-value)
p-value calculée est supérieur à la W 0.864

probabilité du risque fixée. p-value (bilatérale) 0.064
La distribution de la quantité de minéraux
alpha 0.05
dans les feuilles de vigne suit donc une
loi normale

0 INTRO 23 24 - Merged

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

0 INTRO 23 24 - Merged

Transféré par

Droits d'auteur :

Formats disponibles

Module : Enzymologie appliquée et

An. Un.2021/2022 H. Messaouri

•Graphique linéaire : pour représenter

•Nuage de points : pour représenter la

Tableau de données brutes : il s'agit du type de tableau le plus simple. Il

Tableau de fréquences : ce type de tableau présente le nombre

Tableau de contingence : ce type de

• Tirer des conclusions sur une population à partir

An. Un. 2023/2024 H. Messaouri

Première étape pour analyse

• Vérification des effectifs et des fréquences

• Faire une analyse descriptive

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

xi ni FrRel FrRelCroi Fr%

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

La liste de fréquence et les

mais on a souvent besoin d’indices

Les paramètres numériques

1. Paramètres de position (ou de centrage)

3. Autres paramètres supplémentaires, paramètre

les danseuses ont un

An. Un. 2023/2024 H. Messaouri

La moyenne est le point auquel il faudrait placer un

An. Un. 2023/2024 H. Messaouri

•si n est impaire, la médiane est la valeur

An. Un. 2023/2024 H. Messaouri

Calculer la médiane des deux séries :

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

3. Le mode (ou dominante)

C’est la valeur la plus fréquente ou la plus répétitive dans

An. Un. 2023/2024 H. Messaouri

Fonction Excel =MODE(plage)

Le mode ne marche pas toujours

– Ici, toutes les fréquences sont identiques

An. Un. 2023/2024 H. Messaouri

Les séries peuvent avoir

Grouper les données

Exemple, durées des pauses dans un discours (ms)

Relation entre les trois indices

An. Un. 2023/2024 H. Messaouri

Les trois paramètres de position,

•sont confondus dans une population à

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

An. Un. 2023/2024 H. Messaouri

Quel indice choisir ?

An. Un. 2023/2024 H. Messaouri

Quel indice choisir ?

An. Un. 2023/2024 H. Messaouri

1.L’Étendu ( range en anglais)

On ne l’utilise généralement que pour avoir

An. Un. 2023/2024 H. Messaouri

Fractiles : Exemple les Quantiles

1er Quartile : la plus petite valeur des observations pour

2ème Quartile : la plus petite valeur des observations pour

3ème quartile : la plus petite valeur des observations pour

An. Un. 2023/2024 H. Messaouri

Exercice : les quartiles