Académique Documents
Professionnel Documents
Culture Documents
Outils biostatistiques 2
Partie 2 :
Outils biostatistiques
Pour licence Abiocq
Messaouri 07/12/2023 5
Tableau de données groupées : ce type
de tableau présente les données
groupées en catégories. Cela peut être
utile pour mettre en évidence des
tendances ou pour comparer des groupes
différents.
Messaouri 07/12/2023 6
Asymétrie Aplatissement
STATISTIQUE INFÉRENTIELLE
OBJECTIFS DE LA PARTIE DU MODULE A ENSEIGNER
Statistique descriptive
Distribution de fréquences
Distributions non groupées :
Quand les observations sont peu nombreuses, on peut les condenser
sous forme d'un tableau statistique (Observations séparées).
Distribution groupées :
Dans le cas de variables continues,
Distribution groupées
avec un très grand nombre
d'observations, il est nécessaire de
condenser les valeurs sous forme de
classes dans le tableau de
distribution de fréquences.
Chaque classe est caractérisée par
une borne inférieure, une borne
supérieure, une amplitude (ou
étendu) et un point central (ou
médiane).
• Représentations graphiques
renseignent sur la forme des distributions
Exemple :
Fréquence des longueurs de prénoms des étudiants
Exercice fréquence
1 - Faire une série statistique formée par l’ensemble des couples
(nombres de taches par pièces , nombre de pièces tachées)
(1.50) ; (2.60) ; (7.5) ; (10.20) ; (12.10) ; (15.20) ; (20.13) ; (22.9)
2 - Calculer les fréquences absolues cumulées croissantes
3 - Calculer les fréquences relatives
4 - Calculer les fréquences relatives cumulées croissantes
5 - Donner le pourcentage de pièces ayant 10 tâches au plus
6 - Donner le pourcentage de pièces ayant au moins 15 tâches
7 - Tracer la courbe histogramme des effectifs en fonction des
nombres de tâches
Au plus 10 : 72.2%
Au moins 15 : 100 – 77.5 = 22.5%
Au plus 10 : 72.2%
Au moins 15 : 100 – 77.5 = 22.5%
Paramètres de position
(ou tendance centrale) :
Moyenne, médiane et mode.
1.La moyenne
Il y a plusieurs types de moyennes
• moyenne arithmétique ( )
x
• moyenne géométrique (G)
• moyenne harmonique (H)
• moyenne quadratique (Q)
Pour une même série statistique H<G< x <Q
An. Un. 2023/2024 H. Messaouri
Choix du test statistique
Calcul de la moyenne
Généralement, on prend la moyenne arithmétique comme
paramètre de position.
C’est un paramètre sensible aux valeurs extrêmes.
Il est égale à la somme des valeurs divisée par le nombre
d’individus.
X 1 + X 2 + ... + X n Représentation synthétique
m=
N
m=
X i
N
Pour calculer la moyenne d’une distribution de fréquence on
utilise la formule 1 k
k
x= i =1
nixi = i =1
fixi
n
An. Un. 2023/2024 H. Messaouri
Choix du test statistique
Moyenne :
Fonction Excel =MOYENNE(plage)
A B Données
1 Données danseuse 1
51
2 4 danseuse 2
52
3 1 danseuse 3
45
4 2 danseuse 4
50
5 danseuse 5
51
0
6 danseuse 6
51
7
danseuse 7
53
7 7 danseuse 8
49
8 Moyenne Formule sumotori
235
9 3,50 =MOYENNE(A2:A7) Moyenne Formule
70,78 =MOYENNE(A2:A10)
Analogie physique
2. La Médiane
Elle partage la série statistique en deux groupes
d’observations de même taille.
Elle est recherchée sur des séries ordonnées du
plus petit au plus grand ou l’inverse.
Exercice médiane
1. 10 25 22 8 9 20 30 4 35
2. 10 9 35 20 25 4 8 30
Calcul de la médiane
Sur Excel =MEDIANE(plage)
4 8 9 10 20 22 25 30 35
Il y a 9 valeurs (n impaire) donc la médiane est la
(9/2+1)ième valeur donc la 5ième valeur : 20
4 8 9 10 20 25 30 35
Il y a 8 valeurs (n paire) donc la médiane est la
moyenne de la (8/2 et la 8/2+1) ième valeur donc
la moyenne de la 4ième et la 5 ième valeur
: (10+20)/2=15
Exercice : mode
Retrouver le mode des deux séries suivantes :
▪ 1 1 3 3 3 5 5 5 5 6 7 7
▪ 1 2 3 4 5 6 7 8 9 10 11
Distribution bimodale :
2 modes
Distribution multimodale :
plusieurs modes
An. Un. 2023/2024 H. Messaouri
Choix du test statistique
Distribution asymétrique
Etalée à droite
mode < médiane < moyenne
Distribution asymétrique
Etalée à gauche
mode > médiane > moyenne
• Moyenne
– la force de l’habitude
(Valable dans les distributions symétriques)
• Médiane
– Meilleur indice dans les distributions asymétriques
Paramètres de dispersion :
L’étendu, la variance et l’écart type.
11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23
La distance interquartiles
correspond aux 50% des données centrales appartenant à
cette série statistique «valeurs centrales» .
Elle se situe dans ce cas entre les valeurs
Q3 et Q1 = 19 - 13 = 6
max
3ème quartile
médiane Distance
interquartiles
(50% des
1er quartile valeurs)
Min
2. La Variance
C’est la variabilité générale de la variable.
C’est 2 ou s2
Population Echantillon
Exercice
Calculer la variance (var) de la série suivante
A Résistance
2 135
3 130
Formule Excel
4 137
5 132 =VAR(plage)
6 131 pour les échantillons
7 137
8 132
9 135 =VarP(plage)
10 130 pour la population entière
11 129
ni( xi − x)
σ2 = i =1
N
ni
i =1
nixi 2
σ2 =
2
i =1
−x
N
i =1
ni
An. Un. 2023/2024 H. Messaouri
Choix du test statistique
3. L’écart type
C’est la racine carré de la variance
( xi − x ) 2
σ=
n
Exercice
Calculer l’écart type de la série suivante
A Résistance
2 135 Formule Excel
3 130
4 137 =ecartype(plage)
5 132 pour les échantillons
6 131
7 137
8 132 =ecartypeP(plage)
9 135 pour la population entière
10 130
11 129
Exercice
Notes Effectifs
1.Calculer l’effectif total [0;5[ 10
2.La moyenne globale [5 ; 8[ 8
3.La variance [8 ; 12[ 137
4.L’écart type [12 ; 15[ 132
[15 ; 20[ 131
Autres Paramètres :
Le coefficient de variation CV
(Coefficient of variation, percentage standard deviation)
s
CV = 100
x
An. Un. 2023/2024 H. Messaouri
Choix du test statistique
x − t ; x + t
n n
1/ Coefficient d’aplatissements
Sur Excel :
Paramètres d'aplatissement et de d’asymétrie
sont donnés directement par le résultat de
la statistique descriptive
de l’utilitaire d’analyse
Une telle
variable
statistique est
représentée par
un tableau à
double entrée
appelé :
Tableau de contingence
Choix du test statistique
Oui Non
(La variable a une distribution Gaussienne)
Tests non
Non Oui paramétriques Diapo suite
Tests
Appariées Test de Walsh / Test de Randomisation
non
paramét
riques Non appariés Test de Randomisation
Choix du test statistique
Test de
Kolmogorov-Smirnov
2 échantillons Plusieurs échantillons
Appariés
Test des signes Appariés
Test Wilcoxon Test de Fridman
Non appariées
Test de la médiane Non appariées
Test de Mann-Whitney Test de Kruskall-Wallis
Choix du test statistique
1 échantillon Oui
Test de
Binomial
Apparié Appariés
Test de X2 de Mac Neman Test de Cochran
Non appariées
Test de Fischer Non appariées
Test X2 Test X2
Choix du test statistique
(macro « free »,
avec calcul
sous Excel )
(macro
« free », avec
calcul sous
Excel )
Echantillons Test de T. de Student
appariés Wilcoxon (dans“Test d’égalité des espérances:
observations pairées”)
Tests paramétriques
• La dépendance
Tests Statistiques
=TEST.STUDENT(matrice1,matrice2,uni/bilatéral,type)
EXERCICE
Neuf malades présentant des symptômes d’anxiété reçoivent un
traitement. On évalue l’état des malades avant et après traitement par un
indice que le médecin traitant calcule d’après les réponses à une série de
questions. Si le traitement est efficace, l’indice doit diminuer. Les valeurs
de cet indice sur les neuf patients sont les suivants :
Patient 1 2 3 4 5 6 7 8 9
Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3
Après 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29
Avant Après
1.83 0.88 Test de Normalité Shapiro-Wilk
0.5 0.65 Avant 0.714
1.62 0.59 Après 0.134
2.48 2.05
1.68 1.06 Test d’égalité des variances à faire
1.88 1.29 pour les échantillons non pairés
1.55 1.06
Levene Bartlett
3.06 3.14
0.859 0.912
1.3 1.29
Les observations sont pairés, et les 2 séries suivent la loi normale.
Donc Le test à faire est le test de Student à variables pairées.
Avant Après
Moyenne 1.766666667 1.334444444
Variance 0.512075 0.644477778
Observations 9 9
Coefficient de corrélation de Pearson 0.846846399
Différence hypothétique des moyennes 0
Degré de liberté 8
Statistique t 3.026412693
P(T<=t) unilatéral 0.008199333
Valeur critique de t (unilatéral) 1.859548038
P(T<=t) bilatéral 0.016398666
Valeur critique de t (bilatéral) 2.306004135
Tests Statistiques
Décision statistique :
La différence entre les deux états est très significative (P entre 1% et 1%°).
Tests Statistiques
Exemple 1 :
Test de Student pour échantillon unique
comparé à une référence sur Xlstat (en option)
D’après un rapport, on trouve que les hommes de plus de 30 ans regardent la
télévision en moyenne de 25 h par semaine. Pour cette moyenne dans une
population d’étudiants. Onze étudiants ont comptabilisé leur temps passé devant
la télévision, par semaine :
Etudiants
10
8 Différence -7.364
15 t (Valeur observée) -2.726
28
20 |t| (Valeur critique) 2.228
19 DDL 10
13
20 p-value (bilatérale) 0.021
9
alpha 0.05
14
38
Interpréter le résultat obtenue.
Tests Statistiques
Etudiants 10 8 15 28 20 19 13 20 9 14 38
z-Test
(Comparaison des moyennes des grandes séries)
Appareil 2
5,64 4,54 4,72 5,17
4,42 5,18 4,48 4,58 4,27 5,04 4,33 4,43
5,05 4,95 4,60 4,97 4,90 4,80 4,45 4,83
5,66 5,25 5,28 5,27 5,51 5,11 5,13 5,13
4,41 5,31 5,01 4,69 4,26 5,16 4,86 4,54
5,08 4,55 5,28 4,24 4,93 4,40 5,13 4,09
4,69 5,17 4,96 4,45 4,55 5,03 4,81 4,30
4,90 5,66 4,24 5,61 4,76 5,52 4,09 5,47
4,94 5,66 5,60 4,67 4,79 5,52 5,45 4,53
5,00 4,79 4,76 5,34 4,85 4,65 4,62 5,20
5,51 4,88 4,42 4,78 5,37 4,73 4,27 4,63
4,72 4,77 4,42 4,53 4,57 4,63 4,27 4,39
4,56 5,61 4,83 5,63 4,42 5,47 4,68 5,49
5,35 5,16 5,17 5,02 5,21 5,02 5,03 4,88
4,40 4,45 5,35 4,77 4,25 4,30 5,21 4,62
4,32 5,48 4,78 5,15 4,17 5,34 4,63 5,00
Tests Statistiques
Variable 1 Variable 2
Moyenne 4,997914462 4,847855027
Variances (connues) 0,24 0,23
Observations 100 100
Différence hypothétique des moyennes 0
z 2,188841821
P(Z<=z) unilatéral 0,014304169
Valeur critique de z (unilatéral) 1,644853627
P(Z<=z) bilatéral 0,028608339
Valeur critique de z (bilatéral) 1,959963985
Tests Statistiques
Exemple 2 :
Test de Z pour échantillon unique comparé à une référence
Un échantillon aléatoire de 31 barres énergétiques est prélevé de magasins différents.
Les étiquettes sur les barres indiquent que chaque barre contient 20 g de protéines
(Valeur de référence).
Pour vérifier la teneur en protéine des dosages sont faites sur chacune des barres et
les résultats sont présentés sur le tableau ci-dessus :
Différence 1.400
t (Valeur
observée) 3.067
|t| (Valeur
critique) 2.042
DDL 30
p-value
(bilatérale) 0.005
alpha 0.05
Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle
H0, et retenir l'hypothèse alternative Ha.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,46%.
Tests Statistiques
Analyse de variance
Conditions de validité
SCE Total
=SCE T
Tests Statistiques
Source Valeur
des Somme Degré de Moyenne critique
A B C
variations des carrés liberté des carrés F Probabilité pour F
7 7 7 Entre 0.782757 3.885293
Groupes 0.4 2 0.2 0.25 79 83
6 5 7
A
6 7 6 l'intérieur
5 6 6 des
groupes 9.6 12 0.8
5 5 5
Total 10 14
0.4 9.6
Moyenne des carrées = Somme des carrés/ddl 0.2
2 12
0.8
•Si vous savez que vos données comprennent une valeur aberrante ou plus, et
que la répartition est Gaussienne, utilisez le test de Dixon (souvent utilisé pour
n≤25 valeurs) mais peut être utilisé aussi pour un nombre de valeur plus élevé)
Test de Dixon pour les Test de Dixon pour les Test de Dixon pour les
valeurs extrêmes / Test valeurs extrêmes / Test valeurs extrêmes / Test
bilatéral (Souche 1) : bilatéral (Souche 2) : bilatéral (Souche 3) :
Statistiques descriptives :
RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Souche 1 5 29 5.8 0.7
Souche 2 5 18 3.6 0.8
Souche 3 5 4 0.8 0.7
ANALYSE DE VARIANCE
Valeur
Source des Somme des Moyenne des critique
variations carrés Degré de liberté carrés F Probabilité pour F
Entre Groupes 62.8 2 31.4 42.8181818 3.4468E-06 3.88529383
A l'intérieur des
groupes 8.8 12 0.73333333
Total 71.6 14
Fobs (42.82) < Fcrit (3.44) & P (3.44E-06 > 0.05)
Hypothèse H0 est rejetée
et les variances des deux groupes sont différentes
et la différence est hautement significative p<0.001 (1%°)
Tests Statistiques
Sur Xlstat
Analyse de la variance (valeur) :
Souche 3
Souche 3
Souche 3
Souche 3
Souche 3
Observations
Souche 2
Souche 2
Souche 2
Souche 2
Souche 2
Souche 1
Souche 1
Souche 1
Souche 1
Souche 1
Comparaisons multiples
Q1 / Tukey (HSD) / Analyse des différences entre les modalités avec un intervalle de confiance à
95% (Y1) :
Différence
Contraste Différence standardisée Valeur critique Pr > Diff
Souche 1 vs Souche 3 5.000 9.232 2.668 < 0,0001
Souche 1 vs Souche 2 2.200 4.062 2.668 0.004
Souche 2 vs Souche 3 2.800 5.170 2.668 0.001
Valeur critique du d de Tukey : 3.773
Analyser le
ANOVA
résultat 2 facteurs avec répétition
obtenu RAPPORT DÉTAILLÉ Profondeur Surface Total
S
Nombre d'échantillons 5 5 10
Total 91,37214592 19
ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627
Total 91,37214592 19
5
4
3
2
1
0
Profondeur Surface
prof
espece-M espece-S
Tests Statistiques
Résultat de Xlstat
Obs20
Obs19
Obs18
Obs17
Obs16
Observations
Obs15
Obs14
Obs13
Obs12
Obs11
Obs10
Obs9
Obs8
Obs7
Obs6
Obs5
Obs4
Obs3
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Résidus normalisés
Les résidus centrés réduits, doivent être distribués
suivant une loi normale N(0,1).
Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96,
1.96]. Ici, seul l’observation 8 est aberrante
Tests Statistiques
Régression linéaire
Exemple 1 de la régression linéaire
x Y
53 504
1 Faire le graphe de type nuage de points de y = f(x)
66 610
2 Ajouter la courbe de tendance 92 854
3 Afficher le r2 et l'équation de la droite 80 750
84 795
3 Utiliser les fonctions Excel pour calculer la pente,
48 440
l’ordonné à l’origine 61 580
6 Utiliser la fonctions Excel pour calculer le coefficient de 74 695
détermination 58 550
97 915
7 Vérifier ces valeurs avec ceux affichés sur le graphe
70 672
42 394
Tests Statistiques
Y Statistiques de la régression
1000
y = 9,4005x + 0,2959
800 R² = 0,9976 Coefficient de détermination multiple 0.99882135
600
Coefficient de détermination R^2 0.99764408
400
Coefficient de détermination R^2 0.99740849
200 Erreur-type 0.88230008
0 Observations 12
0 20 40 60 80 100 120
40
Coefficients
20 H0 X et Y ne sont pas liés
0
Erreur-type
H1 X et Y sont liés
0 500 1000
-20
Y
Borne Borne
Erreur inférieure supérieure
Source Valeur standard t Pr > |t| (95%) (95%)
Constante 0.296 10.217 0.029 0.977 -22.468 23.060
x 9.401 0.144 65.074 < 0,0001 9.079 9.722
Résidus normalisés / Y
Obs12
Régression de Y par x (R²=0,998) Obs11
1000 Obs10
900 Obs9
Observations
Obs8
800
Obs7
700
Obs6
Y
600 Obs5
500 Obs4
400 Obs3
300 Obs2
30 50 70 90 110 Obs1
Echantillonx d'apprentissage
-2 -1 0 1 2
Modèle(Y)
Résidus normalisés
Int. de conf. (Moyenne 95%)
Int. de conf. (Obs 95%)
Tests Statistiques
Régression linéaire
Exemple 2 de la régression linéaire
Analyse à partir du graphe
x y1 y2 y3
1/ Calculer la moyenne des y pour chaque X 1.00 10.00 11.00 12.00
2/ Calculer l’écart type sur les moyennes des y pour chaque X 2.00 11.00 10.00 13.00
5.00 10.00 9.00 12.00
3/ Faire un graphe de type nuage de points 9.00 13.00 15.00 14.00
12.00 15.00 16.00 14.00
4/ Porter l'écart type sur les moyennes 14.00 12.00 13.00 15.00
5/ Tracer la courbe de tendance et donner l'équation de 17.00 14.00 14.00 15.00
21.00 17.00 18.00 16.00
la régression et le coefficient de détermination 23.00 15.00 16.00 17.00
27.00 15.00 14.00 18.00
Utilisation des fonctions intégrées d’Excel
30.00 18.00 20.00 18.00
6/ Donner la valeur de la pente de y=f(x) 32.00 16.00 16.00 18.00
37.00 18.00 18.00 17.00
7/ Calculer la valeur de l’ordonnée à l’origine de y=f(x) 42.00 22.00 20.00 21.00
45.00 22.00 22.00 24.00
8/ Calculer la valeur de l’abscisse de y=f(x)
50.00 23.00 22.00 23.00
9/ Donner l’équation de la courbe y=f(x)
10/ Faire une extrapolation de Y pour X=100
Tests Statistiques
Equation du modèle :
Tests de corrélation , le r
ou la « force » d’une liaison entre deux séries de données
(analyse bivariée) ou plus (analyse multivariée).
Coefficient de détermination r²
𝒓𝟐 ∶ 𝟎 ≤ 𝒓𝟐 ≤1
Tests Statistiques
Possibilité
d’interprétation causale Pas de causalité
r et r2 r
Tests Statistiques
Droite de régression y = ax +b
Sur Excel
• pente a
= PENTE(plage)
• L'ordonnée à l'origine b
= ORDONNEE.ORIGINE(plage)
Condition n°1 :
L'effectif total du tableau de contingence (N..) doit être
supérieur ou égal à 20
Condition n°2 :
L'effectif marginal du tableau de contingence (Ni. ou N.j)
doit toujours être supérieur ou égal à 5.
Condition n°3 :
L'effectif théorique (N*ij) des cases du tableau de
contingence doit être supérieur à 5 dans 80% des cases
du tableau de contingence.
Tests Statistiques
Coefficients d’association
Le test de Khi2 peut être complété par les valeurs des
coefficients d’association comme :
• Phi de Pearson
• Coefficient de contingence
• V de Cramer
• T de Tschuprow
• Tau de Goodman et Kruskal (L/C)
• Tau de Goodman et Kruskal (C/L)
V de Cramer / Khi2
V de Cramer / Khi2
Il est important de noter que la taille de l'effet de la relation entre les deux
variables dépend également du nombre de degrés de liberté du test du khi2
d'indépendance.
Phi de Person = (Khi2 / ddl)
En général, la taille de l'effet est plus faible lorsque le nombre de degrés de
liberté est faible.
Tests Statistiques
Une population de 400 personnes est répartie par tirage au sort en 2 groupes G
et G' de 200 personnes chacun,
On se propose de comparer les réactions produites par deux vaccins
antivarioliques V et V', Le groupe G est vacciné à l'aide de V et G' à l'aide de V',
Les réactions produites par chacun des vaccins sont observées par, une
personne ignorant le vaccin utilisé,
Les résultats (effectifs observés) sont consignés dans le tableau suivant :
R B U
G (V) 20 160 20
G' (V') 16 174 10
Tests Statistiques
Effectifs observés :
Test du khi-carré
Exemple : Préférence des Homme Femme Total
disciplines par genre.
Informatique 50 50 100
Soit le tableau ci-dessous, qui Géologie 110 25 135
donne les résultats d’une enquête
hypothétique effectuée auprès de Electronique 40 25 65
400 étudiants, sur leurs préférences Chimie 50 50 100
en discipline. On leur a demandé : Total 250 150 400
« Parmi ces 4 matières :
Informatique, Géologie, Electronique
et Chimie, laquelle préférez-vous ? » Effectifs théoriques :
(interdit de répondre «aucune»).
Homme Femme Total
Coefficients d’association
Coefficient Valeur
Phi de Pearson 0.292
Coefficient de
contingence 0.280
V de Cramer 0.292
T de Tschuprow 0.222
Tau de Goodman et
Kruskal (L/C) 0.035
Tau de Goodman et
Kruskal (C/L) 0.085
Tests Statistiques
Interprétation du test :
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,01%
Expected Values
Obs TH Total
O 83.1955923 67.8044077 151
A 65.5647383 53.4352617 119
B 48.4848485 39.5151515 88
AB 2.75482094 2.24517906 5
Total 200 163 363
Chi-Square Test
CHI-SQUARE
chi-sq p-value x-crit sig Cramer V
Pearson's 58.4308002 1.2718E-12 7.8147279 yes 0.40120617
Max likelihood 60.5802239 4.4185E-13 7.8147279 yes 0.40851887
Tests Statistiques
chisq.test(matrix(c(104,47,76,43,18,70,2,3),4,2,
byrow=TRUE), correct=FALSE)
Tests Statistiques
Equivalence entre
Tests paramétrique et non paramétrique
Test U de Mann-Whitney
c’est l’adaptation aux techniques du t de Student
en estimant une comparaison entre
deux échantillons indépendants
(var. ord. Non appariées avec n total au moins égale à 10)
Conclusion
Tests Statistiques
Exercice 1
Deux groupes de 10 étudiants ayant suivi une formation différente ont subi le
même examen. Le classement de l'examen est le suivant :
Groupe A : 1 3 4 5 7 8 8 12 15 17
Groupe B : 2 6 10 11 13 14 15 18 19 20
U 26.500
Espérance 50.000
Variance (U) 174.737
p-value (bilatérale) 0.082
alpha 0.05
Interprétation du test :
H0 : La différence de position des échantillons est égale à 0.
H1 : La différence de position des échantillons est différente de 0.
Test de Wilcoxon
C’est une adaptation à la comparaison de
deux moyennes,
pour deux échantillons k=2, Var. ord. appariés.
Exercice
Arbres Arbres
Douze arbres sont mesurés alors debout abattus
qu'ils sont debout, par une mesure 20.4 21.7
trigonométrique. Puis les mêmes 25.4 26.3
arbres sont mesurés au sol, après 25.6 26.8
abattage. 25.6 28.1
26.6 26.2
Quel test choisir pour comparer les 28.6 27.3
deux méthodes en supposant qu’on 28.7 29.5
n’a pas pu vérifier la normalité de nos 29 32
séries 29.8 30.9
La première méthode donne-t-elle 30.5 32.3
des résultats significativement trop 30.9 32.3
faibles ou trop élevés par rapport à la 31.1 31.7
deuxième méthode ?
Tests Statistiques
Interprétation du test :
H0 : Les deux échantillons suivent la même loi de distribution.
H1 : Les distributions des deux échantillons sont différentes.
Test Kruskall-Wallis
Test de Friedman
Correspond à une version non paramétrique pour
var. ord. k>2 échantillons appariés
de l’analyse de variance à deux facteurs.
Exercice :
On souhaite comparer les performances de quatre méthodes
différentes pour prédire la durée de vie d'un composant
électronique.
On dispose des données de durée de vie pour 10 composants,
chacun soumis aux quatre méthodes.
Méthode 1 2 3 4
Méthode 1 100 90 110 120
Méthode 2 80 70 90 100
Méthode 3 70 60 80 90
Méthode 4 60 50 70 80
Tests Statistiques
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,74%.
Tests Statistiques
Interprétation du test :
Test de Friedman :
H0 : Les échantillons proviennent de la même
Q (Valeur population.
observée) 12.000 H1 : Les échantillons proviennent de populations
Q (Valeur différentes.
critique) 7.815
DDL 3
p-value Etant donné que la p-value calculée est inférieure au
(bilatérale) 0.007 niveau de signification alpha=0,05, on doit rejeter
alpha 0.05 l'hypothèse nulle H0, et retenir l'hypothèse alternative H1
CHAPITRE 1
INTRODUCTION
De la probabilité à la statistique
PROBABILITE
Calcul à priori
pour prédire des
évènements
futurs STATISTIQUE
(Tables de probabilité Calcul à postériori
selon des lois pour analyser des
déterminées) évènements passés
Tests Statistiques
INFÉRENCE STATISTIQUE
INFÉRENCE STATISTIQUE
Quelques définitions
Test d'hypothèse
S<s0 s≥s0
s0
H0 n’est pas infirmée H0 infirmée ou rejetée
(mais pas non plus confirmée à 100%) H1 acceptée
Tests Statistiques
H0
H1
1-b
1-a
En résumé, les résultats possibles d'un test
d'hypothèse sont représentées dans le tableau suivant
Définition suite au test décision
Décision correcte
Erreur de type II
H0 fausse Probabilité = β Puissance
Probabilité = 1 - β
Puissance ≥ 80%
Tests Statistiques
POPULATION
? ?
Population 1 ?
= Population 2
Echantillonnage Echantillonnage
aléatoire aléatoire
Echantillon 1 Echantillon 2
Hypothèses
Transformation de la variable
Pour la loi normale N~(µ , ), il faut toujours passer par la
transformation vers une loi centrée réduite où toutes les
moyennes sont égales à 0 et tous les écart types sont = 1,
N~(0,1)
• La moyenne = centre = 0
• L'écart-type = dispersion = 1
(𝑥 − µ)
y= 𝑜𝑢 𝑦 = 𝑍 𝑎𝑣𝑒𝑐
Tests Statistiques
• P(x<-a) = 1 - P(x<a) -a -a a
• P(x>a) = 1 - P(x<a)
a a
a b a b
Tests Statistiques
Exercice 1
Distribution selon la loi normale
On a mesuré la tension artérielle systolique d'un
échantillon de grande taille de femmes (400 femmes).
La pression artérielle moyenne est de 125 millimètres de
mercure et l’écart-type est de 10 millimètres de mercure.
La distribution normale qui résume ces données est
Tests Statistiques
M=125 mm Hg
Questions 1: =10 mm Hg
Quel est le pourcentage de femmes dont
68%
la pression artérielle est comprise
entre 105 et 135 millimètres
95%
de mercure ?
105 115 125 135 145
Questions 2:
Combien de femmes de cet échantillon ont une pression artérielle
supérieure à 145 millimètres de mercure ?
Rep 2/ 10 femmes
Tests Statistiques
Exercice 2 , Excel
Exercice 3, Excel
Exercice
Sur un grand nombre de personnes on a constaté que la
répartition du taux de cholestérol suit une loi normale avec
les résultats suivants :
Question :
Quelle est le nombre de personnes qu’il faut prévoir de
soigner dans une population de 10 000 personnes, si le taux
maximum toléré sans traitement est de 182 cg ?
Tests Statistiques
Données connues :
165 180
=(165-m)/ =(180-m)/)
Tests Statistiques
Calcul de m et =LOI.NORMALE.STANDARD.INVERSE(0,56)=0.15
z->=LOI.NORMALE.STANDARD.INVERSE.N(0.56)
->
=LOI.NORMALE.STANDARD.INVERSE(0,9)=1.28
D’où
m=163 et =13.3
Calcul %
=LOI.NORMALE.STANDARD(1,42)=0.922p=LOI.NORMALE.STANDARD.N(1.42;1)
Exercice 4, Excel
1. Un écologiste étudie une population de chauves-souris de l'espèce Grand
Rhinolophe. D'après la littérature, il sait que l'envergure de ces chiroptères obéit à
une distribution normale dont la moyenne est de 375 mm pour une variance de 225
mm2.
Cet écologiste capture un individu dont la taille est de 350 mm. Cet individu est-il
considéré comme conforme ou bien est-il significativement différent de ce que
prévoit le modèle avec un seuil de risque de 5% ?
Vérification de la normalité.
Biais négatif
Biais positif Biais négatif
Biais positif
Mésokurtique : courbe
normale en cloche
Etapes à suivre :
1. Trié les n valeurs observées par ordre croissant,
2. Ajouter une colonne des rangs
3. Déterminer les quantiles théoriques
= LOI.NORMALE.INVERSE(probabilité de chaque rang ; moyenne ; écart ; type)
4. Tracer le nuage des points et la bissectrice des quantiles observés en fonction
des quantiles théorique calculés
Interpréter le résultat obtenu
• Une ligne droite Distribution gaussienne
• Une ligne qui n'est pas droite Pas de normalité
• Un point éloigné de la ligne Une valeur aberrante
• Une modification de la pente Une variable non identifiée
Tests Statistiques
Quantiles observés
-131.52 -131.52 5 -116.94134 100
368.52 -78.03 6 -81.51666
-36.37 -36.37 7 -48.169691 0
-78.03 2.58 8 -15.938915 -400 -200 0 200 400
-100
94.72 23.13 9 15.9389151
2.58 72.66 10 48.1696915 -200
72.66 77.75 11 81.5166599
-300
23.13 94.72 12 116.941338
108.97 108.97 13 155.848813 -400
-444.99 125.54 14 200.64229
323.42 233.96 15 256.355589 -500
125.54 323.42 16 337.980918 Quantiles théoriques
-322.12 368.52 17
Si les points s’alignent sur la première bissectrice c'est que la distribution suit
probablement une loi de distribution gaussienne normalisée.
Dans cet exercice, les points sont alignés sur une autre droite d'équation ax+b, c'est que la
distribution observée suit une loi normale
Tests Statistiques
QQ plot QQ plot
2 500
y = 0,9876x - 7E-17 1,5 y = 212,92x + 2,7224 400
R² = 0,9754 R² = 0,9754
1 300
200
0,5
100
0
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 0
-0,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-100
-1
-200
-1,5 -300
-2 -400
-2,5 -500
•>Q3+1.5(Q3-Q1)
•<Q1+1.5(Q3-Q1)
Tests Statistiques
INTERPRÉTATION
Normalisation
Tests Statistiques
normalisation
Tests Statistiques
Le test de Dixon et le test de Grubbs sont tous deux des tests statistiques utilisés
pour identifier les valeurs aberrantes dans un échantillon. Cependant, ils diffèrent
de plusieurs manières :
Conditions d'utilisation
Les deux tests ont les mêmes conditions d'utilisation suivantes :
Les données doivent suivre une distribution normale. L'échantillon doit avoir
de préférence une taille maximale de 10.
Le test de Dixon est basé sur la distribution de Student, tandis que le test
de Grubbs est basé sur la distribution de Kolmogorov-Smirnov.
Cela signifie que le test de Dixon est plus précis que le test de Grubbs,
mais il nécessite que la distribution des données soit normale.
Tests Statistiques
Valeur de r1 − α
Tests Statistiques
X
Concentration de 0 5 10 15 20 25 30
sodium (en mg/L)
Y
Indication du 0 18 34 55 70 70 100
photomètre
X Y
0 0
5 18
10 34
15 55
20 70
25 70
30 100
Test de Grubb
Exercice 5
Tester la normalité de cette série en utilisant le test de Shapiro et Wilk
Titrage Yi : 40 ; 45 ; 50 ; 55 ; 60 ; 60 ; 60 ; 65 ; 70 ; 70 ; 80
Tests Statistiques
Comparer W à W1-α,n
W1-α,n est trouvé dans la table de Shapiro-Wilk en fonction du risque
d’erreur α et de la taille de l’échantillon (le nombre d’observations) n
On peut écrire P() = 1- α
Test de Shapiro
(Test Unilatéral Gauche)
Calculer :
1/ la moyenne de yi
2/ (yi-moyenne)2 puis
3/ somme des (yi-moyenne)2
4/ dj = yn - y1 ; yn-1 – y2 ; …
5/ [aj : Pour n=10 i=? (à rechercher
sur la table de Shapiro)]
6/ Calculer aj*dj ; (aj*dj)2 puis
7/ somme des (aj*dj)2
8/ Calculer Wcal avec :
Wcal = (ajdj)2 /
(yi – moyenne)2
Wcal=0.959
Tests Statistiques
TABLE
DES COEFFICIENTS
POUR UN TEST
DE SHAPIRO et WILK
Les
coefficients
pour n=10
sont
encadrés en
rouge
Tests Statistiques
TABLE DE
SHAPIRO
et WILK
Pour n =10
et un
risque
de 5%
W= 0,842
Tests Statistiques
Données Résultat :
1 Test de Shapiro-Wilk = W0.907
7 p-value (bilatérale) = 0.196 pour un seuil a=0,05
18
9 -----------------
9
18 Interprétation du test :
27 H0 : La variable dont provient l'échantillon suit une loi Normale.
12 H1 : La variable dont provient l'échantillon ne suit pas une loi Normale.
10
32 Etant donné que la p-value calculée = 0.196 est supérieure au
6 niveau de signification seuil a=0,05, on ne peut pas rejeter
37 l'hypothèse nulle H0.
Tests Statistiques
Exercice 6
On a prélevé un échantillon de 10 feuilles de vigne puis on a testé la minéralisation.
À partir de la série de données suivantes dire si la quantité de minéraux dans les
feuilles de vignes suit une loi normale pour un risque d’erreur de 5%.