Vous êtes sur la page 1sur 52

Tests Statistiques

Tests paramétriques

Les tests paramétriques utilisées en Biologie :

• Test t de Student et test z (égalité des moyennes)


• Test F (égalité des variances)
• Analyse de variance ou ANOVA (analyse des variances)
• Test des corrélation (analyse des covariances)
• Le test de la Régression linéaire
Tests Statistiques

Comparaison des moyennes


Pour une distribution normale (tests paramétriques)
•Test t de Student si on ne connaît pas la vraie variance
des populations dont sont extraits les échantillons ; et que
n<=30))

•Test z (différences minimales) variance des


populations dont sont extraits les échantillons est connue et
quand n>30.
Dans le cas de n>30, la variance de la population est
considérée comme estimateur de la population est le test à
choisir est donc le test z

Sans exigence de normalité : Tests non paramétriqques)


•Test U de Wilcoxon / test rapide des signes (k=2 appariées)
•Test de Krustal Wallis (k>2 non appariées)
Tests Statistiques

Comparaison des moyennes de deux échantillons


Test de Student

C’est un test qu’on peut appliquer à de petites séries (n<=30)


Mais avant de faire ce test il faut vérifier :

• la normalité (test de Shapiro-Wilk


ou test de Kolmogorov-Smirnov)
• l’équivariance ou égalité des variances (test F ou test de
Leaven

• La dépendance
Tests Statistiques

Tableau récapitulatif des différents tests statistiques pour vérifier


l'égalité ou la différence de variance, avec leurs conditions d'utilisation :

Exemples de Tests Condition d'utilisation


Les données doivent être normalement
distribuées. Les échantillons doivent être
Tests paramétriques :
indépendants. Les échantillons doivent
• Test de Fisher
avoir une taille suffisante (au moins 20
• Test de Bartlett
observations par échantillon).
___________________________________
Les données ne doivent pas nécessairement
Tests non suivre une distribution normale. Les
paramétriques : échantillons doivent être indépendants. Les
• Test de Levene échantillons doivent avoir une taille
• Test de Welch suffisamment grande (au moins 10
observations par échantillon).
Tests Statistiques

Test t sur Excel

=TEST.STUDENT(matrice1; matrice2; uni/bilatéral; type)


La formule renvoie à la probabilité (unilatérale) associée à un test T de Student
pour déterminer dans quelle mesure deux échantillons sont susceptibles de
provenir de deux populations sous-jacentes ayant la même moyenne.
•Matrices = séries de données.
•uni/bilatéral = type de distribution à renvoyer : unilatérale (1) ou
bilatérale (2).
•type = type de test t à effectuer.

Type Ce test est effectué


1 Sur des observations pairées
2 Sur deux échantillons de variance égale (homoscédastique)
3 Sur deux échantillons de variances différentes (hétéroscédastique)
Tests Statistiques

Formule pour obtenir la valeur de t (calculé ou critique) sachant p :


=LOI.STUDENT.INVERSE(p;ddl)

Formule pour obtenir la probabilité

=TEST.STUDENT(matrice1,matrice2,uni/bilatéral,type)

Pour la décision, il faut ajouter la formule :

=SI(|tcal|<tcrit ; « il y a égalité »;« il y a différence »)


& " entre les moyennes"
Tests Statistiques

A partir de l’Utilitaire d’analyse :

• Test d’égalité des espérances : observations pairées.


• Test d’égalité des espérances : observations indépendantes
avec égalité de variances «homoscédastique» ou homogénéité
• Test d’égalité des espérances : observations indépendantes avec
variances différentes «hétéroscédastique».

En théorie, le test t sur des échantillons indépendants suppose que les


variances sont inconnues, mais égales.
Quand les variances sont inégales (cas des tailles d’échantillons trop
réduites, Excel utilise un calcul différent pour hétéroscédastique
(Dans ce cas un il vaut mieux utiliser un test non-paramétrique …)
Tests Statistiques

Exercice comparaison des moyennes

Deux groupes de 10 lapins chacun,


nourris avec un régime enrichi en x y
23 18
cholestérol, ont été soumis à deux 15 22
traitements différents X et Y. 28 33
On voudrait savoir s'il y a une différence 26 34
entre les deux traitements. 13 19
8 12
21 27
Les résultats des dosages de la 25 32
cholestérolémies en dg/l, sont portés sur 24 31
le tableau suivant : 29 30
Tests Statistiques

Test de Shapiro-Wilk (x) :


Test d'égalité des espérances : deux
W 0.907 observations de variances égales
p-value x y
(bilatérale) 0.258 Moyenne 21.2 25.8
alpha 0.05 57.28
Variance 48.4 88889
Test de Levene Observations 10 10
Test F de Fisher / Test
(Moyenne) / Test Variance pondérée 52.8444444
bilatéral :
bilatéral : Différence
Rapport 0.845 hypothétique des
F (Valeur
F (Valeur moyennes 0
observée) 0.307
observée) 0.845 Degré de liberté 18
F (Valeur
F (Valeur -
critique) 4.414
critique) 4.026
DDL1 1 Statistique t 1.41495675
DDL1 9
DDL2 18 P(T<=t) unilatéral 0.08707433
DDL2 9
p-value Valeur critique de t
p-value (unilatéral) 1.73406361
(bilatérale) 0.806
(unilatérale) 0.587
alpha 0.05 P(T<=t) bilatéral 0.17414866
alpha 0.05
Valeur critique de t
(bilatéral) 2.10092204
Tests Statistiques

EXERCICE
Neuf malades présentant des symptômes d’anxiété reçoivent un
traitement. On évalue l’état des malades avant et après traitement par un
indice que le médecin traitant calcule d’après les réponses à une série de
questions. Si le traitement est efficace, l’indice doit diminuer. Les valeurs
de cet indice sur les neuf patients sont les suivants :

Patient 1 2 3 4 5 6 7 8 9
Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3
Après 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29

1. Transposer ces résultats sous forme de 3 colonnes :


Patient, Avant et après
2. Choisir le test adéquat à faire en justifiant votre choix.
3. Interpréter les résultats obtenus et donner votre décision concernant
l’efficacité du traitement au seuil 0.05
Tests Statistiques

Avant Après
1.83 0.88 Test de Normalité Shapiro-Wilk
0.5 0.65 Avant 0.714
1.62 0.59 Après 0.134
2.48 2.05
1.68 1.06 Test d’égalité des variances à faire
1.88 1.29 pour les échantillons non pairés
1.55 1.06
Levene Bartlett
3.06 3.14
0.859 0.912
1.3 1.29
Les observations sont pairés, et les 2 séries suivent la loi normale.
Donc Le test à faire est le test de Student à variables pairées.

Sur l’utilitaire d’analyse d’Excel : c’est le test d'égalité des espérances


observations pairées

Dans l’énoncé : on ne cherche pas seulement s’il y a une différence mais on


recherche si le traitement est efficace. Donc nous devons nous baser sur les
valeurs du test unilatéral.
Tests Statistiques

Test d'égalité des espérances observations pairées (Sur Excel)

Avant Après
Moyenne 1.766666667 1.334444444
Variance 0.512075 0.644477778
Observations 9 9
Coefficient de corrélation de Pearson 0.846846399
Différence hypothétique des moyennes 0
Degré de liberté 8
Statistique t 3.026412693
P(T<=t) unilatéral 0.008199333
Valeur critique de t (unilatéral) 1.859548038
P(T<=t) bilatéral 0.016398666
Valeur critique de t (bilatéral) 2.306004135
Tests Statistiques

Décision statistique :

La statistique de test observée est de 3.026.

Elle est supérieur à la valeur t théorique unilatérale qui est de 1.859

On est donc dans la zone de rejet de 𝐻0. On accepte 𝐻1

(l’indice avant est supérieur à l’indice après , c’est-à-dire l’indice diminue)

Le traitement est donc efficace avec une p value de 0.008.

La différence entre les deux états est très significative (P entre 1% et 1%°).
Tests Statistiques

Exemple 1 :
Test de Student pour échantillon unique
comparé à une référence sur Xlstat (en option)
D’après un rapport, on trouve que les hommes de plus de 30 ans regardent la
télévision en moyenne de 25 h par semaine. Pour cette moyenne dans une
population d’étudiants. Onze étudiants ont comptabilisé leur temps passé devant
la télévision, par semaine :

Etudiants
10
8 Différence -7.364
15 t (Valeur observée) -2.726
28
20 |t| (Valeur critique) 2.228
19 DDL 10
13
20 p-value (bilatérale) 0.021
9
alpha 0.05
14
38
Interpréter le résultat obtenue.
Tests Statistiques

Exercice 2 Comparaison des moyennes


Une étude a montré que les hommes de plus de 30 ans regardent la
télévision en moyenne 25 h par semaine.
Nous voulons comparer cette moyenne à une population d’étudiants.
Onze étudiants ont comptabilisé leur temps passé par semaine devant la
télévision :

Etudiants 10 8 15 28 20 19 13 20 9 14 38

Comparer les moyennes de temps de ces étudiants à la moyenne trouvée


dans l’étude.
Tests Statistiques

z-Test
(Comparaison des moyennes des grandes séries)

Quand n est très grand (n>30) le test « z » de deux


moyennes est plus adapté que le test t de Student.

A partir de l’Utilitaire d’analyse », cliquez sur


« =test de la différence significative minimale ».

Ce test nécessite les valeurs des variances


des séries étudiées.

Donc il faut d’abord trouver les 2 valeurs (Par exemple à


partir des résultats de la statistiques descriptives
Tests Statistiques

4,77 5,56 5,56 4,90


4,62 5,42 5,42 4,75

4,80 5,26 5,41 4,64


4,65 5,11 5,26 4,49

5,51 4,50 5,57 5,16 5,36 4,35 5,43 5,02

4,46 4,48 5,40 4,43 4,31 4,33 5,25 4,28

4,41 4,47 4,31 5,28 4,26 4,32 4,16 5,14

5,65 5,64 4,62 5,09 5,51 5,50 4,47 4,94


5,10 4,92 4,56 4,96 4,95 4,77 4,41 4,81
7,70 4,48 4,96 5,67 7,11 4,33 4,81 5,53
5,61 4,63 5,02 5,50 5,46 4,49 4,87 5,36
Appareil 1

5,50 4,39 4,57 5,02

Appareil 2
5,64 4,54 4,72 5,17
4,42 5,18 4,48 4,58 4,27 5,04 4,33 4,43
5,05 4,95 4,60 4,97 4,90 4,80 4,45 4,83
5,66 5,25 5,28 5,27 5,51 5,11 5,13 5,13
4,41 5,31 5,01 4,69 4,26 5,16 4,86 4,54
5,08 4,55 5,28 4,24 4,93 4,40 5,13 4,09
4,69 5,17 4,96 4,45 4,55 5,03 4,81 4,30
4,90 5,66 4,24 5,61 4,76 5,52 4,09 5,47
4,94 5,66 5,60 4,67 4,79 5,52 5,45 4,53
5,00 4,79 4,76 5,34 4,85 4,65 4,62 5,20
5,51 4,88 4,42 4,78 5,37 4,73 4,27 4,63
4,72 4,77 4,42 4,53 4,57 4,63 4,27 4,39
4,56 5,61 4,83 5,63 4,42 5,47 4,68 5,49
5,35 5,16 5,17 5,02 5,21 5,02 5,03 4,88
4,40 4,45 5,35 4,77 4,25 4,30 5,21 4,62
4,32 5,48 4,78 5,15 4,17 5,34 4,63 5,00
Tests Statistiques

Résultat du z-Test sous Excel


Test de la différence significative
minimale (z-Test)

Variable 1 Variable 2
Moyenne 4,997914462 4,847855027
Variances (connues) 0,24 0,23
Observations 100 100
Différence hypothétique des moyennes 0
z 2,188841821
P(Z<=z) unilatéral 0,014304169
Valeur critique de z (unilatéral) 1,644853627
P(Z<=z) bilatéral 0,028608339
Valeur critique de z (bilatéral) 1,959963985
Tests Statistiques

Exemple 2 :
Test de Z pour échantillon unique comparé à une référence
Un échantillon aléatoire de 31 barres énergétiques est prélevé de magasins différents.
Les étiquettes sur les barres indiquent que chaque barre contient 20 g de protéines
(Valeur de référence).
Pour vérifier la teneur en protéine des dosages sont faites sur chacune des barres et
les résultats sont présentés sur le tableau ci-dessus :

Barre énergétique - Grammes de protéines

20.7 21.54 16.26


27.46 21.08 17.46
22.15 22.14 20.53
19.85 19.56 22.12
21.29 21.1 25.06
24.75 18.04 22.44
20.75 24.12 19.08
22.91 19.95 19.88
25.34 19.72 21.39
20.33 18.28 22.33
25.79
Tests Statistiques
Test Z pour échantillon unique comparé à une référence sur Xlstat (en option)
Statistiques descriptives :

Obs. avec Obs. sans


données données
Variable Observations manquantes manquantes Minimum Maximum Moyenne Ecart-type
barre 31 0 31 16.260 27.460 21.400 2.542

Test t pour un échantillon / Test bilatéral :

Intervalle de confiance à 95% autour de la moyenne :


] 20.468;22.332 [

Différence 1.400
t (Valeur
observée) 3.067
|t| (Valeur
critique) 2.042
DDL 30
p-value
(bilatérale) 0.005
alpha 0.05

Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle
H0, et retenir l'hypothèse alternative Ha.
Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est inférieur à 0,46%.
Tests Statistiques

Analyse de variance
Conditions de validité

Pour valider les résultats de l’ANOVA, il faut vérifier :

- La normalité (normalité des résidus ou des


résidus standardisés)
- L’indépendance
- L’homogénéité (Test Levene sur les médianes)
- Peu de valeurs extrêmes (moins que 5% des
résidus normalisées inf ou sup à 2 : test de Dixon
ou de Grubbs)
Tests Statistiques

SCE Total
=SCE T
Tests Statistiques

SCE entre groupe


=SCE F
Tests Statistiques

SCE à l’intérieur des groupes


=SCE R
Tests Statistiques

Exemple : Comparaison des variances des séries A, B et C

Source Valeur
des Somme Degré de Moyenne critique
A B C
variations des carrés liberté des carrés F Probabilité pour F
7 7 7 Entre 0.782757 3.885293
Groupes 0.4 2 0.2 0.25 79 83
6 5 7
A
6 7 6 l'intérieur
5 6 6 des
groupes 9.6 12 0.8
5 5 5
Total 10 14

0.4 9.6
Moyenne des carrées = Somme des carrés/ddl 0.2
2 12
0.8

Fobs (0.25) < Fcrit (3.88) & P (0.78 > 0.05)


Hypothèse H0 est accepté
et les variances des deux groupes sont identiques
Tests Statistiques

Exercice comparaison des variances

On dispose de k=3 échantillons comprenant n=5 individus


dont les valeurs sont données dans le tableau ci-après :
il s’agit des différences de temps de réaction pour trois
souches de souris soumises à une même expérience

Souche 1 Souche 2 Souche 3


7 3 0
6 3 0
6 3 1
5 4 1
5 5 2
Tests Statistiques

Test de Shapiro-Wilk (Normalité)

(Souche 1) (Souche 2) : (Souche 3) :

W 0.881 W 0.771 W 0.881

p-value p-value p-value


(bilatérale) 0.314 (bilatérale) 0.052 (bilatérale) 0.314
alpha 0.05 alpha 0.05 alpha 0.05
Tests Statistiques

Test de Dixon pour les valeurs extrêmes


•Si vous ne savez pas si vos données comprennent des valeurs aberrantes, et
que la répartition des valeurs ne suit pas la loi Gaussienne, utilisez le test de
Grubb.

•Si vous savez que vos données comprennent une valeur aberrante ou plus, et
que la répartition est Gaussienne, utilisez le test de Dixon (souvent utilisé pour
n≤25 valeurs) mais peut être utilisé aussi pour un nombre de valeur plus élevé)

Test de Dixon pour les Test de Dixon pour les Test de Dixon pour les
valeurs extrêmes / Test valeurs extrêmes / Test valeurs extrêmes / Test
bilatéral (Souche 1) : bilatéral (Souche 2) : bilatéral (Souche 3) :

R10 (Valeur R10 (Valeur R10 (Valeur


observée) 0.500 observée) 0.500 observée) 0.500
R10 (Valeur R10 (Valeur R10 (Valeur
critique) 0.710 critique) 0.710 critique) 0.710
p-value p-value p-value
(bilatérale) 0.298 (bilatérale) 0.298 (bilatérale) 0.298
alpha 0.05 alpha 0.05 alpha 0.05
Tests Statistiques

Test de Levene pour tester l’égalité des variances

Statistiques descriptives :

Obs. avec Obs. sans


Observation données données
Variable s manquantes manquantes Minimum Maximum Moyenne Ecart-type
7 | Souche 1 4 0 4 5.000 6.000 5.500 0.577
7 | Souche 2 5 0 5 3.000 5.000 3.600 0.894
7 | Souche 3 5 0 5 0.000 2.000 0.800 0.837

Test de Levene (Moyenne) / Test bilatéral (7) :

F (Valeur observée) 0.439


F (Valeur critique) 3.982
DDL1 2
DDL2 11
p-value (unilatérale) 0.655
alpha 0.05
Tests Statistiques

Analyse de variance: un facteur

RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Souche 1 5 29 5.8 0.7
Souche 2 5 18 3.6 0.8
Souche 3 5 4 0.8 0.7

ANALYSE DE VARIANCE
Valeur
Source des Somme des Moyenne des critique
variations carrés Degré de liberté carrés F Probabilité pour F
Entre Groupes 62.8 2 31.4 42.8181818 3.4468E-06 3.88529383
A l'intérieur des
groupes 8.8 12 0.73333333

Total 71.6 14
Fobs (42.82) < Fcrit (3.44) & P (3.44E-06 > 0.05)
Hypothèse H0 est rejetée
et les variances des deux groupes sont différentes
et la différence est hautement significative p<0.001 (1%°)
Tests Statistiques

Sur Xlstat
Analyse de la variance (valeur) :

Somme des Moyenne des


Source DDL carrés carrés F Pr > F
Modèle 2 62.800 31.400 42.818 < 0,0001
Erreur 12 8.800 0.733
Total corrigé 14 71.600

Résidus normalisés / valeur

Souche 3
Souche 3
Souche 3
Souche 3
Souche 3
Observations

Souche 2
Souche 2
Souche 2
Souche 2
Souche 2
Souche 1
Souche 1
Souche 1
Souche 1
Souche 1

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2


Résidus normalisés

Valeur de tous les résidus entre -2 et 2


Tests Statistiques

Cas ou on accepte H1, il faut trouver la ou


lesquelles des séries
qui est ou qui sont différente(s)

Comparaison multiples par paires


Le test le plus utilisé est le test de Tukey

• Deux moyennes ayant au moins une lettre en commun ne


sont pas significativement différentes

• Les moyennes ayant des lettres différente sont


significativement différentes
Tests Statistiques

Comparaisons multiples

Q1 / Tukey (HSD) / Analyse des différences entre les modalités avec un intervalle de confiance à
95% (Y1) :

Différence
Contraste Différence standardisée Valeur critique Pr > Diff
Souche 1 vs Souche 3 5.000 9.232 2.668 < 0,0001
Souche 1 vs Souche 2 2.200 4.062 2.668 0.004
Souche 2 vs Souche 3 2.800 5.170 2.668 0.001
Valeur critique du d de Tukey : 3.773

Modalité Moyenne Groupes


Souche 1 5.800 A
Souche 2 3.600 B
Souche 3 0.800 C

Les trois groupes sont différents


l’un par rapport à l’autre
Tests Statistiques

Exercice comparaison des variances


Pour tester l’effet de la profondeur sur le taux d’histamine produite
par deux espèces de poissons (S et M), on a enfermé les individus
de chaque espèce dans des cages puis on les a laissées pendant
une semaine soit en surface soit en profondeur. Des dosages de
l’histamine obtenus sont portés sur le tableau ci-dessous.

Il y a t-i une différence de l'apparition de l'histamine en fonction des


espèces et de la profondeur? Profondeur Surface
S 0,55 0,8646
S 2,63 2,343
S 2,71 2,2214
S 1,93 2,134
S 2,38 2,827
M 3,8 5,58
M 4,6 7,128
M 6,80 7,08
M 4,32 6,528
M 4,63 7,412
Tests Statistiques

Analyser le
ANOVA
résultat 2 facteurs avec répétition
obtenu RAPPORT DÉTAILLÉ Profondeur Surface Total
S
Nombre d'échantillons 5 5 10

H0 est L’hypothèse Somme 10,2 10,39 20,59


Moyenne 2,04 2,078 2,059
la plus probable. Les
Variance 0,7862 0,53181628 0,586186124
variables sont
indépendante. M
Nombre d'échantillons 5 5 10
Somme 24,15 33,728 57,878
C’est qu’il n’y a pas Moyenne 4,83 6,7456 5,7878
Variance 1,3237 0,5270288 1,841858178
d’interaction entre
Total
les échantillons Nombre d'échantillons 10 10
Somme 34,35 44,118
Moyenne 3,435 4,4118
Variance 3,099983333 6,522400524
ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627

Total 91,37214592 19

Pour l’interaction, p<0.05 donc H1 : Il y a interaction entre les deux facteurs


Tests Statistiques

ANALYSE DE VARIANCE
Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F
Échantillon (Espèces) 69,5197472 1 69,5197472 87,75681911 6,76065E-08 4,493998418
Colonnes (Prof/Surf) 4,7706912 1 4,7706912 6,022183646 0,025963309 4,493998418
Interaction 4,4067272 1 4,4067272 5,562741197 0,031400023 4,493998418
A l'intérieur du groupe 12,67498032 16 0,79218627

Total 91,37214592 19

On a une interaction quand l’effet d’un facteur


dépend de la modalité d’un autre facteur

H0 : Il n’y a pas d’interaction entre les facteurs


H1 : Il y a interaction entre les facteurs

p<0.05 donc on rejette H0 (absence d’interaction)


Et on accepte H1 : Il y a interaction entre les deux facteurs
Tests Statistiques

Graphe moyenne des 2 espèces


en fonction du profondeur
8
7
6
Moyennel

5
4
3
2
1
0
Profondeur Surface
prof

espece-M espece-S
Tests Statistiques

Résultat de Xlstat

Obs20
Obs19
Obs18
Obs17
Obs16
Observations

Obs15
Obs14
Obs13
Obs12
Obs11
Obs10
Obs9
Obs8
Obs7
Obs6
Obs5
Obs4
Obs3
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

Résidus normalisés
Les résidus centrés réduits, doivent être distribués
suivant une loi normale N(0,1).
Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96,
1.96]. Ici, seul l’observation 8 est aberrante
Tests Statistiques

Résultat ou output Xlstat


Analyse Type III Sum of Squares
(val) :

Somme des Moyenne


Source DDL carrés des carrés F Pr > F
prof 1 4.771 4.771 6.022 0.026
espece 1 69.520 69.520 87.757 < 0,0001
prof*espece 1 4.407 4.407 5.563 0.031

Paramètres du modèle (val) :

Borne inférieure Borne supérieure


Source Valeur Erreur standard t Pr > |t| (95%) (95%)
Constante 2.078 0.398 5.221 < 0,0001 1.234 2.922
prof-Profondeur -0.038 0.563 -0.068 0.947 -1.231 1.155
prof-Surface 0.000 0.000
espece-M 4.668 0.563 8.292 < 0,0001 3.474 5.861
espece-S 0.000 0.000
prof-Profondeur
*espece-M -1.878 0.796 -2.359 0.031 -3.565 -0.190
prof-Profondeur
*espece-S 0.000 0.000
prof-
Surface*espece-
M 0.000 0.000
prof-
Surface*espece-S 0.000 0.000

Equation du modèle (val) :


val = 2,078-3,80000000000023E-02*prof-Profondeur +4,6676*espece-M-1,8776*prof-Profondeur *espece-M
Tests Statistiques

Exemple de comparaisons multiples par paires selon


la méthode de Tukey

• Les moyennes ont des lettres différentes (A, B ou C).


• Elles sont donc toutes significativement différentes
Tests Statistiques

Régression linéaire
Exemple 1 de la régression linéaire
x Y
53 504
1 Faire le graphe de type nuage de points de y = f(x)
66 610
2 Ajouter la courbe de tendance 92 854
3 Afficher le r2 et l'équation de la droite 80 750
84 795
3 Utiliser les fonctions Excel pour calculer la pente,
48 440
l’ordonné à l’origine 61 580
6 Utiliser la fonctions Excel pour calculer le coefficient de 74 695
détermination 58 550
97 915
7 Vérifier ces valeurs avec ceux affichés sur le graphe
70 672
42 394
Tests Statistiques

Résultat de la régression sur l’utilitaire d’analyse

Y Statistiques de la régression
1000
y = 9,4005x + 0,2959
800 R² = 0,9976 Coefficient de détermination multiple 0.99882135
600
Coefficient de détermination R^2 0.99764408
400
Coefficient de détermination R^2 0.99740849
200 Erreur-type 0.88230008
0 Observations 12
0 20 40 60 80 100 120

Y Courbe de régression Coefficients Erreur-type Statistique t Probabilité


120 Constante 0.13056841 1.08480569 0.12036111 0.90658104
x
y = 0,1061x + 0,1306 Y 0.1061262 0.00163085 65.0740666 1.7878E-14
100
R² = 1
80
Prévisions x
60
x

40
Coefficients
20 H0 X et Y ne sont pas liés
0
Erreur-type
H1 X et Y sont liés
0 500 1000
-20
Y

Confiance =1-Probabilité obtenue =1 - 1.7 10-14  1


Tests Statistiques
Tests Statistiques

Résultat de la régression avec Xlstat


Paramètres du modèle (Y) :

Borne Borne
Erreur inférieure supérieure
Source Valeur standard t Pr > |t| (95%) (95%)
Constante 0.296 10.217 0.029 0.977 -22.468 23.060
x 9.401 0.144 65.074 < 0,0001 9.079 9.722

Résidus normalisés / Y
Obs12
Régression de Y par x (R²=0,998) Obs11
1000 Obs10
900 Obs9

Observations
Obs8
800
Obs7
700
Obs6
Y

600 Obs5
500 Obs4
400 Obs3
300 Obs2
30 50 70 90 110 Obs1
Echantillonx d'apprentissage
-2 -1 0 1 2
Modèle(Y)
Résidus normalisés
Int. de conf. (Moyenne 95%)
Int. de conf. (Obs 95%)
Tests Statistiques

Exercice 2 Prédictions à partir d'une régression linéaire

But: Prédire la concentration C d'un composé à partir


de la mesure de l'absorbance de la lumière A ; Loi
de Beer-Lambert: A=kC
[étalon] absorbance
(en ppm) Un étalonnage est fait à partir de 10 échantillons
0 0.040068354 préparés et donc de concentrations connues (C= 0
1 0.012271218 à 10). Pour chaque échantillon est fait une mesure
2 0.101924988 d'absorbance.
3 0.127855901
4 0.127932973 Déterminer les paramètres de la droite de régression
5 0.190596394 en utilisant les 2 méthodes Excel :
6 0.215880197 • courbe de tendance
7 0.184214217 • et fonction Excel
8 0.227856204 Faire une prévision linéaire pour retrouver la valeur de
9 0.316637749 la concentration pour une DO de 0.3
10 0.332678811
Utiliser la fonction matricielle droite de régression à 2
colonnes et 3 lignes et donner l’équation de la
relation qui relie les x et les y
Tests Statistiques

Régression linéaire
Exemple 2 de la régression linéaire
Analyse à partir du graphe
x y1 y2 y3
1/ Calculer la moyenne des y pour chaque X 1.00 10.00 11.00 12.00
2/ Calculer l’écart type sur les moyennes des y pour chaque X 2.00 11.00 10.00 13.00
5.00 10.00 9.00 12.00
3/ Faire un graphe de type nuage de points 9.00 13.00 15.00 14.00
12.00 15.00 16.00 14.00
4/ Porter l'écart type sur les moyennes 14.00 12.00 13.00 15.00
5/ Tracer la courbe de tendance et donner l'équation de 17.00 14.00 14.00 15.00
21.00 17.00 18.00 16.00
la régression et le coefficient de détermination 23.00 15.00 16.00 17.00
27.00 15.00 14.00 18.00
Utilisation des fonctions intégrées d’Excel
30.00 18.00 20.00 18.00
6/ Donner la valeur de la pente de y=f(x) 32.00 16.00 16.00 18.00
37.00 18.00 18.00 17.00
7/ Calculer la valeur de l’ordonnée à l’origine de y=f(x) 42.00 22.00 20.00 21.00
45.00 22.00 22.00 24.00
8/ Calculer la valeur de l’abscisse de y=f(x)
50.00 23.00 22.00 23.00
9/ Donner l’équation de la courbe y=f(x)
10/ Faire une extrapolation de Y pour X=100
Tests Statistiques

Exemple de résultat de la régression linéaire

Equation du modèle :

y = 8925 + 66.87.VAR1 + 2.93.VAR2 + 31.30.VAR3


Tests Statistiques

Tests de corrélation , le r
ou la « force » d’une liaison entre deux séries de données
(analyse bivariée) ou plus (analyse multivariée).

Le test « r » de Bravais-Pearson donne


le coefficient r de corrélation de Pearson r

Si r est proche de +1, cela signifie que les deux variables


sont très fortement corrélées de façon proportionnelle).

Si r est proche de -1, cela signifie que les deux variables


sont très fortement corrélées mais cette corrélation est
inversement proportionnelle.

Si r est proche de 0, il n’existe aucune corrélation entre les


deux variables : les variations de X n’ont pas d’influences
sur les variations de Y.
Tests Statistiques

Coefficient de détermination r²

Le coefficient de détermination r² reflète, d’une façon plus


fidèle, le degré de cette relation linéaire à la population; C’est la
proportion de la variable dépendante (y) qui est expliquée par la
variable indépendante variable (x)

• Si R2 est proche de 1 alors le modèle est proche de la


réalité on peut conclure une corrélation entre les deux séries.
• Si R2 << 1 une mauvaise corrélation.

Pour une valeur proche de «0» Il faut trouver un modèle


meilleur.

𝒓𝟐 ∶ 𝟎 ≤ 𝒓𝟐 ≤1
Tests Statistiques

Test de la pente ou Test de la nullité de la pente.

Il teste s’il existe une relation linéaire entre x et y


dans la population.
C’est également un test qui vérifie l’indépendance
des deux variables X et Y

• H0 : b 1=0 (X et Y sont indépendants)


• H1 : b1 0 (X et Y sont liés et la corrélation
entre X et Y existe également)
Tests Statistiques

Les variables étudiées


peuvent être

•Contrôlé (=expérimentale) •aléatoire


•aléatoire •aléatoire

Possibilité
d’interprétation causale Pas de causalité

r et r2 r
Tests Statistiques

Droite de régression y = ax +b

Sur Excel
• pente a
= PENTE(plage)

• L'ordonnée à l'origine b
= ORDONNEE.ORIGINE(plage)

• Le Coefficient de corrélation (r)


=COEFFICIENT.CORRELATION(plage)

Sur des graphes en nuages de point l’équation ax+b et le r2


sont données directement par la courbe de tendance linéaire.

Vous aimerez peut-être aussi