Vous êtes sur la page 1sur 118

Université d’Etat d’Haïti (UEH)

Faculté d’Agronomie et de Médecine Vétérinaire (FAMV)


Département de Phytotechnie (PHY)

COURS DE BIOMETRIE II
Professeur Predner DUVIVIER, Ing.- Agr., Ph.D.
Département des sciences de base (DSCB), Laboratoire de Chimie de la FAMV.
e-mail : pduvivier@yahoo.com;
cell phone : 3859-6329

Contenu sommaire

CONTENU SOMMAIRE ............................................................................................................. 1

FICHE NO. 01. BREF RAPPEL SUR DISPOSITIFS EXPERIMENTAUX DE BASE :


DCA ET DBCA; 3

FICHE NO. 02. DISPOSITIFS EN BLOCS INCOMPLETS EQUILIBRES ....................... 15

FICHE NO. 03. DISPOSITIF EN CARRE LATIN ................................................................. 19

FICHE NO. 04. EXPERIMENTATION FACTORIELLE (MODELE A EFFETS FIXES)


....................................................................................................................................................... 24

FICHE NO. 05. SERIE D’EXPERIMENTATIONS (RESEAU TEMPOREL). MODELES


A EFFETS ALEATOIRES. NOTION DE FACTEUR NICHE. ............................................ 29

FICHE NO. 06. SERIES D’EXPERIMENTATIONS (RESEAU SPATIAL OU ESSAIS


MULTILOCAUX). ...................................................................................................................... 40

FICHE NO. 07. DISPOSITIF EN PARCELLES DIVISEES (SPLIT PLOT) ...................... 41

FICHE NO. 08. EXPERIMENTATION AVEC OBSERVATIONS REPETEES DANS LE


TEMPS. ........................................................................................................................................ 50

FICHE NO. 09. VERIFICATION DES HYPOTHESES DE L’ANALYSE DE VARIANCE


ET TRANSFORMATION DE DONNEES. .............................................................................. 51

FICHE NO. 10. REGRESSION POLYNOMIALE ................................................................. 53

FICHE NO. 11. REGRESSION MULTIPLE........................................................................... 96


Page 2 of 118

FICHE NO. 12. SELECTION DE REGRESSEURS (SELECTION DE VARIABLES) EN


REGRESSION MULTIPLE .................................................................................................... 104

FICHE NO. 13. ANALYSE DE COVARIANCE ................................................................... 109

2
Page 3 of 118

Fiche No. 01. Bref rappel sur dispositifs expérimentaux de base : DCA et DBCA

1. Dispositif expérimental Complètement Aléatoire (DCA)


Ce dispositif est utilisé lorsque le champ expérimental est homogène ou quand la différence entre
les unités expérimentales est très faible. Il est courant dans les études réalisées au laboratoire, en
serre ou dans d’autres ambiances caractérisées par une homogénéité évidente. Dans ce dispositif,
on fait l’aléatorisation (la randomisation) dans le champ expérimental considéré comme un tout.
N’importe quel traitement peut être assigné à n’importe quelle unité du champ expérimental (fig.
1).

A B C D

A C D B

C A D B

D D B C

A C D B

Figure 1. croquis d’un dispositif expérimental complètement aléatoire (DCA).


• A, B, C, D : 4 variétés de millet que l’on compare pour leur productivité. Donc nombre de
traitements : t = 4.
• Le terrain est homogène en tout sens et, apparemment, à tout point de vue.
• Nombre de répétitions : r = 5.
• Nombre d’unités expérimentales : N= t x r d’où N = 4 x 5 =20.
Le formulaire d’enregistrement des informations à partir d’un DCA peut être conçu comme
indiqué dans le tableau 1.

3
Page 4 of 118

Tableau 1. Production de millet en kg/m2 selon la variété

VARIETES Total
Rép. A B C D
1
2
3
4
5
Total (VI)
Remarquer que les totaux des répétitions ne sont pas importants.

Ses avantages :
a. Le nombre de traitements et de répétitions est limité seulement par le nombre d’unités
expérimentales disponibles et pour des raisons d’ordre pratique.
b. Le nombre de répétitions (r) peut varier d’un traitement à un autre bien qu’un r égal dans
tous les traitements serait idéal.
c. L’ analyse des données est simple même si le nombre de répétitions varie dans les différents
traitements.
d. Le Dl de l’erreur expérimentale est maximum, ce qui augmente la précision de
l’expérimentation.
Ses inconvénients :
a. L’erreur expérimentale est surestimée puisque toute la variation qui n’est pas due aux
traitements lui est attribuée.
b. N’est pas approprié dans les cas où il y a un facteur parasite aléatoire qui crée une source de
variation.

4
Page 5 of 118

2. Dispositif en Blocs Complets Aléatorisés (DBCA)


Le DBCA est utilisé quand les U E ne sont pas homogènes, c’est à dire quand il y a une source
de variation à contrôler. Initialement, on les regroupe en blocs homogènes, ensuite on fait
l’aléatorisation (randomisation) à l’intérieur des blocs. L’analyse de variance souffre une
modification par rapport au DCA, car il y a une source de variation en plus : les blocs. Chaque
traitement se trouve une et une seule fois dans chaque bloc, autrement dit, il y a autant de
répétitions qu’il y a de blocs (fig. 2).

B1 A B C D

B2 B C D A

B3 C D A B

B4 D A B C

B5 C B D A

Figure 2. croquis d’un dispositif expérimental en blocs complets aléatorisés (DBCA).


• A, B, C, D : 4 variétés de millet que l’on compare pour leur productivité. Donc nombre de
traitement : t = 4.
• Le terrain est caractérisé par un gradient de fertilité naturelle dans le sens indiqué par la
flèche.
• Le gradient de fertilité naturelle nous a amené à diviser le champ expérimental en 5 blocs
(B1, B2, B3, B4 et B5).
• Nombre de répétitions ( r) = Nombre de blocs (b) = 5.
• Nombre d’unités expérimentales : N= t x b d’où N = 4 x 5 =20.

5
Page 6 of 118

Ses avantages
1. Analyse statistique simple
2. Permet de contrôler un facteur d’hétérogénéité
Ses désavantages
a. Quand la variation entre unités expérimentales à l’intérieur d’un même bloc est grande
l’erreur expérimentale peut être élevée.
b. L’ analyse des données est compliquée si le nombre de répétitions varie dans les différents
traitements, par exemple, si une parcelle est détruite.
Le formulaire d’enregistrement des informations collectées à partir d’un DBCA peut être conçu
comme indiqué dans le tableau 2.

Tableau 2. Production de millet en kg/m2 selon la variété

VARIETES Total (Bi)


Blocs A B C D
1
2
3
4
5
Total (Vj)

Remarquer que les totaux des blocs (répétitions) sont aussi importants que ceux des variétés
traitement.

Le DCA et le DBCA sont les dispositifs expérimentaux de base. Tous les autres dispositifs
expérimentaux en sont des modifications.

6
Page 7 of 118

3. ANALYSE DE VARIANCE
3.1 Définition
L’analyse de variance est un procédé mathématique de partition de la somme des carrés
totale en composantes associées à différentes sources de variation. Ce principe est basé sur
certaines hypothèses :
a. l’erreur expérimentale est aléatoire, indépendante et a une distribution normale
b. la variance des différents traitements est homogène
c. il n’y a pas de corrélation entre les variances et les moyennes des différents traitements.
d. Les effets générés sont additifs

3.2. Cas d’un DCA


Modèle additif linéaire
Y= µ + αI +εij où
Y est la réponse observée
µ la moyenne générale des traitements
αI les effets du traitement i
εij l’erreur expérimentale du i-ème traitement à la j-ème répétition

Schéma du tableau de l’analyse de variance


SV DL SC CM F

TRAIT t-1 (∑T2 /r)-FC SC/(t-1) CMtrait/ Cmerreur

Erreur t(r- 1) Différence SC/t(r-1)

Total (T) tr- 1 ∑x2 -FC

7
Page 8 of 118

Exemple
Tableau 1. Production de millet en kg/m2 selon la variété
VARIETE
Rép. A B C D Total
1 25 31 22 33
2 26 25 26 29
3 20 28 28 31
4 23 27 25 34
5 21 24 29 28
Total(T) 115 135 130 155 535

Calculs préliminaires
• Dl
# trait.= 4 ⇒ Dl trait. = 4-1 ⇒ DL trait =3
# rép. = 5
# U E = n = 5 x 4 = 20 ⇒Dl total=20-1 ⇒ Dl total = 19.
Dl erreur = Dl total - DL trait ⇒ Dl erreur=19-3 ⇒ Dl=16

• FC
FC= (∑x)2 /n ⇒FC=(155)2 /20 ⇒ FC=14311.25

• SC
A) SC total= (252 +262 +…….+342 +282 )- 14311.25 ⇒SC total=275.75
B) SC trait= (1152/5+1352/5+1302/5+1552/5)-14311.25 ⇒SC trait=163.75
C) SC erreur =275.25-163.75 ⇒ SC erreur=112.00

8
Page 9 of 118

ANOVA 1.

SV DL SC CM F

TRAIT 3 163.75 54.58 7.80**

Erreur 16 112.00 7.00

Total (T) 19 275.75

Le CM de l’erreur est l’erreur expérimentale. C’est la variance commune des 4 variétés.


L’hypothèse d’égalité des moyennes sera rejetée pour toute valeur de Fcal supérieur à F 0.05 (3, 16) .
F0.05 (3, 16) =3.24.

Fcal> F0.05 (3, 16) =3.24., l’hypothèse d’égalité des moyennes est rejetée.

ỹ=26.75
CV=100s/ ỹ ⇒ CV=(100√7.00)/26.75

Problème de données manquantes


Analyse de variance de données d’une expérimentation à un seul facteur avec données
manquantes

9
Page 10 of 118

Cas de l’exemple précédent


VARIEDAD
Rép. A B C D Total
1 25 31 22 33
2 26 25 26 29
3 20 28 28 31
4 23 27 25 34
5 29 28
Total(T) 94 109 130 155 488

ANOVA 2.

SV DL SC CM F

TRAIT 3 200 66.67 5.13 *

Erreur 10 130 13

Total (T) 13 330

Comparer les tableaux ANOVA 1 et 2.

Le CM de l’erreur est l’erreur expérimentale. C’est la variance commune des 4 variétés.


L’hypothèse d’égalité des moyennes sera rejetée pour toute valeur de Fcal supérieur à F 0.05 (3, 10) .
F0.05 (3, 10) =3.71.

Fcal> F0.05 (3, 16) =3.71, l’hypothèse d’égalité des moyennes est rejetée.

10
Page 11 of 118

3.3. Cas d’un DBCA


Modèle additif linéaire
Y= µ + αI +βj +εij où
Y est la variable de réponse
µ la moyenne générale des traitements
αI les effets du traitement i
βj les effets du bloc j
εij l’erreur expérimentale du i-ème traitement au j-ème bloc

Schéma du tableau de l’analyse de variance


SV DL SC CM F
BLOC b-1 (∑B2 /t)-FC SC/(b-1) CM Bloct/ Cmerreur
TRAIT t-1 (∑T2 /b)-FC SC/(t-1) CM trait/ Cmerreur
Erreur (t-1) (b- 1) Différence SC/(t-1)(b-1)

Total (T) tb- 1 ∑x2 -FC

EXEMPLE
TRAITS 1 2 3 4 TOTAL (B)

BLOCS
1 14.4 7.5 18.1 27.4 67.4
2 10.8 8.7 20.8 20.8 61.1
3 13.6 8.4 17.7 19.2 58.9
4 16.8 8.2 18.3 17.3 60.6
5 12.4 9.5 16.8 18.4 57.1
TOTAL (T) 68 42.3 91.7 103.1 305.1

11
Page 12 of 118

ANOVA 3.
SV DL SC CM F
TRAIT 3 436.06 145.35 21.82 **
BLOC 4 15.19 3.80 0.57
Erreur 12 79.16 6.66
Total (T) 19 531.21

F0.05 (3, 12) =3.49

Problème de données manquantes avec le DBCA


Supposons que dans l’exemple précédent, le traitement 3 est perdu dans le bloc 1.

TRAITS 1 2 3 4 TOTAL (B)

BLOCS
1 14.4 7.5 27.4 49.3
2 10.8 8.7 20.8 20.8 61.1
3 13.6 8.4 17.7 19.2 58.9
4 16.8 8.2 18.3 17.3 60.6
5 12.4 9.5 16.8 18.4 57.1
TOTAL (T) 68 42.3 73.6 103.1 287

LES CINQ ETAPES DE LA RESOLUTION DU PROBLEME

(1) Première étape : estimons la valeur de la donnée manquante

Y= (bB + tT - Σyij ) / (b-1)(t-1) où

Y est la valeur à estimer


b nombre de blocs

12
Page 13 of 118

B total des données du bloc qui contient la donnée manquante


t nombre de traitements
T total des données du traitement qui contient la donnée manquante
Σyij total de toutes les informations sans la parcelle perdue

En remplaçant les lettres par leur valeur, il advient :


Y =(bB + tT - Σyij ) / (b-1)(t-1)
=(5*49.3 + 4*73.6 –287) / (5-1)(4-1)
=253.9 / 12
=21.16

(2) Deuxième étape : complétons le tableau des données et calculons les SC


TRAITS 1 2 3 4 TOTAL (B)
BLOCS
1 14.4 7.5 21.16 27.4 70.46
2 10.8 8.7 20.8 20.8 61.1
3 13.6 8.4 17.7 19.2 58.9
4 16.8 8.2 18.3 17.3 60.6
5 12.4 9.5 16.8 18.4 57.1
TOTAL (T) 68 42.3 94.76 103.1 308.16

ANOVA 4.
SV DL SC CM F
TRAIT 456.34
BLOC 26.82
Erreur 74.36
Total (T) 557.52

13
Page 14 of 118

(3) Troisième étape : calculons un facteur correctif pour corriger la SC traitements (fc)
fc = [B- ( t-1)Y]2 / t(t-1)
=[49.3- (4-1)Y]2 / 4(4-1)
=201.07 / 12
=16.76

(4) Quatrième étape : corrigeons la SC traitements


SC Trait corrigée = SC Trait - fc
= 456.34 - 16.76
=439.58

(5) Cinquième étape : analyse de variance en considérant que la résiduelle a perdu un


degré de liberté
ANOVA 5.
SV DL SC CM F
TRAIT corrigé 3 439.58 146.53 21.67 **
fc --- 16.76 --- ---
BLOC 4 26.82 6.71 0.99
Erreur 11 74.36 6.76
Total (T) 18 557.52

Comparer les tableaux ANOVA 3 et 5.

F0.05 (3, 11)=3.59

N. B. Dans la comparaison multiple, on tient compte évidemment de la différence entre les


effectifs des groupes.

14
Page 15 of 118

Fiche No. 02. Dispositifs en blocs incomplets équilibrés

1. Rappel
Dans un dispositif en blocs complets aléatoires (DBCA), tous les traitements sont présents une et
une seule fois dans chaque bloc. Autrement dit, dans chaque bloc, il y a autant de parcelles
élémentaires qu’il y a de traitements à comparer. S’il n’y a pas de parcelles perdues, tous les
blocs ont le même nombre d’unités expérimentales. Tous les traitements ont aussi le même
nombre de répétitions et le nombre de blocs correspond au nombre de répétitions par traitement.
Le dispositif est dit équilibré.

2. Définition de dispositif en blocs incomplets équilibrés (BIE)


Un BIE est un dispositif expérimental dans lequel le nombre de traitements (t) à comparer est
supérieur au nombre de parcelles élémentaires par bloc (k). C’est pourquoi on dit que les blocs
sont incomplets. Le nombre de répétitions par traitement (r) est aussi différent du nombre de
blocs (b). Si r est le même pour tous les traitements, le dispositif est aussi équilibré. On parle
alors de BIE.
Dans un BIE, on a : rt=kb.

3. Usage
On utilise le BIE quand t est tellement élevé et la configuration du terrain est telle qu’on ne peut
pas trouver des blocs homogènes de superficies suffisantes pour recevoir les t traitements.

4. Inconvénient
Si les problèmes évoqués en 3 ne sont pas posés, on a plus de précision en utilisant un DBCA
qu’en utilisant un BIE.

Exemple.
Les données du tableau ci-dessous représentent les rendements en quintaux /ha de 10 variétés
d’aubergine testées dans une expérimentation réalisée suivant un dispositif en BIE.

15
Page 16 of 118

Tableau 1. Rendements de 10 variétés d’aubergine testées dans un dispositifs en BIE


Blocs Variétés Rendement Variétés Rendement Variétés Rendement
(trt) (resp) en (trt) (resp) en (trt) (resp)en
qx/ha qx/ha qx/ha
1 A 59 B 26 C 38
2 D 85 E 92 F 69
3 G 74 H 52 I 27
4 A 62 D 70 G 68
5 B 27 E 98 H 59
6 C 31 F 60 I 35
7 A 63 E 85 I 30
8 B 22 F 73 G 75
9 C 45 D 74 H 51
10 A 52 F 76 H 43
11 B 18 D 79 I 41
12 C 41 E 84 G 81

Résumé
Variables Niveaux Valeurs
Blocs 12 (b) 1 2 3 4 5 6 7 8 9 10 11 12

TRT 9 (t) abcdefghi

K 3 (k) 123

REP 4 (r) 1234

16
Page 17 of 118

ANOVA
SV Dl SC CM Fcal F 0.05 Pr>F (P-
Value)
Blocs 11 447.8 40.71 1.28 0.32
Traitemen 8 11930.07 1491 46.90 0.0001
ts
erreur 16 507.93 31.74 27.32 0.0001
Total 35 12885.8

Comparaison multiple
T tests (LSD) for variable: RESP
Alpha= 0.05 df= 16 MSE= 31.74537. Critical Value of T= 2.12. Least Significant Difference=
8.4458. Means with the same letter are not significantly different.

TRT Moyennes /rang


E 89.75 a
D 77 b
G 74.5 b
F 69.5 b
A 59 c
H 51.25 c
C 38.75 d
I 33.25 d
B 23.25 e

17
Page 18 of 118

Remarque
Pour la comparaison multiple, il ne faut pas utiliser la formule classique :
ppds = t (α/2) * (2MSE/n) ^1/2
n étant la taille des échantillons. Cette valeur doit être ajustée à cause de la nature du dispositif
expérimental utilisé. On fait alors: ppds = t (α/2) * (2*k*MSE/(t*λ) ^1/2 , λ étant le nombre de fois
que chaque pair de traitements apparaît dans un bloc. 1 dans le cas de cet exemple. On trouve
alors ppds=9.252342.

18
Page 19 of 118

Fiche No. 03. Dispositif en Carré Latin


Dispositif approprié dans un champ expérimental hétérogène. Contrôle d’hétérogénéité pour
deux sources de variation entre les U E.

Croquis
DCL : 4 trait. X 4 Blocs = 16 U E. Les U E ne sont pas homogènes à l’intérieur d’un bloc parce
qu’il y a deux sources de variation. Pour contrôler les deux sources de variation, on est amené à
concevoir des blocs dans les deux directions du champ expérimental.

C1 (très C2 (humide) C3 (peu C4 (sec)


humide) humide)

A C D
L1 : très fertile B

L2 : fertile D B A C

L3 : peu fertile B D C A

L4 : sol pauvre C A B D

Modèle additif linéaire : yijk = µ + αi + βj + γk + εijk

19
Page 20 of 118

Les blocs dans la direction horizontale sont appelés lignes et ceux dans la direction verticale sont
appelés colonnes.

Avantage : il permet de contrôler deux sources de variation entre les U E.

Désavantage : le nombres de lignes, de colonnes et de traitements doivent être


égaux.

Schéma du tableau de l’analyse de variance des données collectées à partir d’un DCL

SV DL SC CM F

(∑Ti2 /t)-FC SCT/(t-1) CMT/CMerreur


Trait. t-1
Lignes t-1 (∑Li2 /t)-FC SCL/(t-1) CML/CMerreur

Colonnes t-1 (∑Ci2 /t)-FC SCC/(t-1) CMC/CMerreur

Erreur (t-1)(t-2) Différence SCE/ (t-1)(t- 2) -

Total t2 - 1 ∑xijk2 -FC - -

20
Page 21 of 118

Exemple 1.
Les données suivantes représentent la hauteur (cm) d’insertion du premier fruit de papayers
soumis à 4 systèmes de conduite différents dans un dispositif en Carré Latin.

Colonnes
1 2 3 4 Total

1 A=93.0 B=108.6 C=108.9 D=102.0 412.5


2 B=115.4 D=96.5 A=77.9 C=100.2 390.0
Lignes 3 C=102.1 A=94.9 D=116.9 B=96.0 409.0
4 D=117.6 C=114.1 B=118.7 A=97.6 448.0
Total (C) 428.1 414.1 422.4 395.8 1660.4

Calculs préliminaires
• Dl
# trait.= 4 ⇒ Dl trait. = 4-1 ⇒ DL trait =3
# Lignes = 4 ⇒ Dl lignes = 4-1 ⇒ DL bloc =3
# Colonnes = 4 ⇒ Dl colonnes = 4-1 ⇒ DL bloc =3
# U E = n = 4 x 4 = 16 ⇒Dl total=16-1 ⇒ Dl total = 15.
Dl erreur = Dl total - DL trait - Dl lignes – Dl colonnes ⇒
Dl erreur=15-3-3-3 ⇒ Dl erreur= 6.

• FC
FC= (∑xijk)2 /t2 ⇒FC=(1660.4)2 /16 ⇒ FC=172308.01

• SC
A) SC total= (932 +115.42 +…….+96.02 +97.62 )- 172308.01 ⇒SC total=1912.07

B) SC trait= (∑Ti2 /t)-FC

21
Page 22 of 118

TA=363.4 TB=438.7 TC=425.3 TD=433.0


⇒(∑Ti2 /t)-FC = (363.42/4+438.72/4+425.32/4+433.02/4)-172308.01
⇒SC trait=913.58

C) SC Lignes = (∑Li2 /t)-FC ⇒


SC Lignes = (412.52/4+390.02/4+409.02/4+448.02/4)-172308.01
⇒ SC Lignes =436.56

D) SC Colonnes = (∑Ci2 /t)-FC⇒


SC Colonnes =(428.12/4+414.12/4+422.42/4+395.82/4)-172308.01
⇒ SC Colonnes =148.95

E) SC erreur = Différence ⇒
SC erreur = SC total - SC trait - SC Lignes - SC Colonnes ⇒
SC erreur =1912.07-913.58-436.56-148.95 ⇒ SC erreur=412.98

ANOVA
SV DL SC CM F

Trait. 3 913.58 304.53 4.42 NS

Lignes 3 436.56 145.52 2.11 NS

Colonnes 3 148.95 49.65 0.72 NS

Erreur 6 412.98 68.83 -

Total 15 1912.07 - -

22
Page 23 of 118

Le CM de l’erreur est l’erreur expérimentale. C’est la variance commune des 4 variétés. C’est
aussi la variance commune de 4 lignes et des 4 colonnes.

L’hypothèse d’égalité des moyennes de traitements sera rejetée pour toute valeur de Fcal
supérieur à F 0.05 (3, 6) .

N.B. de façon générale, on ne fait de test de comparaison multiple pour les lignes et les colonnes.

F 0.05 (3, 6) = 4.76. F tab > Fcal, tous les traitements sont égaux. Il n’y a pas nécessité de faire
un test de comparaison des moyennes.

Exemple 2.
Vous voulez tester 4 fongicides différents ( thiram, dithane m-45, Benlate et Mancozèb) pour
leur efficacité dans le contrôle du mildiou de la pomme de terre. Le champ expérimental n’est
pas homogène. Le terrain est plus humide à l’Est qu’à l’Ouest et présente une pente Nord-Sud.

Questionnaire
1. Quel dispositif expérimental est approprié dans ce cas ?
2. Combien de répétitions pouvez-vous avoir ?
3. Présentez le tableau de l’analyse de variance avec les degrés de liberté.
Indiquez les formules pour calculer les sommes des carrés dans chaque cas.

23
Page 24 of 118

Fiche No. 04. Expérimentation factorielle (modèle à effets fixes)

L’ Expérimentation factorielle n’est pas un dispositif expérimental, mais seulement un


arrangement de traitements.

Une expérimentation factorielle est une expérimentation dans laquelle chaque traitement est une
combinaison de deux facteurs ou plus. Dans chaque facteur, il y plusieurs niveaux.

Une expérimentation factorielle peut être combinée avec un DCA ou un DBCA.

Modèle additif linéaire avec un DCA : yijk = µ + αi + βj + α βij+ εijk

Modèle additif linéaire avec un DBCA : yijk = µ + αi + βj + α βij+ γk + εijk

Schéma du tableau de l’analyse de variance des données d’une expérimentation factorielle


2 x 2 dans un DCA

SV DL SC CM F

Facteur A a-1 (∑Ai2 /rb)-FC SCV/(a-1) CMV/CMEa

Facteur B b-1 (∑Bi2 /ra)-FC SCF/(b-1) CMF/CMEb

Interaction (a-1)(b-1) Différence SC int./((a-1)(b-1)) SC int./CMEb


A*B
Traitement (ab-1) ((∑Ti2 /r)-FC) - -

Erreur Différence Différence SCEa/((r-1)(a-1)) -

Total abr-1 ∑xijk2 -FC - -

24
Page 25 of 118

Exemple 1:
Les données suivantes proviennent d’une expérimentation factorielle 3x4 où
l’on utilisait un DCA.

A1 A2
B1 B2 B1 B2
8.53 17.53 39.14 32.00
20.53 21.07 26.20 23.80
12.53 20.80 31.33 28.87
14.00 17.33 45.80 25.06
10.80 20.07 40.20 29.33
Total 66.39 96.80 182.67 139.06

Calculs préliminaires
• Dl
# traitements 4 : a1b1, a1b2, a2b1 et a2b2. Dl trait=3
# répétitions : 5.
# U E = n = 5 * 4 =20. Dl total = 19
# niveaux du facteur A (a) = 2 ⇒ Dl A. =1
# niveaux du facteur B (b) = 2 ⇒ Dl B. =1
Dl int. A * B = 1*1=1
Dl erreur = 19-1-1-1=16

• FC
∑xijk = 484.92.

FC= (∑xijk)2 /n ⇒FC=(484.92)2 /20 ⇒ FC=11757.37

• SC
A) SC total= (8.532 +20.532 +…….+25.062 +29.332 )- 11757.37
⇒SC total=1919.33

25
Page 26 of 118

B) SC trait = (∑Ti2 /r)-FC


= (66.392/5+96.802/5+182.672/5+139.062/5)-11757.37
=1539.41
C) SC A.= (∑Ai2 /rb)-FC
= ((66.39 +96.80)2/10+(182.67 + 139.06)2/10 )-11757.37
⇒SC A =1256.75
D) SC B = (∑Bi2 /ra)-FC ⇒
= ((66.39 + 182.67)2/10 + (96.80 + 139.06)2/10) – 11757.37 ⇒ SC B
=8.71
E) SC A *B = SC trait -SC A- SC B = 1539.41 – 1256.75 – 8.71
⇒ SC A *B = 273.95
F) SCE = SC total -SCA-SCB–SCA*B = 1919.33 – 1256.75 – 8.71- 273.75
⇒ SCE = 379.92

ANOVA
SV DL SC CM F
Facteur A 1 1256.75 1256.75 53**

Facteur B 1 8.71 8.71 0.37 NS

Int. A*B 1 273.95 273.95 11.5 **

Traitement (3) (1539.41) -


-
Erreur 16 379.92 23.75 -

Total 19 1919.33 - -

26
Page 27 of 118

F 0.05 (1, 16) = 4.49


F 0.01 (1, 16) = 8.53

CV = (100*√CME /ξ
= (100 * √(23.75) / 24.25
=20.10 %

Interprétation des résultats.


• L’interaction A * B est significative. Il est nécessaire de faire la comparaison des moyennes
de A pour chaque niveau du facteur B ou la comparaison des moyennes de B pour chaque
niveau du facteur A.

• Le test de F se révèle non significatif pour le facteur B. Il y a lieu de conclure qu’il n’y a pas
suffisamment d’évidence de différence entre les moyennes des différents niveaux B.

• Le test de F est significatif pour le facteur A. Il y aurait lieu d’étudier les effets principaux de
ce facteur i e comparer les moyennes de chaque niveau de A. Mais comme l’interaction A *
B est significative, on va faire la comparaison des moyennes de A pour chaque niveau du
facteur B ou la comparaison des moyennes de B pour chaque niveau du facteur A.

Réalisons le test de comparaison des moyennes de B pour caque niveau de A et de A pour


chaque niveau de B.
• Calculons les moyennes
ξB1 / A1 = 66.39 / 5 ⇒ ξB1 / A1 = 13.28

ξB2 / A1 = 96.80 / 5 ⇒ ξB2 / A1 = 19.36

ξB1 / A2 =182.67 / 5 ⇒ ξB1 / A2 = 36.53

ξB2 / A2 =139.06 / 5⇒ ξB2 / A2 = 27.81

27
Page 28 of 118

• Test de Tukey
∆=q α (a, Dl erreur) * √(CME / r)
∆=q 0.05 (2, 16) * √(23.75/ 5)
∆=3.0 * √(23.75/5)
∆=6.54

Classification des moyennes


Traitements Moyennes Rang
B/A1
B2/A1 19.36 a
B1/A1 13.28 a

B/A2
B1/A2 36.53 a
B2/A2 27.81 b

A/B1
A2/B1 36.53 a
A1/B1 13.28 b

A/B2
A2/B2 27.81 a
A1/B2 19.36 b

28
Page 29 of 118

Fiche No. 05. Série d’expérimentations (réseau temporel). Modèles à effets aléatoires.
Notion de facteur niché.

Définition du concept de série d’expérimentations


On a une série d’expérimentations quand plusieurs essais identiques sont réalisés dans un même
endroit à des époques différentes (série temporelle) ou simultanément en des endroits différents
(série spatiale ou essais multilocaux).

Analyse d’une série d’expérimentations


La procédure consiste à faire d’abord l’analyse de variance de chaque essai c’est à dire pour
chaque époque ou pour chaque endroit. On fait ensuite le rapport du CME le plus élevé et celui
le plus faible. Si ce rapport est inférieur ou égale à 6 : 1, on fait une analyse factorielle de
l’ensemble. Au cas contraire, l’analyse de l’ensemble n’est pas à envisager.

29
Page 30 of 118

Exemple.
Les données suivantes représentent les pourcentages de nouaison chez le corossolier en fonction
de trois méthodes différentes de pollinisation artificielle en trois époques différentes.

EPOQUE 1. EPOQUE 2. EPOQUE 3.


TRt bloc nouaison TRt bloc nouaison TRt bloc nouaison
1 1 80 1 1 83.33 1 1 96.67
1 2 80 1 2 76.67 1 2 100
1 3 80 1 3 80 1 3 90
1 4 76.67 1 4 93.33 1 4 96.67
1 5 83.33 1 5 83.33 1 5 96.67
1 6 86.66 1 6 86.67 1 6 86.67
2 1 80 2 1 86.67 2 1 100
2 2 93.33 2 2 90 2 2 100
2 3 83.33 2 3 96.67 2 3 93.33
2 4 90 2 4 90 2 4 100
2 5 90 2 5 96.67 2 5 96.67
2 6 96.67 2 6 96.67 2 6 100
3 1 100 3 1 93.33 3 1 100
3 2 90 3 2 86.67 3 2 100
3 3 90 3 3 96.67 3 3 100
3 4 93.33 3 4 93.33 3 4 96.67
3 5 93.33 3 5 100 3 5 100
3 6 93.66 3 6 93.33 3 6 100

30
Page 31 of 118

Ces données ont été analysées en SAS les programmes suivants ont été utilisés.
EPOQUE 1. EPOQUE 2. EPOQUE 3.
data epoc1; data epoc2; data epoc3;
input trt bloc nouaison; input trt bloc nouaison; input trt bloc nouaison;
datalines; datalines; datalines;
1 1 80 1 1 83.33 1 1 96.67
1 2 80 1 2 76.67 1 2 100
1 3 80 1 3 80 1 3 90
1 4 76.67 1 4 93.33 1 4 96.67
1 5 83.33 1 5 83.33 1 5 96.67
1 6 86.66 1 6 86.67 1 6 86.67

2 1 80 2 1 86.67 2 1 100
2 2 93.33 2 2 90 2 2 100
2 3 83.33 2 3 96.67 2 3 93.33
2 4 90 2 4 90 2 4 100
2 5 90 2 5 96.67 2 5 96.67
2 6 96.67 2 6 96.67 2 6 100

3 1 100 3 1 93.33 3 1 100


3 2 90 3 2 86.67 3 2 100
3 3 90 3 3 96.67 3 3 100
3 4 93.33 3 4 93.33 3 4 96.67
3 5 93.33 3 5 100 3 5 100
3 6 93.66 3 6 93.33 3 6 100
; ; ;
proc glm; proc glm; proc glm;
class trt bloc; class trt bloc; class trt bloc;
model nouaison=trt bloc; model nouaison=trt bloc; model nouaison=trt bloc;
run; run; run;

31
Page 32 of 118

Résultats époque 1.
Class Levels Values
TRT 3 123
BLOC 6 123456
Number of observations in data set = 18
Dependent Variable: NOUAISON
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 7 562.88150000 80.41164286 3.74 0.0296
Error 10 214.80750000 21.48075000
Corrected Total 17 777.68900000

R-Square C.V. Root MSE NOUAISON Mean


0.723787 5.280142 4.6347330 87.776667

Source DF Type I SS Mean Square F Value Pr > F


TRT 2 459.22963333 229.61481667 10.69 0.0033
BLOC 5 103.65186667 20.73037333 0.97 0.4827

Source DF Type III SS Mean Square F Value Pr > F


TRT 2 459.22963333 229.61481667 10.69 0.0033
BLOC 5 103.65186667 20.73037333 0.97 0.4827

32
Page 33 of 118

Résultats époque 2.

Class Levels Values


TRT 3 123
BLOC 6 123456
Number of observations in data set = 18

Dependent Variable: NOUAISON


Sum of Mean
Source DF Squares Square F Value Pr > F
Model 7 533.97538889 76.28219841 4.07 0.0228
Error 10 187.64945556 18.76494556
Corrected Total 17 721.62484444

R-Square C.V. Root MSE NOUAISON Mean


0.739963 4.803266 4.3318524 90.185556

Source DF Type I SS Mean Square F Value Pr > F


TRT 2 360.58027778 180.29013889 9.61 0.0047
BLOC 5 173.39511111 34.67902222 1.85 0.1910

Source DF Type III SS Mean Square F Value Pr > F


TRT 2 360.58027778 180.29013889 9.61 0.0047
BLOC 5 173.39511111 34.67902222 1.85 0.1910

33
Page 34 of 118

Résultats époque 3.

Class Levels Values


TRT 3 123
BLOC 6 123456
Number of observations in data set = 18

Dependent Variable: NOUAISON


Sum of Mean
Source DF Squares Square F Value Pr > F
Model 7 146.87535000 20.98219286 1.91 0.1704
Error 10 109.84570000 10.98457000
Corrected Total 17 256.72105000

R-Square C.V. Root MSE NOUAISON Mean


0.572120 3.402479 3.3142978 97.408333

Source DF Type I SS Mean Square F Value Pr > F


TRT 2 82.65063333 41.32531667 3.76 0.0605
BLOC 5 64.22471667 12.84494333 1.17 0.3881

Source DF Type III SS Mean Square F Value Pr > F


TRT 2 82.65063333 41.32531667 3.76 0.0605
BLOC 5 64.22471667 12.84494333 1.17 0.3881

34
Page 35 of 118

Résumé de CME
Epoques CME
1 21.48
2 18.77
3 10.98

CME max. / CME min = 21.48/10.98=1.95 donc inférieur à 6.


Il y a lieu de faire une analyse de l’ensemble.

Remarques
1. Dans ce cas, les facteurs époque et méthodes (trt) se croisent dans un arrangement factoriel.
2. Les trois méthodes sont prises au hasard parmi les différentes méthodes qui existent. Ce
facteur a donc un effet aléatoire.
3. Les trois époques sont prises au hasard parmi les différentes époques qui existent. Ce facteur
a aussi un effet aléatoire.
4. Le modèle est un modèle à effets aléatoires. Cela étant les effets des facteurs époque et trt
seront testés avec le carré moyen de l’interaction époque*trt, mais non avec le CME de
l’erreur.
5. Pour chaque époque, on a utilisé un dispositif en blocs complets aléatorisés avec trois
réplications. Mais le bloc 1 de l’époque 1 n’est pas le bloc 1 de l’époque 2, ni le bloc 1 de
l’époque 3. De même, le bloc 2 de l’époque 1 n’est pas le bloc 2 de l’époque 2, ni le bloc 2
de l’époque 3. Il est tout aussi vrai que le bloc 3 de l’époque 1 n’est pas le bloc 3 de l’époque
2, ni le bloc 3 de l’époque 3. On peut dire donc que le facteur parasite bloc est niché dans le
facteur époque.

35
Page 36 of 118

Analyse de l’ensemble
PROGRAMME de SAS

36
Page 37 of 118

data ensemble; 2 6 96.67 2


input TRt bloc nouaison epoque; 3 1 93.33 2
datalines; 3 2 86.67 2
1 1 80 1 3 3 96.67 2
1 2 80 1 3 4 93.33 2
1 3 80 1 3 5 100 2
1 4 76.67 1 3 6 93.33 2
1 5 83.33 1
1 6 86.66 1 1 1 96.67 3
2 1 80 1 1 2 100 3
2 2 93.33 1 1 3 90 3
2 3 83.33 1 1 4 96.67 3
2 4 90 1 1 5 96.67 3
2 5 90 1 1 6 86.67 3
2 6 96.67 1 2 1 100 3
3 1 100 1 2 2 100 3
3 2 90 1 2 3 93.33 3
3 3 90 1 2 4 100 3
3 4 93.33 1 2 5 96.67 3
3 5 93.33 1 2 6 100 3
3 6 93.66 1 3 1 100 3
1 1 83.33 2 3 2 100 3
1 2 76.67 2 3 3 100 3
1 3 80 2 3 4 96.67 3
1 4 93.33 2 3 5 100 3
1 5 83.33 2 3 6 100 3
1 6 86.67 2 proc glm;
2 1 86.67 2 class trt bloc epoque;
2 2 90 2 model nouaison=trt epoque epoque*trt
2 3 96.67 2 bloc(epoque);
2 4 90 2 test h=trt epoque e=epoque*trt;
2 5 96.67 2 means trt epoque/tukey;
run;37
Page 38 of 118

SORTIE

facteurs niveaux Valeurs


TRT 3 123
BLOC 6 123456
EPOQUE 3 123
Number of observations in data set = 54

Dependent Variable: NOUAISON


Sum of Mean
Source DF Squares Square F Value Pr > F
Model 23 2152.1702037 93.5726176 5.51 0.0001
Error 30 509.4294556 16.9809819
Corrected Total 53 2661.5996593

R-Square C.V. Root MSE NOUAISON Mean


0.808600 4.489069 4.1207987 91.796296

Source DF Type I SS Mean Square F Value Pr > F


TRT 2 807.75878148 403.87939074 23.78 0.0001
EPOQUE 2 901.79671481 450.89835741 26.55 0.0001
TRT*EPOQUE 4 98.38016296 24.59504074 1.45 0.2425
BLOC(EPOQUE) 15 344.23454444 22.94896963 1.35 0.2340

Source DF Type III SS Mean Square F Value Pr > F


TRT 2 807.75878148 403.87939074 23.78 0.0001
EPOQUE 2 901.79671481 450.89835741 26.55 0.0001

38
Page 39 of 118

TRT*EPOQUE 4 98.38016296 24.59504074 1.45 0.2425


BLOC(EPOQUE) 15 344.23454444 22.94896963 1.35 0.2340

Tests of Hypotheses using the Type III MS for TRT*EPOQUE as an error term
Source DF Type III SS Mean Square F Value Pr > F
TRT 2 807.75878148 403.87939074 16.42 0.0118
EPOQUE 2 901.79671481 450.89835741 18.33 0.0097

Tukey's Studentized Range (HSD) Test for variable: NOUAISON


Alpha= 0.05 df= 30 MSE= 16.98098
Critical Value of Studentized Range= 3.487
Minimum Significant Difference= 3.3864
Means with the same letter are not significantly different.
Tukey Grouping Mean N TRT
A 95.573 18 3
A
A 93.334 18 2
B 86.482 18 1

Tukey's Studentized Range (HSD) Test for variable: NOUAISON


Alpha= 0.05 df= 30 MSE= 16.98098
Critical Value of Studentized Range= 3.487
Minimum Significant Difference= 3.3864
Means with the same letter are not significantly different.
Tukey Grouping Mean N EPOQUE
A 97.408 18 3
B 90.186 18 2
B
B 87.795 18 1

39
Page 40 of 118

Fiche No. 06. Séries d’expérimentations (réseau spatial ou essais multilocaux).

40
Page 41 of 118

Fiche No. 07. Dispositif en parcelles divisées (Split plot)


• Dans le dispositif en parcelles divisées, il y a deux types de traitements à comparer : les
principaux et les secondaires. Il y a aussi deux types de parcelles : les parcelles complètes
et les sous parcelles. Les traitements principaux sont assignés aux parcelles complètes tandis
que les traitement secondaires sont assignés aux sous parcelles.

• Une caractéristique principale de l’expérimentation en parcelles divisée est que les


traitements secondaires ne sont pas aléatorisés dans les blocs, mais dans les parcelles
complètes.

On utilise le dispositif en parcelles divisée :


• Lorsque la parcelle complète est une unité physique (un animal, une personne, une plante,
etc.) capable de recevoir deux traitement secondaires,
• Quand le traitement principal exige grande parcelle et
• Quand l’expérimentateur désire avoir plus de précision dans les sous parcelles que dans les
parcelles complètes.
Un exemple d’expérimentation en parcelles divisées : On veut tester 4 doses d’AIB sur
l’enracinement des marcottes de deux variétés de manguier. Les deux variétés sont assignées
aux parcelles complètes. Sur chaque plante, on sélectionne quatre rameaux et à chaque rameau,
on applique une dose d’AIB. Les doses d’AIB sont assignées aux sous parcelles. Dans ce cas,
les grandes parcelles étaient des unités physiques capables de recevoir 4 traitements secondaires
et l’expérimentateur voulait plus de précision dans la comparaison des effets de doses d’AIB que
dans celles des variétés sur l’enracinement des marcottes.
Croquis
PD: 4 variétés x 4 Blocs x = 16 U E. Les U E ne sont pas homogènes à l’intérieur d’un bloc
parce qu’il y a deux sources de variation. Pour contrôler les deux sources de variation, on est
amené à concevoir des blocs dans les deux directions du champ expérimental.

41
Page 42 of 118

Bloc1 A1 B1 C1 D1
Très fertile
A2
B2 C2 D3

Bloc2 B1 D1 C1
Fertile A1
B2 D3 C2
A2
Bloc3 peu D1 C1 B1
Fertile A1
D3 C2 B2
A2
Bloc4 A1 D1 C1
Sol pauvre B1
A2 D3 C2
B2

• Dans l’analyse de variance de ce type d’expérimentation, il y deux erreurs : une erreur a


associée aux parcelles complètes et une erreur b associée aux sous parcelles. De manière
générale, on espère plus de variation entre sous parcelles qu’entre parcelles complètes.

Modèle additif linéaire : yijk = µ + αi + βj + α βij+ γk + εijk

42
Page 43 of 118

Schéma du tableau de l’analyse de variance des données collectées à partir d’un DCL

SV DL SC CM F

Blocs r-1 (∑Bi2 /ab)-FC SCB/(r-1) CMB/CMEa

Variétés (V) a-1 (∑Vi2 /rb)-FC SCV/(a-1) CMV/CMEa

Erreur (a) (r-1) (a-1) Différence SCEa/((r-1)(a-1)) -

Parcelles (ar-1) ((∑Pi2 /b)-FC) - -

Fertilisation (F) b-1 (∑Fi2 /ra)-FC SCF/(b-1) CMF/CMEb


Interaction (a-1)(b-1) Différence SCint./((a-1)(b-1)) SC int./CMEb
V*F
Traitement (ab-1) ((∑Ti2 /r)-FC) -

Erreur (b) différence Différence SCEb/ Dl Eb -

Total abr-1 ∑xijk2 -FC - -

43
Page 44 of 118

Exemple 1.
Dans le tableau suivant, nous avons la production en t/2000 m^2 de 4 variétés (A, B, C et D ) de
grenadia cultivées à deux doses de fertilisants différents (0 et 1).

Var. Fert. Blocs (B) Total Total (V)


(V) (F) (F/V)
1 2 3 4
A 0 3.03 3.18 2.55 3.47 12.23 23.54
1 2.20 3.12 3.32 2.67 11.31
B 0 3.01 2.17 3.27 3.53 11.98 23.69
1 2.22 3.02 3.02 3.45 11.71
C 0 3.58 3.52 3.81 4.07 14.98 26.76
1 2.75 2.78 3.11 3.14 11.78
D 0 2.79 3.17 3.63 3.66 13.25 26.86
1 3.15 3.11 3.44 3.91 13.61
Total 22.73 24.07 26.15 27.90 100.85
(B)

Calculs préliminaires
• Dl
# blocs (r) = 4 ⇒ Dl bloc = 4-1 ⇒ DL bloc =3
# var. (a) = 4 ⇒ Dl var. = 4-1 ⇒ DL var. =3
# parcelles compl. = 4*4 =16 ⇒ Dl parcelles = 16-1 ⇒ parcelles =15
Dl erreur a= 15-3-3=9
# niveaux de fert. (b) = 2 ⇒Dl fert. =2-1=1
Dl int =Dl var * Dl fert = 3 * 1 ⇒Dl int=3
# U E = n = 4 blocs x 4 var. 2 fert =32 ⇒ Dl total=32-1 ⇒Dl total=31
Dl erreur b =31-3-1-15 ⇒ Dl erreur b = 12.

44
Page 45 of 118

• FC
FC= (∑xijk)2 /n ⇒FC=(100.85)2 /32 ⇒ FC=317.84

• SC
A) SC total= (3.032 +2.202 +…….+3.662 +3.912 )- 317.84
⇒SC total=6.95

B) SC bloc = (∑Bi2 /ab)-FC


= (22.732/8+24.072/8+26.152/8+27.92/8)-317.84
=1.94

C) SC Var.= (∑Vi2 /rb)-FC


= (23.542/8+23.692/8+26.762/8+26.862/8)-317.84
⇒SC Var=1.27

D) SC Parcelles = (∑Pi2 /a)-FC ⇒


= ((3.03+2.2)2/2 + (3.05+2.22)2/2 +…..+ (4.04+3.14)2/2 +
(3.66+3.91)2/2) – 317.84
⇒ SC Parcelles =3.87

E) SCE(a) = SC parcelles -SC var- SC bloc =3.87 – 1.94 – 1.27


⇒ SCE(a) = 0.66

F) SC Fert. = (∑Fi2 /ar)-FC


F1=52.44 F2=48.41
⇒ SC Fert. = (52.442/16 + 48.412/16)- 317.84
⇒ SC Fert. = 0.50

G) SC trait= (∑Ti2 /r)-FC


= (12.232/4 + 11.982/4 +…..+ 13.252/4 + 13.612/4)- 317.84

45
Page 46 of 118

⇒SC trait=2.68

H) SC V*F = SC trait. – SC Var – SC Fert.


⇒ SC V*F = 2.68 – 1.27 – 0.50
⇒ SC V*F = 0.91

I) SCE (b) = SC total - SC bloc – SC Var – SC Fert - SC V*F - SCE (a)


= 6.95 – 1.94 – 1.27 – 0.50 – 0.91 – 0.66
⇒ SCE (b) =1.67

ANOVA
SV DL SC CM F
Blocs 3 1.94 0.65
9.29**
Variétés (V) 3 1.27 0.42 6.00*

Erreur (a) 9 0.66 0.07


-
Parcelles (15) (3.87)

Fertilisation (F) 1 0.50 0.50


3.57 NS
Interaction V * F 3 0.91 0.30 2.14 NS

Traitement (7) (2.68)

Erreur (b) 12 1.67 0.14 -

Total 31 6.95 - -

46
Page 47 of 118

F 0.05 (3, 9) variété = 3.86


F 0.01 (3, 9) variété = 6.99
F 0.01 (1, 12) fert. = 4.75
F 0.05 (3, 12) V * F = 3.49

CV Parcelles = (100*√CME (a)) /ξ


= (100 * √0.07) / 3.15
=8.40 %

CV sous parcelles = (100*√ CME (b) ) / ξ


= (100 *√0.14)/ 3.15
= 11.88 %

Interprétation des résultats.


• Le test de F est significatif pour les blocs. Il y a hétérogénéité entre les blocs.

• L’interaction V*F n’est pas significative. Il n’est pas nécessaire de faire comparaison de
moyennes des variétés pour chaque niveau du facteur fertilisation ou comparaison de
moyennes des niveaux de fertilisation pour chaque niveau du facteur variété.

• Le test de F se révèle non significatif pour le facteur fertilisation. Il y a lieu de conclure qu’il
n’y a pas suffisamment d’évidence de différence entre les moyennes des différents niveaux
de fertilisation.

• Le test de F est significatif pour le facteur variété. Il y a lieu d’étudier les effets principaux de
ce facteur i e comparer les moyennes de chaque variétés.

Réalisons le test de comparaison des moyennes des variétés


• Calculons les moyennes
ξA=23.54/8 = 2.94 ξB=23.69/8 = 2.96 ξC=26.76/8=3.35

47
Page 48 of 118

ξD=26.86/8=3.36

• Test de Tukey
∆=q α (a, Dl erreur) * √(CME (a) / rb)
∆=q 0.05 (4, 9) * √0.07/8
∆=4.42 * √0.07/8
∆=0.41

Classification des moyennes


Variété Moyennes Rang
D 3.36 a
C 3.35 a
B 2.96 a b
A 2.94 b

48
Page 49 of 118

Exemple 2.
1) Les données suivantes se réfèrent au poids moyen (kg) des lapins de 4 races après 45 jours
qu’ils ont été soumis à deux suppléments alimentaires différents dans un dispositif en
parcelles divisées (Split Plot).
Blocs
Race Suppl. 1 2 3 4
A S 1.6 1.2 1.3 1.0
A C 1.8 1.4 1.7 1.5
B S 1.6 2.6 2.4 2.5
B C 3.0 1.5 1.4 2.0
C S 1.3 1.5 2.0 1.2
C C 2.8 2.5 2.2 1.4
D S 1.3 2.0 2.1 2.3
D C 1.8 2.7 2.4 1.6
E S 1.7 1.9 1.8 2.0
E C 1.8 2.1 1.9 2.0

Réaliser l’analyse de variance et les moyennes quand il est approprié en utilisant le test de
Tukey.

49
Page 50 of 118

Fiche No. 08. Expérimentation avec observations répétées dans le temps.

50
Page 51 of 118

Fiche No. 09. Vérification des hypothèses de l’analyse de variance et transformation de


données

Hypothèses sur lesquelles sont basées l’analyse de variance

L’analyse de variance, comme nous l’avons appris, est un procédé mathématique de partition
de la somme des carrés totale en composantes associées à différentes sources de variation. Cette
analyse est basée sur les hypothèses suivantes :
1. Les effets des traitements et environnementaux sont additifs
2. Les erreurs expérimentales sont aléatoires, indépendantes et distribuées normalement autour
d’une moyenne zéro (0).
3. Les variances des différents traitements sont homogènes

Additivité des effets


Les hypothèses d’ANOVA ne sont indépendantes les unes des autres. Elles sont un ensemble
d’hypothèses plutôt que des hypothèses indépendantes. La présence de non additivité dans les
données conduit à une hétérogénéité de la variance. C’est pourquoi dans la pratique, on se
contente souvent de ne tester que l’homogénéité des variances.

Test de non additivité


Exemple des données du tableau suivant
blocs
traiteme 1 2 3 4 moy trait moy trai decodif ўi.-ў..
nts
a 4.4 5.9 6 4.1 5.1 35.1 -0.4
b 3.3 1.9 4.9 7.1 4.3 34.3 -1.2
c 4.4 4 4.5 3.1 4.0 34.0 -1.5
d 6.8 6.6 7 6.4 6.7 36.7 1.2
e 6.3 4.9 5.9 7.1 6.1 36.1 0.5
f 6.4 7.3 7.7 6.7 7.0 37.0 1.5
NB. Obs originale =30+obs tabulée.

51
Page 52 of 118

moy 5.27 5.10 6.00 5.75 5.53


blocs
moy 35.27 35.10 36.00 35.75 35.53
blocs
decodi
ў.j-ў.. -0.26 -0.43 0.47 0.22

ξ8
ўξ

52
Page 53 of 118

Fiche No. 10. Régression polynomiale

1. Rappel sur corrélation et régression linéaires simples


Quand la variable indépendante aussi bien que la variable dépendante sont quantitatives, il y a
lieu de réaliser une analyse de corrélation et de régression.

• Corrélation linéaire
Le coefficient de corrélation linéaire est donné par la formule :

∑ Xi * ∑Yi
∑ Xi*Yi - -------------
n
r= -----------------------------------------------------------------------------------------

(∑Xi)2 (∑yi)2
√( ∑ Xi2 - ----------- ) * √ ( ∑ yi2 - ------------ )
n n

∑ Xi * ∑Yi
∑ Xi*Yi - ----------------
n
r= ------------------------------------------------
(√SCx) * (√SCy)

Si r est significativement supérieur à 0, les deux variables évoluent dans le même sens. Elles sont
dites en corrélation positive.

Si r est significativement inférieur à 0, les deux variables évoluent en sens contraire. Elles sont
dites en corrélation négative.

53
Page 54 of 118

Si r n’est significativement différent de 0, les deux variables sont indépendantes. Elles ne sont
pas liées.

On peut tester la valeur r en fonction du nombre de degré de liberté à 0.01 et 0.05 de probabilité.
Si la valeur r n’est pas significativement différent de 0, on s’arrête là. Au cas contraire, on fait
une analyse de régression pour trouver l’équation modèle.

Exemple.
Le tableau suivant présente les productions en kg/ ha de pomme de terre pour différentes doses
d’engrais 20-12-20. Les deux variables sont quantitatives.

Dose de Fertilisants (kg/ha) Production de tubercules (Kg/ha)


X Y
50 8750
100 9854
150 15421
200 17987
250 25418
300 35896
Total 1050 113326

54
Page 55 of 118

Solution
4624700
r cal= --------------------------------------------- ⇒
√43750 * √529137053.0

r cal =4624700/4811418.301 ⇒
r cal =0.9612

r 0.05 (n-2) = r 0.05 (6-2) =r 0.05 (4) =0.811

0.961>0.811, donc les deux variables sont en étroite corrélation positive. Il y a lieu de faire une
analyse de procéder à une analyse de régression.

r élevé au carré donne le coefficient de détermination R2 . R2 indique le pourcentage de la


variation observée au niveau de la variable de réponse est lié à la variable explicative. Le reste
est lié à l’erreur.

• Régression linéaire simple


La régression linéaire simple est le modèle mathématique qui explique une relation linéaire entre
une variable dépendante et une seule variable indépendante.
La relation mathématique qui lie les deux variables est une ligne droite. L’expression
analytique est :
Y = a + bX ou Y = βo + β1 X

• a ou βo s’appelle intercepte i e la valeur de Y quand X=0.


b ou β1 s’appelle pente ou coefficient de la régression.

• Interprétation de la pente de la droite de régression : Quand X varie de 1 unité, Y varie de β1


ou b unités.

• Estimation de a et b.

55
Page 56 of 118

_ -
1) Y = a + bX ⇒ a = ỹ - bX

∑ Xi * ∑Yi
∑ Xi*Yi - -------------
n
2) b = ------------------------------------
(∑Xi)2
∑ Xi2 - -----------
n

• Si on divise le numérateur de b par n-1, on obtient la covariance de X et Y.

∑ Xi * ∑Yi
∑ Xi*Yi - -------------
n
covar. (x, y) = --------------------------------------
n-1

• Le dénominateur de b divisé par n-1 est la variance de x. Donc

b = Covar. (x, y) / var x .

• Détermination de la droite de régression: Dans le cas de notre exemple,


_
ỹ = 18887.67 ; x=175.00 b=105.71 a= 388.88

56
Page 57 of 118

Alors, la droite de régression est : Y=388.88 + 105.71 X

• Interprétation : Pour une augmentation de la dose d’engrais de 1 kg/ ha, il y a une


augmentation de la production de 105.71 kg / ha.
• Quand on ne fertilise pas, on a une récolte de 388.88 kg/ ha.
• Connaissant x, on peut prévoir y et, réciproquement, connaissant y, on peut déterminer x
grâce à l’équation modèle.

57
Page 58 of 118

Analyse de variance de la régression


Schéma du tableau de l’analyse de variance de la régression

SV DL SC CM F

Régression 1 b 2 SCX SCReg SCReg /CMerreur


Erreur n-2 SCY - b 2 SCX Scerreur/(n-2)

Total n SCY

ANOVA de la régression dans le cas de notre exemple

SV DL SC CM F

Régression 1 488864880.6 488864880.6 48.56**

Erreur 4 40272172.4 10068043.1

Total 5 529137053.0 -

F 0.05 (1, 4)= 7.71


F cal > F tab. Donc le b est significativement différent de 0.

On peut aussi réaliser un test de t.

b 105.71
tcal= ------------------------ ⇒ tcal= ------------------------
√(CME /SCx ) √(10068043.1/43750)

58
Page 59 of 118

⇒ t cal=105.71/15.17 ⇒ tcal=6.97

t α/2 (Dl erreur) = t 0.025 (4)= 2.78.

t cal> t tab. Donc le b est significativement différent de 0.

• Niveau d’ajustement du modèle


-- Coefficient de détermination R2 --

R2 =SC rég./ SC totale, soit R2 =b 2 *(∑xi2 –(∑xi)2 /n) / (∑yi2 –(∑yi)2 /n)

Dans le cas de notre exemple, R2 =0.9239

0< R2 <1 toujours. Plus R2 est proche de 1, plus le modèle est correcte. C’est le pourcentage de la
variation globale expliquée par la régression. Le reste de la variation, (1- R2 ) est lié à l’erreur.

59
Page 60 of 118

40000
35000
y = 105.7x + 388.8
30000 R² = 0.923
25000
20000
y

15000
y = 0.388x2 - 30.10x + 9443.
10000
R² = 0.990
5000
0
0 50 100 150 200 250 300 350

Figure 1. Présentation de la droite de régression

60
Page 61 of 118

Notation matricielle de la Régression linéaire simple


Le modèle de régression linéaire simple est : Y = βoXo + β1 X1. Xo étant toujours égal à 1, on
écrit : Y = βo + β1 X.
En notation matricielle, on peut écrire :
Y1 Xo1 X11
Y2 Xo2 X12 βo
Y3 = Xo3 X13 β1
. . .
Yn Xon X1n

Comme Xo=1, on peut écrire


Y1 1 X11
Y2 1 X12 βo
Y3 = 1 X13 β1
. . .
Yn 1 X1n

Ou en forme compacte :
Y=X β

Le produit de la matrice X par elle même est


X’X =
1 X11
1 1 . 1 1 X12
X11 X12 . X1n X . .
1 X1n
=
n Σxi

ΣXi Σxi2

61
Page 62 of 118

Le produit de la matrice X par la matrice Y est

X’Y =
Y1
1 1 . 1 Y2
X11 X12 . X1n X .
Yn

=
ΣYi

ΣXiYi

Alors, sachant que


X’Y=X‘X β, on peut écrire :

ΣYi n Σxi βo

ΣXiYi = ΣXi Σxi2 β1

62
Page 63 of 118

Et résoudre les équations :


n βo + Σxi * β 1 = Σyi (1)

Σxi * βo + Σxi2 * β 1 = ΣxiYi (2)

Multipliant (1) par –Σxi et (2) par n, on obtient :


-n βo* Σxi - Σxi* Σxi * β 1 = -Σyi Σxi (1)
n βo *Σxi + nΣxi2 * β 1 = nΣxiYi (2)
------------------------------------------------------------
nΣxi2 * β 1 - Σxi* Σxi * β 1 = nΣxiYi-Σyi Σxi
β 1[nΣxi2 – (Σxi)2]= nΣxiYi- Σxi Σyi

β 1= nΣxiYi- Σxi Σyi / [nΣxi2 – (Σxi)2] (3)


en divisant le numérateur et le dénominateur de l’équation 3 par n, on obtient :
On peut aussi faire :

∑ Xi * ∑Yi
∑ Xi*Yi - -------------
n
1) β 1 = ---------------------------------------------
(∑Xi)2
∑ Xi2 - -----------
n

2) Ŷ = βo + β 1X ⇒ βo = Ŷ - β 1X

63
Page 64 of 118

Exemple. Soit les données du tableau ci-dessous :

Poids moyen X et consommation d’aliments Y de 50 poulets appartenant à 10 races


différentes, nourris pendant 150 jours.

4.6 87.1
5.1 93.1
4.8 89.8
4.4 91.4
5.9 99.5
4.7 92.1
5.1 95.5
5.2 99.3
4.9 93.4
5.1 94.4
SCx=1.536 SCy=135.604

Le produit de la matrice X par elle même est

X’X =
1 1 1 1 1 1 1 1 1 1
4.6 5.1 4.8 4.4 5.9 4.7 5.1 5.2 4.9 5.1

1 87.1
1 93.1
1 89.8
1 91.4

64
Page 65 of 118

1 99.5
1 92.1
1 95.5
1 99.3
1 93.4
1 94.4
=
10 49.8

49.8 249.54

=
n Σxi

ΣXi Σxi2

65
Page 66 of 118

Le produit de la matrice X par la matrice Y est

X’Y =
1 1 1 1 1 1 1 1 1 1
4.6 5.1 4.8 4.4 5.9 4.7 5.1 5.2 4.9 5.1

87.1
93.1
89.8
91.4
99.5
92.1
95.5
99.3
93.4
94.4

=
935.6

4671.1

=
Σyi

Σxiyi

66
Page 67 of 118

En résolvant les équations :


n βo + Σxi * β 1 = Σyi (1)

Σxi * βo + Σxi2 * β 1 = ΣxiYi (2)

On obtient :
10 bo +49.8 b1= 935.6
49.8 bo+249.54 b1=4671.1

b0=55.26
b1=7.67
Y =55.22+7.69X

En faisant :
∑ Xi * ∑Yi
∑ Xi*Yi - -------------
n
3) b = ------------------------------------
(∑Xi)2
∑ Xi2 - -----------
n

4) Y = a + bX ⇒ a = ỹ - bX

On obtient les mêmes résultats :

49.8* 935.6

67
Page 68 of 118

4671.1- -------------
10
1) b = ------------------------------------
(49.8)2
249.54- -----------
n
b=7.69

2) Y = a + bX ⇒ a = 93.56 – 7.69*4.98
a=93.56-38.29
a=55.26
Y =55.22+7.69X

ANOVA
df SS MS F Significance
F
Regression 1 90.83551042 90.83551042 16.23204379 0.003793854
Residual 8 44.76848958 5.596061198
Total 9 135.604

68
Page 69 of 118

2. Introduction à la régression polynomiale


La régression linéaire simple est basée sur l’hypothèse que la relation entre x et y est une relation
linéaire que peut expliquer une ligne droite.
Y=a+bx+ε

En supposant que pour une valeur donnée de x, la valeur espérée de ε est 0, on écrit y=a+bx.
Toutefois, toutes les séries de données ne sont pas adéquatement décrite par une ligne droite.
Autrement dit, la relation entre une variable dépendante et une variable indépendante n’est pas
toujours linéaire.
Tableau 1. Rendement d’une variété de maïs en q/ha en fonction de la dose de 15-15-15
appliquée
Observations Y=q/ha X=quantité fertilisant
1 24 12
2 18 5
3 31 15
4 33 17
5 26 20
6 30 14
7 20 6
8 25 23
9 25 11
10 27 13
11 21 18
12 29 18
13 29 22
14 26 25

Il est évident, selon la figure 1, qu’une équation linéaire ne représente pas toujours adéquatement
le relation entre x et y. L’augmentation de la quantité de fertilisants entraîne une augmentation

69
Page 70 of 118

du rendement certes, mais jusqu’à une certaine limite. Il semble qu’un modèle quadratique
(y=a+bx+cx2) est plus approprié.

Production en bushel

35
30
25
20
15
10
5
0
0 10 20 30

Quantité de fertilisant

Ce modèle quadratique (y=a+bx+cx2) expliquant la relation entre une variable dépendante y et


une seule variable indépendante x est un modèle de régression polynomiale. Nous disons modèle
quadratique parce que a+bx+cx2 est un polynôme du second degré. Un modèle de la forme
y=a+bx+cx2+d x3 est un modèle cubique parce que a+bx+cx2+dx3 est un polynôme du troisième
degré. Un modèle de la forme y=a+bx+cx2+dx3+ex4 est un modèle d’ordre 4 parce que
a+bx+cx2+dx3+ex4 est un polynôme du quatrième degré.

Un modèle général de régression polynomiale est y=a+a1x+a2x2+a3x3+ …….+apxp +ε


En supposant que pour une valeur donnée de x, la valeur espérée de ε est 0, on écrit
y=a+a1x+a2x2+a3x3+ …….+ apxp

Le choix de p et du modèle approprié dépend de la situation expérimentale.

70
Page 71 of 118

Calcul des aI
En excel,
1 Click the data series.
2 On the Chart menu, click Add Trendline.
3 On the Type tab, click Polynomial i e the type of regression trendline you want.
4. In the Order box, indicate the highest power for the independent variable.

Notation matricielle
Considérons par exemple les données du tableau 2 déterminons le modèle quadratique don’t
l’équation est : y=a+bx+cx2.

Y X Y X Y X Y X
24 76.2 39.5 93.5 58 106.7 74 142.3
22 76.8 32 94.3 61.5 119 71.5 145.5
26.5 77.3 26.5 96.8 69 119.7 77 149
22 79.2 55.5 97.5 71.5 119.8 85.5 150
25 80 49.5 99.5 73 119.8
37.5 87.8 56 104.2 76.5 123.5
36 93.2 55.5 106.3 78.5 141

ΣX=2698.9 ΣX2=305148.35 ΣX3=36045287.22 ΣX4=4429289685.23


ΣY=1303.5 ΣY2=78797.25 ΣXY=152129.55 ΣX2Y=18424791.12

71
Page 72 of 118

Le modèle général y=a+a1x+a2x2+a3x3+ …….+ apxp peut se mettre aussi sous forme d’équations
normales ou de moindre carrés :
Y1 Xo1 X11 X21 . Xk1
Y2 Xo2 X12 X22 . Xk2 βo
Y3 = Xo3 X13 X23 . Xk3 β1
. . . . . .
Yn Xon X1n X2n . Xkn βk

Comme Xo =1 et X1 =X, on peut écrire


Y1 1 X1 X21 . Xk1
Y2 1 X2 X22 . Xk2 βo
Y3 = 1 X3 X23 . Xk3 β1
. . . . . .
Yn 1 Xn X2n . Xkn βk

Ou en forme compacte :
Y=X β

Le produit de la matrice X par elle même est

X’X=
1 1 1 . 1 1 X1 X21 . Xk1
X1 X2 X3 . Xn 1 X2 X22 . Xk2
X21 X22 X23 . X2n 1 X3 X23 . Xk3
. . . . . . . . . .
k1 k k3 k 2
X X 2 X . X n 1 Xn X n . Xkn

72
Page 73 of 118

X’X=
n Σ Xi Σ Xi2 . Σ Xki
ΣXi Σ Xi2 Σ Xi3 . Σ Xi4+1
Σxi2 Σ Xi3 Σ Xi4 . Σ Xi4+2
Σxi3 Σ Xi4 . . Σ Xi4+3
. . . .
Σ Xik Σ Xi4+1 Σ Xi4+2 . Σ Xi4+n

De même le produit de la matrice X par la Matrice Y est


X’Y=
ΣYi
ΣXi Yi
Σ Xi2 Yi
Σ Xi3 Yi
.
Σ Xik Yi

Pour notre exemple qui est un modèle quadratique, y=a+bx+cx2, les équations normales ou de
moindre carrés sont:

Y1 1 X1 X21
Y2 1 X2 X22 βo
Y3 = 1 X3 X23 β1
. . . . β2
Yn 1 Xn X2n

73
Page 74 of 118

Ou en forme compacte :
Y=X β

Le produit de la matrice X par elle même est

X’X=
1 1 1 . 1 1 X1 X21
X1 X2 X3 . Xn 1 X2 X22
X21 X22 X23 . X2n 1 X3 X23

X’X=
n Σ Xi Σ Xi2
ΣXi Σ Xi2 Σ Xi3
ΣXi2 Σ Xi3 Σ Xi4

25 2698.9 305148.35
2698.9 305148.35 36045287.22
305148.35 36045287.22 4429289685.2
3

De même le produit de la matrice X par la Matrice Y est


X’Y=
ΣYi
ΣXi Yi
Σ Xi2 Yi

1303.5
152129.55
18424791.12

74
Page 75 of 118

Alors, sachant que


X’Y=X’X β, on peut écrire :
25 2698.9 305148.35 bo 1303.5
2698.9 305148.35 36045287.22 * b1 = 152129.55
305148.3 36045287.2 4429289685.2 b2 18424791.
5 2 3 12

Ou
25 bo+ 2698.9 b1 + 305148.35b2= 1303.5 (1)

2698.9 bo+ 305148.35 b1+ 36045287.22 b2= 152129.55 (2)

305148.35bo+ 36045287.22 b1+ 4429289685.23 b2= 18424791.12 (3)

Pour trouver b1 et b2, il faut faire un tableau de SC ajustées de la forme :

X1 X2 Y
X1 SCX SPXX2 SPXY
X2 SCX2 SPX2Y
Y .

X1 X2 Y
2
X1 SCX=13785.9 SPX X = SPXY=
X2 SCX2=447.10071451 SPX2Y=
Y .

75
Page 76 of 118

N.B. SPx1x2=Σ(x1i*x2i) – (Σx1i) (Σx2i)/n

76
Page 77 of 118

Pour trouver b1, b2, … bk, il faut faire un tableau de SC ajustées de la forme :
X1 X2 . xk Y
X1 SCx1 SPx1x2 . SPx1xk SPx1Y
X2 SPx1x2 SCx2 . SPx2xk SPx2Y
. . . .
xk SPx1xk SPx2xk . SCxk SPxkY
Y SPx1Y SPx2Y . SPxkY SCY

77
Page 78 of 118

Test des modèles. Seulement quand il y a répétitions.


En SAS (au labo)
Exemple
Les données de la dernière colonne du tableau ci-dessous représentent les pourcentages de chute
prématurée de fruits de manguier pendant 8 semaines (colonne 3) après la nouaison. Les
observations ont été faites dans une expérimentation où l’on comparait 2 variétés commerciales
greffées sur 5 porte-greffes mis en place dans un dispositif en blocs complets aléatorisés avec
trois répétitions. Les données ont été analysées en SAS pour étudier la relation entre
l’importance de la chute prématurée des fruits et le niveau de maturité de ces derniers, en
d’autres mots, l’évolution de la chute prématurée des fruits dans le temps (au cours des 8
semaines).
Les modèles de régression linéaire simple, quadratique, cubique et d’ordre 4 ont été testés par
contrastes (voir proc step du programme). Les résultats montrent que seul le modèle quadratique
est approprié (voir encadré). Nous en traçons le graphe et en écrivons l’équation.

Programme DE SAS
 Data STEP
option nocenter linesize=72;
data indiceF;
input combina $ bloque semana caida total pccaida;
if combina='B' or combina='H' then patron='1';
if combina='C' or combina='I' then patron='2';
if combina='D' or combina='J' then patron='3';
if combina='E' or combina='K' then patron='4';
if combina='F' or combina='L' then patron='5';
if combina='B' or combina='C' or combina='D' or combina='E' or combina='F' then variedad='1';
if combina='H' or combina='I' or combina='J' or combina='K' or combina='L' then variedad='2';
datalines;

 PARAGRAPHE DES DONNÉES=encadré-(bordure+en-tête+prem+première colonne);

78
Page 79 of 118

 PROC STEP
PROC PRINT;
proc glm;
class bloque semana patron variedad;
model pccaida= bloque
patron variedad patron*variedad bloque*patron*variedad semana patron*semana
variedad*semana patron*variedad*semana;
means patron variedad /lsd;
contrast 'lineal' semana -7 -5 -3 -1 1 3 5 7;
contrast 'cuadratico' semana 7 1 -3 -5 -5 -3 1 7;
contrast 'cubico' semana -7 5 7 3 -3 -7 -5 7;
contrast 'ordre 4' semana 7 -13 -3 9 9 -3 -13 7;
run;

79
Page 80 of 118

Résultats
OBS COMBINA BLOQUE SEMANA CAIDA TOTAL PCCAIDA PATRON
VARIEDAD
1 B 1 1 4 134 3 1 1
2 B 1 2 5 134 4 1 1
3 B 1 3 6 134 4 1 1
4 B 1 4 18 134 13 1 1
5 B 1 5 29 134 22 1 1
6 B 1 6 24 134 18 1 1
7 B 1 7 19 134 14 1 1
8 B 1 8 23 134 17 1 1
9 B 2 1 17 427 4 1 1
10 B 2 2 37 427 9 1 1
11 B 2 3 56 427 13 1 1
12 B 2 4 41 427 10 1 1
13 B 2 5 34 427 8 1 1
14 B 2 6 25 427 6 1 1
15 B 2 7 39 427 9 1 1
16 B 2 8 96 427 22 1 1
17 B 3 1 42 997 4 1 1
18 B 3 2 144 997 14 1 1
19 B 3 3 241 997 24 1 1
20 B 3 4 182 997 18 1 1
21 B 3 5 140 997 14 1 1
22 B 3 6 93 997 9 1 1
23 B 3 7 74 997 7 1 1
24 B 3 8 13 997 1 1 1
25 C 1 1 33 478 7 2 1
26 C 1 2 36 478 8 2 1
27 C 1 3 11 478 2 2 1
28 C 1 4 18 478 4 2 1

80
Page 81 of 118

29 C 1 5 173 478 36 2 1
30 C 1 6 28 478 6 2 1
31 C 1 7 25 478 5 2 1
32 C 1 8 57 478 12 2 1
33 C 2 1 66 478 14 2 1
34 C 2 2 50 478 11 2 1
35 C 2 3 44 478 9 2 1
36 C 2 4 47 478 10 2 1
37 C 2 5 46 478 10 2 1
38 C 2 6 43 478 9 2 1
39 C 2 7 54 478 11 2 1
40 C 2 8 67 478 14 2 1
41 C 3 1 38 1200 3 2 1
42 C 3 2 26 1200 2 2 1
43 C 3 3 129 1200 11 2 1
44 C 3 4 259 1200 22 2 1
45 C 3 5 344 1200 29 2 1
46 C 3 6 217 1200 18 2 1
47 C 3 7 124 1200 10 2 1
48 C 3 8 24 1200 2 2 1
49 D 1 1 2 326 1 3 1

81
Page 82 of 118

OBS COMBINA BLOQUE SEMANA CAIDA TOTAL PCCAIDA PATRON


VARIEDAD
50 D 1 2 15 326 4 3 1
51 D 1 3 16 326 5 3 1
52 D 1 4 15 326 5 3 1
53 D 1 5 19 326 6 3 1
54 D 1 6 28 326 9 3 1
55 D 1 7 18 326 6 3 1
56 D 1 8 9 326 3 3 1
57 D 2 1 84 439 19 3 1
58 D 2 2 102 439 23 3 1
59 D 2 3 12 439 3 3 1
60 D 2 4 63 439 14 3 1
61 D 2 5 34 439 8 3 1
62 D 2 6 31 439 7 3 1
63 D 2 7 39 439 9 3 1
64 D 2 8 29 439 6 3 1
65 D 3 1 21 151 14 3 1
66 D 3 2 15 151 10 3 1
67 D 3 3 7 151 4 3 1
68 D 3 4 10 151 7 3 1
69 D 3 5 6 151 4 3 1
70 D 3 6 18 151 12 3 1
71 D 3 7 10 151 7 3 1
72 D 3 8 9 151 6 3 1
73 E 1 1 13 340 4 4 1
74 E 1 2 16 340 5 4 1
75 E 1 3 18 340 5 4 1
76 E 1 4 49 340 14 4 1
77 E 1 5 56 340 17 4 1
78 E 1 6 51 340 15 4 1

82
Page 83 of 118

79 E 1 7 42 340 12 4 1
80 E 1 8 54 340 16 4 1
81 E 2 1 7 360 2 4 1
82 E 2 2 6 360 2 4 1
83 E 2 3 9 360 2 4 1
84 E 2 4 51 360 14 4 1
85 E 2 5 145 360 40 4 1
86 E 2 6 112 360 31 4 1
87 E 2 7 20 360 5 4 1
88 E 2 8 11 360 3 4 1
89 E 3 1 41 188 22 4 1
90 E 3 2 49 188 26 4 1
91 E 3 3 53 188 28 4 1
92 E 3 4 0 188 0 4 1
93 E 3 5 0 188 0 4 1
94 E 3 6 0 188 0 4 1
95 E 3 7 0 188 0 4 1
96 E 3 8 2 188 1 4 1
97 F 1 1 10 238 4 5 1
98 F 1 2 12 238 5 5 1

83
Page 84 of 118

OBS COMBINA BLOQUE SEMANA CAIDA TOTAL PCCAIDA PATRON


VARIEDAD
99 F 1 3 15 238 6 5 1
100 F 1 4 21 238 9 5 1
101 F 1 5 37 238 15 5 1
102 F 1 6 32 238 13 5 1
103 F 1 7 19 238 8 5 1
104 F 1 8 13 238 6 5 1
105 F 2 1 18 485 4 5 1
106 F 2 2 45 485 9 5 1
107 F 2 3 50 485 10 5 1
108 F 2 4 59 485 12 5 1
109 F 2 5 80 485 16 5 1
110 F 2 6 72 485 15 5 1
111 F 2 7 66 485 14 5 1
112 F 2 8 72 485 15 5 1
113 F 3 1 15 385 4 5 1
114 F 3 2 17 385 5 5 1
115 F 3 3 29 385 8 5 1
116 F 3 4 67 385 17 5 1
117 F 3 5 49 385 13 5 1
118 F 3 6 81 385 21 5 1
119 F 3 7 42 385 11 5 1
120 F 3 8 31 385 8 5 1
121 H 1 1 41 238 17 1 2
122 H 1 2 15 238 6 1 2
123 H 1 3 9 238 4 1 2
124 H 1 4 5 238 2 1 2
125 H 1 5 46 238 19 1 2
126 H 1 6 4 238 2 1 2
127 H 1 7 4 238 2 1 2

84
Page 85 of 118

128 H 1 8 4 238 2 1 2
129 H 2 1 31 359 9 1 2
130 H 2 2 35 359 10 1 2
131 H 2 3 36 359 10 1 2
132 H 2 4 47 359 13 1 2
133 H 2 5 14 359 4 1 2
134 H 2 6 36 359 10 1 2
135 H 2 7 22 359 6 1 2
136 H 2 8 9 359 3 1 2
137 H 3 1 9 178 5 1 2
138 H 3 2 8 178 5 1 2
139 H 3 3 8 178 4 1 2
140 H 3 4 12 178 7 1 2
141 H 3 5 8 178 5 1 2
142 H 3 6 9 178 5 1 2
143 H 3 7 10 178 5 1 2
144 H 3 8 4 178 2 1 2
145 I 1 1 18 163 11 2 2
146 I 1 2 11 163 7 2 2
147 I 1 3 4 163 2 2 2

85
Page 86 of 118

OBS COMBINA BLOQUE SEMANA CAIDA TOTAL PCCAIDA PATRON


VARIEDAD
148 I 1 4 6 163 3 2 2
149 I 1 5 7 163 4 2 2
150 I 1 6 10 163 6 2 2
151 I 1 7 12 163 8 2 2
152 I 1 8 11 163 7 2 2
153 I 2 1 34 313 11 2 2
154 I 2 2 33 313 11 2 2
155 I 2 3 32 313 10 2 2
156 I 2 4 20 313 6 2 2
157 I 2 5 8 313 2 2 2
158 I 2 6 14 313 4 2 2
159 I 2 7 19 313 6 2 2
160 I 2 8 12 313 4 2 2
161 I 3 1 8 222 4 2 2
162 I 3 2 20 222 9 2 2
163 I 3 3 10 222 5 2 2
164 I 3 4 8 222 3 2 2
165 I 3 5 12 222 6 2 2
166 I 3 6 14 222 6 2 2
167 I 3 7 18 222 8 2 2
168 I 3 8 32 222 14 2 2
169 J 1 1 38 283 13 3 2
170 J 1 2 48 283 17 3 2
171 J 1 3 55 283 19 3 2
172 J 1 4 33 283 12 3 2
173 J 1 5 15 283 5 3 2
174 J 1 6 9 283 3 3 2
175 J 1 7 17 283 6 3 2
176 J 1 8 3 283 1 3 2

86
Page 87 of 118

177 J 2 1 30 375 8 3 2
178 J 2 2 22 375 6 3 2
179 J 2 3 17 375 5 3 2
180 J 2 4 11 375 3 3 2
181 J 2 5 19 375 5 3 2
182 J 2 6 19 375 5 3 2
183 J 2 7 9 375 2 3 2
184 J 2 8 6 375 2 3 2
185 J 3 1 57 327 17 3 2
186 J 3 2 40 327 12 3 2
187 J 3 3 18 327 5 3 2
188 J 3 4 37 327 11 3 2
189 J 3 5 29 327 9 3 2
190 J 3 6 20 327 6 3 2
191 J 3 7 8 327 2 3 2
192 J 3 8 5 327 2 3 2
193 K 1 1 5 214 2 4 2
194 K 1 2 9 214 4 4 2
195 K 1 3 12 214 5 4 2
196 K 1 4 20 214 10 4 2

87
Page 88 of 118

OBS COMBINA BLOQUE SEMANA CAIDA TOTAL PCCAIDA PATRON


VARIEDAD
197 K 1 5 28 214 13 4 2
198 K 1 6 14 214 6 4 2
199 K 1 7 8 214 4 4 2
200 K 1 8 2 214 1 4 2
201 K 2 1 32 240 13 4 2
202 K 2 2 20 240 8 4 2
203 K 2 3 15 240 6 4 2
204 K 2 4 15 240 6 4 2
205 K 2 5 25 240 10 4 2
206 K 2 6 18 240 8 4 2
207 K 2 7 14 240 6 4 2
208 K 2 8 5 240 2 4 2
209 K 3 1 31 218 14 4 2
210 K 3 2 24 218 11 4 2
211 K 3 3 24 218 11 4 2
212 K 3 4 29 218 13 4 2
213 K 3 5 29 218 13 4 2
214 K 3 6 10 218 5 4 2
215 K 3 7 6 218 3 4 2
216 K 3 8 2 218 1 4 2
217 L 1 1 8 225 4 5 2
218 L 1 2 12 225 5 5 2
219 L 1 3 16 225 7 5 2
220 L 1 4 16 225 7 5 2
221 L 1 5 21 225 9 5 2
222 L 1 6 20 225 9 5 2
223 L 1 7 15 225 7 5 2
224 L 1 8 6 225 3 5 2
225 L 2 1 13 356 4 5 2

88
Page 89 of 118

226 L 2 2 21 356 6 5 2
227 L 2 3 35 356 10 5 2
228 L 2 4 54 356 15 5 2
229 L 2 5 32 356 9 5 2
230 L 2 6 28 356 8 5 2
231 L 2 7 19 356 5 5 2
232 L 2 8 0 356 0 5 2
233 L 3 1 60 374 16 5 2
234 L 3 2 31 374 8 5 2
235 L 3 3 21 374 6 5 2
236 L 3 4 51 374 14 5 2
237 L 3 6 25 374 7 5 2
238 L 3 6 9 374 2 5 2
239 L 3 8 1 374 0 5 2
240 L 3 8 0 374 0 5 2

89
Page 90 of 118

Dependent Variable: PCCAIDA


Sum of Mean
Source DF Squares Square F Value Pr > F
Model 99 4371.1560 44.1531 1.13 0.2556
Error 140 5482.8274 39.1631
Corrected Total 239 9853.9833

R-Square C.V. Root MSE PCCAIDA Mean


0.443593 72.83848 6.2580 8.5917

Source DF Type I SS Mean Square F Value Pr > F


BLOQUE 2 42.75833 21.37917 0.55 0.5805
PATRON 4 60.77500 15.19375 0.39 0.8170
VARIEDAD 1 700.41667 700.41667 17.88 0.0001
PATRON*VARIEDAD 4 122.70833 30.67708 0.78 0.5378
BLOQUE*PATRON*VARIED 18 430.57500 23.92083 0.61 0.8866
SEMANA 7 755.70997 107.95857 2.76 0.0103
SEMANA*PATRON 28 896.37012 32.01322 0.82 0.7275
SEMANA*VARIEDAD 7 636.56467 90.93781 2.32 0.0285
SEMANA*PATRON*VARIED 28 725.27786 25.90278 0.66 0.8992

Source DF Type III SS Mean Square F Value Pr > F


BLOQUE 2 45.43386 22.71693 0.58 0.5612
PATRON 4 60.79690 15.19922 0.39 0.8169
VARIEDAD 1 666.20069 666.20069 17.01 0.0001
PATRON*VARIEDAD 4 122.15569 30.53892 0.78 0.5401
BLOQUE*PATRON*VARIED 18 432.40529 24.02252 0.61 0.8846
SEMANA 7 721.14083 103.02012 2.63 0.0139
SEMANA*PATRON 28 901.10960 32.18249 0.82 0.7218
SEMANA*VARIEDAD 7 620.70142 88.67163 2.26 0.0326

90
Page 91 of 118

SEMANA*PATRON*VARIED 28 725.27786 25.90278 0.66 0.8992

T tests (LSD) for variable: PCCAIDA


NOTE: This test controls the type I comparisonwise error rate not the
experimentwise error rate.

Alpha= 0.05 df= 140 MSE= 39.16305


Critical Value of T= 1.98
Least Significant Difference= 2.5255

Means with the same letter are not significantly different.


T Grouping Mean N PATRON

A 9.146 48 4
A
A 8.833 48 1
A
A 8.792 48 2
A
A 8.521 48 5
A
A 7.667 48 3

T tests (LSD) for variable: PCCAIDA


NOTE: This test controls the type I comparisonwise error rate not the
experimentwise error rate.

91
Page 92 of 118

Alpha= 0.05 df= 140 MSE= 39.16305


Critical Value of T= 1.98
Least Significant Difference= 1.5973

Means with the same letter are not significantly different.


T Grouping Mean N VARIEDAD

A 10.3000 120 1
B 6.8833 120 2

Dependent Variable: PCCAIDA


Contrast DF Contrast SS Mean Square F Value Pr > F
lineal 1 97.52353 97.52353 2.49 0.1168
cuadratico 1 354.20421 354.20421 9.04 0.0031
cubico 1 63.44432 63.44432 1.62 0.2052
ordre 4 1 89.17629 89.17629 2.28 0.1336

Tests of Hypotheses using the Type III MS for


BLOQUE*PATRON*VARIED as an error term
Source DF Type III SS Mean Square F Value Pr > F
BLOQUE 2 45.43386 22.71693 0.95 0.4069
PATRON 4 60.79690 15.19922 0.63 0.6456
VARIEDAD 1 666.20069 666.20069 27.73 0.0001

92
Page 93 of 118

y = -0.342x + 9.625
12
R² = 0.409
10

8
pccaida

4
y = -0.178x2 + 1.272x + 7.027
2 R² = 0.779

0
0 2 4 6 8 10
semana

Figure 2. évolution de la chute prématurée des fruit chez les manguiers Parvin et Tommy Atkins

93
Page 94 of 118

FAMV
BIOM 1 LAB9 Régression et corrélation linéaires &
Test de x2

Etudiant :__________________________ Date :_______________

1) On réalisait une étude pour déterminer l’effet de différentes concentrations de pectine sur la
consistance de la patate douce emboîtée. On utilisait 3 concentrations différentes ( 0.00%,
1.50%, 3.00%). On préparait 6 boites de patate douce avec 25% de sucre. On assignait 2
boites à chacune des concentrations de pectine puis on fermait les boites et les emmagasinait
à 25ºC pendant 30 jours. Après ce laps de temps, on ouvrait les boites et déterminait la
fermeté de la patate douce dans chacune des boites. Les résultats suivants ont été obtenus.

% de pectine fermeté de la patate douce


0.0 50.50
0.0 46.8
1.5 62.3
1.5 67.7
3.0 80.1
3.0 79.2

Questionnaire
1. Déterminer l’équation de la régression et tracer cette droite sur un système d’axes.
2. Que signifient l’intercepte (a) et la pente (b) dans le cadre de ce problème ?
3. Présenter le tableau de l’analyse de variance de la régression.
4. Formuler et tester l’hypothèse d’intérêt relative à la pente de la droite de régression (b).
5. Calculer le coefficient de détermination R2 . Que signifie t-il dans le cadre de ce problème.
6. Calculer le coefficient de corrélation (r).
7. Prévoir la fermeté moyenne de la patate douce pour des concentrations de pectine de 2% et
4%.

94
Page 95 of 118

2) Les données suivantes proviennent d’une étude pour comparer la susceptibilité de 4 cultivars
de haricot à l’anthracnose à Salagnac. On choisissait des plantules au hasard et les plantules
choisie ont été classées dans deux catégories : avec symptômes de la maladies, sans symptômes
de la maladie. Voici les résultats obtenus :

Cultivar Avec symptômes Sans symptômes


Bac-6 2 29
V 16 14
PC 13 17
GNT 7 23

Questionnaire
1. Calculer les fréquences espérées en supposant que la présence des symptômes est
indépendante des cultivars.
2. Calculer le stadigraphe x2

2. Les cultivars répondent elles différemment à la présence du pathogène ? (utiliser α=0.05 pour
répondre à cette question )
4. Graphiquer les données observées pour appuyer votre réponse à la question 3.

95
Page 96 of 118

Fiche No. 11. Régression multiple


Introduction
Nous avons vu que le modèle général de régression polynomiale
y=a+a1x+a2x2+a3x3+ …….+apxp +ε
traduit une relation non linéaire entre une variable dépendante y et une seule variable
indépendante x.

On peut aussi avoir un modèle traduisant une relation entre une variable de réponse y et plusieurs
variables explicatives. Il est écrit sous la forme :
y=a+a1x1+a2x2+a3x3+ …….+apxp +ε . Ce modèle est appelé modèle de régression multiple.
C’est une extension directe du modèle de régression polynomiale.

Modèle sans interaction


Le type de régression multiple le plus simple est le modèle de premier ordre dans lequel toutes
les variables indépendantes apparaissent, mais il n’y a pas de produits croisés de termes ni termes
sous forme de puissance parmi elles. Par exemple, quand trois variables indépendantes x1, x2, x3
sont impliquées, le modèle de régression multiple de premier ordre peut s’écrire sous la forme :
y=a+a1x1+a2x2+a3x3+ε .

L’utilisation du modèle de régression multiple de premier ordre (y=a+a1x1+a2x2+a3x3+ε )


suppose qu’il n’y a pas d’interaction entre les xi.

Interprétation des paramètres


Dans ce modèle,
a est la valeur de y quand chaque x=0. C’est l’intercepte. Il peut ne pas avoir d’
interprétation.
a1, a2, a3 ….., ap sont parfois appelés coefficients partiels ou pentes partielles de la régression
multiple. Dans la régression linéaire, le coefficient de régression ou pente de la droite de
régression (b) représente la variation espérée dans y quand x varie de 1 unité. Dans la régression
multiple de premier ordre,

96
Page 97 of 118

a1 représente la variation espérée dans y quand x1 varie de 1 unité et que tous les autres x
demeurent constants.
a2 représente la variation espérée dans y quand x2 varie de 1 unité et que tous les autres x
demeurent constants.
A3 représente la variation espérée dans y quand x3 varie de 1 unité et que tous les autres x
demeurent constants.

Modèle avec interaction


On se rappelle que le modèle y=a+a1x1+a2x2+a3x3+ε est un modèle sans interaction. Quand il y a
interaction entre au mois deux des xi le modèle de régression multiple de premier ordre n’est pas
approprié. Il faut pour le mois introduire un produit de croisement dans le modèle. Par exemple
pour le modèle y=a+a1x1+a2x2+ε, s’il y a interaction entre x1, et x2 , on introduit dans le modèle
le produit de croisement x1x2 . Le modèle devient alors y=a+a1x1+a2x2+a3x1x2+ε
Si x2=2 par exemple, on a :
y=a+a1x1+2a2+2a3x1
y=(a+2a2 )+ a1x1 +2a3x1
y=(a+2a2 )+ (a1+2a3)x1

Si x2=3 par exemple, on a :


y=a+a1x1+3a2+3a3x1
y=(a+3a2 )+ a1x1 +3a3x1
y=(a+3a2 )+ (a1+3a3)x1

On voit clairement que les pentes des deux droites de régression sont différentes. Il y a
interaction.

97
Page 98 of 118

Calcul des aI
Un exemple en SAS
data exrgmult;
input obs x1 x2 y;
datalines;
1 10 1 10.5
2 10 3 11.5
3 20 2 16.0
4 20 6 18.0
5 30 3 21.5
6 30 1 20.5
7 60 6 38.0
8 60 2 36.0
;
proc reg;
model y=x1 x2;
run;

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 2 747.00000 373.50000 . .
Error 5 0 0
C Total 7 747.00000

Root MSE 0.00000 R-square 1.0000


Dep Mean 21.50000 Adj R-sq 1.0000
C.V. 0.00000

98
Page 99 of 118

Parameter Estimates
Parameter Standard
Variable DF Estimate Error
INTERCEP 1 5.000000 0.00000000
X1 1 0.500000 0.00000000
X2 1 0.500000 0.00000000
Le modèle traduisant la relation entre y, x1 et x2 est y= ao+a1x1+a2x2. L’analyse des données de
l’exemple précédent en SAS montre que a0=5.00, a1=0.50 et a2=0.50. le modèle devient donc :
y=5+0.5x1+0.5x2

Domaine de prédiction de y
C’est l’espace défini par les colonnes de x où se trouvent les observations initiales.

Calculs manuels. Notation matricielle.


Le modèle y=a+a1x1+a2x2+a3x3 …. an xn peut eêtre écrit aussi y=bo+b1x1+b2x2+b3x3+… + an xn
Ou en notation matricielle :

Y1 Xo1 X11 X21 . Xk1


Y2 Xo2 X12 X22 . Xk2 βo
Y3 = Xo3 X13 X23 . Xk3 β1
. . . . . .
Yn Xon X1n X2n . Xkn

Comme Xo=1, on peut écrire


Y1 1 X11 X21 . Xk1
Y2 1 X12 X22 . Xk2 βo
Y3 = 1 X13 X23 . Xk3 β1
. . . . . .
Yn 1 X1n X2n . Xkn

99
Page 100 of 118

Ou en forme compacte :
Y=X β
Le produit de la matrice X par elle même est
X’X=
1 1 1 . 1 1 X11 X21
X11 X12 X13 . X1n 1 X12 X22
X21 X22 X23 . X2n 1 X13 X23
. . . . . . . .
Xk1 Xk2 Xk3 . Xkn 1 X1n X2n

X’X=
1*1+1*1+1*1+…+1*1 1*X11+1*X12+1*X13+ . 1*X21+1*X22+1*X23+…+
…+1*X1n 1*X2n

X11*1+X12*1+X13*1+ X11*X11+X12*X12+ . X11*X21+X12*X22+X13*


…+X1n*1 X13*X13+…+X1n*X1n X23+…+X1n*X2n

X21*1+X22*1+X23*1+ X21*X21+X22*X22+ . X21*X21+X22*X22+X23*


…+X2n*1 X23*X23+…+X2n*X2n X23+…+X2n*X2n

. . . .

Xk1*1+Xk2*1+Xk3*1+ Xk1*Xk1+Xk2*Xk2+ . Xk1*Xk1+Xk2*Xk2+Xk3*


…+Xkn*1 Xk3*Xk3+…+Xkn*Xkn Xk3+…+Xkn*Xkn

100
Page 101 of 118

=
Σ(Xoi Xoi) =n Σ (Xoi X1i) Σ (Xoi X2i) . Σ(Xoi Xki)
Σ(X1i Xoi) = Σ(X1I) Σ (X1i X1i) Σ (X1i X2i) . Σ(X1i Xki)
Σ (X2i Xoi)= Σ(X2i) Σ (X2i X1i) Σ (X2i X2i) . Σ(X2i Xki)
Σ (X3i Xoi)= Σ(X3i) Σ (X3i X1I) Σ (X3i X2I) . Σ(X3i Xki)
. .
Σ (Xki Xoi)= Σ (Xki) Σ (Xki X1i) Σ (Xki X1I) . Σ (Xki Xki)

De même le produit de la matrice X par la Matrice Y est


X’Y=
ΣYi
ΣX1i Yi
Σ X2i Yi
Σ X3i Yi
.
Σ Xki Yi

Pour trouver b1, b2, … bk, il faut faire un tableau de SC ajustées de la forme :
X1 X2 . xk Y
X1 SCx1 SPx1x2 . SPx1xk SPx1Y
X2 SPx1x2 SCx2 . SPx2xk SPx2Y
. . . .
xk SPx1xk SPx2xk . SCxk SPxkY
Y SPx1Y SPx2Y . SPxkY SCY

101
Page 102 of 118

Exemple
Les données suivantes représentent le logarithme du temps de combustion Y en seconde des
feuilles de tabac en fonction des teneurs en azote X1 et en chlore X2.

Observations X1 X2 Y
1 3.05 1.45 0.34
2 4.22 1.35 0.11
3 3.34 0.26 0.38
4 3.77 0.23 0.68
5 3.52 1.1 0.18

6 3.54 0.76 0.00


7 3.74 1.59 0.08
8 3.78 0.39 0.11
9 2.92 0.39 1.53
10 3.1 0.64 0.77

11 2.86 0.82 1.17


12 2.78 0.64 1.01
13 2.22 0.85 0.89
14 2.67 0.90 1.40
15 3.12 0.92 1.05

16 3.03 0.97 1.15


17 2.45 0.18 1.49
18 4.12 0.62 0.51
19 4.61 0.51 0.18
20 3.94 0.45 0.34

102
Page 103 of 118

21 4.12 1.79 0.36


22 2.93 0.25 0.89
23 2.66 0.31 0.91
24 3.17 0.20 0.92
25 2.79 0.24 1.35

26 2.61 0.20 1.33


27 3.74 2.27 0.23
28 3.13 1.48 0.26
29 3.49 0.25 0.73
30 2.94 2.22 0.23

Σxi 98.36 24.23


Σxi/n 3.2787 0.8077
ΣXi 2 332.3352 30.1907

ΣYi 20.58
ΣYi/n 0.6860
ΣYi 2 20.8074

Σ Xi Xj Σ X1 X2=81.5834
Σ Xi Y Σ X1 Y=61.6502 Σ X2 Y=12.4103

103
Page 104 of 118

Solution
Le produit de la matrice X par elle même est :
X’X=
Σ(Xoi Xoi) =n Σ (Xoi X1i)= Σ (Xoi X2i)= Σ (
Σ(X1I) X2i)
Σ(X1i Xoi) = Σ (X1i X1i)= Σ Σ (X1i X2i)
Σ(X1I) (X1i2)
Σ (X2i Xoi)= Σ (X2i X1i) Σ (X2i X2i)= Σ
Σ(X2i) (X2i2)

30 98.36 24.23
98.36 332.3352 81.5834
24.23 81.5834 30.1907

De même le produit de la matrice X par la Matrice Y est


X’Y=
ΣYi
ΣX1i Yi
Σ X2i Yi

20.58
61.6502
12.4103

En faisant X’X b=X’Y, on obtient les équations matricielles:

30 98.36 24.23 bo 20.58


98.36 332.3352 81.5834 * b1 = 61.6502
24.23 81.5834 30.1907 b2 12.4103

Ou

104
Page 105 of 118

30bo+98.36b1+24.23b2=20.58 (1)

98.36bo+332.3352b1+81.5834b2=61.6502 (2)

24.23bo+81.5834b1+30.1907b2=12.4103 (3)

Pour trouver b1 et b2, il faut faire un tableau de SC ajustées de la forme :

X1 X2 Y
X1 SCx1 SPx1x2 SPx1Y
X2 SPx1x2 SCx2 SPx2Y
Y .

X1 X2 Y
X1 SCx1x1=9.845547 SPx1x2=2.141307 SPx1Y=-5.82476
X2 SPx1x2=2.141307 SCx2x2=10.62093667 SPx2Y=-4.21148
Y . . SCYy=6.68952

N.B. SPx1x2=Σ(X1i*X2i) – (ΣX1i) * (ΣX2i)/n

105
Page 106 of 118

Maintenant, on peut écrire l’équation matricielle:


(X’aXa) b=(X’a)Y

SCx1x1=9.845547 SPx1x2=2.141307 b1 SPx1Y=-5.82476

SPx1x2=2.141307 SCx2x2=10.62093667 b2 SPx2Y=-4.21148


* =

La résolution de ce système d’équations


9.845547 b1+2.141307 b2= -5.82476 (4)
2.141307 b1+ 10.62093667 b2= -4.21148 (5)

donne b1= -0.52855 et b2= - 0.28996.


b1 et b2 déterminés, la valeur de bo s’obtient en remplaçant b1 et b2 par leur valeur dans une des
équations (1), (2) ou (3) ci-dessus. Elle est 2.65313.
Mais elle n’a pas d’interprétation car la teneur en N des feuilles de tabac ne saurait être nulle.

L’équation du modèle est :


Y=2.65313-0.52855 X1 –0.28996 X2+ε
N.B. Quand le nombre de variables indépendantes dépasse 3, les calculs deviennent très
fastidieux. L’utilisation d’un logiciel d’analyse de données devient vraiment nécessaire.

106
Page 107 of 118

Exercice d’application . Résolvez les exercices ci-dessous en utilisant la notation matricielle


1.
Observations Y X
1 24 12
2 18 5
3 31 15
4 33 17
5 26 20
6 30 14
7 20 6
8 25 23
9 25 11
10 27 13
11 21 8
12 29 18
13 29 22
14 26 25

2.
Observations X1 X2 Y
1 10 2 11
2 10 4 7
3 10 6 3
4 20 2 14
5 20 4 10
6 20 6 6
7 30 2 17
8 30 4 13
9 30 6 9

107
Page 108 of 118

Fiche No. 12. Sélection de régresseurs (sélection de variables) en régression multiple


La procédure la plus simple consiste à faire toutes les régressions possibles à un facteurs (il y en
a p pour p facteurs), toutes les régressions possibles à deux facteurs [il y en a
p(p-1)/2 pour p facteurs], etc.,. pour finir par le modèle maximal (le modèle à p facteur). Le
meilleur modèle est celui qui à le coefficient de détermination R2 le plus élevé ou, ce qui est
équivalent, le CME le plus faible.
Il y a 2p régressions. C’est donc une procédure assez longue ; en effet, pour p=10, il y a 1024
régressions. Pour p=30, il y a 1 073 741 284 régression.

Calcul des R2
R2 est la part de la variation totale qui peut être attribuée aux facteurs étudiés, le reste de la
variation étant dû à l’erreur expérimentale.
R2=SC (régression)/ SC (totale).
SC (régression) =SC (b1, b2\ bo) =bX’Y- (ΣY)2/n
SC (modèle)= SC (b1, b2, bo)=bX’Y
SC (totale)= Y’Y
SCE= Y’Y-bX’Y

Il y a plusieurs méthode de sélection de régresseurs en utilisant un logiciel d’analyse de données


expérimentales: on peut citer forward selection, backward selection, step by step selection, etc.

Exercice au labo.

108
Page 109 of 118

Fiche No. 13. Analyse de covariance


Elle traite de deux variables mesurées ou plus dans des situations où une variable indépendante
mesurable (covariable) se rencontre à des niveaux non prédéterminés comme dans une
expérimentation factorielle. Elle utilise des concepts d’analyse de variance et de régression.

Ses objectifs sont


1. Contrôler l’erreur et augmenter la précision.
2. Ajuster les moyennes des traitements de la variable dépendante en éliminant les possibles
effets de la covariable
3. Aider à l’interprétation des données, spécialement en ce qui a trait à la nature des effets des
traitements

Exemple
On faisait une expérimentation pour comparer la résistance à l’anthracnose de cinq variétés de
tomate. On mesurait le % de tiges infectées pour chaque variété. Les cinq variétés utilisés ont été
disposées dans un dispositif en blocs complets aléatorisés avec 4 répétitions. Comme l’infection
par anthracnose peut être en relation avec l’age des plantes (indépendamment de la variété), on
notait aussi l’age des plantes (exprimé en jours après la maturité d’une variété standard) dans
chaque unité expérimentale. Les résultats sont présentés dans le tableau ci-dessous.

bloc 1 bloc bloc 3 bloc 4


2
Variétés x y x y x y x y total x total y
Sunny 10 19 11 29 13 2 9 6 43 56
Hayslip 12 4 11 49 13 6 10 7 46 66
Cortes 3 68 4 78 6 14 2 39 15 199
L-1011 8 14 8 30 10 7 7 9 33 60
Goldy 7 35 8 40 7 25 7 5 29 105
total x 40 42 49 35 166
total y 140 226 54 66 486

109
Page 110 of 118

Réalisez manuellement et en SAS l’analyse des données

Solution.
Modèle : µ +γj + αi +βi X+εij
Où :
µ: l’ intercepte de y
γj : effet du bloc j
αi :effet du traitement i
βi X : effet du niveau i de la covariable X
εij : erreur sur le traitement i dans le bloc j

A. Analyse manuelle
ETAPE 1. Calculs préliminaires
FC
X: (166)2 /20 = 1377.8
Y: (488)2 /20 =11809.8
X*Y : 166*488/20=4050.4

N.B. Variété=trait.

SCx
Trait : (∑Txi2 / b)-FCx =152.2
Bloc : (∑Bxi2 /t)-FCx =20.2
Total : ∑xij2 -FCx =180.2

SCy
Trait : (∑Tyi2 / b)-FCy =3619.7
Bloc : (∑Byj2 /t)-FCy =3779.8
Total : ∑yij2 -FCy =9060.2

110
Page 111 of 118

SPxy
Trait : (∑TxiTyi / b)-FCy =-670.3
Bloc : (∑BxjByj /t)-FCy =-24.2
Total : ∑XijYij -FCxy =-771.8

Etape 2. Taleau d’anacova non ajustée


Dl SCxx SCyy SPxy CMy F cal
Traiteme 4 152.2 3619.7 -670.3 904.925 6.54 *
nt
Bloc 3 20.2 3779.8 -24.2
Erreur 12 7.8 1660.7 -77.3 138.39
total 19 180.2 9060.2 -771.8

Etape 3. Calculs de correction


 Coefficient de régression de X sur Y ou de Y en X
b = SPxy erreur / SCx erreur
b = -77.3 / 7.8
b = -9.91

 SCrégl.
SCrégl.= (SPxy erreur)2 / SCx erreur
SCrégl.= (-77.3)2 / 7.8
SCrégl.= 766.06

 SC erreur y ajustée
SC erreur y ajustée = SC erreur y -SCrégl.
SC erreur y ajustée = 1660.6-766.06
SC erreur y ajustée = 894.64

111
Page 112 of 118

 Dl erreur y ajusté =dl erreur y- dl Régl.


Dl erreur y ajusté =12-1
Dl erreur y ajusté =11

 CM erreur y ajusté
CM erreur y ajusté = SC erreur y ajustée/ Dl erreur y ajusté
CM erreur y ajusté = 894.64/11
SC erreur y ajustée =81.33
 SC (trait + erreur) Y ajustée
= SC trait y + SC erreur y – (SP trait xy + SP erreur xy)2 / (SC trait x + SC erreur x)
= 3619.7 + 1660.7 –(- 670.3 + -77.3)2/ (152.2 + 7.8)
= 1787.239

 SC trait y ajustée = SC (trait + erreur) y ajustée - SC erreur y ajustée


SC trait y ajustée = 1787.239- 894.64
SC trait y ajustée =892.6018205

 CM trait y aj= SC trait y ajustée/ dl trait y


CM trait y aj=892.6018205/4
CM trait y aj=223.1504551

Étape 4. Tableau anacova ajusté

SV Dl SC CM Fcal
Traitement 4 892.6018205 223.1505 2.743744 ns
Bloc 3
Régl 1 766.0628205 766.0628 9.419116
Erreur 11 81.33065268 81.33065
total 19
F0.05 (4 ; 11) =3.36 > Fcal =2.74 donc les variétés ne sont pas différentes. Remarquez qu’ avant l’
ajustement, Fcal=6.54*

112
Page 113 of 118

Étape 5. calculs des moyennes

Traitements moyennes X Moyennes Y


Sunny 10.75 14
Hayslip 11.5 16.5
Cortes 3.75 49.75
L-1011 8.25 15
Goldy 7.25 26.25

Etape 6: Ajustement des moyennes de Y à x=8.3, soit la moyenne générale de X.


Moyenne Yi corrigée= moyenne Yi-b[moyenne Xi-moyenne générale X]
Moyenne générale X= 8.3

Moyenne Xi-moyenne générale X b[moyenne Xi-moyenne générale X]


Traitements -24.2795
Sunny 2.45
Hayslip 3.2 -31.712
Cortes -4.55 45.0905
L-1011 -0.05 0.4955
Goldy -1.05 10.4055

Moyenne Yi corrigée
Hayslip 48.212
Sunny 38.2795
Goldy 15.8445
L-1011 14.5045
Cortes 4.6595

Il est possible d’ ajuster les moyennes de Y à n’ importe quelle valeur de X.

113
Page 114 of 118

B. Analyse en SAS/ programme


data tomtw;
input variete $ bloc maturite infectio;
datalines;
SUNNY 1 10 19
SUNNY 2 11 29
SUNNY 3 13 2
SUNNY 4 9 6
HAYSLIP 1 12 4
HAYSLIP 2 11 49
HAYSLIP 3 13 6
HAYSLIP 4 10 7
CORTES 1 3 68
CORTES 2 4 78
CORTES 3 6 14
CORTES 4 2 39
L-1011 1 8 14
L-1011 2 8 30
L-1011 3 10 7
L-1011 4 7 9
GOLDY 1 7 35
GOLDY 2 8 40
GOLDY 3 7 25
GOLDY 4 7 5
;
proc glm;
class variete bloc;
model infectio=bloc variete maturite/ solution;
means variete/ tukey;
lsmeans variete/ajust=tukey;
run;

114
Page 115 of 118

Sortie
VARIETE 5 CORTES GOLDY HAYSLIP L-1011 SUNNY
BLOC 4 1234
Number of observations in data set = 20
Dependent Variable: INFECTIO
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 8 8165.5628205 1020.6953526 12.55 0.0002
Error 11 894.6371795 81.3306527
Corrected Total 19 9060.2000000

R-Square C.V. Root MSE INFECTIO Mean


0.901256 37.11256 9.0183509 24.300000
Source DF Type I SS Mean Square F Value Pr > F
BLOC 3 3779.8000000 1259.9333333 15.49 0.0003
VARIETE 4 3619.7000000 904.9250000 11.13 0.0007
MATURITE 1 766.0628205 766.0628205 9.42 0.0107

Source DF Type III SS Mean Square F Value Pr > F


BLOC 3 4177.9253205 1392.6417735 17.12 0.0002
VARIETE 4 892.6018205 223.1504551 2.74 0.0833
MATURITE 1 766.0628205 766.0628205 9.42 0.0107

T for H0: Pr > |T| Std Error of


Parameter Estimate Parameter=0 Estimate
INTERCEPT 96.55192308 B 3.11 0.0099 31.04335729
BLOC 1 24.71025641 B 3.77 0.0031 6.55433199
2 45.87435897 B 6.30 0.0001 7.27799384
3 25.34871795 B 2.37 0.0371 10.69018213
4 0.00000000 B . . .

115
Page 116 of 118

VARIETE CORTES -33.62179487 B -1.43 0.1801 23.48592466


GOLDY -22.43589744 B -1.73 0.1117 12.97675457
HAYSLIP 9.93269231 B 1.46 0.1733 6.82132814
L-1011 -23.77564103 B -2.31 0.0412 10.28757107
SUNNY 0.00000000 B . . .
MATURITE -9.91025641 -3.07 0.0107 3.22908760

NOTE: The X'X matrix has been found to be singular and a generalized inverse
was used to solve the normal equations. Estimates followed by the
letter 'B' are biased, and are not unique estimators of the parameters.

Tukey's Studentized Range (HSD) Test for variable: INFECTIO


NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 11 MSE= 81.33065
Critical Value of Studentized Range= 4.574
Minimum Significant Difference= 20.623
Means with the same letter are not significantly different.

Tukey Grouping Mean N VARIETE

A 49.750 4 CORTES

B 26.250 4 GOLDY
B
B 16.500 4 HAYSLIP
B
B 15.000 4 L-1011
B
B 14.000 4 SUNNY

116
Page 117 of 118

General Linear Models Procedure


Least Squares Means

VARIETE INFECTIO
LSMEAN
CORTES 4.6583333
GOLDY 15.8442308
HAYSLIP 48.2128205
L-1011 14.5044872
SUNNY 38.2801282

EXERCICE
Les données du tableau ci-dessous représentent le rendement (y) en quintal/ ha de 5 variété de
grenadia (1, 2, 3, 4 et 5). Les cinq variétés utilisés ont été disposées dans un dispositif en blocs
complets aléatorisés avec 4 répétitions. Comme le rendement peut être en relation avec le taux d’
infection par fusariose, (indépendamment de la variété), on notait aussi le % de plantes infectées
dans chaque unité expérimentale.

bloc 1 Bloc 2 bloc 3 bloc 4


variétés x y X y x y x y total x total y
1 24 97 19 94 15 77 14 80 72 348
2 23 126 21 121 16 83 17 74 77 404
3 20 135 19 133 13 92 11 64 63 424
4 18 45 18 49 17 42 16 40 69 176
5 19 45 18 41 18 38 17 32 72 156
total x 104 95 79 75 353
total y 448 438 332 290 1508

Analysez les données et :


a. écrivez le modèle mathématique et interprétez chaque terme de ce dernier ?

117
Page 118 of 118

b. existe-t-il des différences significatives entre les variétés en termes de rendement ? formulez
et testez l’ hypothèse correspondante en utilisant α=%.
c. Existe-t-il un effet significatif du pourcentage de plantes infectées par fusariose sur le
rendement ? formulez et testez l’ hypothèse correspondante à α=%.
d. Testez l’hypothèse d’égalité des variétés en termes de rendements sans considérer le taux
d’infection des plantes. Utilisez α=%.
e. Comparez les résultats obtenu en d avec ceux obtenu en b. comment interprétez vous les
différences (s’il y en a) ?

118

Vous aimerez peut-être aussi