Vous êtes sur la page 1sur 48

Ministère de l’enseignement supérieure et de la recherche scientifique

Université d’Alger
Faculté des Sciences
Sciences de la matière

Planification d’expérience
- ANALYSE DES RESULTATS -

Présenté par :
Dr I. LAKEHAL

Année Universitaire 2020-2021


Introduction

QUELS EFFETS (PRINCIPAUX, INTERACTIONS) SONT


SIGNIFICATIFS ?
les effets sont calculés à partir des réponses mesurées, entachées d'erreur
aléatoire.
Un effet, positif ou négatif, est d'autant plus crédible que sa valeur absolue est
grande.

Page  2
RAPPEL

Méthodologie dans l’étude d ’un


phénomène
Lors de l ’étude d ’un phénomène, plusieurs
questions se posent, auxquelles répondent
différents types de plans. On peut
distinguer 3 grandes étapes dans
l ’acquisition des connaissances :
 Recherche des facteurs influents traité !
 Modélisation
 Optimisation
Page  3

3
RAPPEL

la modélisation
Quand les facteurs influents ont été identifiés et
leur importance quantifiée, on recherche ensuite
l ’équation permettant de décrire les variations de
la réponse étudiée en fonction de celles des
facteurs influents ; cette seconde étape constitue
la modélisation.
Modèles utilisés : linéaires polynomiaux du 1er degré ou du 2e degré :

ŷ = yC + a1X1 + a2X2 + a12X1X2….

ŷ = yC + a1X1 + a2X2 + a12X1X2 + a11x²1 + a22x²2…..

Nous nous limiterons aux polynômes du 1er degré

Page  4
RAPPEL

LE MODELE LINEAIRE (1er degré)

La méthode précédente de calcul des effets utilise de façon


sous-jacente un modèle linéaire : une équation permet de représenter la
réponse Y en fonction des facteurs X A , XB …

Ce modèle permet de quantifier les effets EA , EB , EAB .. et de


détecter ceux qui sont significatifs.
Cette équation a d’autres objectifs :
permettre de prévoir la réponse dans des conditions expérimentales
où aucune mesure n’a été effectuée (à l’intérieur du domaine).
servir de point de départ dans une étude d’optimisation.

Page  5

5
RAPPEL

1-l’équation du modèle linéaire (plans 2n)


Dans le modèle linéaire , la réponse prédite, notée yˆ est
la somme de plusieurs termes :

 la moyenne de l’ensemble des réponses du plan yc


pour un facteur, le terme est une fonction du 1er degré par
rapport au facteur centré réduit X , le coefficient de proportionnalité
étant égal à l’effet principal de ce facteur (effet moyen).
pour une interaction , le terme est constitué par les produits des
facteurs centrés réduits intervenant dans l’interaction et l’effet moyen
de cette interaction.

yˆ = y + EAXA + EBXB + EABXAXB ...


Page  6
RAPPEL

2-Utilisation de la régression linéaire multiple


La régression linéaire multiple a pour objet d’expliquer une
variable (Y) par plusieurs variables explicatives (les facteurs
et les interactions) au moyen d’une relation linéaire :

ŷ =a+b1X1+b2X2+...+bnXn

Elle convient donc parfaitement bien à la modélisation des


plans factoriels 2n comportant des facteurs quantitatifs :
- les variables explicatives sont indépendantes entre elles
(par construction du plan)

- les coefficients de l’équation (effets estimés) également

En pratique, dans la matrice des effets, on choisit comme


variables explicatives les colonnes correspondant aux
facteurs
Page 7 et aux interactions d’ordre 2.
RAPPEL

 Dans les plans factoriels 2n chaque facteur n’est expérimenté


qu’en 2 points , aux extrémités –1 et +1 du domaine.
Cela explique le choix empirique d’une équation du 1er degré en
fonction des facteurs centrés réduits X : par 2 points , il passe une
droite et une seule ; mais il faut aussi ajouter qu’il peut y passer une
infinité de courbes d’équations diverses …

Il est donc important de


s’assurer de la linéarité de
l’équation dans tout le domaine
en réalisant des expériences
complémentaires avec un 3ème
point à l’intérieur du domaine.
On choisit généralement le
centre (X = 0) situé à égale
distance des extrémités
expérimentées.
Page  8
RAPPEL
Quand on dispose de répétitions au centre du domaine
expérimental, il est possible de juger la linéarité de l’équation de
prédiction en comparant statistiquement

 la moyenne y0 de ces répétitions.


 la réponse prédite au centre par l’équation linéaire , égale à la
moyenne y des n réponses du plan factoriel 2n.

Ces 2 moyennes doivent être en théorie égales et en pratique peu différer


lorsque le modèle linéaire est valide.
Et, Lorsqu’on obtient des valeurs très différentes , s’écartant de plusieurs
fois l’écart type , cela signifie que le modèle linéaire n’est pas valable
et qu’il faut envisager un modèle empirique plus complexe , où les
facteurs centrés réduits interviennent au 2ème degré par exemple.
Notons qu’il existe des tests statistiques d’écart à la linéarité du modèle

Page  9
Notions de statistiques appliquées aux plans
d'expérience
I-Erreur expérimentale
Les 4 points au centre ont des valeurs différentes (Tableau 1). Au lieu de
donner la liste des quatre valeurs, on peut essayer de la résumer en indiquant
la valeur centrale et la dispersion autour de cette valeur centrale. En général,
on prend la moyenne arithmétique comme valeur centrale et l'écart-type
comme mesure de la dispersion (mesure la variabilité des valeurs d'une série
statistique).

1-Moyenne
Par définition, la moyenne arithmétique d'un ensemble de valeurs est la somme
de toutes les valeurs divisées par le nombre de valeurs. Pour les valeurs y i
données dans le tableau (1) la moyenne arithmétique est égale à:

Page  10
Notions de statistiques appliquées aux plans
d'expérience
2-Ecart-type:
La définition de l'écart-type est un peu moins simple que celle de la moyenne.
1. On commence par calculer les écarts à la moyenne, c'est -à-dire la
différence entre chaque valeur et la moyenne arithmétique des valeurs

2. Notez que la somme de ces écarts à la moyenne est égale zéro. On


démontre d'ailleurs que c'est toujours le cas:

On ne peut donc pas prendre la somme des écarts comme mesure de la


11
dispersion. C'est pourquoi on fait disparaitre le signe négatif en prenant les
Page  11
écarts.
Notions de statistiques appliquées aux plans
d'expérience
3. Ces écarts à la moyenne sont donc élevés au carré et additionnés. On
obtient ainsi la somme des carrés des écarts à la moyenne:

4. Cette somme est divisée par le nombre valeurs (essais) moins 1 (4-1= 3)

Cette quantité porte le nom de Variance. C'est une grandeur fondamentale de


la science statistique. On la retrouve partout et il en sera fait un grand usage.
5. Et enfin l'écart-type est obtenu en prenant la racine carré de la variance

Pourquoi prend-on la racine carré de la variance?


Simplement
Page  12
pour exprimer la dispersion dans la même unité que les données
d'origine et que la moyenne.
Notions de statistiques appliquées aux plans
d'expérience
II- Degrés de liberté

Soit n réponses mesurées indépendamment les unes des autres. Il n'existe pas
de relation mathématique entre elles. Les n écarts à la moyenne
correspondants ne sont pas indépendants.
En effet, il existe une relation mathématique entre ces écarts. Quand on en
connaît n-1, on peut calculer le dernier avec la relation mathématique. Par
exemple, reprenons les quatre écarts à la moyenne de l'exemple précédent.
Les trois premiers écarts sont: -0.4, +1.1, -1.1 et le quatrième écart s'obtient
facilement puisque la somme des écarts est toujours égale à 0.
Il n'y a donc que n-1 écarts indépendants. On dit que la série des n écarts à la
moyenne possède n-1 degrés de liberté. Le nombre de degrés de liberté est
important car il intervient dans de nombreuses formules de statistiques.

Page  13
Etude des résidus

étude des résidus


résidu = réponse mesurée – réponse prédite
ri = yi – ŷi
ŷ = 116 +10,25*XA + 5,125*Xpour l’essai n°
D - 3, 5*XF + 6,125*XAXD -
i
5,125*XDXF

n° essai mesuré prédit résidu


1 109 105,125 3,875
2 113 113,375 -0,375
3 103 105,125 -2,125
4 113 113,375 -0,375
5 103 105,125 -2,125
… … … …

Page  14

1
Etude des résidus

La notion de résidu n’a pas de sens si l’équation du modèle tient compte
de tous les effets calculés
Si l’on ne tient compte que des effets significatifs, les résidus ont des
valeurs non nulles qui doivent être considérées comme des
« termes d’erreur »
résidu ---- partie de la mesure non explicable par le modèle

causes possibles :
-variations des facteurs non contrôlés pendant l’expérience
-imprécision de la méthode de mesure
-modèle inadapté

Par construction les résidus ont toujours comme moyenne 0 et comme


écart-type Sy, l’écart-type des réponses individuelles
Page  15
Signification des effets et validation du modèle
A partir de quelle VALEUR SEUIL, peut-on dire qu'un effet est
SIGNIFICATIF, autrement dit qu'il a certainement une existence réelle?

Soit σE l'écart-type(*) d'un effet principal ou d'interaction de grandeur E.

Si |E | est très supérieur à σ E , au moins 3 fois, l'existence de l'effet sera


considéré comme certaine.

Si |E | est très nettement inférieure à σ E , l'effet calculé a plus de


chances de résulter de la dispersion des mesures de réponses que de
l'existence réelle de l'effet : la décision sera que l'effet n'existe pas.

Si |E | et σ E sont du même ordre de grandeur, c'est le cas critique pour


lequel il faudra avoir recours aux tests statistiques pour décider de l'existence
ou non de l'effet.
Remarque:pour des GRANDEURS CALCULEES (c'est le cas des effets) il
faut préférer le terme d'ERREUR TYPE ou d'ERREUR STANDARD.
Page  16
Signification des effets et validation du modèle
Base théorique : relation entre variabilité des effets et variabilité
des réponses individuelles.
• Dans un essai factoriel, n'importe quel effet Ei se calcule à partir des n
réponses individuelles par E i 1 ( y1 y 2 ......... y n ) (+ ou – selon les effets)
n
• Comme les mesures y1, y2, ……, yn sont indépendantes, les variances
s'ajoutent 2 1 2 2 2
Ei 2
( y1 y2 ...... yn )
n
( 2y1 , 2y2 ,..., 2yn variances des mesures, 2Ei variance de l'effet E i )

Dans la suite, nous supposerons que les réponses individuelles sont


distribuées normalement et ont toutes le même écart-type y dans le
2 2 2
domaine expérimental : y1 y2 ... yn
2
2 1 2 2 2 yn
Ei
( ...... )
n 2 ynyn
 yn
n
n fois
y
L'erreur type E est la même pour tous les effets E
Page  17 n
Signification des effets et validation du modèle
Erreur-type d'un effet y
E n

• Cette formule est donc valable pour les effets principaux, les
interactions et la réponse yC au centre du domaine. La connaissance
de σy permet donc d'estimer σE .
•Dans la pratique expérimentale, plusieurs cas peuvent se présenter.
1. l'écart-type σy est connu par des expériences antérieures de même
type que celles du plan et suffisamment nombreuses pour être fiables.
C'est le meilleur des cas.
2. l'écart-type σy n'est pas connu mais l'expérimentateur a prévu dans
le plan quelques expériences complémentaires pour l'estimer. Un cas
particulier est celui où le plan a été conçu pour comporter des répétitions.
3. l'écart-type σy n'est pas connu et il n'y a eu ni répétitions du plan, ni
essais complémentaires.
On peut encore estimer σE , l'erreur-type des effets, en utilisant les
interactions d'ordres élevés. C'est la méthode la moins satisfaisante.
Page  18
Signification des effets et validation du modèle
REMARQUE

Bien que la variabilité des réponses ne soit pas évaluée en même


temps que l'expérience factorielle, cette technique est souvent utilisée
dans le domaine de la Chimie et des essais industriels et elle
donne des résultats satisfaisants.

Cela tient au fait que, dans ces secteurs d'expérimentation, il y a


souvent une bonne stabilité de la dispersion dans le temps.

Elle présente en revanche des risques d'erreur d'analyse dans les


sciences du vivant (Biologie) à cause de l'hétérogénéité du matériel
expérimental et de son inconstance dans le temps ; il est meilleur, en
général, d'estimer la variabilité en même temps que l'expérience
factorielle.

Page  19
Signification des effets et validation du modèle
Test de signification des effets:
L’influence des facteurs et de leurs interactions est interprétée par les
coefficients du modèle postulé. Il faut donc trouver une valeur étalon (t crit) pour
la prise de décision si l’effet d’un facteur ou d’une interaction est important ou
non (Un effet sera dit significatif s’il est, pour risque donné significatif différent
de zéro).Le test de Student a pour but de fournir une règle de décision. La
valeur à tester ti sera le rapport de la valeur du coefficient ai sur la valeur de
son ecart-type Si :

1- Calcul de la variance des coefficients Si²


En statistique, la formule qui détermine la variance des coefficients Si² en
fonction de la variation de l’écart type S² : est donnée par l’équation :

Page  20
Signification des effets et validation du modèle
Ou k dépend du modèle postulé et de la matrice d’experiences. Dans le cas
des plans factoriels la relation est plus simple devient:

Les calculs statistiques qui permettent de déterminer l’ecart type Si font


intervenir la variation des écarts ( les différences entre les valeurs
expérimentales yi et les valeurs prédites par la modele ) selon l’equation:

Ou: n le nombre d’experiences réalisées est p le nombre de coefficients du


modèle (constante incluse)
Remarque :
Pour pouvoir conduire les calculs statistiques ; il est clair que n-p≠0. Pour cela,
en pratique il est nécessaire de négliger un ou plusieurs termes en général
l’intéraction ( les interactions) d’ordre élevé pour que p soit différent de n. Pour
un plan complet à 3 facteurs, ça donne 8 experiences et 8 coefficients du
modèle.
Page  21
Pour permettre le test statistique, l’interaction d’orde troit peut etre
négligée ce qui donne un modèle réduit avec 7 termes ( p=7).
Signification des effets et validation du modèle
2- Détermination de la valeur critique tcrit

Afin de pouvoir tester la signification d’un effet avec un risque donné α, le test
de Student est utilisé, le rapport ti est compare a une valeur tcrit pour un risque
α et un degré de libérté ddl=n-p.
Cette valeur critique peut être directement lue à partir de la table de Student

Exemple:
La valeur critique de Student pour un modèle dont p=7 et n=8 (n-p=1)et pour
un risque α=0.05 correspond à la valeur encadrée dans le tableau suivant:

Page  22
Signification des effets et validation du modèle
3- Réalisation du test et interprétation:
L’hypothése selon la quel l’effet ai est nul appelée l’hypothése nulle notée: H0.
N’importe quelle autre hypothèse qui diffère de l’hypothése H0 s’appéle
hypothèse alternative et est note H1 (α% de confiance pour que l’effet soit
significativement différent de zéro).

Page  23
Signification des effets et validation du modèle
Exemple1:
On considère une réaction chimique dont le rendement dépend de deux
facteurs, la température et la pression. Le technicien décide d'effectuer un plan
d'expérience avec le domaine expérimental suivant :
Niveau bas : -1 Niveau haut :+1
Température : T 60oC 80oC
Pression : P 1 bar 2 bars
Les réponse Y étudiée, rendement de l'expérience, sont : 60, 65, 75 et 85%.
Déterminons un estimation ponctuelle des effets da chacune des variables.
Moyenne T P Y
1 +1 -1 -1 60
2 +1 +1 -1 65
3 +1 -1 +1 75
4 +1 +1 +1 85
Effet a0= 71.25 a1=3.75 a2=8.75
Page  24
Y= 71.25 + 3.75 T+ 8.75 P
Signification des effets et validation du modèle
Test de signification des coefficients:
Moy T P Y Y est ei ei²
1 +1 -1 -1 60 58.75 1.25 1.5625
2 +1 +1 -1 65 66.25 -1.25 1.5625
3 +1 -1 +1 75 76.25 -1.25 1.5625
4 +1 +1 +1 85 83.75 1.25 1.5625

On cherche à tester la non influenece d’une variable sur la réponse. On choisit


un risque α= 5%.
La variance des résidus est :

La variance commune des estimations des coefficients du modèle est:

Page  25
Signification des effets et validation du modèle
La statistique ti du Student associé vaut :

La table de Student donne, pour un risque de 5 % avec v=n - p = 4-3 = 1 :


tcrit(0,05 ; 1) = 12,71
Pour l'effet a1 = 3, 75 de T on a t1 = 3 < 12,71. On accepte H0 au risque de 5
% et l'effet de la température T n'est pas significatif.

Pour l'effet a2 = 8, 75 de P on a t2 = 7 < 12,71. On accepte H0 au risque de 5


% et l'effet de la pression P n'est pas significatif.

On peut donc considérer que les coefficients a1 et a2 ne sont pas


significativement différent de 0 ; leur valeur est probablement due à un <<
bruit>>.
Conclusion:
Cette étude est que l'on doit rejeter un modèle linéaire pour expliquer le
rendement
Page  26
de cette réaction chimique. Il faudrait refaire une étude avec un
modèle polynomial du second degré.
Signification des effets et validation du modèle
Exemple2:
En reprenant l’exemple de cuisson d’un gâteau ou nous considérons l’ajout ou
non ajout de la levure comme facteur supplémentaires. L’éxperimentateur
décide d’utiliser un plan d’experience factoriel complet.
Quels sont les facteurs et les interactions qui ont un effet significatif et
ceux qui ont un effet négligeable?
Les résultats de l’epaisseur (Ei) pour chaque expérience réalisée sont données
dans le tableau suivant:

Essai 1 2 3 4 5 6 7 8
Ei 66.82 45.22 69.22 38.48 66.6 74.82 74.2 74.28

Page  27
Signification des effets et validation du modèle
Matrice d’experience avec l’effet
Ei
Essai Moy T D L TD TL DL TDL (mes)
1 1 -1 -1 -1 1 1 1 -1 66,82
2 1 1 -1 -1 -1 -1 1 1 45,22
3 1 -1 1 -1 -1 1 -1 1 69,22
4 1 1 1 -1 1 -1 -1 -1 38,48
5 1 -1 -1 1 1 -1 -1 1 66,6
6 1 1 -1 1 -1 1 -1 -1 74,82
7 1 -1 1 1 -1 -1 1 -1 74,2
8 1 1 1 1 1 1 1 1 74,28
Effet 63,705 -5,505 0,34 8,77 -2,16 7,58 1,425 0,125
Le modèle mathématique de cette étude est :
Ei= 63.705 – 5.505 T+ 0.34 D+ 8.77 L -2.16 TD + 7.58 TL +
1.425 DL + 0.125 TDL
Afin de pouvoir conduire le test statistique de Student, nous eliminons le
dernier terme du plan complet (l’intéraction d’ordre le plus élevé) pour eviter
que n-p=0. Le nouveau modèle à considérer est :
Ei= 63.705 – 5.505 T+ 0.34 D+ 8.77 L -2.16 TD + 7.58 TL + 1.425 DL
Page  28
Signification des effets et validation du modèle
Test de signification des coefficients:
2 2
ri=ei =Ei (mes) - Ei (est) ri =ei
Essai Ei (mes) Ei (est)
1 66,82 66,945 -0,125 0,015625
2 45,22 45,095 0,125 0,015625
3 69,22 69,095 0,125 0,015625
4 38,48 38,605 -0,125 0,015625
5 66,6 66,475 0,125 0,015625
6 74,82 74,945 -0,125 0,015625
7 74,2 74,325 -0,125 0,015625
8 74,28 74,155 0,125 0,015625
0,125

Page  29
Signification des effets et validation du modèle
On calcule les valeurs ti et nous comparons leurs valeurs absolus à tcrit pour
établir un décision concernant la signification des effets des facteurs et de
leurs interaction.

On conclure:
La durée de la cuisson D et e l’interaction DL ont un effet négligeable
( considérés =0), c’est-à-dire qu’il y a moins de 5% de risque que leurs effets ne
soient pas nuls.
Quant aux autres effets sont significatifs c’est-à-dire qu’ils ont plus de 5% de
risque
Page  30
que ces effets ne soient pas nuls ( considérés comme ≠0)
Signification des effets et validation du modèle
Intervalle de confiance des effets du modèle.
1-Variance expérimentale connue.
On suppose que compte tenu de nombreuses expériences faites
antérieurement on connaît l'écart-type expérimental S. Dans ce cas l'intervalle
de confiance d'un effet est donné, par :
risque 5% : [ai -1,96si ; ai + 1,96si]
risque 1% : [ai -2,58si ; ai + 2,58si]
où si² est la variance commune des estimateurs des coefficients.
2-Variance expérimentale inconnue.
Le cas où la variance expérimentale est inconnue est le plus courant.
Rappelons que si l'on détermine tous les effets, on ne pas calculer la variance
commune des résidus. On supposera donc, dans la suite, que l'on a négliger
au moins un effet.
On calcule alors s², variance commune des résidus avec n = n- p degrés de
liberté puis on en déduit variance commune des effets.

Page  31
Signification des effets et validation du modèle
On choisit alors un risque a et on détermine avec la table de Student le
nombre t(α, ddl). L'intervalle de confiance d'un effet ai est alors donné par :
[ai - t(α, ddl)si ; ai + t(α, ddl)si]
Exemple:
Considérons le plan d'expérience 23 suivant dans lequel on néglige l'interaction
d'ordre 3.
X1 X2 X3 X1X2 X1X3 X2X3 Y
1 -1 -1 -1 +1 +1 +1 5,2
2 +1 -1 -1 -1 -1 -1 4,7
3 -1 +1 -1 -1 +1 +1 5,1
4 +1 +1 -1 +1 -1 -1 5,5
5 -1 -1 +1 +1 -1 -1 4,9
6 +1 -1 +1 -1 +1 -1 4,6
7 -1 +1 +1 -1 -1 +1 4,8
8 +1 +1 +1 +1 +1 +1 5,3

le modèle :
Y = 5,0125 + 0,0125X1 + 0,1625X2 - 0,1125X3 +0,2125X1X2 + 0,0375X1X3 -0.0125X2X3

Page  32
Signification des effets et validation du modèle
Avant de déterminer les intervalles de confiance des effets, regardons leur
significativité. Pour cela, déterminons les résidus et la variance commune de
ceux-ci. Y observés Y estimés e e²
i i i i
5,2 5,1875 + 0,0125 0,000156
4,7 4,7125 - 0,0125 0,000156
5,1 5,1125 - 0,0125 0,000156
5,5 5,4875 + 0,0125 0,000156
4,9 4,9125 - 0,0125 0,000156
4,6 4,5875 + 0,0125 0,000156
4,8 4,7875 + 0,0125 0,000156
5,3 5,3125 - 0,0125 0,000156

La variance commune des résidus est donc :

donc s = 0,035. La variance commune de tous les effets est alors

Page  33
Signification des effets et validation du modèle
le "t" de Student pour chaque effet se calcul avec
La table de Student donne pour un risque a = 5% et n = n - p = 8 - 7 =1 ,
tcrit(0,05 ; 1) = 12,71.
Un effet sera donc significatif au risque de 5% s'il son "t i" et supérieur à 12,71.
On obtient le tableau suivant:
Variable effet t Résultat
Constante 5,0125 t0 = 401>12,71 significatif
X1 a1 = 0,125 t1 = 1<12,71 non significatif
X2 a2 = 0,1625 t2 = 13>12,71 significatif
X3 a3 = - 0,1125 t3 = 9<12,71 non significatif
X1X2 a12 = 0,2125 t12 = 17>12,71 significatif
X1X3 a13 = 0,0375 t13 = 3<12,71 non significatif
X2X3 a23 = - 0,0125 t23 = 1<12,71 non significatif

Ce tableau montre que seul la variable X2 et l'interaction X1X2 sont


significatives. Il faudrait donc retenir un modèle de la forme :
Page  34 Y = 5,0125 + 0,1625 X2 +0,2125 X1X2
Signification des effets et validation du modèle
Nous déterminerons un intervalle de confiance, au risque de 5%, pour les
coefficients a2 et a12. Rappelons que cette intervalle se calcule avec :
[ai - t(a, n)si ; ai + t(a, n)si] = [ai - 12,71*0,0125 ; ai + 12,71*0,0125]

coefficient ak Borne inférieure estimateur de ak Borne supérieure


a2 0,0036 a2 = 0,1625 0,3214
a12 0,0536 a12 = 0,2125 0,3714

Remarque :
Cherchons l'intervalle de confiance d'un effet non significatif, par exemple a1.
On obtient :
[0,125-12,71*0,0125 ; 1,125+12,71*0,0125] = [-0,1469 ; 0,1717]

On constate que 0 est dans cet intervalle de confiance, ce qui montre bien que
le coefficient n'est pas significativement différent de 0 au risque de 5%.

Page  35
Test de validation du modèle
Analyse de la variance. Validation du modèle linéaire.
La procédure de ce test implique une analyse de variance(ANOVA)et la
réalisation du test F (Fisher-Snedecor) qui test la signification de la régression
dans sa globalité ( il teste la nullité de tous les coefficients en même temps). Il
ne permet donc pas de préjuger la signification particulière des coefficients pris
isolément. C’est ce que fait le test de Student qui teste un à un la signification
des coefficients. Il s’agit de tester l’hypothese :
H0= a1=a2=a3=……=ai
H1: il existe au moins ai≠0

L'analyse de la variance consiste à comparer à l'aide d'un test F la somme


des carrés des écarts due uniquement à la régression (donc au modèle), avec
la somme des carrés des résidus. Précisons ces notions en introduisant un
vocabulaire spécifique à l'analyse de variance.
On notera par la suite Yi les réponses observées lors de la réalisation des
expériences et Yiest la réponse estimée à l'aide du modèle linéaire. On notera,
de même, Ymoy la moyenne des réponses.
On définit alors trois types de "variations"
Page  36
Test de validation du modèle
1- La variation due à la liaison linéaire :
SCEL se lit : "somme des carrés des écarts dues à la liaison".

2- La variation résiduelle :
SCER se lit : "somme des carrés des écarts des résidus".

3- La variation totale :
STCE se lit : " somme totale des carrés des écarts".
STCE = SCEL + SCER

Page  37
Test de validation du modèle
On définit de plus un "carré moyen" qui est le quotient d'une somme de carrés
par son degré de liberté : CML; CMR et CMT.
SCEL aura (p- 1) degrés de liberté (p est le nombre de coefficients estimé à
partir du modèle).
SCER aura (n - p) degrés de libertés( n est le nombre d'expériences réalisées).
STCE aura (n - 1) degrés de liberté.
En outre, on note CML le carré moyen associé à SCEL, et CMR le carré moyen
associé à SCER.
Le tableau dit analyse de la variance se présente sous la forme suivante:

Page  38
Test de validation du modèle

Page  39
Test de validation du modèle
Exemple:
Reprenons l'exemple précédent:
Y = 5,0125 + 0,0125X1 + 0,1625X2 - 0,1125X3 +0,2125X1X2 + 0,0375X1X3 -0.0125X2X3
On obtient le tableau d'analyse de variance suivant :

La table de Fischer-Snédecor donne pour n1 = 6 et n2 = 1, F(crit) = 234, pour


un risque de 5%. On a : (Fobs = 91,667) < (Fcrit = 234) donc on rejette
l'hypothèse de linéarité du modèle. Celà est bien en accord avec le fait que
certains coefficients ne sont pas significatifs.
Page  40
Quelques mesures statistiques d’évaluation du modèle

En effectuant une analyse de la variance du modèle de régression, plusieurs


mesures statistiques peuvent être obtenues ( : R2, R2ajusté, R2predit et la
Précision-adequate). Ces mesures permettent de tester la qualité du modèle.

1-Coefficient de détermination R2
Le coefficient de détermination R2 montre dans quelle mesure un modèle de
fonction correspond aux données. Plus R2 est proche à 1, meilleur est la
correspondance. R2 est donc une mesure de la qualité du modèle, il est
toujours entre 0 et 1. S’il est égal à 1, le modèle permet de retrouver les valeurs
des réponses mesurées.

Le R2 ne révèle pas tout sur la qualité du modèle. R2 doit être considère comme
une donnée descriptive, intéressante en soi, et pratique pour comparer des
modèles sur les mêmes données, mais il ne peut pas être considéré comme
une note absolue. Dans la pratique, il est difficile d’indiquer la valeur d’un bon
 41 les valeurs varient beaucoup d’une discipline à l’autre et du processus
R2Pagecar
étudié.
Quelques mesures statistiques d’évaluation du modèle

2- R au carré ajusté R2ajusté


Le R2ajusté est une version modifiée du R2 qui été ajustée en fonction du
nombre de prédicateurs du modèle. Le R2ajusté peut être négatif, mais ce n’est
généralement pas le cas. Il est toujours inferieur à R2.

3- Somme des carrés des erreurs residuelles prédites « PRESS »


PRESSE ( Predicted Residual Error Sum of Squares) est une mesure de
l’adaptation du modèle à chaque point du plan. Le PRESS est calculé en
prédisant d’abord à chaque point doit se trouver à partir d’un modèle contenant
tous les autres points, à l’exception du point en question. Les résidus au carré
(différence entre les valeurs réelles et prédites) sont ensuite additionnés.
PRESS est utile pour déterminer le valeur de R2predit

Page  42
Quelques mesures statistiques d’évaluation du modèle

4- R au carré ajusté R2predit


R2predit indique dans quelle mesure un modèle de régression prédit les
réponses de nouvelles observations.

R2predit est calculé en supprimant systématiquement chaque observation de


l’ensemble de données, en estimant l’équation de régression et en déterminant
dans quelle mesure de modèle prédit l’observation supprimée. Comme le
R2ajust , le R2predit peut être négatif et il est toujours inferieur à R2.
Même si ce n’est pas prévoyer d’utiliser le modèle pour les prévisions, le R2predit
fournit néanmoins des informations cruciales.
5- Précision adéquate Preadeq
C’est le rapport signal sur bruit. Il compare la plage des valeurs prédites aux
points du plan à l’erreur de prédiction moyenne. Des ratios supérieurs à 4
induquent une discrimination de modèle adéquate.

Page  43
Quelques mesures statistiques d’évaluation du modèle

Exemple:
En prenant l’exemple de la cuisson d’un gâteau ou nous avons obtenus le
modèle mathématique suivant:

Nous voulons étudier la validité du modèle obtenu avec un risque (α=5%) ainsi
que sa qualité ( sa correspondance aux données mesurés, sa capacité de
prédiction et sa précision adéquate) en effectuant une analyse de variance
(ANOVA) et en calculant des différentes mesures statistiques.

Page  44
Signification des effets et validation du modèle

Page  45
Quelques mesures statistiques d’évaluation du modèle

Pour tester la validité du modèle obtenu, Fcal est comparer à Fcrit . Fcrit Est
obtenu da la table de Fisher pour les parametres :
α= 5% , dll1 = p-1; dll2 = n-p (Fcrit (0.05,6,1) =234)
Fcal > Fcrit donc le modèle de regression est valide.

Les valeurs R2 et R2ajust : sont très proches de 1 ce qui prouve que la qualité du
modèle est très bonne en ce qui concerne sa correspondance aux données
observées.

Page  46
Quelques mesures statistiques d’évaluation du modèle

Le calcul de la valeur PRESS est long, on utilise des logiciels pour le calculer,
sa valeur : PRESS =8

La valeur de R2Predit : est très proches de 1 ce qui prouve que le modèle a une
grande capacité de prédire de nouvelle observation.

Page  47
Merci pour votre attention
Page  48

Vous aimerez peut-être aussi