Vous êtes sur la page 1sur 33

Chapitre 2

Modélisation statistique
Modèle statistique
• Le modèle est statistique lorsque la structure des
équations formant le modèle n’est pas élaborée à
partir de considérations physico-chimiques liées aux
phénomènes mis en jeu dans le système concerné.

• les modèles statistiques sont développés en reliant


mathématiquement les entrées du système à ses
sorties et ses paramètres sans se soucier de la
connaissance des phénomènes mis en jeu, même si
cette connaissance est souvent utile pour le choix
entre différents modèles statistiques possibles.

2
• un modèle statistique peut être utilisé, donc,
pour analyser les historiques de
fonctionnement d’un système, tout en
considérant ce système comme une boîte
noire et en se basant sur une base de données
ou bien sur un historique.
• Ce type de modèle est très utile pour
l’optimisation de la conduite du système.

3
Analyse d’historique
• L’objet de l’analyse d’historique est de décrire le
comportement observé durant l’évolution du point de
fonctionnement du système, sur une période donnée.
• Durant cette période les variables d’entrées et les
paramètres du système vont subir des variations, dues:
1) aux stratégies de conduites et aux perturbations diverses
2) à l’évolution des performances des équipements,

Exemple: la diminution d’un coefficient de transfert de


chaleur à cause de l’encrassement.

4
• Le développement de modèles mathématiques
décrivant les phénomènes mis en jeu dans un système
à partir du comportement « entrée-sortie » de celui-ci,
nécessite la réalisation de programmes expérimentaux
appropriés permettant le choix d’une structure
mathématique valable pour le modèle et l’estimation
des paramètres intervenant dans cette structure.

5
• De façon générale, un système peut être représenté par le
diagramme fonctionnel de la figure 1, ci-dessous.

6
• 𝛽 étant la matrice des paramètres du modèle.

7
MODELES EMPIRIQUES LINEAIRES ET
MULTILINEAIRES :
I. Techniques de surface de réponse
• Elles permettent de déterminer les variables qui ont un effet
significatif sur les phénomènes mis en jeu dans le système étudié.

• Ces techniques se basent sur une représentation mathématique


des réponses du système (variables dépendantes), lorsque les
variables d’entrées de celui-ci (variables indépendantes)
varient dans des intervalles autour des valeurs caractéristiques
d’un point de fonctionnement donné, par des surfaces de
réponses décrites par des fonctions obtenues à l’aide de
développement de Taylor.

8
• Soit yi la ième sortie du système et yi0 la valeur moyenne de
cette sortie obtenue pour les valeurs (𝑥10,𝑥20,…,𝑥𝑝0) des
variables d’entrées.

1.1

9
• Cette équation peut être réarrangée sous la forme :

1.2

• Cette équation est dite « régression polynomiale» et


les coefficients 𝛽𝑗(𝑖) sont ses paramètres.

10
• l’expression de 𝛽0(𝑖) est donnée par :

1.3

• Les valeurs de ces paramètres sont donc fonction des données


expérimentales utilisées pour les obtenir et sont de ce fait de
nature aléatoire. La précision de l’estimation de ces paramètres
dépend des données expérimentales utilisées en nombre et en
qualité.

11
II. Estimation des paramètres de régressions
polynomiales

• L’estimation des paramètres de la régression décrite par


l’équation (1.2) peut être obtenue en utilisant la méthode des
moindres carrées, en minimisant la somme des carrés des
écarts entre les valeurs théoriques, estimées à l’aide de la
régression, et les valeurs observées obtenues
expérimentalement. Cette somme des carrés des écarts est une
fonction, (β), des paramètres de la régression :

12
1.4

• Où Ne, est le nombre d’expériences et 𝑦𝑙(𝑖),𝑒𝑥 et 𝑦𝑙(𝑖),𝑡ℎ


sont les valeurs expérimentale et théorique,
respectivement, correspondant à la ièmes réponse du
système pour la lème expérience.

13
• Le tableau (1.1) donne le nombre de paramètres de la
régression polynomiale pour chaque variable de sortie du
système, en fonction du degré du polynôme et du nombre de
variables indépendantes (facteurs) considérées dans le
système.
Nombre de Polynôme Polynôme Polynôme Polynôme
facteurs de degré 1 de degré 2 de degré 3 de degré 4

1 2 3 4 5
2 3 6 10 15
3 4 10 20 35
4 5 15 35 70
5 6 21 56 126

Tableau (1.1) : Nombre de paramètres d’une régression polynomiale en fonction


du degré du polynôme et du nombre de facteurs expérimentaux
• Pour illustrer la démarche on considérera le cas d’une seule
sortie. Le degré du polynôme est généralement limité à deux.
• Dans ce cas, l’équation (1.2) devient :

1.5

• De même, l’équation (1, 4) devient:


1.6

• L’identification des paramètres à l’aide du critère des


moindres carrés se traduit en système d’équations suivant par
rapport aux paramètres :
1.7
• L’équation (1.6) et le système d’équations (1.7) conduisent au
système d’équation écrit de manière condensée sous la forme
suivante :

1.8
III. Régression linéaire :
• Pour une régression linéaire, les équations (1.5), (1.6) et (1.7)
deviennent respectivement:

• 1.9

• 1.10

• 1.11
• 1.12

• D’où les expressions des estimateurs de 𝛽0 𝑒𝑡 𝛽1 :

1.13

• et

1.14
• Ces deux estimateurs doivent vérifier l’expression suivante :


• Exercice :
• On mesure la conversion, y, dans un réacteur parfaitement
mélangé continu isotherme RCPMC en faisant varier la
concentration du réactif à l’entrée, x. Les données
expérimentales obtenues sont regroupées dans le tableau (1.2).
• Tableau (1.2) : conversion en fonction de la concentration
du réactif à l’entrée d’un RCPMC
• La représentation graphique de ces données montre une
tendance linéaire de y en fonction de x.

• L’ajustement des paramètres de la régression linéaire en


utilisant les équations de (1.12) à (1.14) et en dressant le
tableau (1.3) donne les valeurs suivantes :


Tableau (1.3) : Tableau d’ajustement des deux paramètres de la régression linéaire
(𝑦=𝛽0+𝛽1𝑥) de la conversion en fonction de la concentration à l’entrée d’un RCPMC
IV. Régression parabolique
L’expression de cette régression est la suivante :

y= f(x, 0, 1, 11)= 0+ 1x+11x2

L’application du système d’équations normales (1.8) exprimant le


critère des moindres carrées permet d’obtenir le système
d’équations suivant en fonction des paramètres de la régression :
Il s’agit d’un système de trois équations linéaires
à trois inconnues 𝛽0,𝛽1 𝑒𝑡 𝛽11qui peuvent être
estimés en disposant des données expérimentales
requises.
IV. Régression multilinéaire
• L’équation générale (1.2) pouvant décrire la réponse d’un
système peut être formulée par l’expression suivante d’une
régression multilinéaire :

• Où 𝑥𝑘(𝑘≠0) représente une variable simple ou composée (carré


d’une variable ou produit de deux variables en ne considérant,
ici, que les régressions polynomiales de degré inférieur ou égal
à 2).
• L’expression de 𝑦𝑡ℎ donnée par l’équation (1.17) appliquée à
chacune des N expériences pouvant être utilisées pour
l’estimation des paramètres de la régression peut s’écrire sous
forme matricielle en considérant les matrices et vecteurs
suivants :
• ; ;

• et 𝑋𝑇 est la transposée de la matrice X:


• Sous forme matricielle, l’expression (1.12) s’écrit :
𝑌=𝑋𝐵
• L’application du système d’équations normales (1.8)
exprimant le critère des moindres carrées permet d’obtenir le
système d’équations suivant en fonction des paramètres de la
régression :
• Ce système s’écrit sous la forme matricielle comme suit :

• Ces calculs matriciels peuvent être aisément effectués à l’aide


de MATLAB. Mais les logiciels d’analyse de données tels que
STATGRAPHICS, SPSS… sont beaucoup plus pratiques pour le
développement des régressions.
V. Signification statistique et intervalles de confiance des
paramètres de la régression

Etapes de développement d’un modèle statistique:

1) Estimation des paramètres d’une régression


polynomiale à l’aide de la méthode des moindres carrés,
2) tester la signification statistique de ces paramètres
3) tester la validité statistique de la régression.
Pour ce faire, les conditions suivantes doivent être vérifiées :
1) les erreurs de mesures sur les variables indépendantes
sont négligeables (variables déterministes) ;
2) Les variables dépendantes sont aléatoires et les erreurs de
mesures qui leurs sont associées pour des expériences
répétées suivent une loi normale ;
3) la variance sur les variables dépendantes dues aux
expériences répétées ne montre pas de variation
significative lorsqu’on passe d’un point expérimental à
un autre.
Test de signification des paramètres d’une régression
• Il se fait en effectuant la procédure suivante :
1) on calcule la variable de Student associée au paramètre 𝛽𝑗 de
la régression :

où 𝑆𝛽𝑗 est l’estimateur de l’écart-type de 𝛽𝑗.

2) 2) En utilisant la table de la loi de Student, on évalue la


probabilité de la variable 𝑡𝑗 de degré de liberté égal à 𝜗 ,𝑠𝑜𝑖𝑡
Pj (t(𝜗)< 𝑡𝑗) cette probabilité.
3) Si la valeur de cette probabilité est supérieure à (1-𝛼) où 𝛼 est
le seuil de confiance, l’hypothèse H0j : 𝛽𝑗=0 est rejetée. Cela
veut dire que 𝛽𝑗 est significatif. Dans le cas contraire, H0j est
acceptée.
• Le vecteur variance de l’estimateur des paramètres B, est
constituée des éléments de la diagonale de la matrice Cov(B)
estimée à l’aide de l’équation (1.29), ci-dessous.
• La construction des intervalles de confiances des paramètres se
fait aussi à l’aide de la variable de Student en utilisant Cov(B).

• Si le test de la moyenne a permis de tester la signification


statistique des paramètres de la régression, le test de la
variance, quant à lui, permet de tester la validité de la
régression elle-même.