Vous êtes sur la page 1sur 14

Pratique de lanalyse de sensibilit : comment valuer limpact des

entres alatoires sur la sortie dun modle mathmatique


Julien JACQUES
http://labomath.univ-lille1.fr/jacques/
25 mars 2011
Ce document a pour objetif de guider les praticiens de tous domaines dsirant raliser lanalyse de
sensibilit dun modle mathmatique, et est pour partie extrait de la thse de lauteur [4].
Rsum
Lanalyse de sensibilit globale (AS) permet danalyser un modle mathmatique en tudiant lim-
pact de la variabilit des facteurs dentre du modle sur la variable de sortie. Dterminant les entres
responsables de cette variabilit laide dindices de sensibilit, lAS permet de prendre les mesures
ncessaires pour diminuer la variance de la sortie si celle-ci est synonyme dimprcision, ou encore dal-
lger le modle en xant les entres dont la variabilit ninue pas la variable de sortie. Nous prsentons
dans ce document les principaux indices de sensibilit, bass sur lhypothse dindpendance des va-
riables dentre, leurs estimations, puis abordons le cas des modles entres non indpendantes. Deux
applications numriques illustrent linteprtation des indices de sensibilit dans le cas de modle en-
tres indpendantes et dpendantes.
Mots cls : analyse de sensibilit, dcomposition de la variance, indices de Sobol, entres dpendantes.
1 Introduction : les objectifs de lanalyse de sensibilit
Considrons un modle mathmatique qui, un ensemble de variables dentre alatoires X, fait
correspondre, via une fonction f dterministe, une variable de sortie Y (ou rponse) alatoire :
f : R
p
R
X Y = f(X) (1)
La fonction f du modle peut tre trs complexe (systme dquations diffrentielles...), et est en pratique
value laide dun code informatique, plus ou moins onreux en temps de calcul. Lensemble des
variables dentre X = (X
1
, ..., X
p
) regroupe toutes les entits considres comme alatoires dans le
modle.
Lanalyse de sensibilit tudie comment des perturbations sur les variables dentre du modle en-
gendrent des perturbations sur la variable rponse. Lauteur interess par un ouvrage de rfrence pourra
se rfrer [12]. Il est possible de grouper les mthodes danalyse de sensibilit en trois classes : les
mthodes de screening, qui consistent en une analyse qualitative de la sensibilit de la variable de sortie
aux variables dentre, les mthodes danalyse locale [18], qui valuent quantitativement limpact dune
petite variation autour dune valeur donne des entres, et enn les mthodes danalyse de sensibilit
globale, qui sintressent la variabilit de la sortie du modle dans lintgralit de son domaine de va-
riation. Lanalyse de sensibilit globale tudie comment la variabilit des entres se rpercute sur celle
de la sortie, en dterminant quelle part de variance de la sortie est due telle entre ou tel ensemble
dentres. Si lanalyse de sensibilit locale sintresse plus la valeur de la variable rponse, lanalyse
de sensibilit globale sintresse quant elle sa variabilit. Nous nous intressons dans ce document
lanalyse de sensibilit globale et omettrons donc par la suite ladjectif global.
1
Les enjeux de lanalyse de sensibilit peuvent tre multiples : validation dune mthode ou dun code
de calcul, orientation des efforts de recherche et dveloppement, ou encore justication en terme de s-
ret dun dimensionnement ou dune modication dun systme. Nous dcrivons ci-aprs les principales
questions auxquelles lanalyse de sensibilit permet dapporter des lments de rponse.
Les ambitions de lanalyse de sensibilit Au cours de llaboration, de la construction ou de
lutilisation dun modle mathmatique, lanalyse de sensibilit peut savrer tre un outil prcieux. En
effet, en tudiant comment la rponse du modle ragit aux variations de ses variables dentre, lanalyse
de sensibilit permet de rpondre un certain nombre de questions.
1. Le modle est-il bien dle au phnomne/processus modlis ?
En effet, si lanalyse exhibe une forte inuence dune variable dentre habituellement connue
comme non inuente, il sera ncessaire de remettre en cause la qualit du modle ou (et) la vracit
de nos connaissances sur limpact rel des variables dentre.
2. Quelles sont les variables qui contribuent le plus la variabilit de la rponse du modle ?
Si cette variabilit est synonyme dimprcision sur la valeur prdite de la sortie, il sera alors pos-
sible damliorer la qualit de la rponse du modle moindre cot. En effet, la variabilit de la
sortie du modle pourra tre diminue en concentrant les efforts sur la rduction des variabilits
des entres les plus inuentes. Il doit tre prcis que cela nest pas toujours possible, notamment
lorsque la variabilit dune variable dentre est intrinsque la nature de la variable et non due
un manque dinformation ou des imprcisions de mesures.
3. Quelles sont au contraire les variables les moins inuentes ?
Il sera possible de les considrer comme des paramtres dterministes, en les xant par exemple
leur esprance, et obtenir ainsi un modle plus lger avec moins de variables dentre. Dans le
cas dun code informatique, il sera possible de supprimer les parties de codes qui nont aucune
inuence sur la valeur et la variabilit de la rponse.
4. Quelles variables, ou quels groupes de variables, interagissent avec quelles (quels) autres ?
Lanalyse de sensibilit peut permettre de mieux apprhender et comprendre le phnomne mod-
lis, en clairant les relations entre les variables dentre.
Bon nombre de publications sur le sujet explicitent et illustrent ces objectifs. On pourra se rfrer notam-
ment aux travaux de Saltelli et al. [13, 14, 16].
La section suivante prsente les indices de sensibilit dnis pour des modles variables dentre
indpendantes, ainsi que leur mthode destimation. La section 3 sintresse aux modles entres non
indpendantes, et prsente deux types dindices utilisables dans ce cas. Enn, la section 4 prsente deux
applications simules illustrant lintrt et linterprtation des indices de sensibilits, dans le cas de mo-
dles entres indpendantes et non indpendantes.
2 Indicateurs de sensibilit pour modles entres indpendantes
Nous supposons dans cette section que les variables dentre X = (X
1
, . . . , X
p
) du modle sont
indpendantes.
2.1 Prambule : cas du modle linaire
Supposons que le modle tudi soit linaire, et quil scrive sous la forme suivante :
Y =
0
+
p

i=1

i
X
i
. (2)
Comme les variables X
i
sont supposes indpendantes, la variance de Y scrit alors :
V(Y ) =
p

i=1

2
i
V(X
i
),
2
o
2
i
V(X
i
) est la part de variance due la variable X
i
. La sensibilit de Y X
i
peut donc simplement
tre quanti par le rapport de la part de variance due X
i
sur la variance totale. On dnit ainsi lindice
de sensibilit SRC (Standardized Regression Coefcient) :
SRC
i
=

2
i
V(X
i
)
V(Y )
. (3)
Il exprime la part de variance de la rponse Y due la variance de la variable X
i
. Cet indice SRC,
toujours positif (SRC [0, 1]), est en outre le carr du coefcient de corrlation linaire entre la rponse
du modle et ses variables dentre.
2.2 Les indices de Sobol
Plaons nous dsormais dans le cas dune fonction f dont la forme analytique nest pas connue.
Pour apprcier limportance dune variable dentre X
i
sur la variance de la sortie Y , nous tudions
combien la variance de Y dcrot si on xe la variable X
i
une valeur x

i
: V(Y |X
i
= x

i
). Le problme
de cet indicateur est le choix de la valeur x

i
de X
i
, que lon rsout en considrant lesprance de cette
quantit pour toutes les valeurs possibles de x

i
: E[V(Y |X
i
)]. Ainsi, plus la variable X
i
sera importante
vis--vis de la variance de Y , plus cette quantit sera petite. Etant donn la formule de la variance totale
V(Y ) = V(E[Y |X
i
]) + E[V(Y |X
i
)], nous pouvons utiliser de faon quivalente la quantit
V(E[Y |X
i
]),
qui sera dautant plus grande que la variable X
i
sera importante vis--vis de la variance de Y . An
dutiliser un indicateur normalis, nous dnissons lindice de sensibilit de Y X
i
:
S
i
=
V(E[Y |X
i
])
V(Y )
. (4)
Cet indice est appel indice de sensibilit de premier ordre par Sobol [17], correlation ratio par McKay
[6], ou encore importance measure. Il quantie la sensibilit de la sortie Y la variable dentre X
i
, ou
encore la part de variance de Y due la variable X
i
.
Remarque. Dans le cas du modle linaire (2), cet indice de sensibilit est gal lindice SRC, puisque
V(E[Y |X
i
]) = V(
i
X
i
) =
i
2
V(X
i
).
Sobol [17] a introduit cet indice de sensibilit en dcomposant la fonction f du modle en somme de
fonctions de dimensions croissantes :
Y = f(X
1
, ..., X
p
) = f
0
+
p

i=1
f
i
(X
i
) +

1i<jp
f
ij
(X
i
, X
j
) +. . . +f
1,...p
(X
1
, ..., X
p
). (5)
o
f
0
= E[Y ],
f
i
(X
i
) = E[Y |X
i
] E[Y ],
f
i,j
(X
i
, X
j
) = E[Y |X
i
, X
j
] E[Y |X
i
] E[Y |X
j
] + E[Y ],
f
i,j,k
(X
i
, X
j
, X
k
) = E[Y |X
i
, X
j
, X
k
] E[Y |X
i
, X
j
] E[Y |X
i
, X
k
] E[Y |X
j
, X
k
] . . .
La variance de Y , V , peut alors se dcomposer selon le thorme suivant.
Thorme. Dcomposition de Sobol de la variance.
La variance du modle entres indpendantes (1) se dcompose en :
V =
p

i=1
V
i
+

1i<jp
V
ij
+. . . +V
1...p
, (6)
3
o
V
i
= V(E[Y |X
i
]),
V
ij
= V(E[Y |X
i
, X
j
]) V
i
V
j
,
V
ijk
= V(E[Y |X
i
, X
j
, X
k
]) V
ij
V
ik
V
jk
V
i
V
j
V
k
,
. . .
V
1...p
= V
p

i=1
V
i

1i<jp
V
ij
. . .

1i1<...<ip1p
V
i1...ip1
Sobol se base sur cette dcomposition pour dnir des indices de sensibilit dordre suprieur un.
Les indices de sensibilit dordre deux :
S
ij
=
V
ij
V
expriment la sensibilit de la variance de Y linteraction des variables X
i
et X
j
, cest--dire la sensi-
bilit de Y aux variables X
i
et X
j
qui nest pas prise en compte dans leffet des variables seules. Les
indices de sensibilit dordre trois :
S
ijk
=
V
ijk
V
expriment la sensibilit de la variance de Y aux variables X
i
, X
j
et X
k
qui nest pas prise en compte
dans leffet des variables seules et des interactions deux deux. Et ainsi de suite jusqu lordre p.
Linterprtation de ces indices est facile, puisque grce (6), leur somme est gale 1, et tant tous
positifs, plus lindice sera grand (proche de 1), plus la variable aura dimportance.
Le nombre dindices de sensibilit ainsi construit, de lordre 1 lordre p, est gale 2
p
1. Lorsque
le nombre de variables dentre p est trop important, le nombre dindices de sensibilit explose. Lesti-
mation et linterprtation de tous ces indices deviennent vite impossible. Homma et Saltelli [2] ont alors
introduit des indices de sensibilit totaux, qui expriment la sensibilit totale de la variance Y une va-
riable, cest--dire la sensibilit cette variable sous toutes ses formes (sensibilit la variable seule et
sensibilit aux interactions de cette variable avec dautres variables).
Lindice de sensibilit total S
Ti
la variable X
i
est dni comme la somme de tous les indices de
sensibilit relatifs la variable X
i
:
S
Ti
=

k#i
S
k
. (7)
o #i reprsente tous les ensembles dindices contenant lindice i.
Exemple : pour un modle trois variables dentre S
T1
= S
1
+S
12
+S
13
+S
123
.
2.3 Estimation des indices de Sobol
Estimation de Monte Carlo Dans beaucoup de problmes scientiques, on est amen calculer
une intgrale du type
I =
_
D
f(x)dx,
o D est un espace de plus ou moins grande dimension, et f une fonction (intgrable). Soit x
1
, . . . , x
N
la
ralisation dun N-chantillon dune variable alatoire uniforme sur D. Nous supposons cet chantillon
pris de manire totalement alatoire (chantillonnage alatoire). Une approximation de I par la mthode
de Monte Carlo est faite par :

I
N
=
1
N
N

i=1
f(x
i
).
La convergence (presque sre) de I
N
vers I dcoule directement de la loi forte des grands nombres.
Cette mthode destimation permet alors destimer lesprance de toute fonction dune variable alatoire
4
de densit quelconque par

E[f(X)] =
1
N
N

i=1
f(x
i
),
o (x
i
)
i=1..N
est un N-chantillon de ralisations de la variable alatoire X. Le taux de convergence
dune mthode de Monte Carlo est en O(N

1
2
).
Bon nombre de mthodes alternatives ont t proposes pour amliorer la convergence, parmi les-
quelles les mthodes de simulation pseudo-probabilistes
1
, comme lchantillonnage strati ou par hy-
percube latin (LHS) [7], les mthodes de Quasi-Monte Carlo [8], ou encore les mthodes de Quasi-Monte
Carlo Randomis [10]. Lchantillonnage strati consiste dcouper lespace des variables dentre en
petits espaces disjoints, puis chantillonner au sein de chacun de ces sous espaces. Lchantillonnage
LHS est bas sur le mme principe, en sassurant que le dcoupage a dni des espaces quiprobables,
et que chaque espace est bien chantillonn ; le quadrillage se fait dans le cube unit, pour un tirage
alatoire dchantillon uniforme, puis ces chantillons sont transforms via la fonction de rpartition
inverse. Les mthodes de Quasi-Monte Carlo sont des versions dterministes des mthodes de Monte
Carlo. Ces mthodes dnissent des squences dchantillons dterministes qui ont une discrpance plus
faibles que les squences alatoires, cest--dire quelles ont une meilleure rpartition uniforme dans
lespace des variables dentre. Ces mthodes de quasi-Monte Carlo permettent dobtenir une conver-
gence plus rapide en O(N
1
(logN)
p1
) (sous des conditions relativement faibles de rgularit de f).
Les mthodes de Quasi-Monte Carlo Randomis, sous certaines conditions peu restrictives sur f, ont un
taux de convergence en O(N

3
2
(logN)
p1
2
), et permettent une approximation de lerreur destimation.
Owen [9] prsente ces mthodes comme une r-randomisation des squences utilises dans les mthodes
de quasi-Monte Carlo : on prend les squences dterministes a
i
de ces dernires, et on les transforme en
variables alatoire x
i
. Cette transformation se fait par exemple par x
i
= a
i
+U mod 1, o U U[0, 1]
p
.
Estimation des indices de sensibilit par Monte Carlo
Considrons un N-chantillon

X
(N)
= (x
k1
, . . . , x
kp
)
k=1..N
de ralisations des variables dentre
(X
1
, . . . , X
p
). Lesprance de Y , E[Y ] = f
0
, et sa variance, V(Y ) = V , sont estimes par :

f
0
=
1
N
N

k=1
f(x
k1
, . . . , x
kp
), et

V =
1
N
N

k=1
f
2
(x
k1
, . . . , x
kp
)

f
0
2
. (8)
Lestimation des indices de sensibilit ncessite lestimation desprance de variance conditionnelle.
Nous prsentons une technique destimation due Sobol [17].
Lestimation des indices de sensibilit de premier ordre (4) consiste estimer la quantit :
V
i
= V(E[Y |X
i
]) = E[E[Y |X
i
]
2
]
. .
Ui
E[E[Y |X
i
]]
2
= U
i
E[Y ]
2
,
la variance de Y tant estime classiquement par (8). Sobol propose destimer la quantit U
i
, cest--dire
lesprance du carr de lesprance de Y conditionnellement X
i
, comme une esprance classique, mais
en tenant compte du conditionement X
i
en faisant varier entre les deux appels la fonction f toutes les
variables sauf la variable X
i
. Ceci ncessite deux chantillons de ralisations des variables dentre, que
nous notons

X
(1)
(N)
et

X
(2)
(N)
:

U
i
=
1
N
N

k=1
f
_
x
(1)
k1
, . . . , x
(1)
k(i1)
, x
(1)
ki
, x
(1)
k(i+1)
, . . . , x
(1)
kp
_
f
_
x
(2)
k1
, . . . , x
(2)
k(i1)
, x
(1)
ki
, x
(2)
k(i+1)
. . . , x
(2)
kp
,
_
.
Les indices de sensibilit de premier ordre sont alors estims par :

S
i
=

V
i

V
=

U
i


f
0
2

V
.
1
pseudo puisquelle consiste en un chantillonnage non totalement alatoire
5
Pour les indices de sensibilit de second ordre S
ij
=
Vij
V
, o :
V
ij
= V(E[Y |X
i
, X
j
]) V
i
V
j
= U
ij
E[Y ]
2
V
i
V
j
,
nous estimons les quantits U
ij
= E[E[Y |X
i
, X
j
]
2
] de la mme manire, en faisant varier entre les deux
appels la fonction toutes les variables sauf X
i
et X
j
:

U
ij
=
1
N
N

k=1
f
_
x
(1)
k1
, . . . , x
(1)
k(i1)
, x
(1)
ki
, x
(1)
k(i+1)
, . . . , x
(1)
k(j1)
, x
(1)
kj
, x
(1)
k(j+1)
, . . . , x
(1)
kp
_
f
_
x
(2)
k1
, . . . , x
(2)
k(i1)
, x
(1)
ki
, x
(2)
k(i+1)
, . . . , x
(2)
k(j1)
, x
(1)
kj
, x
(2)
k(j+1)
, . . . , x
(2)
kp
_
.
Lindice S
ij
est alors estim par :

S
ij
=

U
ij


f
0
2


V
i


V
j

V
.
Et ainsi de suite pour les indices de sensibilit dordre suprieur.
Remarque. Lestimation des indices de sensibilit dordre i, (1 < i p), ncessite lestimation des
indices de sensibilit dordre 1 i 1.
Par contre, les indices de sensibilit totaux peuvent tre estims directement. En effet, on remarque
facilement que lindice de sensibilit total peut scrire
S
Ti
= 1
V(E[Y |X
i
])
V(Y )
= 1
V
i
V
.
o V
i
est la variance de lesprance de Y conditionnellement toutes les variables sauf X
i
. V
i
est
alors estime comme V
i
, sauf quau lieu de faire varier toutes les variables sauf X
i
, nous ne faisons
varier uniquement X
i
.
Ainsi, pour estimer V
i
= E[E[Y |X
i
]
2
] E[E[Y |X
i
]]
2
= U
i
E[Y ]
2
, on estime U
i
par :

U
i
=
1
N
N

k=1
f
_
x
(1)
k1
, . . . , x
(1)
k(i1)
, x
(1)
ki
, x
(1)
k(i+1)
, . . . , x
(1)
kp
_
f
_
x
(1)
k1
, . . . , x
(1)
k(i1)
, x
(2)
ki
, x
(1)
k(i+1)
. . . , x
(1)
kp
,
_
,
et on obtient

S
Ti
= 1

U
i


f
0
2

V
.
Quels indices estimer : stratgie adopter En utilisant une taille dchantillon de Monte Carlo
de N, le nombre rel de simulations des variables dentre ncessaires lestimation des indices de sen-
sibilit est 2N, puisque cette estimation ncessite deux jeux de simulations. Le nombre dappels la
fonction du modle est alors N (k + 1), o k est le nombre dindices estims. Pour un modle p va-
riables dentre, lestimation de tous les indices de sensibilit ncessite N(2
p
) appels la fonction. En
revanche, nestimer que les indices de premier ordre et les indices totaux ne demande que N (2p + 1)
appels.
Il conviendra donc destimer dans un premier temps les indices de permier ordre et les indices totaux.
Sil existe des carts importants entre ces deux indices, cest que la part des interactions est non ngli-
geable et il peut tre utile destimer les indices dordres intermdiaires. Dans le cas contraire, leffet des
variables dentre sera principalement de premier ordre et il ne sera pas utile de sintresser aux indices
dordres intermdiaires.
En pratique, une taille dchantillon de lordre de 10000 sera sufsante pour estimer les indices de sen-
sibilit dun modle comportant une dizaine de variables dentre. En outre, il sera possible destimer
la variabilit des estimateurs obtenus par boostrap. Lorsque le modle demande un temps dexcution
important, il est illusoire de vouloir utiliser de telle taille dchantillon en un temps raisonnable. On a
en gnral recourt une approximation de la fonction f (surface de rponse), permettant de faire des
6
simulations intensives et donc destimer les indices de sensibilit. Le lecteur interess par une revue des
mthodes de surface de rponse pour lanalyse de sensibilit pourra se rfrer [3] par exemple.
2.3.1 La mthode de McKay
La mthode destimation des indices de sensibilit de premier ordre propose par McKay, [6], se
base sur lchantillonnage par hypercube latin rpliqu (r-LHSampling). partir dun N-chantillon
cr selon le plan dchantillonnage par hypercube latin (N premires lignes de la matrice ci-dessous),
on cre r rplications (paquet de N lignes) en permutant indpendamment et alatoirement les N valeurs
de chaque variable (i.e. colonne). La runion de ces r rplications donnera N r chantillons pour
chaque variable. Ce schma dchantillonnage par hypercube latin rpliqu peut tre reprsent par la
gure 1.
r rplications
k
N valeurs
j
_

_
_
_
_
x
1
11
.
.
.
x
1
N1
_
_
_
_
_
_
_
.
.
.
.
.
.
.
.
.
_
_
_
_
_
_
_
_
_
_
_
_
x
1
1k
.
.
.
x
1
jk
.
.
.
x
1
Nk
_
_
_
_
_
_
_
_
N
_

_
_
_
_
_
_
_
_
_
_
_
.
.
.
.
.
.
x
i
jk
.
.
.
.
.
.
_
_
_
_
_
_
_
_
_
_
_
_
_
x
1
1r
.
.
.
x
1
Nr
_
_
_
_
_
_
_
.
.
.
.
.
.
.
.
.
_
_
_
_
_

_
entres
1
entres
i
=
_

_
y
jk
_

_
1 j N : N valeurs des variables dentre (prises dans des intervalles quiprobables),
1 k r : r permutations des N-vecteurs de simulations des entres,
1 i p : p paramtres.
FIG. 1 chantillonnage par hypercube latin rpliqu.
Les moyennes suivantes sont alors dnies :
y
j.
=
1
r
r

k=1
y
jk
y =
1
N
N

j=1
y
j.
,
o y
j.
est la moyenne inter rplications et y est la moyenne sur toutes les valeurs de y.
Lestimation de lindice de sensibilit de premier ordre de la variable X
i
, dni par (4) ncessite lesti-
7
mation des quantits V(E[Y |X
i
]) et V(Y ). La variance totale V(Y ) peut tre estime par :

V
()
(Y ) =
1
r
r

k=1
1
N
N

j=1
(y
jk
y
.k
)
2
. .

V
k
(Y )
, (9)
o y
.k
=
1
N
N

j=1
y
jk
et

V
k
(Y ) sont les estimations de la moyenne et de la variance de Y au sein de la
rplication k (intra rplications). En utilisant la formule classique de lanalyse de la variance, pour une
somme de carrs intra et inter rplications, qui scrit :
r

k=1
N

j=1
(y
jk
y)
2
=
r

k=1
N

j=1
(y
.k
y)
2
. .
inter
+
r

k=1
N

j=1
(y
jk
y
.k
)
2
. .
intra
= N
r

k=1
(y
.k
y)
2
+
r

k=1
N

j=1
(y
jk
y
.k
)
2
,
on a :

V
()
(Y ) =
1
Nr
r

k=1
N

j=1
(y
jk
y)
2

1
r
r

k=1
(y
.k
y)
2
.
Or, pour un chantillonnage LHS, comme E[(y
.k
y)
2
] est en
1
N
, le dernier terme de cette galit peut
tre considr comme ngligeable pour une taille dchantillon N sufsamment grande. McKay propose
alors lestimation de la variance totale suivante :

V(Y ) =
1
Nr
N

j=1
r

k=1
(y
jk
y)
2
.
Soient Y
j.
et Y les variables alatoires dont y
j.
et y sont les ralisations sur notre matrice dchantillon-
nage. Comme :
E
_
(Y
j.
Y )
2

V(Y
j.
) = V(E[Y
j.
|X
i
]) + E[V(Y
j.
|X
i
)] = V(E[Y |X
i
]) +
1
r
E[V(Y |X
i
)],
le terme V(E[Y |X
i
]) est estim par :
1
N
N

j=1
(y
(i)
j.
y)
2

1
r
1
Nr
N

j=1
r

k=1
(y
(i)
jk
y
j.
)
2
,
o
1
Nr
N

j=1
r

k=1
(y
(i)
jk
y
j.
)
2
est lestimateur de E[V(Y |X
i
)], avec y
(i)
jk
et y
(i)
j.
obtenus en xant, pour
la variable X
i
, les r rplications, (x
i
jk
constant sur k, cest--dire x
i
j1
= x
i
j2
= ... = x
i
jr
pour tout
1 j N).
Lindice de sensibilit de premier ordre de la variable X
i
, dni par (4) est alors estim par :
S
i
=
r
N

j=1
(y
(i)
j.
y)
2

1
r
N

j=1
r

k=1
(y
(i)
jk
y
j.
)
2
N

j=1
r

k=1
(y
jk
y)
2
.
8
3 Modles entres dpendantes
Lhypothse de lindpendance des facteurs dentre faite prcdemment est ncessaire pour garantir
linterprtabilit des indices (un indice dordre un nexprime plus la sensibilit une unique variable si
cette dernire est corrle avec dautres) et la validit de leur mthode destimation par Monte-Carlo (les
intgrales multidimensionnelles sont values comme des produits dintgrales unidimensionnelles).
Nous prsentons dans cette section les stratgies possibles pour raliser une analyse de sensibilit sur un
modle variables dentre non indpendantes.
3.1 Indices multidimensionnels
Lorsque toutes les variables dentre ne sont pas dpendantes, mais quelles peuvent tre regroupes
en clusters de variables dpendantes (les variables au sein dun cluster sont dpendantes mais les va-
riables de diffrents clusters sont indpendantes), il est possible de considrer des indices de sensibilit
mutlidimensionnels [5] qui expriment la sensibilit de la variance de Y un cluster de facteurs.
Si par exemple les deux variables X
i
et X
j
sont dpendantes, mais indpendantes du reste des autres
variables, la sensibilit la variable bidimensionnelle (X
i
, X
j
) sera exprim par lindice multidimen-
sionnel
S
{i,j}
=
V (E[Y |X
i
, X
j
])
V (Y )
.
Il est possible de dnir des indices dordre suprieur exprimant la sensibilit de Y linteraction entre
cette variable bidimensionnelle (X
i
, X
j
) et dautres variables uni ou multidimensionnelles. Les clusters
de variables tant indpendants entre eux, linterprtabilit (et en particulier la sommation des indices de
tout ordre 1) est conserve.
Lestimation de ces indices peut tre faite par Monte Carlo avec une approche similaire celle utilise
pour estimer les indices de sensibilit de Sobol classiques (cf. [5] pour plus de dtails).
3.2 Utilisation des indices de Sobol dordre 1
Lorsque lanalyse de sensibilit est mene dans le but de savoir quelle variable ou quel groupe de
variables qui, une fois x, conduit la plus grande rduction de la variance de Y , Saltelli et Tarantola
[15] expliquent que les indices de sensibilit dordre un sont toujours les indicateurs utiliser en prsence
de corrlation. En effet, si en prsence de corrlation lindice dordre un S
i
nexprime plus uniquement
la sensibilit une variable X
i
mais galement une partie de sensibilit aux variables avec lesquelles elle
est corrle, xer X
i
conduit galement jouer sur la distribution des variables avec lesquelles elle est
corrle, et donc conduit rduire dautant plus la variance de la rponse du modle.
Si lestimation de Monte-Carlo des indices de premier ordre prsente prcdemment (section 2.3) nest
plus valable en labsence dindpendance entre les variables dentre, la mthode de McKay (section
2.3.1) est toujours valable. Nanmoins, cette mthode destimation est trs gourmande en nombre dva-
luations de la fonction f du modle, ce qui peut tre problmatique lorsque lvaluation de f est coteuse
en temps de calcul. Nous prsentons ci-aprs une mthode destimation par polynmes locaux rduisant
considrablement ce nombre dvaluations [1].
Estimation par polynmes locaux La mthode destimation des indices de sensibilit dordre 1 de
Da Veiga [1] consiste estimer dans un premier temps lesprance de Y conditionnellement chaque
variable dentre X
i
, puis dans un second temps estimer la variance de cette esprance conditionnelle
pour obtenir lestimateur de lindice de sensibilit. Lavantage principal de cette mthode est quelle ne
fait appel qu un nombre rduit dappel la fonction, contrairement la mthode de McKay prcdente.
Notons m
i
(x) = E[Y |X
i
= x]. On approche m(x) localement par un polynme
m
i
(z)
p

j=0

j
(z x)
j
z V(x)
9
o V(x) un voisinage de x, symbolis par une fonction noyau K (de paramtre dchelle h) pondrant
lestimation par moindres carrs :
= argmin

j=1
_
_
Y
j

j=0

j
(X
j
i
x)
j
_
_
2
K
_
X
j
i
x
h
_
,
avec (X
j
i
, Y
j
)
j=1,n
un chantillon de ralisations du couple (X
i
, Y ). Utilisant un second chantillon
(

X
j
i
)
j=1,n
de ralisations de la variable X
i
, indpendant du premier, on peut estimer classiquement la
variance de m
i
(x) par :
U
i
=
1
n

1
n

j=1
(m
i
(

X
j
i
) m
i
)
2
o m
i
=

j=1
m
i
(

X
j
i
)/n

. Il suft alors de diviser par lestimation de la variance de Y pour obtenir


une estimation de lindice de sensibilit dordre un S
i
.
4 Outil logiciel sous R et illustrations numriques
Dans cette section, aprs avoir prcis les packages R permettant des raliser des analyses de sensibi-
lit, nous prsentons deux analyses de sensibilit de modles simuls, dans le cas dentres indpendantes
puis non indpendantes.
4.1 Outil logiciel sous R
Package sensitivity Le package sensitivity [11] du logiciel R, disponible sur le site du
CRAN
2
permet de calculer les indices de sensibilit de Sobol prsents dans ce document, lorsque les
variables dentre sont indpendantes.
La fonction sobol permet de calculer les indices de tout ordre, tandis que la fonction sobol2002
permet destimer les indices de premier ordre et dordre total partir dun nombre dchantillons plus
rduit que la fonction sobol. Ces deux fonctions retournent des intervalles de conance estims par
bootstrap.
Package sensitivity-dependent Un package sensitivity-dependent pour le logi-
ciel R, disponible sur le site de lauteur
3
, permet de calculer les indices de sensibilit multidimensionnels
(fonction sobol_multi) et les indices de sensibilit de premier ordre par la mthode de McKay (fonc-
tion mckay) en prsence de variables dentre dpendantes. La fonction sobol_multi fournit en outre
une estimation de la variabilit des estimations par boostrap.
4.2 Illustration de modles entres indpendantes
Nous considrons trois modles entres indpendantes :
le modle linaire Y = 9X
1
+ 6X
2
+ 3X
3
+X
4
avec X
i
U[0, 1],
le benchmark dIshigami [12] :Y = sin(X
1
) +7 sin
2
(X
2
) +
X
4
3
10
sin(X
1
) o X
i
U[, ] pour
i = 1, 2, 3,
le benchmark de Sobol [12] : Y =

8
j=1
|4X[,j]2|+a[j]
1+a[j]
avec a = [0, 1, 4.5, 9, 99, 99, 99, 99] et
X
i
U[0, 1].
Les indices de sensibilit de premier ordre et totaux, estims laide de la fonction sobol2002 du
package sensitivity, sont donns dans la table 1. La taille dchantillon utilise est 10000, et les
intervalles de conance sont obtenus par 100 rplications bootstrap.
2
http ://cran.r-project.org/web/packages/sensitivity/
3
http ://labomath.univ-lille1.fr/jacques/
10
variable indice ordre 1 intervalle de conance indice total intervalle de conance
modle linaire
X
1
0.593 [0.523,0.661] 0.684 [0.603,0.753]
X
2
0.252 [0.200,0.298] 0.300 [0.250,0.345]
X
3
0.071 [0.055,0.097] 0.068 [0.045,0.089]
X
4
0.009 [0,0.019] 0.007 [0,0.016]
Ishigami benchmark
X
1
0.305 [0.269,0.338] 0.578 [0.546,0.607]
X
2
0.4356 [0.403,0.462] 0.428 [0.402,0.452]
X
3
0 [0,0.011] 0.254 [0.232,0.282]
Sobol benchmark
X
1
0.759 [0.701,0.813] 0.769 [0.718,0.807]
X
2
0.146 [0.123,0.175] 0.290 [0.258,0.316]
X
3
0.025 [0.017,0.034] 0.038 [0.022,0.053]
X
4
0.003 [0,0.010] 0.019 [0.010,0.029]
X
5
X
8
0 0 0 0
TAB. 1 Indices de sensibilit de premier ordre et totaux pour les modles linaire, dIshigami et de Sobol.
Lecture des rsultats Nous prsentons ci-dessous un exemple de lecture des rsultats pour le modle
dIshigami :
La variable qui a le plus dinuence sur la variance de la sortie (au sens de lindice total, cest--
dire en prenant en compte les interactions avec les autres variables), est la variable X
1
, avec un
indice total de 0.6 et prs de 30% de la variance de Y explique elle seule.
La variable X
2
nintervient que seule (indice dordre un quivalent indice total), en expliquant
prs de 40% de la variance de Y .
La variable X
3
na aucune inuence seule, mais a une inuence relativement importante en inter-
action (avec X
1
), avec un indice total denviron 0.3.
On en dduit que la variance de Y est due pour 40% X
2
, 30% X
1
et 30% linteraction entre
X
1
et X
3
.
Notons galement que dans cet exemple, linteraction entre X
1
et X
3
est due une relation non additive
entre ces deux variables dans lexpression du modle.
Interprtation des rsultats An dinteprter les valeurs des indices de sensibilit, nous xons tour
tour chaque variable du modle son esprance et examinons limpact que cela a sur la distribution de
la sortie Y . La gure 2 prsente sous la forme de bote moustaches les rsultats obtenus, pour les trois
modles linaire, dIshigami et de Sobol (de gauche droite). Sur chaque graphique, la premire bote (
gauche) correspond la distribution initiale de Y . Les botes suivantes correspondent aux distributions
de Y lorsque les variables sont xes une une, en les ordonnant de gauche droite selon leur ordre
dcroissant dimportance (au sens de lindice de sensibilit total).
Comme attendu, la plus grande rduction de variance est obtenue en xant la variable ayant lindice
de sensibilit total le plus important. Mais il faut avoir lesprit que modier la distribution dune variable
dentre (pour rduire sa variance) nagt pas uniquement sur la variance de Y : en effet, sauf dans le cas
dun modle linaire, une modication de la distribution des entres inue galement la position centrale
de la distribution. Il conviendra donc de sassurer avant de modier la distribution dune variable dentre
dans le but damliorer le pouvoir prdictif du modle, que celle-ci est bien justie et raliste.
4.3 Illustration de modles entres dpendantes
Dans cette seconde illustration numrique, nous considrons le modle :
Y = X
1
+X
2
X
3
+X
2
4
,
11
FIG. 2 Distributions de Y en fonction de la variable dentre xe, pour les trois modles linaire, dIshi-
gami et de Sobol.
o (X
1
, X
2
, X
3
, X
4
)
t
est un vecteur gaussien desprance (1, 1, 1, 1)
t
et de matrice de variance
=
_
_
_
_
4 0 0 0
0 3 0 0
0 0 4 2
0 0 2 3
_
_
_
_
.
Les indices de sensibilits multidimensionnels de premier ordre et totaux sont estims laide de la
fonction sobol_multi du package sensitivity-dependent avec une taille dchantillon de
10000. Les rsultats (estimation moyenne et cart-type sur 100 rplications bootstrap) sont donns par
la table 2 et la gure 3. La table 2 prsente galement les rsultats destimation des indices dordre un
par la mthode de McKay (20 rplications de lchantillonnage LHS), obtenus par la fonction mckay du
package sensitivity-dependent.
indice ordre 1 indices multidimensionnels
variable (McKay) ordre 1 total
X
1
0.073 0.061 (0.014) 0.069 (0.008)
X
2
0.060 0.049 (0.013) 0.298 (0.016)
X
3
0.078
0.634 (0.016) 0.882 (0.012)
X
4
0.526
TAB. 2 Indices de sensibilit de premier ordre et totaux du modle dIshigami.
FIG. 3 Indices de sensibilit multidimensionnels de premier ordre et totaux
12
Sur cet exemple, les indices dordre un estims par McKay nous indiquent une importance pr-
pondrante de la variable X
4
, et aucune inuence des autres variables (seules). Le calcul des indices
multidimensionnels nous permet daller plus loin dans linterprtation :
la variable X
2
a galement une inuence signicative grce des interactions avec dautres va-
riables,
les variables X
3
et X
4
(et non pas uniquement X
4
) expliquent certes elles seules une grande
partie de la variance de Y (environ 60%), mais galement une autre partie non ngligeable de cette
variance travers linteraction avec la variable X
2
.
5 Discussion
Lanalyse de sensibilit globale a pour objectif de dterminer limpact des variables dentre sur la
variabilit de la sortie dun modle mathmatique. Dans le cas de modles entres indpendantes (cas le
plus frquement abord dans la littrature mais pas forcment le plus rpandu en pratique), les indices de
sensibilit expriment la part de variance de la sortie due chaque variable dentre. De nombreux travaux
ont permis de dvelopper des mthodes destimation efcaces et simples mettre en oeuvre, que le prati-
cien pourra intgrer sans problme ses propres codes de calcul. Nous attirons nanmoins lattention du
praticien quant linterprtation et lutilisation des rsultats de sensibilit, comme nous lavons illustr
prcdemment : modier la variance de la variable dentre la plus inuente pour diminuer lincertitude
de prdiction du modle ninue pas uniquement sur la variance de la sortie. Lhypothse dindpen-
dance des entres faite prcdemment est primordiale et le praticien ne doit surtout pas saventurer
des analyses de sensibilit classiques lorsque son modle ne respecte pas cette hypothse. Dans une telle
situation, il dispose soit des indices de sensibilit multidimensionnels lorsque les entres ne sont pas
toutes dpendantes entre elles, soit des indices de sensibilit dordre un classiques mais estims par des
mthodes spciques au cas dentres dpendantes : mthode de McKay, facile dimplmentation, ou de
Da Veiga, plus complexe mais beaucoup moins gourmande en valuations du modle.
Rfrences
[1] S. Da Veiga, F. Wahl, and F. Gamboa. Local polynomial estimation for sensitivity analysis on
models with correlated inputs. Technometrics, 51(4) :452463, 2009.
[2] T. Homma and A. Saltelli. Importance measures in global sensitivity analysis of non linear models.
Reliability Engineering and System Safety, 52 :117, 1996.
[3] B. Iooss. Revue sur lanalyse de sensibilit globale de modles numriques. Journal de la Socit
Franaise de Statistique, 152 :123, 2011.
[4] J. Jacques. Contributions lanalyse de sensibilit et lanalyse discriminante gnralise. Thse
de lUniversit Joseph Fourier, 2005.
[5] J. Jacques, C. Lavergne, and N. Devictor. Sensitivity analysis in presence of model uncertainty and
correlated inputs. Reliability Engineering and System Safety, 91 :11261134, 2006.
[6] M.D. McKay. Evaluating prediciton uncertainty. Technical Report NUREG/CR-6311, US Nuclear
Regulatory Commission and Los Alamos National Laboratory, 1995.
[7] M.D. McKay, R. Beckman, and W. Conover. A comparison of three methods for selecting values
of input variables in the analysis of output from a computer code. Technometrics, 21(2) :239245,
1979.
[8] H. Niederreiter. Random Number Generation and Quasi-Monte Carlo Methods. Philadelphia :
SIAM, 1992.
[9] A. Owen. Monte Carlo and Quasi-Monte Carlo Methods in Scientic Computing, chapter Ran-
domly Permuted (t,m,s)-Nets and (t,s)-Sequences. New York : Springer-Verlag, Niederreiter,H.
and Shiue,P.J.-S. (Eds), 1995.
[10] A. Owen. Monte carlo extension of quasi-monte carlo. In 1998 Winter Simulation Conference,
Washington (DC, USA), 1998.
[11] G. Pujol and B. Iooss. Package sensitivity : Sensitivity analysis. Technical report, R software, 2008.
13
[12] A. Saltelli, K. Chan, and E.M. Scott, editors. Sensitivity Analysis. Wiley, 2000.
[13] A. Saltelli and E.M. Scott. Guest editorial : The role of sensitivity analysis in the corroboration
of models and its link to model structural and parametric uncertainty. Reliability Engineering and
System Safety, 1997.
[14] A. Saltelli and S. Tarantola. Sensitivity analysis : a prerequisite in model building? Foresight and
Precaution, 2000.
[15] A. Saltelli and S.. Tarantola. On the relative importance of input factors in mathematical models :
safety assessment for nuclear waste disposal. Journal of the American Statistical Association,
97(459) :702709, 2002.
[16] A. Saltelli, S. Tarantola, and F. Campolongo. Sensitivity analysis as an ingredient of modeling.
Statistical Science, 15(4) :377395, 2000.
[17] I.M. Sobol. Sensitivity estimates for nonlinear mathematical models. Mathematical Modelling and
Computational Experiments, 1 :407414, 1993.
[18] T. Turanyi. Sensitivity analysis of complex kinetic system, tools and applications. Journal of
Mathematical Chemistry, 5 :203248, 1990.
14