Vous êtes sur la page 1sur 29

Estimation de la covariance dans le cas

d’observations asynchrones et avec présence de


bruit
William Bench et Kevin Webster
8 décembre 2009

1
Table des matières
1 Introduction 3

2 Premier problème : Asynchronicité 5


2.1 Estimateur empirique . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Estimateur consistant . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Second problème : Bruit additif 11


3.1 Estimateur empirique . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Estimateur consistant . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Application au market impact 19


4.1 Cas de la dimension 1 . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 Cas de la dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Influence de ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2
1 Introduction
L’objectif de ce projet est de déterminer une technique d’estimation de la
covariance entre deux processus A et B dans le cadre d’une micro-structure des
marchés et d’observations asynchrones. Ce genre d’estimateur est souvent utilisé
dans l’optimisation de transaction de portfolio, où il s’agit généralement d’effec-
tuer un grand nombre d’opérations sur un actif dans une même journée. C’est
dans ce cadre que des estimateurs classiques peuvent se montrer inadéquat, en
raison du fait que plusieurs sources de bruit, comme par exemple les effets de mi-
crostructure, se font plus sentir à cette échelle temporelle. On remarque à l’aide
des trois graphiques ci-dessous que les courbes réelles d’actifs s’apparentent da-
vantage à celles de mouvements browniens bruités.
Dans un premier temps, nous allons oublier les effets de microstructure et
nous focaliser sur l’asynchronicité. Le résultat principal sera la démonstration
du biais de l’estimateur empirique fréquemment utilisé en pratique, et l’analyse
de celui-ci quand le pas de temps diminue. Ensuite, nous présenterons un autre
estimateur, plus sophistiqué, qui s’affranchit entièrement du pas de temps et qui
ainsi évite le problème d’asynchronicité des données.
Dans un deuxième temps, nous essayerons d’étudier plus précisément l’in-
fluence de la microstructure sur ces estimateurs.
Finalement, nous proposerons un cas concret d’utilisation de ces estimateurs
dans la mise en place d’une stratégie d’achat d’actifs, achat dont on essaye de
minimiser le coût.

Fig. 1 – Simulation d’actifs financiers corrélés.

3
Fig. 2 – Les mêmes actifs, avec bruit.

Fig. 3 – Graphiques intraday renormalisés de Renault (RENA, en noir) et de


Saint-Gobain (SGOB, en bleu) du 24/10/2007.

4
2 Premier problème : Asynchronicité
On suppose dans cette partie que le bruit est absent.

2.1 Estimateur empirique


On considère ici l’estimateur empirique de covariance :
X  
Vh := Ati − Ati−1 Bti − Bti−1
i

où (ti ) est un découpage régulier de l’intervalle de temps [0, T ] en tranches de


largeur h.
Le problème est que nous ne connaissons les valeurs de A et B qu’aux temps
aléatoires T A et T B (supposés indépendants entre eux et indépendants de A et
B). Il faut donc interpoler les fonctions A et B à partir des valeurs en ces points.
C’est ce procédé qui est nommé “synchronisation des données”. L’interpolation
choisie ici est celle par fonctions en escalier (continues à gauche). Pour être
exact, nous prenons comme valeur au temps t de la fonction A, la valeur au
dernier temps T A précédent t. En effet, cette valeur correspond à la dernière
valeur mesurée (tradée) de l’actif A. Nous exploitons ainsi les données “tick by
tick” des actifs A et B.
On construit ainsi à et B̃, interpolées de A et B respectivement. L’estimateur
devient :

X   X  
V˜h = Ãti − Ãti−1 B̃ti − B̃ti−1 = AT A − AT A BT B − BT B
n(i) n(i−1) m(i) m(i−1)
i i
 
où l’on définit donc n(i) := maxj j : TjA ≤ ih et m(i) := maxj j : TjB ≤ ih .
On remarque deux choses. D’abord, les intervalles
i de temps
i réguliers
i ]i−1, i]i
A A B B
sont “transformés” en les intervalles de temps Tn(i−1) , Tn(i) et Tm(i−1) , Tm(i)
par la synchronisation. Ensuite, seuls contribuent à la somme les termes tels
que n(i) 6= n(i − 1) et m(i) 6= m(i − 1), c’est à dire ceux pour lesquels Ã
et B̃ ont tous les deux au moins un saut sur l’intervalle ]i − 1, i]. Ceci est
assez intuitif, car on ne peut mesurer la covariance entre deux processus uni-
quement lorsque les deux changent à peu près simultanément (ce qui tradui-
rait une relation entre les prix des actifs). On voit néanmoins déjà apparaitre
le caractère arbitraire du découpage, vu que deux moments éventuellement
liés peuvent artificiellement être séparé par un “i”. Pour C une v.a., notons
GC (i) := {C change de valeur sur ]i-1,i]}
On a supposé que tous les procédés sont indépendants entre eux, mis à part
A B
A et B. On suppose que min(Tn( T ,T
m( T
) = T , ce qui veut juste dire qu’on
h) h)
fait une mesure de A et de B au dernier moment de la journée, ou inversement,
qu’on ne s’intéresse à la covariance que jusqu’au moment où l’on arrête de la
mesurer. Sous ces hypothèses, on a le résultat qualitatif suivant, tiré de [2] :

5
Proposition 2.1.1
" #
h i X 
E Ṽh = E hA, Bimin(T A B
,Tm(i) ) − hA, Bimax(T A B
,Tm(i−1) ) 1GÃ ∩GB̃
n(i) n(i−1) i i
i

De plus, par télescopage, si hA, Bit est croissante (respectivement décroissante)


p.s., alors
h i  
E Ṽh ≤ (≥)E hA, Bimin(T A ,T B ) = E [hA, BiT ]
n( T ) m( T )
h h

L’inégalité est stricte sous certaines conditions sur les temps T A et T B .

Démonstration En termes intuitifs, la preuve se résume à dire que seul l’in-


tervalle de temps englobant simultanément des variations de A et de B inter-
viennent dans l’estimateur de la covariance. Introduisons la notation suivante.
Soit F une v.a. et I =]a, b] un intervalle de temps. Alors on note ∆F (I) :=
Fb − Fa .
On a donc, en notant Π la filtration associée aux deux temps T A et T B (Π
traduit le fait de connaitre à l’avance les temps auxquels on va mesurer les deux
actifs) :

" #
h i X
A B
 
E Ṽh = E ∆A I (i) ∆B I (i)
i
" #
X h i
A B
 
=E E ∆A I (i) ∆B I (i) 1GÃ ∩GB̃ |Π
i i
i
i i i i
en notant I A := Tn(i−1)
A A
, Tn(i) et I B := Tm(i−1)
B A
, Tm(i) et en utilisant la
remarque faite auparavant sur le fait que seuls les intervalles où Ã et B̃ ont tous
les deux un saut interviennent dans la somme.
On décompose ensuite I A (i) de la façon suivante :

I A (i) = I1A (i) + I2 (i) + I3A (i)

avec
i  i
I1A (i) := Tn(i−1)
A A
, max Tn(i−1) B
, Tm(i−1)
i    i
A B A B
I2 (i) := max Tn(i−1) , Tm(i−1) , min Tn(i) , Tm(i)
i   i
I3A (i) := min Tn(i)
A B
, Tm(i) A
, Tn(i)

et I B (i) de la même façon.


On note que I2 est bien défini car n(i−1) 6= n(i) et m(i−1) 6= m(i) puisqu’on
est sur GÃ B̃ A
i ∩ Gi . De plus, il s’agit bien d’un intervalle qui est commun à I (i)
B
et I (i).

6
h i
On effectue ensuite un développement dans la formule de E Ṽh pour obte-
nir :
" #
h i X h i
A B
 
E Ṽh = E E ∆A I (i) ∆B I (i) 1GÃ ∩GB̃ |Π
i i
i
"
X h
E ∆A I1A (i) + ∆A (I2 (i)) + ∆A I3A (i)
 
=E
i
#
i
I1B (i) I3B (i)
 
∆B + ∆B (I2 (i)) + ∆B 1GÃ ∩GB̃ |Π
i i

" #
X h i
=E E ∆A (I2 (i)) ∆B (I2 (i)) 1GÃ ∩GB̃ |Π (1)
i i
i
" #
X
=E ∆ hA, Bi (I2 (i))1GÃ ∩GB̃
i i
i

L’égalité (1) provenant de l’indépendance des incréments de A et B sur des


intervalles disjoints. Seuls restent donc les termes en I2 (i). On obtient donc
l’égalité annoncée.
On obtient ensuite l’inégalité annoncée par télescopage. CQFD
h i
Le biais de Ṽh étant E Ṽh − hA, BiT on peut donc l’estimer dans quelques
cas particulier.
D’abord, l’inégalité montrée nous permet d’affirmer que, dans le cas où
hA, Bit est monotone (comme par exemple dans le cas d’une corrélation linéaire),
le biais est du même signe que la corrélation.
Nos simulations donne une indication sur le biais dans le cas particulier de
deux mouvements browniens avec des temps de mesures qui suivent des lois de
Poisson. Voici la courbe de l’effet Epps. Il s’agit de la décroissance vers 0 de
l’estimateur quand le pas de temps h temps vers 0, qui est dû, comme nous
l’avons vu, au fait que l’on coupe des “liens de causalité” jusqu’à finalement ne
plus en avoir. [2] et [6] démontrent tous les deux que, dans le cas de temps de
mesures de Poisson, la corrélation tend vers 0 linéairement en h, résultat que
l’on retrouve numériquement sur le graphe de l’effet Epps.

2.2 Estimateur consistant


Nous avons vu que la méthode qui consiste à synchroniser les données avant
d’appliquer l’estimateur empirique entraı̂ne un biais. En effet, nous avons déjà
argumenté du fait que le caractère arbitraire du découpage régulier en tranches
de largeur h engendre la perte de certaines mesures qui auraient pu être utiles
pour la mesure de la corrélation. Ce phénomène de perte de donnée s’intensifie
lorsque h diminue, puisqu’on sépare davantage de moments corrélés, rendant
l’estimateur particulièrement mauvais en haute fréquence.

7
Fig. 4 – L’effet Epps, graphe de la corrélation en fonction de h.

Dans cette partie, nous allons donc présenter un estimateur qui s’affranchit
de la synchronisation et du pas de temps h associé.
 APourAcela,
 découpons
 B l’intervalle
 ]0, T ] des deux façons suivantes : Ii :=
Ti−1 , Ti et Ji := Ti−1 , TiB . Il s’agit de deux partitions de ]0, T ].
L’estimateur considéré est le suivant :
X
U := ∆A(Ii )∆B(Jj )1Ii ∩Jj
i,j

Posons certaines hypothèses, notations et formules que nous allons utiliser à


plusieurs reprises :
– Hypothèse : A et B sont des processus
d’Itô corrélés ; dAt = µAt dt +
σtA dWtA et dBt = µB t dt + σt
B
dW B
t avec d W A
, W B
t
= ρ t dt
– Notation :PKij := 1Ii ∩Jj
– Lemme : i,j hA, Bi (Ii ∩ Jj ) Kij = hA, BiT car les Ii et Jj forment des
partitions de ]0, T ]
L’efficacité de cet estimateur est garantie par la proposition suivante, tirée
de [2] :

Proposition 2.2.1
E[U ] = hA, BiT
L’estimateur U est donc sans biais. √
De plus, il converge dans L2 en O( h) quand h = maxi (|Ii |) + maxi (|Ji |)
tend vers 0 (c.à.d si on mesure de plus en plus finement).

Démonstration Nous ne montrerons que l’absence de biais, ainsi que l’idée


derrière la convergence L2 .

8
   
X X
E[U ] = E  E [∆A(Ii )∆B(Jj )|Π] Kij  = E  hA, Bi (Ii ∩ Jj ) Kij  = hA, Bi T
i,j i,j

Ce qui est le résultat attendu.


Pour ce qui est de la convergence en L2 : on écrit
 
X
E[U 2 ] = E  E ∆A(Ii )∆B(Jj )∆A(Ii0 )∆B(Jj0 )|Π Kij Ki0 j 0 
 

i,j,i0 ,j 0

On décompose ensuite cette quadruple somme en quatre sous-sommes, selon


les cas d’égalité de certains indices. La sous-somme où les indices sont supposés
2
ne pas être égaux se factorise pour obtenir hA, BiT . On montre, en utilisant la
propriété de partition de Ii et Jj ainsi que leur décroissance vers 0 que les autres
termes sont d’ordre h (cf. [2]).
2
On a donc E[U 2 ] = hA, Bi + O(h). CQFD
Voici des histogrammes de la répartition de l’erreur relative de l’estimateur
consistant implémenté sous scilab (chaque histogramme correspond à 1000 es-
timations).

Fig. 5 – 3000 mesures

La moyenne de chaque histogramme est de l’ordre de grandeur de 0.01, ce


qui tend à confirmer l’absence de biais de l’estimateur.

9
Fig. 6 – 6000 mesures

Fig. 7 – 10 000 mesures

10
nb de mesures variance
3000 0.3
6000 0.15
10000 0.12

Tab. 1 – Variance de l’estimateur consistant en fonction du nombre de mesures.

3 Second problème : Bruit additif


On suppose dans cette section que les mesures des deux actifs A et B
sont bruitées par des bruits gaussiens A et B indépendants entre eux et
indépendants des actifs et des temps de mesures. Pour que le modèle soit ri-
goureux, nous supposons que le bruit tend vers 0 avec h. Nous différons sur ce
point de l’hypothèse de bruit constant des articles [2], [4], [6] et [7], même si
1
nous reprenons certaines des méthodes
h .iOn notera  l’ordre
h deiconvergence L2
 2  2 
du bruit. On aura en particulier E A = O 2 et E B = O 2 , avec
 → 0.

3.1 Estimateur empirique


On va supposer que l’erreur dûe au bruit s’ajoute à celle dûe à la synchro-
nisation des données, et on va donc étudier l’erreur introduit par le bruit en
ignorant l’asynchronicité. En ajoutant les deux termes d’erreurs on aura donc
une borne supérieure de l’erreur commise.
On suppose que A et B sont des procéssus d’Itô, et on note  et B̂ les
procéssus bruités. On a donc  := A + A et B̂ := B + B .
L’estimateur empirique devient :

X
Vˆh := ∆Â(]i − 1, i])∆B̂(]i − 1, i])
i
X
∆A (]i − 1, i]) + ∆A (]i − 1, i]) ∆B (]i − 1, i]) + ∆B (]i − 1, i])
 
=
i
X X
= Vh + ∆A(]i − 1, i])∆B (]i − 1, i]) + ∆B(]i − 1, i])∆A (]i − 1, i])
i i
X
A B
+ ∆ (]i − 1, i])∆ (]i − 1, i])
i

L’erreur provient de deux sources : l’estimation empirique de la corrélation


entre actif et bruit et estimation de la corrélation entre les deux bruits. Puis-
qu’on suppose que tous ces procéssus sont indépendants entre eux, cette erreur
tend vers 0. Ceci étant dit, cette décomposition nous permet déjà de faire deux
remarques importantes.
1 Pour des hypothèses plus poussées sur le bruit, se réferer à [5], qui propose un bruit dû à

un effet de quantification des valeurs des actifs, et qui corrige l’estimateur consistant dans ce
cadre de travail en tentant de reconstruire les courbes des actifs à partir des courbes quantifiées

11
– D’abord, dans le cas particulier de l’estimation de la volatilité, donc le cas
où A = B, les deux bruits sont corrélés (puisque égaux), et on remarque
qu’on obtient donc un terme d’erreur qui converge vers la volatilité du
bruit. Selon [6], ce terme serait dominant sur le terme qu’on cherche à
estimer, à savoir la volatilité de l’actif. En pratique donc, l’estimateur
empirique de volatilité ne ferait donc que mesurer la volatilité du bruit au
lieu de celle de l’actif. 2
– Ensuite, si on s’affranchit de l’hypothèse simplificatrice d’indépendance,
on voit d’où peut provenir l’erreur principal de l’estimateur. L’estimateur
estime dans ce cas des corrélations avec le bruit plutôt que entre les deux
actifs.
Procédons maintenant à des encadrements des variances de ces deux termes,
ce qui nous fournira leur convergence dans le cas indépendant :

X X X
∆A(]i − 1, i])∆B (]i − 1, i]) = ∆A (]i − 1, i]) B
i − ∆A (]i − 1, i]) B
i−1
i i i

d’où :
 !2  " #
X X h 2 i  h 2 i 
B 2
E ∆A(]i − 1, i])∆ (]i − 1, i])  = 2E (∆A (]i − 1, i])) E B +O E B h
i i

Le premier terme venant des termes “au carré” et le second des termes
croisés.

X X X X
∆A (]i − 1, i])∆B (]i − 1, i]) = 2 A B
ti ti − A B
ti ti−1 − A B
ti−1 ti
i i i i

Une fois de plus, les termes croisés sont négligeables et le terme dominant
de cette expression est donc :

 !2 
 = 6T E 1 h
X h 2 i h 2 i 2 i h B  2 i
E ∆A (]i − 1, i])∆B (]i − 1, i]) A E B +o( E A E  )
i
h h

 
2
L’ordre de l’erreur est donc O  + √
h
. D’abord, on remarque la présence
classique d’un trade-off
 entre
 la variance dûe au bruit, en O (), et celle dûe à la
2
discrétisation, en O √ h . Ceci nous donne théoriquement le meilleur h à choisir

(à savoir en O 2 ). Néanmoins, comme nous avons montré que l’asynchronicité
résulte en un biais non-négligeable, cet estimateur reste inutilisable.
2 [6] propose un estimateur, dit “à deux temps”, pour corriger ce défaut.

12
3.2 Estimateur consistant
On étudie maintenant l’estimateur consistant de la partie 2.2 en supposant
cette fois-ci la présence de bruit.
On écrit que :

X
∆A (Ii ) + ∆A (Ii ) ∆B (Jj ) + ∆B (Jj ) Kij
 
Û =
i,j
X X X
=U+ ∆A (Ii ) ∆B (Jj ) Kij + ∆B (Jj ) ∆A (Ii ) Kij + ∆A (Ii ) ∆B (Jj ) Kij
i,j i,j i,j
| {z } | {z } | {z }
:=a :=b :=c

On remarque que l’on a le même type de décomposition qu’avec l’estimateur


précédent, donc les même difficultés dans le cas où les bruits sont corrélés soit
avec les actifs, soit entre eux. Néanmoins, avec l’hypothèse d’indépendance des
bruits, l’estimateur est sans biais, chose qui n’était pas vrai de l’estimateur
empirique, étant donné que celui-ci est biaisé même dans le cas asynchrone sans
bruit. Estimons à présent le terme d’erreur dû au bruit pour l’estimateur Û .
 2 
Calculons pour ceci σerr := E Û − U .

σerr = E a2 + b2 + c2 + 2ab + 2ac + 2bc


 

On peut voir a, b et c comme les estimateurs consistant qui mesurent les


corrélations entre A et B , B et A et A et B respectivement.
On montre par un rapide calcul que les termes croisés sont d’espérance nulle,
puisque il y a toujours un ∆A ou ∆B en produit qui est d’espérance nulle et
indépendant des autres termes.  2
 Il2 reste donc à calculer les trois termes non-croisés. Commençons par E a .
E b se calculera de la même façon.

 
 2 X
E ∆A (Ii ) ∆B (Jj ) ∆A (Ii0 ) ∆B (Jj 0 ) |Π Kij Ki0 j 0 
 
E a = E
i,j,i0 ,j 0
 
X
B B
 
= E E ∆A (Ii ) ∆ (Jj ) ∆A (Ii0 ) ∆ (Jj 0 ) |Π Kij Ki0 j 0 
i=i0 ,|j 0 −j|≤1
(2)
 
X h 2
i
E (∆A (Ii )) ∆B (Jj ) ∆B (Jj−1 ) Ki(j−1) + ∆B (Jj ) Kij + ∆B (Jj+1 ) Ki(j+1) |Π Kij 

= E
i,j
 
X
hAi (Ii ) Kij (Ki(j−1) + 1 + Ki(j+1) )O 2 

= E (3)
i,j

= O m2

(4)

13
On obtient (2) en utilisant le fait que ∆A (Ii ) et ∆A (Ii0 ) sont indépendants
pour i 6= i0 puisque c’est un processus d’Itô, la propriété que ∆B (Jj ) =
 Tj −  Tj−1 est indépendant de ∆ (Jj 0 ) pour |j − j 0 | > 1 et enfin
B B B B B

l’hypothèse que A et B sont indépendants. On obtient (3) par indépendance


de A et B . Pour la dernière égalité, on note m le nombre de mesure de B. m
est de l’ordre de grandeur de h1 dans l’estimateur empirique. L’égalité (4) est
obtenue en majorant Kij par 1.
Si on fait l’hypothèse supplémentaire qu’on mesure A et B “aussi souvent
l’un que l’autre
P ” (par exemple, si on alterne les mesures de A et B), on peut
supposer que ij hAi (Ii )Kij = O (1) ce qui donne un terme d’erreur de O ().
Nous définissons donc l’hypothèse Hequ par
X
∀j, Kij = O (1)
i
P P
Sous cette hypothèse, on a bien ij hAi (Ii )Kij = O (1) j hAi (Ii ) = O(1).
 2 
On aura de même, E b = O n2 avec n le nombre  de mesures de A. Sous
2 2 2
l’hypothèse Hequ , on a par contre
  E a +b =O  .
Calculons dorénavant E c2 .

 
 2 X
E ∆ (Ii ) ∆B (Jj ) ∆A (Ii0 ) ∆B (Jj 0 ) |Π Kij Ki0 j 0 
 A 
E c = E
i,j,i0 ,j 0
 
X
E ∆A (Ii ) ∆B (Jj ) ∆A (Ii0 ) ∆B (Jj 0 ) |Π Kij Ki0 j 0 
 
= E
|i−i0 |≤1,|j 0 −j|≤1

= O nm4


Une fois de plus, sous l’hypothèse Hequ , on obtient une contribution en


O n4 . On en déduit deux choses.
– D’abord, sans Hequ , on ne peut pas se prémunir de la situation où pour un
intervalle Ii fixé, il y a un nombre croissant (tendant
p vers l’infini) d’inter-
√ 
valles Jj l’intersectant. Le terme d’erreur est en O max(n, m) + nm2
dans ce cas, ce qui est nettement supérieur au terme d’erreur de l’estima-
1
teur empirique (vu que h ≈ max(n,m) ). De plus, si on se place dans le cas

qui optimise le trade-off de l’estimateur empirique (h = O 2 ), l’estima-
teur consistant ne converge pas dans L2 car σerr = O (1).
– Si on se place sous Hequ , on obtient un terme d’erreur équivalent à celui
de l’estimateur empirique, avec la même situation de trade-off entre erreur
dûe au bruit et erreur dûe à la discrétisation.
De plus, remarquons que l’hypothèse Hequ est très intuitive. En effet, il est
inutile de mesurerun actif plus fréquemment que l’autre, étant donné les rôles
symétriques qu’ils jouent. Il peut néanmoins y avoir des raisons pratiques pour
lesquels une des deux mesures serait plus accessible que l’autre, au quel cas nous
avons démontré l’inefficacité de l’estimateur consistant.

14
Voici des histogrammes d’erreurs relatives de l’estimateur avec et sans présence
de bruit. Les cinq histogrammes ont été construits à partir de la même trajec-
toire d’actifs.

Fig. 8 –  = 10

Fig. 9 –  = 1

15
Fig. 10 –  = 0.1

Fig. 11 –  = 0.01

16
Fig. 12 – Sans bruit.

17
 espérance variance
10 - 1.32 387
1 0.0392 0.196
0.1 0.02332 0.0992
0.01 0.02365 0.09794
0 0.02375 0.09785

Tab. 2 – Tableau récapitulatif des simulations avec bruit.

3.3 Conclusion
Nous récapitulons ici les deux estimateurs proposés ainsi que leurs propriétés
statistiques.

Définition 3.3.1 Estimateur classique


X  
V˜h = AT A − AT A BT B − BT B
n(i) n(i−1) m(i) m(i−1)
i

Définition 3.3.2 Estimateur consistant


X
U= ∆A(Ii )∆B(Jj )1Ii ∩Jj
i,j

- Estimateur classique Ṽ Estimateur consistant U



erreur sans bruit biaisé, non convergent non-biaisé, converge en O( h)
2 2
erreur supplémentaire O( + √ h ) O( √h + h )
2
dûe au bruit O( + √
h
) sous Hequ

Tab. 3 – Récapitulatif des estimateurs.

La deuxième ligne du tableau indique le comportement de l’estimateur en


l’absence de bruit. La troisième ligne du tableau indique le terme d’erreur
supplémentaire introduit par le bruit. Dans tous les cas, le choix optimal de
h en fonction de  est de h = 2 . Il nous reste donc à mesurer , d’une part pour
vérifier notre hypothèse que le bruit tend bien vers 0, d’autre part pour donner
l’ordre de grandeur de h qui permet d’équilibrer les deux sources de variance de
l’estimateur.

18
4 Application au market impact
L’objectif de cette partie est d’illustrer un exemple d’utilisation des estima-
teurs haute-fréquence. La problématique est la suivante : un trader doit acheter
un certains nombre d’actifs d’ici la fin de la journée. Ce nombre d’actifs est
supposé assez grand pour que l’effet de microstructure se fasse sentir, c.à.d. tel
que le trader ait à payer plusieurs fois le bid-ask spread s’il voulait acheter tous
ses actifs immédiatement. Il est aussi supposé assez petit devant le nombre total
d’actifs en circulation pour ne pas influer sur la variation du vrai prix. On parle
de market impact temporaire (par opposition au market impact permanent, où
l’action du trader envoie un signal sur le marché qui entraı̂ne une variation si-
gnificative du cours de l’actif). Nous avons choisit de transposer les modèles
discrets de [1] et [3] en modèle continu.3

4.1 Cas de la dimension 1


En dimension 1, on suppose qu’on souhaite acheter V actions d’un actif
A sur une certaine durée [0, T ]. Nous nous plaçons dans un contexte continu.
On modélise donc une stratégie d’achat par une fonction Vt continue (et même
supposée deux fois différentiable par la suite), qui est définie comme le nombre
d’actions que nous avons achetées sur l’intervalle [0, t]. On a donc en particulier
les contraintes V0 = 0 et VT = V . En pratique, la fonction qui nous intéresse est
Vt0 , qui représente le nombre d’actifs que nous devons acheter à l’instant t.
On suppose que le prix de l’actif vérifie
dA = µdt + σt dWt .
Le drift étant négligeable à petit échelle, on peut supposer que µ = 0.
Néanmoins, nous ne pouvons pas acheter n’importe quel nombre d’actions
au prix du marché. En effet, la liquidité (ou plutôt l’illiquidité) du marché fait
en sorte que plus on souhaite acheter d’actions, plus il faut s’éloigner du prix
du marché. On modélise ce phénomène en écrivant que
Ãt = At + ηt (Vt0 ),
où Ã est donc le vrai prix que nous devons payer pour acheter Vt0 dt actions au
moment infinitésimal [t, t + dt].
Notons d’abord qu’il s’agit bien d’un market impact temporaire. En effet, le
fait que Ãt ne dépend que de la dérivée de Vt , et non de Vt elle-même, montre
bien que le marché n’a pas de “mémoire” de nos précédents achats. Seul le
nombre d’achats immédiats est pris en compte dans le calcul du prix.
Notons W le coût de la stratégie Vt . On a :
Z T Z T
0
W = Ãt Vt dt = (At + ηt (Vt0 ))Vt0 dt
t=0 t=0
ZT Z T
= ηt (Vt0 ))Vt0 dt + At Vt0 dt
t=0 t=0
3 On peut montrer que les deux approches sont équivalentes.

19
On intègre ensuite le second terme par partie pour obtenir :

Z T Z T
W = −[At (VT − Vt )]T0 + (VT − Vt )dAt + Vt0 · ηt (Vt0 )dt
t=0 t=0
Z T Z T
= A0 V + (V − Vt )dAt + Vt0 · ηt (Vt0 )dt
t=0 t=0

Cette dernière expression s’interprète bien. La constante représente le prix


de l’achat de V actions s’il n’y avait pas de market-impact, grandeur auquel
on veut naturellement comparer W . Le second terme, le seul qui soit aléatoire,
capture l’incertitude sur le futur du prix. Il nous incite donc à acheter vite,
pour éviter que le prix s’éloigne trop de la valeur A0 . Le dernier terme traduit
le prix que nous payons en market impact. Il nous incite à vendre lentement,
pour éviter des coûts de transactions trop élevés.
Notons ∆W = W − A0 V le surcoût que nous avons à payer en implémentant
la stratégie Vt . L’objectif est de minimiser l’espérance de ∆W en contrôlant
le risque de fluctuation du prix. Nous faisons ceci en minimisant l’expression
suivante :
J = E(∆W ) + λVar(∆W )
Il s’agit d’un lagrangien lié à la contrainte de variance fixée. Il est équivalent
de dire qu’on minimise l’espérance à variance fixé avec λ qui représente notre
aversion au risque.
Supposons à présent que ηt est une fonction linéaire (ηt (Vt0 ) = η · Vt0 avec η
une constante réelle) et que σt est constant. On veut donc minimiser la fonctio-
nelle suivante (avec condition au bord V0 = 0 et VT = V ) :
Z T Z T Z T
2
J= η · (Vt0 ) dt + λ (V − Vt )2 σ 2 dt = f (Vt , Vt0 ) dt
t=0 t=0 t=0
On s’est donc ramené à un problème de calcul variationnel. Dans ce cas par-
ticulier, on peut appliquer l’identité de Beltrami, qui n’est rien d’autre qu’un cas
particulier de l’équation d’Euler-Lagrange. L’identité de Beltrami nous dit que
s’il existe un minimiseur V de J, il vérifie nécessairement l’équation différentielle
suivante :
∂f
f −V0 = Cte
∂V 0
Soit, dans notre cas :
2 2
η (Vt0 ) + λσ 2 (V − Vt ) − Vt0 · 2ηVt0 = Cte

Ce qui donne, en dérivant puis en simplifiant :

λσ 2
Vt00 = (Vt − V )
η

20
q
On a donc que Vt = V + V α sinh (ωt) + V β cosh (ωt) (avec ω = σ λη ) pour
certains coefficients α et β. Les conditions aux bords nous fournissent ensuite
α = cosh(ωT )
sinh(ωT ) et β = −1.
En fait, plus que la stratégie d’achat Vt , ce qui nous intéresse vraiment sont
les E(∆W ) et Var(∆W ) correspondants. Un rapide calcul intégral nous fournit
les égalités :
 2
α2 − 1 α

2 2 α +1 2α
E(∆W ) = ηV ω sinh(2ωT ) − cosh(2ωT ) + T
4ω 4ω 4 2ω
 2 2

2 2 α +1 2α 1−α α
Var(∆W ) = V σ sinh(2ωT ) − cosh(2ωT ) + T+
4ω 4ω 4 2ω

On peut donc, à variance fixé, connaı̂tre l’espérance du surcoût engendré.


La stratégie s’obtient ensuite en lisant la dérivée de la courbe ainsi obtenue au
point choisi. En effet, celle-ci sera fonction de notre multiplicateur de Lagrange
λ. À partir de λ, on trouve ensuite la formule explicite de Vt .

Fig. 13 – Graphe tiré de [1] de l’espérance en fonction de la variance.

Voici deux exemples de stratégie, où on a choisit de représenter V − Vt ,


c.à.d le nombre d’actifs qu’il nous reste à acheter, comparées à chaque fois à la
stratégie “naı̈ve” d’achat linéaire :

21
Fig. 14 – Graphe du nombre d’actifs qu’il nous reste à vendre avec λ faible.

Fig. 15 – Graphe du nombre d’actifs qu’il nous reste à vendre avec λ élevé.

22
4.2 Cas de la dimension 2
En dimension 2, on suppose qu’on possède deux actifs A et B. On utilisera
le vecteur Xt = (At , Bt ) de matrice de covariance Σ. On suppose que X vérifie :

dX = Σ · dWt

On suppose encore une fois les drifts négligeables. Chaque actif possède son
propre market-impact, qui ne dépend donc que de la liquidité de son marché, et
du nombre d’actifs que l’on souhaiterait acheter dans ce marché.

Ãt = At + η A Vt0A
B̃t = Bt + η B Vt0B

Soit donc, en terme de X, Vt = (VtA , VtB ) et η = (η A , η B ) :

X̃t = X + η × Vt0

où on note × la multiplication composante par composante. On a donc la fonc-


tion de surcoût suivante :
Z T Z T
∆W = (V − Vt ) · dXt + Vt0 · (η × Vt0 ) dt
t=0 t=0

On se place tout de suite dans le cas linéaire pour éviter de trop alourdir les cal-
culs (qui restent néanmoins faisables !). Ce que nous cherchons est une stratégie
Vt qui minimise

J = E(∆W ) + λVar(∆W )
Z T 
2 2 
= η A Vt0A + η B Vt0B dt
t=0
Z T  
2 2 2 2
V A − VtA σA + V B − VtB σB + 2 V A − VtA V B − VtB ρσ A σ B dt
 

t=0

Nous allons trouver l’équation différentielle vérifiée par Vt à la main. On


aurait également pu utiliser l’équation d’Euler-Lagrange multidimensionnel.

Posons pour cela Ṽt = Vt + δVt = VtA + h · ft , VtB + h · gt avec donc f et
g des éléments de H02 que peut appeler soit fonctions test, soit perturbations
de A et B. Etudions la différentielle de J au voisinage d’un point minimal Vt .
Pour cela, calculons puis annulons la dérivée partielle de J par rapport à la

23
“direction” δVt :
1   
∂δVt J(Vt ) = lim J Ṽt − J (Vt )
h→0 h
Z T
2 η A Vt0A ft0 + η B Vt0B gt0 dt

=
t=0
Z T  2 2 
V A − VtA ft σ A + V B − VtB gt σ B
 
+λ (−2) dt
t=0
Z T
V A − VtA gt ρσ A σ B + V B − VtB ft ρσ A σ B dt
  
+λ (−2)
t=0
=0

On effectue ensuite une intégration par partie pour obtenir, après regroupement
des termes en ft et en gt :
Z T  2 
−η A Vt00A − 2λ σ A V A − VtA − λρσ A σ B V B − VtB ft dt+

0=
t=0
Z T  2 
−η B Vt00B − 2λ σ B V B − VtB − λρσ A σ B V A − VtA gt dt

t=0

Ceci devant être vrai pour toutes les fonctions tests de H02 , on a donc que V
vérifie le système différentiel suivant :
2
η A Vt00A = −λ σ A V A − VtA − λρσ A σ B V B − VtB
 
2
η B Vt00B = −λ σ B V B − VtB − λρσ A σ B V A − VtA
 

Si on pose Yt = V − Vt , on a :

Yt00 = M · Y

avec la matrice M égale à :


 2 
(σA ) ρσ A σ B
ηA ηA 
λ 2
ρσ A σ B (σB )
ηB ηB

La matrice reste diagonalisable à valeurs propres positives. Après un change-


ment de base on a des solutions fonctions trigonométriques hyperboliques de t.
On remarque que ρ et η jouent des rôles non-négligeables dans la détermination
de la stratégie d’achat. Ceci traduit le fait que notre stratégie dépendra d’une
part de la corrélation entre A et B, et d’autre part de la différence de liquidité
entre les deux marchés. La différence de volatilité entre les deux actifs est un
autre paramètre important de la stratégie. Optimiser les achats de A et de B
ne revient donc pas à optimiser l’achat de chaque actif séparément.

24
Fig. 16 – Graphe du nombre d’actifs A et B qu’il nous reste à vendre avec des
volatilités et des liquidités semblables.

Fig. 17 – Graphe du nombre d’actifs A et B qu’il nous reste à vendre avec


même volatilité et des liquidités différentes.

25
Fig. 18 – Graphe de stratégie de vente pour les mêmes actifs, avec et sans
corrélation. La corrélation augmentant la volatilité, la stratégie avec corrélation
à tendance à vouloir acheter plus vite.

Fig. 19 – Cas d’actifs avec corrélation négative. La courbe de l’actif le moins


volatil peut devenir concave.

26
4.3 Influence de ρ
Il nous reste à estimer l’erreur qu’on introduit dans notre stratégie en rem-
plaçant le ρ théorique dans la formule de la stratégie d’achat optimale par un des
deux estimateurs vus précédemment. Nous nous contentons d’étudier le surcoût
induit par le choix d’une mauvaise stratégie (lui-même causé par une mauvaise
mesure de ρ).

Fig. 20 – Graphe de J en fonction de ρ̂, avec ρ = 0.1.

On obtient donc la courbe ci-dessus en utilisant la stratégie calculée à partir


du ρ̂ mesuré mais en ayant une corrélation véritable des actifs de ρ. La valeur de
J minimale est 10192 en ρ̂ = ρ = 0.1. En ρ̂ = ρ = 0.15, on obtient J = 10193.
La stratégie est donc robuste aux erreurs, du moins avec les paramètres utilisés
(σ A = 2, σ B = 1, η A = 1, η B = 2). Sur un jeu plus large de paramètres,
on obtient que le surcoût maximal est toujours d’environ 10% et que l’erreur
au voisinage de ρ̂ = ρ est souvent faible (inférieur au pourcent). Dans le cas
d’une sous-estimation de ρ par l’estimateur empirique, par exemple ρ̂ = 0.01,
on obtient J = 10196.

27
Fig. 21 – Graphe précédent au voisinage du minimum.

28
Références
[1] Almgren(R.), Chriss(N.), Optimal Execution of Portfolio Transactions, 2000
[2] Hayashi(T.), Yoshida(N.), On covariance estimation of non-synchronously
observed diffusion processes, 2005
[3] Lehalle(C.A.), Rigorous Optimisation of Intraday Trading, 2008
[4] Lunde(A.), Voev(V.), Integrated Covariance Estimation using High-
Frequency Data in the Presence of Noise, 2007
[5] Robert(C.), Rosenbaum(M.),Ultra high frequency volatility and co-volatility
estimation in a microstructure model with uncertainty zones, 2008
[6] Zhang(L.), A Tale of Two Time Scales : Determining Integrated Volatility
With Noisy High-Frequency Data, 2005
[7] Zhang(L.), Estimating Covariation : Epps Effect, Microstructure Noise, 2006

29