Académique Documents
Professionnel Documents
Culture Documents
27 décembre 2023
Contenu
1. Introduction 2
2 préliminaires 2
3 Tarification des actifs avec des facteurs basés sur les caractéristiques 15
1
Machine Translated by Google
4 Résultats empiriques 22
1. Introduction
La principale contribution de Kozak et al. (2020) est l’introduction d’une méthodologie robuste pour
estimer un facteur d'actualisation stochastique (SDF) qui fonctionne bien dans un contexte de grande dimension
avec un grand nombre de caractéristiques boursières qui agissent comme des prédicteurs de rendement. Articles antérieurs dans
la littérature sur l’évaluation des actifs se concentre généralement sur des modèles factoriels linéaires avec un petit nombre de
facteurs basés sur les caractéristiques tels que le modèle à trois facteurs FamaFrench bien connu (Fama
et français 1993). Cet article montre que cette exigence de parcimonie dans l'espace caractéristique
a un coût élevé en termes de performances prédictives, et les modèles non dispersés avec un grand nombre de
les facteurs ont de bien meilleures performances hors échantillon lorsqu'ils sont utilisés avec des
Méthodes de régularisation (bayésiennes). Cependant, les auteurs montrent qu’une représentation éparse
du SDF à haute valeur explicative se retrouve dans le facteur de composante principale (PC)
espace.
Ce rapport est organisé comme suit : La section 2 donne une introduction autonome au
sujet de la tarification des actifs, où est notamment introduite la notion de SDF ainsi que ses
équivalence avec les représentations bêta et l'efficacité moyennevariance. De plus, nous introduisons
modèles à facteurs de réduction et rôle des informations conditionnantes ; la section 3 donne un aperçu
de la méthodologie bayésienne introduite dans Kozak et al. (2020), où nous incluons des preuves pour
la plupart des déclarations contenues dans le journal ; enfin la section 4 contient les résultats empiriques où nous
2 préliminaires
Étant donné les variables aléatoires X1,...,XK et Y , toutes avec des instants finis (c'estàdire appartenant
àL 2
(Ω,Σ,P)), nous considérons le problème de trouver la variable aléatoire la plus proche dans le linéaire
2
Machine Translated by Google
K
étendue de X1,...,XK , soit S = {β X |β R } où X = [X1,...,XK ] . Ce n'est autre que le
projection orthogonale de Y dans ce sousespace, comme dans n'importe quel espace de Hilbert. On peut le caractériser
comme suit:
En utilisant cela, le produit interne est l'attente, et en l'écrivant sous forme vectorielle, nous obtenons cela :
En supposant donc que E[X X ] est inversible (pas de variables redondantes, c'estàdire que les variables sont linéairement
est valable si l’on veut projeter N variables aléatoires Y = [Y1,...,YN ] , et c’est la raison pour laquelle
Notez que nous pouvons reformuler cela comme Y = β X + ε, où ε est tel que E[εX ] = 0. De plus,
notons que cela ne signifie pas nécessairement que E[ε] = 0. Cependant, cela est vrai si nous ajoutons un
Proposition 2.1. Supposons que nous ajoutions une constante et projetions Y sur l'espace généré par
K
,X1,...,XK . Étant donné β = [β0,β1,...,βK ] +1 R les coefficients de régression, notent β0 le
β1 = V[X] −1Cov[X,Y ].
0 = E[(Y −β0 −β 1
X)X T ] = E[(Y −E[Y ]+b 1 E[X]−b 1
X)X T ]
Ainsi,
T
0 = E[(Y −E[Y ])X ]−b 1
E[(X −E[X])X ] = Cov[Y ,X]−β 1
V[X]
Étant donné que ,X1,...,XK sont linéairement indépendants, alors X1 −E[X1],...,XK −E[XK ] sont linéairement
3
Machine Translated by Google
Proposition 2.2. Étant donné les variables X1,...,XK , considérons une régression de Y sur X sans con
constant Y = β X +ε (c'estàdire E[εX ] = 0). Supposons que ,X1,...,XK soient linéairement indépendants. Puis le
1. E[ε] = 0.
2. 1. On effectue une régression de Y sur X plus une constante Y = β0+β X +ν, avec E[νX ]=0
1
et E[ν] = 0. Si β0 = 0, alors β0 + β 1X=b 1 X est dans l'espace linéaire généré par X1,...,XK
et est orthogonal à tous les Xj . Puisque ,X1,...,XK sont linéairement indépendants alors β1 est uniquement
Nous suivons ici Cochrane (2009) pour donner une brève introduction sur les principaux thèmes de Asset
Prix. Nous considérons un gain comme une variable aléatoire X : Ω → R où X(ω) représente le gain.
hors d'un actif (ou d'un portefeuille d'actifs) lorsque l'état de nature est ω pour (Ω,Σ,P), une probabilité
espace. L’ espace des gains, noté X, est l’ensemble de tous les gains disponibles sur le marché que nous
supposer est un espace vectoriel. Autrement dit, si X,Y X alors aX + bY X. De plus, nous supposons que
l'espace échantillon Ω est fini, c'estàdire P(ωi) > 0 pour ω1,...,ωN qui totalisent un. Cet espace vient
N
X,Y = E[X Y ] = X(ωi)Y (ωi)P(ωi).
je = 1
N , où N = #Ω),
Par conséquent, étant de dimension finie (il peut être identifié à un sousespace de R
c'est un espace de Hilbert. La théorie que nous développons ici s'applique à un marché à une période, mais elle s'applique à un
marché séquentiel à chaque période, conditionné par les informations des observations passées.
Nous remarquons que l’hypothèse selon laquelle Ω est fini peut être abandonnée : ceci est juste pour des raisons mathématiques.
simplicité classique, mais les résultats peuvent être généralisés à condition de travailler dans un cadre Hilbert approprié.
4
Machine Translated by Google
2
espace (par exemple L (Ω,Σ,P)). De plus, en pratique, on peut généralement travailler avec des dimensions finies.
espaces (l'étendue des N actifs de base, par exemple actions, obligations, etc.) dans un espace de Hilbert approprié.
Nous supposons que chaque gain X X est associé à un prix p(X) R, nous avons donc un
fonction p : X → R.
Définition 2.3. La loi du prix unique (LOOP) est valable si p(aX + bY ) = ap(X) + bp(Y ) pour tous
X,Y X, a,b R.
La BOUCLE indique simplement que le prix est une fonction linéaire, c'estàdire que le prix d'un portefeuille est
la somme des pondérations multipliée par les prix des actifs de base.
Définition 2.4. Un facteur d'actualisation stochastique (SDF) M : Ω → R est une variable aléatoire qui représente
envoie les prix de tous les gains, c'estàdire que M est tel que :
pour tout X X.
Théorème 2.5. La loi du prix unique est valable dans (X,p) si et seulement s'il existe M un SDF. Plus
*
De plus, si l'une de ces conditions est remplie, il existe un SDF unique dans l'espace de paiement X X.
Preuve. Si M est un SDF alors p est linéaire par la linéarité des attentes. Inversement, si p : X → R
*
est linéaire, il y a un gain unique X X qui représente cette fonctionnelle, c'est à dire telle que p(X) =
*
E[X X]. S'il y a X qui représente p et X est de prix nul (ie X K = Ker(p)), alors
*
E[X X] = p(X) = 0, donc X K . _ Choisissez n’importe quel vecteur X non nul dans la ligne K . Pour un vecteur
* *
X dans cette ligne (c'estàdire X = λX) pour être un SDF, il doit se tarifer correctement, c'estàdire que nous avons besoin
*
p(X ) = E[X X ]. Ensuite, nous devons résoudre
* 2 2 2
λp(X) = p(λX) = p(X ) = E[X X ] = E[(λX) ]=λ ANCIEN ],
2 * = p(X)
choisissons donc λ = p(X)/E[X ]. Alors X X se prix correctement. Il prix également chaque E[X2 ]
*
gain Y X correctement, puisque Y = aX + Z pour unique a R et Z K, donc
* * * * *
ANCIEN Oui ] = E[X (hache + Z)] = uneE[X ]+0 = ap(X )+ p(Z) = p(Oui ).
Deuxième preuve. Supposons d’abord que le marché soit complet, au sens où X = R Ω. Puis là
Oh
est un unique SDF M qui représente p : R → R depuis
5
Machine Translated by Google
Autrement dit, M (ωi)P(ωi) est le prix de l'actif qui paie exactement une unité dans l'état ωi et zéro
Oh
sinon (ceuxci sont appelés actifs ArrowDebreu). Si X R alors nous pouvons toujours prolonger le
Oh
une base orthogonale de X , et définir son extension p : R → R de quelque manière que ce soit sur l'orthogonal
Ω
complément. Alors p(X) = E[M X] pour une variable aléatoire unique M pour tout X R comme avant.
Troisième preuve. Prenons une base de N gains d'actifs (par exemple N actions) qui couvrent l'espace de gains.
Notons X = [X1,...,XN ] un vecteur aléatoire N × 1. L'espace de gain est alors donné par X =
N
{w X |w R }, c'estàdire que tous les portefeuilles sont dans l'étendue des actifs de base. Notons p R Et le
* X, donc X
* = dans X.
vecteur des prix des actifs de base, c'estàdire pi = p(Xi). Nous voulons un SDF X
Mais alors si X *
évalue correctement les actifs de base
*
p = E[X X] = E[X X ] = E[X X w] = E[X X ]Dans
Alors w = E[X X ] −1p. Notons que la matrice E[X X ] est inversible puisque c'est la matrice du
X * =w X = p E[X X ] −1X.
Dans les espaces de dimension infinie, la même chose découle du théorème de représentation de Riesz
Notez qu'en général, il peut y avoir un nombre infini de SDF, choisissezen n'importe quel au hasard.
et alors M = X * +e
variable dans le complément orthogonal de l'espace de gain, c'estàdire ε X
* +ε avec ε dans le
pour chaque gain X X. L’inverse est également vrai, si M est un SDF, alors M = X
En finance, il est plus courant de parler de rendement plutôt que de prix et de gains. À
passer des gains aux rendements, nous avons besoin du gain de l'actif (ou du portefeuille) X pour avoir un prix p
distinct de zéro. Dans ce cas, nous pouvons définir son retour comme R = X/p. Ceci définit un gain
dont le prix est un. De plus, on peut définir l’espace des rendements comme l’hyperplan des actifs
avec le prix un. L’équation fondamentale de tarification pour un rendement R est alors :
1 = E[MR].
6
Machine Translated by Google
Le seul problème avec les retours est qu’ils ne constituent pas un sousespace, mais qu’ils génèrent le gain
espace. Ainsi, nous pouvons toujours limiter correctement notre travail aux rendements des prix.
Un actif particulièrement important est celui dont le gain est égal à 1 dans tous les états de la nature.
((ω) = 1 pour tout ω Ω). C’est ce que nous appelons une obligation à escompte sans risque. Nous supposerons que
cet actif est négocié sur nos marchés d’intérêt. Définir le taux sans risque Rf comme le rendement de ce
Rf = 1/E[M].
Un autre type de récompense important est celui d’un rendement excédentaire, qui peut être considéré comme
acheter une unité (par exemple, un dollar) d'un actif (ou d'un portefeuille d'actifs) et vendre à découvert une unité en
un deuxième actif (c'estàdire acheter −1 unités de cet actif). Si on appelle a et b ces actifs/portefeuilles
avec retours R un
b et R respectivement, alors le gain de cette stratégie est alors :
R. = R
C'est un
−R b
Ceuxci sont également appelés portefeuilles à coût nul car ils se situent dans l’hyperplan du paiement à prix nul.
off :
De plus, les rendements excédentaires constituent le sousespace des portefeuilles à coût nul. D'une importance particulière
tance sont les rendements excédentaires par rapport au taux sans risque, c'est à dire lorsque l'on emprunte au taux sans risque
Remarque 2.6. Notez que d’après les arguments donnés sur le théorème 2.5, il s’ensuit que l’excès
les rendements caractérisent le SDF dans l'espace de gain jusqu'à un scalaire près.
Montrons une formule alternative pour un SDF en termes de rendements excédentaires qui est
Proposition 2.7. (Formule HansenJagannathan) Étant donné une base R ,...,R de l'excédent re N
C'est C'est
tourne l'espace et suppose que l'actif sans risque (avec gain) est négocié sur le marché. Alors,
1 1
X
*
= −
E[R ] Σ −1 (R. −E[R ]), (2)
C'est C'est C'est
Rf Rf
7
Machine Translated by Google
est une base de l'espace des gains puisqu'il ne s'agit pas d'un rendement excédentaire à moins que le prix de tous les gains
est zéro. Notez que cela est orthogonal aux autres éléments de cette base. Prenons le vecteur X =
X * = p E[ XX ] −1X.
1 E[ R ] C'est
E[R ] C'est dix
p(X) = ,− ,...,− N
, E[ XX ]=
Rf Rf Rf 0S
.
1 1
X * = p E[ XX ] −1X = −
E[R ] C'est
Σ −1 (R. C'est
−E[R ]). C'est
Rf Rf
évalue correctement tous les rendements excédentaires. Cependant, il ne valorise pas correctement l’actif sans risque,
puisque E[M] = 1 = 1/R f = p(). Mais alors M/R f évalue toujours correctement tous les rendements excédentaires et le
1 1
X * = M/R f = −
E[R ] C'est
Σ −1 (R. C'est
−E[R ]), C'est
Rf Rf
est un SDF.
8
Machine Translated by Google
clarifions maintenant ce lien. Considérons un agent qui peut investir un dollar dans un investissement sans risque.
actif et les actifs risqués R1,...,RN (supposons comme précédemment que leurs rendements excédentaires constituent une base de
N
l'espace de retour excédentaire). Supposons qu'il investisse w R dans les actifs risqués et il emprunte au
taux sans risque pour chacun de ces investissements, alors le rendement de ce portefeuille est donné par
Rf +w (R −R f ) = R f +w Re ,
où R = [R1,...,RN ] . Supposons maintenant qu'il ait pour objectif l'optimisation moyennevariance sur
ce rendement, c'estàdire qu'il veut maximiser le rendement attendu du portefeuille sous réserve d'une limite
sur l'écart. Ceci peut être formulé avec un lagrangien comme le problème suivant :
c
w maxR f +µ w− dans Σw,
2
], Σ = V[R
C'est C'est
* = 1 −1 ]
V[R E[R ]. (3)
C'est C'est
Dans
1 Σ −1µ =
cc
mv * 1
R. = Rf + (w = Rf _ + E[ Rc ] V[R e ] −1R e (4)
C'est
) R et
En modifiant l’aversion au risque γ, nous obtenons la frontière efficace moyennevariance, qui est la frontière
cône de niveau dans l’espace « moyenne – écart type » (c’estàdire l’espace de (µ,σ) pour tous les rendements dans
le marché).
Nous avons constaté que les coefficients de b dans la formule de HansenJagannathan (équation
*
2) sont les poids w d'un portefeuille efficace moyennevariance (équation 3) pour certains paramètres
Théorème 2.8. Supposons qu’un actif sans risque soit négocié. Étant donné M le SDF sur l'espace de paiement, alors
mv
M = a + bRmv où R est un portefeuille efficace moyennevariance pour certains scalaires a,b R.
9
Machine Translated by Google
mv mv
Inversement si R alors il existe des scalaires c,d R tels que R = c + d M est le SDF sur le
espace de paiement.
Preuve. Avec ce que nous avons déjà fait, il n'y a pas grand chose à faire. Observez simplement cela de
mv
−R f ) = E[R ] V[R e ] −1R e = (1+E[R V [R et −1 E[R
C'est C'est C'est
c(R ] ])−RfM .
mv
A partir de là, nous pouvons résoudre R en termes de M et viceversa.
Étant donné M un SDF, nous obtenons une représentation bêta à facteur unique comme suit. Étant donné à Ri un retour de
un atout, alors
où γ = 1/E[M] (qui est R f à condition qu'un actif sans risque soit négocié). Le coefficient βi est
la pente de la régression de Ri sur M et une ordonnée à l'origine (c'estàdire la projection linéaire sur le
espace généré par M plus une constante, également connue sous le nom de meilleur prédicteur linéaire). Notez que γ
et λ sont indépendants des actifs. Cela signifie que le rendement attendu de chaque actif peut être
s’explique parfaitement par la façon dont il covarie avec le SDF. Les rendements attendus devraient tous être en jeu
qui commence à γ (le rendement sans risque) et à la pente λ, et βi détermine où sur cette ligne le
le retour Ri devrait être. Par le théorème 2.8, nous savons que le SDF et toute moyennevariance efficace
mv
les portefeuilles sont parfaitement corrélés, nous pouvons donc effectuer des régressions sur n'importe quel R au lieu de
E[Ri] = γ+βi,mvλmv ,
mv
où βi,mv est le coefficient de régression de Ri sur R . Depuis R mv c'est aussi un retour, on peut
mv
le régresser sur luimême et son bêta doit être un, on obtient donc que λmv = E[R ]−R f . Ainsi
on obtient la formule
F mv
E[Ri]−R = βi,mv (E[R ]−R f ).
dix
Machine Translated by Google
Habituellement, dans l'évaluation des actifs, les modèles sont formulés comme une représentation bêta avec plusieurs
où βi sont les coefficients de régression de Ri sur le sousespace linéaire généré par le fac
tors F1,...,FK plus une constante. Par exemple, le CAPM est un modèle à un facteur :
où R m
est le rendement du portefeuille « marché ». Un autre exemple est le trio FamaFrançais.
PME
E[Ri] = R f +βi,m(E[R m]−R f )+βi,smbE[F +βi,hmlE[F H ML], ]
portefeuille composé de petites entreprises moins de grandes entreprises ; c'est un rendement excédentaire par construction
HML
tion), et F est le facteur « HighMinusLow » (une sorte de portefeuille d'entreprises selon
Nous montrons maintenant que les modèles de ce type sont équivalents aux modèles à restriction sur le
K
alors il existe λ R tel que
E[R je
C'est
]=b je
je, (7)
où βi sont les coefficients de régression des rendements excédentaires sur F (sans constante) pour
satisfait l’équation 6.
11
Machine Translated by Google
= [R 1 ,...,R N ]
C'est C'est
. De E[MRe ] = 0, la bilinéarité du
Ainsi,
−1
E[R ] = Cov[R ,F]b = Cov[R ,F]V[F]
C'est C'est C'est
(V[F]b) = β λ
K ×N ]
où β = V[F] −1Cov[F,R e R sont les bêtas de régression des rendements excédentaires des as
K
se fixe sur les facteurs et λ = V[F]b R . Le contenu de la théorie est que l’interception est
zéro pour tous les actifs, d’où la formule du β . A l’inverse, étant donné la régression due
K
tas β = V[F] −1Cov[F,R e ] et λ R , définir b = V[F] −1λ, et en revenant sur le
K
alors il existe γ R et λ R tel que
E[Ri] = γ+β je
je, (9)
où βi sont les coefficients de régression multiple de Ri sur F avec une constante. Inversement,
étant donné γ et λ dans un modèle factoriel tel que 9, on peut trouver a,b tel que 8 est vrai.
1 = E[MR] = Cov[R,M]+E[M]E[R].
1 −1 V[F]b 1 −1 E[F F ]b
E[R] = +Cov[R,F]V[F] = + E[RF ]E[ FF ] .
E[M] E[M] E[M] E[M]
K ×N
où γ = 1/E[M] = 1/a, β = E[F F ] −1E[F R ] R sont les bêtas d'une régression du
b
renvoie R par rapport aux facteurs F avec une constante, et λ = V[F] un . Inversement, étant donné γ,λ on peut
1
définir a = 1/γ et b = V[F] −1λ, et vérifier que M = a −b F est tel que E[MR] = 1.
c
12
Machine Translated by Google
Remarque 2.11. Lorsque les facteurs en 7 ou 9 sont des rendements excédentaires des actifs, ils peuvent alors être réévalués.
On pourrait se demander pourquoi la théorie doit s’appuyer sur un certain nombre de facteurs. Dans
principe, nous pouvons utiliser tous les rendements comme facteurs et nous savons qu'il existe un SDF donné par le for
mula 2, ou de manière équivalente, nous avons la formule 4 pour les portefeuilles efficaces moyennevariance. Le
Le problème avec ces formules est qu'elles dépendent de moments de population connus
être très difficile à estimer : les moyennes et les variances des actifs changent dans le temps et nous pouvons
ne supposez pas simplement qu’ils sont indépendants et distribués de manière identique. De plus, si nous avons un
C'est
grand nombre d'actifs alors la matrice de covariance V[R ] sera généralement en mauvais état puisque
nous aurons des actifs hautement corrélés à un portefeuille d’actifs qui se « réplique » étroitement
il. En d’autres termes, les composantes principales de cette matrice ont généralement de nombreuses valeurs propres
qui sont proches de zéro. Alors son inverse aura de très grandes valeurs propres et de petites erreurs dans
l’estimation de Vˆ [R
C'est
Si au contraire nous nous limitons à travailler avec un petit nombre de facteurs qui ne sont pas
fortement corrélé, alors nous n'avons pas ces problèmes et nous pouvons peutêtre mieux estimer
b et la régression β.
Discutons maintenant brièvement du rôle de l’information conditionnée. Supposons que nous ayons maintenant un fil
ket les participants lorsqu'ils négocient au temps t pour t = 0,1,... (c'estàdire que nous supposons toujours un temps discret).
A chaque instant il y a des gains Xt X t mIt dans un espace de gain (c'estàdire adapté et également as
somme à instants seconds finis) avec des prix pt−1(Xt). De plus, les prix sont connus à l'avance
de temps comme leur nom l’indique, pt−1(Xt) mIt−1. Un SDF (Mt)t doit alors d’abord satisfaire à cela
pour tous les gains et les temps t. On peut reformuler cette condition en termes de rendements ou de rendements excédentaires,
par exemple, en supposant que l'actif sans risque est négociable, l'équation 11 équivaut à :
(12)
C'est
0 = E[MtR t |It−1],
13
Machine Translated by Google
C'est
Par la loi du conditionnement itéré, il s'ensuit qu'il doit également satisfaire l'inconditionnel
C'est C'est
mais cela ne suffit pas à garantir 12. Par définition de l'espérance conditionnelle, l'équation 12
est valable si et seulement si pour toutes les variables aléatoires Zt−1 qui sont It−1mesurables :
C'est C'est
Cela signifie que pour obtenir l’équation 12, nous devrions, au lieu de nous contenter de regarder les principes de base
actifs négociés sur le marché, recherchez également des portefeuilles dynamiques ou gérés, puis l'actif
C'est
=
l’équation des prix est encore une fois en termes de moments inconditionnels. Disons qu'il y a R t
[R1,t ,...RN,t] l’excès revient à chaque instant t, et (Zt)t est un processus adapté (Zt mIt) avec
N
valeurs dans R R. t ce qui est un excès
C'est
C'est
Si l'équation 13 est valable pour tous les portefeuilles gérés, alors l'équation conditionnelle d'évaluation des actifs
12 prises. De toute évidence, conditionner toutes les informations de marché (c'estàdire tous les portefeuilles gérés) est trop
beaucoup à demander, car cela donne un nombre infini d'équations de moment. Notre espoir est qu'en con
En combinant avec un bon ensemble de portefeuilles gérés, nous pouvons obtenir un portefeuille flexible et performant.
modèle.
Nous pouvons maintenant énoncer plus précisément ce qu'est un modèle factoriel inconditionnel comme dans l'équation
6. Supposons que nous ayons K facteurs (Ft)t qui sont des rendements excédentaires des portefeuilles gérés, c'estàdire Ft =
N×K
R. t pour un processus adapté (Zt)t à valeurs dans R pour tout t.
C'est
AVEC
t−1
Définition 2.12. Un modèle d’évaluation des actifs inconditionnel (ou à pondération fixe) pour les rendements excédentaires est
donné par
C'est
14
Machine Translated by Google
Il est important de noter que le vecteur des poids b ne dépend pas du temps, mais les facteurs sont différents.
portefeuilles namiques, donc Mt dépend du temps et les poids de chaque actif de base changent dans le temps
comme bt = Zt−1b. Comme la deuxième condition est insoluble en pratique, nous la remplaçons généralement par
un ensemble plus simple de conditions de moment. Par exemple 0 = E[MtFt], c'est à dire qu'on utilise les facteurs euxmêmes
euxmêmes comme actifs de test, ou éventuellement comme un ensemble plus large de portefeuilles gérés.
3 Tarification des actifs avec des facteurs basés sur les caractéristiques
Le cadre de Kozak et al. (2020) commence par un vecteur N ×1 Rt de rendements excédentaires pour N actions
au temps t. Le modèle est donné par H facteurs basés sur les caractéristiques Ft , définis par un N × H
matrice Zt−1 des caractéristiques des actifs, puis les facteurs sont donnés par
Ft = Z t−1Rt .
On remarque que les caractéristiques Zt−1 sont observables au temps t − 1 comme leur nom l'indique,
j les facteurs sont donc des portefeuilles négociables (ou investissables). Le jème facteur F est donné part le
produit scalaire de la jème colonne de Zt−1 et Rt , et ainsi nous pouvons interpréter les entrées de
La matrice Zt est quant à elle définie comme suit. Nous avons H caractéristiques de stock observables,
j qui donnent un nombre réel c pour chaque stock i = 1,...,N. Nous les classons de manière transversale, c'est àdire
c'est qu'on trie les stocks selon chaque caractéristique de 1 à N. Ensuite on normalise tous
Enfin, nous les centrons et divisons par la somme des écarts absolus par rapport à la moyenne :
jj −r c¯ rc
i,t
t
Z j =
je,t N
jj |rc −r c¯
| il
t
je = 1
j = 1 j
où r c¯ Nrc je = 1
t N il . Les portefeuilles résultants basés sur ces caractéristiques transformées
N j
ils ont un effet de levier fixe car l'exposition absolue est une, c'estàdire |Z je,t | = 1. L'approche
je = 1
15
Machine Translated by Google
diffère de la pratique standard consistant à trier les actions en déciles puis à créer un portefeuille
Premièrement, Kozak et al. (2020) considèrent H = 50 caractéristiques « anormales » connues pour avoir des
pouvoir prédictif des rendements (au moins dans l’échantillon). Le deuxième ensemble de caractéristiques qu’ils contiennent
sont donnés par 68 ratios financiers issus du WRDS Industry Financial Ratios, complétés
par 12 rendements mensuels passés, totalisant H = 80 portefeuilles gérés. Ils considèrent également dans
chaque cas ajoutant les interactions entre chaque paire de caractéristiques (de base) qui par exemple
Notez que si nous formulons notre modèle factoriel pour le SDF comme
H
comme dans l’équation 6, nous constatons que nos coefficients b R sont constants dans le temps, mais les coefficients
de chaque actif dépendra du temps et sera donné par bt−1 = Zt−1b. Pour voir cela, observez simplement
que
Mt = 1−b (Ft −E[Ft]) = 1−b (Z t−1Rt − Z t−1 E[Rt]) = 1−b t−1 (Rt −E[Rt]).
Ceci est important car grâce à ces « portefeuilles gérés » (puisque leur composition
change à chaque période, par exemple mensuellement, annuellement), nous pouvons ajouter une dépendance temporelle en réponse
au conditionnement des informations. L'ajout de portefeuilles gérés peut en théorie intégrer tous les
des informations supplémentaires sur le conditionnement, et nous pouvons nous concentrer sur l'estimation des moments inconditionnels.
Dans l’équation 14, nous utilisons tous les rendements excédentaires comme actifs tests, mais Kozak et al. (2020)
considérer uniquement les facteurs euxmêmes comme tests actifs pour arriver à l'équation
E[MtFt] = 0 (15)
−1
b = V[Pi] E[Ft]. (16)
16
Machine Translated by Google
Selon Kozak et coll. (2020), la principale faiblesse de l'estimation de b avec la formule 16 utilisant
b = Σ¯ −1µ¯,
1 1
où µ¯ = T Tt =1Ft et Σ¯ = T Tt =1(Ft −µ¯)(Ft −µ¯) , vient de l'incertitude sur le même
des moyennes simples, qui sont élevées même avec de longs échantillons de rendements. Si le nombre de facteurs H est
grand, cet estimateur qui effectue essentiellement une régression de µ¯ sur les covariances de
les facteurs finiront par surajuster l'échantillon avec de mauvaises performances hors échantillon.
Pour éviter ce surapprentissage, les auteurs introduisent un a priori bayésien sur les rendements moyens de
facteurs qui réduiront leurs moyennes à zéro en ajoutant un terme de régularisation qui produit
un estimateur plus robuste. Supposons que la matrice de covariance des facteurs Σ soit connue. Le
2
M.
µ N (0, S h ), (17)
t
où τ = tr[Σ] et κ est un paramètre qui contrôle « l’échelle » de µ. Pour avoir une intuition
sur le fonctionnement de cette famille d'a priori, nous diagonalisons la matrice de covariance Σ = QΛQ ,Λ=
facteurs composants Pt = Q Ft , alors l'a priori sur ceuxci est donné par
2
M.
µP N (0, L h ).
t
Notez que la matrice de covariance des facteurs composants principaux est Λ, d'où la méthode de Sharpe
2
1 M.
Λ − 2µP N (0, Λ η−1 ). (18)
t
Cela nous permet d'écarter l'idée de fixer η = 0, car alors les ratios de Sharpe des ports PC
les folios seraient inversement proportionnels à leur volatilité. Cela impliquerait l'existence de
des opportunités d'arbitrage proches, comme le ratio de Sharpe des PC d'ordre supérieur qui sont généralement
très petit serait alors extrêmement élevé. De plus, η = 1 ne semble pas être une hypothèse plausible.
tion comme alors les ratios de Sharpe des PC à petites valeurs propres seraient de la même ampleur que le
17
Machine Translated by Google
Proposition 3.1. Sous le prior de l’équation 17, le carré maximum attendu de Sharpe
Preuve. Comme nous l’avons observé dans le théorème 2.8, b = Σ −1µ sont les poids d’une variance moyenne efficace
portefeuille, nous pouvons ainsi calculer le ratio de Sharpe de b Ft . Il est facile de vérifier E[b Ft] = µ Σ −1µ et
V[b Ft] = µ Σ −1µ, donc le rapport de Sharpe est µ Σ−1µ. Ainsi, sous le prieur, l'ex
H 2
M.
−
12
où la dernière équation découle du fait que d’après l’équation 18, λ j µP,j sont indépendants
2
normales avec zéro moyen et variance M. η−1 .
λ
t j
Remarque 3.2. Notez que si η = 2 alors sous le précédent le maximum attendu de la racine carrée
H
2
M. η−2 .
Proposition 3.3. Supposons que µ ait un a priori donné par l’équation 17, alors E[b b] = t
λ
j
j=1
2 2
b b= b 2= Q b
2
= bP
2
,
2
2 ]. Puisque bP N (0, M.
Λ η−2 ), alors
puisque Q est orthogonal. Il suffit donc de calculer E[ bP t
2] =
les variables aléatoires (bP )j pour j = 1,...,H sont normales indépendantes. De plus, E[(bP ) j
2
M. 2 2
λj comme (bP ) j standardisé sont χ 1 , qui ont une attente.
t
Généralement, pour un grand nombre de facteurs, les plus petites composantes principales auront
η−2
valeurs propres très petites. Si η < 2 alors alors λ sera très grand pour le plus petit
j
valeurs propres résultant en une norme 2 attendue très grande de b. À l’équilibre, les pondérations du portefeuille
des portefeuilles optimaux devraient être limités. Ainsi, définir η ≥ 2 évite une valeur irréaliste
pondérations du portefeuille.
y = Xg +e
18
Machine Translated by Google
mais la définition de g étant donné que les données y sont normales avec une moyenne donnée par
−1
gp = (X Σ −1X +Σ g
) −1X Σ −1 y (19)
−1
et variance a posteriori Σp = (X Σ −1X +Σ −1 ) .
g
Preuve. Il est bien connu que la normale est autoconjuguée, c'est à dire que la distribution postérieure
est à nouveau normal, donc à la moyenne de la distribution se trouve également le mode. On prend donc moins le
le problème devient :
1 1
Argmin 2 (y − X g ) Σ −1 (y − X g )+ 2 g Σ g−1 g
g
−1
0 = (y − X g ) Σ −1 (−X)+ g Σ −1 =
g −yΣ −1X + g
(X Σ −1X +Σ
g
)
d'où la formule suit. Pour obtenir la variance postérieure, nous devons calculer la variance postérieure
distribution. Une fois que nous connaissons la moyenne, cela peut être calculé comme suit :
1
f (g | y) f (y | g )f (g ) = exp (y − X g ) Σ −1 (y − X g )+ 2 g Σ g−1 g
−1
exp g (X Σ −1X +Σ
g )g + g X Σ −1 y = exp g Σ −1 g +pg Σ −1 (ΣpX
p Σ −1 y)
−1
d'où g | y N (gp,Σp) où Σp = (X Σ −1X +Σ −1 ) et gp = ΣpX Σ −1 et.
g
Proposition 3.5. Supposons que µ ait un a priori donné par l’équation 17 pour η = 2, et supposons que Ft −µ
−1
bˆ = Σ+γI µ¯, (20)
t 1 −1 .
où γ = κ 2T . De plus, la variance a posteriori de b est V[b] = T (S+γI)
2
M.
Preuve. Si µ N (0, t
2S _
) alors la distribution a priori de b est donnée par
2
M. 2
b = Σ −1µ N (0, k Σ −1Σ 2Σ −1) = N (0, JE).
t t
1 ε = µ¯ −µ N(0, Σ),
T
19
Machine Translated by Google
1
puisque µ¯ = T Tt =1Fort . Ainsi, en utilisant la proposition 3.4, nous obtenons que,
t −1
bˆ = (ΣΣ −1Σ+ I) −1ΣΣ −1µ¯ = Σ+γI µ¯.
2
M.
−1
et que la variance est Σ+γI .
Nous montrons maintenant que l'estimateur bayésien peut être obtenu comme un estimateur pénalisé. Import
De la même manière, la pénalité peut être interprétée comme une pénalité sur le rapport de Sharpe maximum implicite du modèle.
γb Σb.
Proposition 3.6. Soit bˆ l'estimateur donné par la formule 20, alors c'est la solution du
+b
0 = 2Σ(−µ¯ (S+γI))
Étant donné que Σ est défini positif, nous obtenons que le deuxième terme doit être nul, alors nous obtenons le
Proposition 3.7. Soit bˆ l'estimateur donné par la formule 20, alors c'est la solution du
0 = −µ¯ +b (S+γI),
20
Machine Translated by Google
De plus, l’estimateur est invariant par changement de base, on peut notamment exprimer
Proposition 3.8. Soit bˆ l’estimateur donné par la formule 20, et considérons la base du principe
où bˆ P. =Q b.
Preuve. Rappelons que bˆ est la solution du problème d’optimisation défini dans la proposition 3.6.
−1
puisque (Σ+γI) = Q(Λ+γI) −1Q .
3.4 Rareté
Même s’il n’est pas possible d’obtenir un bon SDF qui soit pauvre en facteurs, il pourrait
être possible d'obtenir toujours un bon SDF qui est rare en facteurs PC. Comme le soutiennent les auteurs
économiquement, les PC à faible valeur propre devraient avoir de petits ratios de Sharpe, c'est pourquoi nous choisissons
l'estimateur 17 pour η = 2 qui réduit les coefficients PC à faible valeur propre à zéro plus rapidement.
1
Si nous voulons obtenir une solution b qui est clairsemée, alors nous pouvons ajouter un L pénalité au problème
lem dans la proposition 3.7. Ainsi l’estimateur parcimonieux est donné par :
Hj
où b 1= |bj |. Cet estimateur dépend de la base choisie, donc si nous d'abord
=1
1
changez la base en base PC puis ajoutez le L pénalité aux coefficients dans ce
21
Machine Translated by Google
Précédemment nous avons supposé que la matrice de covariance Σ est connue, alors qu’en pratique nous avons
pour le remplacer par son estimateur d'échantillon Σ¯ . Lorsque le nombre de facteurs (H) est petit par rapport
réglage lorsque H est du même ordre que T , la matrice de covariance de l'échantillon se comporte mal dans
pratique.
Une méthode bien connue introduite dans Ledoit et Wolf (2004) consiste à réduire la co
matrice de variance vers une matrice cible, généralement une identité mise à l'échelle. Alternativement, on peut
−1 , mais alors le
utiliser une approche bayésienne spécifiant une distribution Wishart a priori pour Σ
la moyenne postérieure de b n'a pas de solution analytique comme dans 20. L'approche utilisée par Kozak et al.
−1
(2020), dans lequel ils prennent la moyenne de la distribution a posteriori de Σ donné un Wishart avant
S −1 1 W (H, S −1
H 0 ), donne un retrait :
obtenu sous forme d’estimateur plugin où nous remplaçons Σ par Σˆ dans les équations 20 et 21.
4 Résultats empiriques
Comme premier test de la méthodologie introduite, Kozak et al. (2020) considèrent un modèle de faible dimension
cadre où nous avons 25 portefeuilles triés ME/BM. ME représente la taille d'une entreprise,
c'estàdire le nombre d'actions multiplié par le cours de l'action, tandis que BM est le ratio booktomarket, c'estàdire le
rapport entre la valeur comptable (BE) d'une entreprise et sa valeur marchande (BM = BE/ME). Fama et français
(1993) considèrent des types de portefeuilles bivariés de ces deux caractéristiques que nous utilisons comme base
de facteurs. Nous nous attendons à ce que les rendements excédentaires de ces facteurs lorsqu'ils sont orthogonalisés par rapport à
la composante marché devrait bien s'expliquer par deux facteurs similaires à ceux de SMB et HML
facteurs de Fama et de français. Si la méthodologie est bonne, nous devrions pouvoir récupérer un
un SDF clairsemé qui évalue de manière appropriée tous les rendements excédentaires.
22
Machine Translated by Google
(un) (b)
2
SR2 (κ) attendu sous le précédent. b) affiche la section transversale R de l'échantillon (orange) et
Considérons d’abord l’estimateur bayésien de b de la proposition 3.5. Nous avons une pa
ramètre, à savoir κ, que nous avons interprété comme la racine carrée attendue du maximum de Sharpe
rapport au carré dans la proposition 3.1. Nous choisissons κ de manière optimale avec un triple accord de validation croisée.
2.
se référant à la section transversale R hors échantillon Sur la figure 1 (b) nous observons que l’optimum est
obtenu à κ ≈ 0,231. Nous montrons également le rapport de Sharpe dans l'échantillon qui augmente en κ (comme
2
les performances des échantillons de ces modèles plus flexibles sont mauvaises car le R EST
est négatif pour les grands
κ. Alternativement, nous pouvons regarder le panneau (a) où nous traçons les degrés de liberté effectifs sous forme de
fonction de κ qui mesure la complexité du modèle définie comme la trace de la matrice chapeau :
H
−1 λj
df(γ) = tr(Σ(Σ+γI) )=
j=1 λj +c
Lorsqu’il n’y a pas de régularisation, il s’agit simplement de H, le nombre de régresseurs. À mesure que γ augmente, le
les degrés de liberté effectifs diminuent et finissent par atteindre zéro. On peut observer sur la figure 1
(a) que df(γ) = 2 correspond à peu près à κ ≈ 0,25, donc compte tenu de notre connaissance préalable du Fama
Compte tenu des facteurs français, nous devrions nous attendre à ce qu'un tel κ ait de bonnes performances OOS.
23
Machine Translated by Google
Tableau 1 : Gauche : Estimations des coefficients et statistiques t absolues à la valeur optimale du prior
Root Expected SR2 (κ, basé sur la validation croisée) pour les portefeuilles bruts FamaFrench 25.
À droite : estimations des coefficients et statistiques t absolues à l'optimum trouvé sur le papier
(κ ≈ 0,15). 10 portefeuilles avec les plus grandes statistiques t sont affichés. Les erreurs types sont calculées comme
24
Machine Translated by Google
Tableau 2 : Gauche : Estimations des coefficients et statistiques t absolues à la valeur optimale du prior
Racine SR2 attendue (κ, basée sur la validation croisée) pour les portefeuilles de PC bruts. À droite : Coeffi
estimations scientifiques et statistiques t absolues à l’optimum trouvé sur l’article (κ ≈ 0,15). dix
les portefeuilles avec les statistiques t les plus élevées sont affichés. Les erreurs types sont calculées comme dans la proposition
25
Machine Translated by Google
Le tableau 1 montre les estimations des coefficients pour le niveau optimal de régularisation (κ = 0,231)
ainsi que celui obtenu dans Kozak et al. (2020). Nous affichons les 10 portefeuilles avec le plus grand
coefficients absolus sur le SDF ainsi que leurs statistiques t. Le tableau montre que l'option
mal SDF attribue des pondérations positives aux petits portefeuilles et aux portefeuilles de valeur et aux shorts de croissance et aux grands portefeuilles.
portefeuilles, comme le font Fama et French. Le tableau 2 montre la même chose mais pour les principaux composants.
2
portefeuilles de composants. Puisque l’estimateur bayésien avec L la régularisation est invariante par rotation,
la solution que nous obtenons est le même SDF dans une base différente. On constate que PC1, PC5 et PC2
ont les coefficients les plus grands et les plus significatifs au niveau optimal, similaires aux résultats
des auteurs.
(un) (b)
2
Figure 2 : L chemins de coefficients et parcimonie (portefeuilles FamaFrench 25 ME/BM). Panneau (a)
trace les chemins des coefficients en fonction de la racine attendue SR2 (κ) antérieure pour les 25 Fama
Portefeuilles PC français. Les étiquettes sont classées en fonction des valeurs absolues des coefficients (dé
descendant) au bord droit du tracé, ce qui correspond à la solution OLS. Une ligne verticale
montre les coefficients réduits pour la valeur optimale κ trouvée par nous et les auteurs respectivement.
2
tivement. Dans le panneau (b), nous montrons la section transversale maximale OOS R atteint par un modèle avec n
2
facteurs (sur l' axe des x) pour toutes les valeurs possibles de L retrait, pour les modèles basés sur l'original
La figure 2 (a) présente les coefficients de pour le SDF des portefeuilles de PC en fonction de
κ. Comme κ → 0 les coefficients tendent également vers zéro, alors que pour κ → +∞ la solution est l'OLS
estimateur. Notez que la solution OLS sans régularisation a de très grands coefficients
26
Machine Translated by Google
pour de nombreux portefeuilles à petites valeurs propres tandis que pour les valeurs optimales, seuls les PC à valeurs propres élevées
2 ça peut être
ont des coefficients élevés. La figure 2 (b) représente la section transversale maximale R
EST
2
obtenu par un modèle clairsemé à n facteurs. La ligne bleue affiche le R pour une solution clairsemée
EST
tion dans les portefeuilles caractéristiques, alors que la ligne pointillée orange est dans les portefeuilles PC.
(par exemple moins de 5) alors que la performance dans l'espace des portefeuilles caractéristiques se dégrade
(un) (b)
2
folios (panneau b). Nous quantifions la force du L pénalité par racine antérieure attendue SR2 (κ)
1
et la force du L pénalité par leur coefficient γ1 dans l’équation 21. Plus chaud (jaune)
2
les couleurs représentent des valeurs plus élevées de OOS R . Les deux axes sont tracés sur une échelle logarithmique.
2
et γ2 fonctionne sur la figure 3 (a) avec une carte de contour. Les couleurs plus chaudes représentent un R plus élevé
EST
fonctionnent très mal (bord droit de l’intrigue). Le modèle fonctionne généralement bien pour γ1 petit à
modéré mais lorsque les performances sont importantes, elles sont diminuées. La figure 3 (b) montre qu’une plus grande rareté
peut être réalisé dans l’espace PC sans compromettre les performances du modèle. Le
La région supérieure gauche de régularisation élevée est essentiellement plate sur zéro et nous convergeons donc vers le
27
Machine Translated by Google
CAPM SDF. La forme verticale de la figure 3 (b) montre qu'il y a un petit coût à payer lorsque
(un) (b)
1
Figure 4 : L chemins de coefficients pour le modèle optimal (portefeuilles FamaFrench 25 ME/BM).
Chemins des coefficients en fonction du facteur de retrait s basés sur l'optimal (double pénalité)
modèle clairsemé qui utilise 25 pour les portefeuilles triés FamaFrench ME/BM (Panel a) et 25 PC
sur la base des portefeuilles Fama et français (Panel b). Les étiquettes sont ordonnées selon la verticale
classement des estimations au bord droit de la parcelle. Dans le panneau b, les chemins des coefficients sont tronqués
1
Enfin, la figure 4 montre comment les coefficients diminuent à mesure que nous augmentons le L pénalité, congé
2
ing le L pénalité fixée à sa valeur optimale. L' axe des X représente le rapport entre le
1norme des coefficients sur les coefficients optimaux. Comme observé sur la figure 4 (a), le
le SDF qui en résulte est long et valorise les actions, tout comme le SDF bayésien. Dans la figure 4 (b), nous ob
faire en sorte que les portefeuilles de PC à petite valeur propre soient réduits beaucoup plus rapidement que ceux à valeur propre élevée
et aboutit à un modèle avec essentiellement trois facteurs PC. En conclusion, la méthode tend à
récupérer un SDF qui est étroitement lié au SDF impliqué par Fama et French (1993). Comment
Cependant, le principal avantage de cette méthodologie réside dans le traitement d'un grand nombre de
28
Machine Translated by Google
Nous considérons maintenant 50 caractéristiques d'anomalies connues pour prédire les rendements de l'évaluation des actifs.
littérature et utiliser la méthodologie présentée pour construire un SDF. La liste complète des
des anomalies peuvent être trouvées dans l'annexe Internet de l'article Kozak et al. (2019). Nous avons trouvé
que le retrait optimal se situe à environ κ ≈ 0,22, comme le disent les auteurs, voir figure 6. Cependant,
2
nous ne comprenons pas pourquoi nous obtenons un R plus petitEST 2 que R EST pour des valeurs de κ inférieures à l’optimum.
Dans le tableau 3, nous observons les 10 plus grands coefficients du SDF ainsi que leurs statistiques t. Nous
ont constaté que les coefficients les plus élevés sont associés aux renversements relatifs de l'industrie (faible volatilité),
renversements de dynamique du secteur, renversements relatifs du secteur, saisonnalité, surprises en matière de bénéfices, etc.
On retrouve également dans le tableau 4 que PC5, PC1, PC4 et PC2 sont ceux avec les plus grands coefficients
Figure 5
2
Figure 6 : R transversale dans l’échantillon (orange) et hors échantillon (bleu) pour l'anomalie 50
modèle de caractéristiques.
29
Machine Translated by Google
Tableau 3 : Estimations des coefficients et statistiques t absolues à la valeur optimale de la racine antérieure
PC120,147843 0,754960
Tableau 4 : Estimations des coefficients et statistiques t absolues à la valeur optimale de la racine antérieure
SR2 attendu (κ = 0,219, basé sur une validation croisée triple) pour les portefeuilles de PC.
30
Machine Translated by Google
Les références
[Coc09] John Cochrane. Tarification des actifs : édition révisée. Presse universitaire de Princeton, 2009.
[FF93] Eugène F Fama et Kenneth R French. « Facteurs de risque courants dans les rendements des
actions et obligations". Dans : Journal of Financial Economics 33.1 (1993), pp. 3–56.
[KNS19] Serhiy Kozak, Stefan Nagel et Shrihari Santosh. « Annexe Internet au rétrécissement
uchicago.edu/dist/f/575/files/2020/07/SCSIA.pdf.
[KNS20] Serhiy Kozak, Stefan Nagel et Shrihari Santosh. « Réduire la section transversale ».
[LW04] Olivier Ledoit et Michael Wolf. « Un estimateur bien conditionné pour les grandes dimensions.
matrices de covariance nationales ». Dans : Journal d'analyse multivariée 88.2 (2004), pp. 365–
411.
31