Cours

Méthodes Quantitatives Avancées
pour la Finance
Cours
2022/2023
François Desmoulins-Lebeault
Alain Guéniche
Grenoble Ecole de Management 1A ET- Finance 1

Méthodes Quantitatives Avancées pour la Finance – Cours – 2022/2023
Cours
I. Variables aléatoires, Distributions, Moments et Risques... vers le Ratio de Sharpe et Au-delà 3
A. Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
B. Distributions de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
C. Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
D. Risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
E. Ratio de Sharpe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
F. Aller plus loin que le ratio de Sharpe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
II. Tests d’Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
A. Test de comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
B. Test de conformité d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
C. Test de comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
III. Régressions Linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
IV. Le Modèle d’Évaluation Des Actifs Financiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
V. Méthodes de Monte Carlo et Décisions d’Investissement Avancées . . . . . . . . . . . . . . . 36
A. Le concept de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
B. Exemple basique : déterminer la valeur de π . . . . . . . . . . . . . . . . . . . . . . . . . . 37
C. Méthodes de Monte Carlo et décisions d’investissement améliorées . . . . . . . . . . . . 38
VI. Interpolation Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
A. Interpolation linéaire : une relation affine . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
B. Produit en croix : une relation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Ouvrages de référence
• "Econometric Analysis", William H. Greene, Pearson
• "Basic Econometrics", Damodar Gujarati et Dawn Porter, McGraw-Hill
2
I. Variables aléatoires, Distributions, Moments et Risques... vers le Ratio de

Sharpe et Au-delà
A. Variables aléatoires
Mathématiquement, une variable aléatoire est une fonction mesurable X : Ω → E où Ω est l’espace
des résultats possibles du triplet probabiliste (Ω, A, P) et E un espace mesurable. De façon plus pratique,
il s’agit de l’application d’un espace vers un autre (exemple dans le poly de rappel).
Si Ω est dénombrable ou infini dénombrable, alors la variable aléatoire est dite "discrète". Et si Ω est
infini non dénombrable, alors la variable aléatoire est dite "continue".
Comme beaucoup de choses en finance sont "dans le futur" et par conséquent n’ont pas de valeur fixe
et connue, on considère bien souvent des variables aléatoires. Par exemple on peut avoir :
• Les rentabilités d’une action sur une période donnée. Les valeurs peuvent se situer ici vraiment
n’importe où entre −∞ et +∞. Il s’agit donc d’une variable aléatoire continue.
• Le volume de transaction d’une action donnée à un moment. Le nombre de titres échangés est un
entier naturel. Il s’agit donc d’une variable aléatoire discrète.
• Le cours ultérieur d’une action. Les valeurs peuvent être n’importe où entre 0 et +∞ et par
conséquent sont considérées comme variables aléatoires continues (plus exactement, elles devraient
être une variable discrète comme les valeurs ne sont que des points avec maximum quatre décimales
séparés par le "pas de cotation" ("tick" en anglais), mais la complexité ajoutée fait que cette
modélisation est très rare).
• L’état "défaillant/non défaillant" à un moment. Il s’agit d’une variable aléatoire discrète vu que
l’ensemble est réduit à un nombre fini de valeurs ("défaillant" et "non défaillant").
Si une variable aléatoire X : Ω → R définie sur un espace probabilisé (Ω, A, P ) est donnée, on peut se
demander "quelle est la probabilité que la valeur de X soit égale à a ?". Ce qui correspond à la probabilité
de l’évènement {ω : X (ω) = a}, souvent raccourci à P (X = a) ou p X (a).
B. Distributions de probabilité
La distribution de probabilité de X est obtenue en rassemblant les probabilités correspondant à
toutes les valeurs possibles qu’une variable aléatoire réelle X peut prendre sur une plage donnée. Cette
distribution de probabilité ne dépend plus de l’espace de probabilité utilisé pour définir X et ne décrit
que les probabilités des différentes valeurs prises par X . Une telle distribution de probabilité est toujours
décrite par sa fonction de répartition F X (x) = P (X ≤ x) et quelques fois également par sa fonction de
densité p X .
Ces distributions de probabilité sont un moyen pour nous de décrire ce que nous pensons pouvoir se
produire pour l’élément que nous avons identifié en tant que variable aléatoire. Nous associons donc une
"chance de réalisation" à chaque valeur possible de la quantité étudiée.
C. Moments
Nous pouvons définir le moment ordinaire d’ordre n d’une fonction continue réelle f (qui pourrait
être la fonction de densité d’une variable aléatoire) comme :
Z +∞
µn = x n f (x)dx
−∞
3
De la même manière, le moment central d’ordre n sera :

Z +∞
µnc = (x − µ1 )n f (x)dx
−∞
et le moment normalisé d’ordre n :

Z +∞ µ x − µ ¶n
1
µn s = f (x)dx
−∞ µ2c
De toute évidence, si nous disposons de la fonction de répartition F nous pouvons également écrire
µn s comme :
x − µ1 n
Z +∞ µ ¶
µn s = p dF (x)
−∞ µ2c
La forme discrète ou échantillonnale du moment d’ordre n sera :
N ³ x − m ń
X i
mns =
i =1 s
où les x i sont les observations, N la taille de l’échantillon, m la moyenne échantillonnale et s l’écart-type

échantillon (estimateurs partiellement non biaisés).
Exemple numérique Imaginez que nous ayons 5 rentabilités, 1%, −2, 2%, 0, 1%, −0, 3% et 1, 3%
pour une action donnée. La somme des valeurs est −0, 1%. Comme il y a 5 valeurs, la moyenne
est m = −0, 1%/5 = −0, 02%. Pour chaque observation, la valeur au carré en excès de la moyenne,
(x i − m)2 devient : (1% + 0, 02%)2 = 0, 0104%, (−2, 2% + 0, 02%)2 = 0, 0475%, 0, 00014%, 0, 0008% et
0, 0174%. Leur somme est 0, 0763%. En divisant cette valeur par le nombre d’observations moins
un, on obtient 0, 0763%. Il s’agit de la variance échantillonnale du groupe de rentabilités. Prendre
la racine carrée de cette valeur donne 1, 381%, l’estimation de l’écart-type de notre échantillon.
C.1. Signification des moments
Les moments ordinaires donnent une indication quant à la forme de la fonction mais sont assez
difficiles à comprendre... Cependant, le premier de ces moments ordinaires est bien connu : c’est la
moyenne. Les moments centrés et, encore mieux, les moments normalisés, sont plus faciles à comprendre,
interpréter et comparer.
La Moyenne le premier moment ordinaire, c’est le centre de masse de la distribution, le point tel qu’il y a une
probabilité de 50% d’être en-dessous et de 50% d’être au-dessus. Son estimateur échantillonal
est souvent noté m.
La Variance c’est le second moment central et il décrit la quantité de concentration de masse autour de la
moyenne. Sa racine carrée est l’écart-type, la distance typique par rapport à la moyenne des
observations. L’estimateur échantillonnal non biaisé de la variance (resp. écart-type), souvent
noté s 2 (resp. s), est donné par la fonction Excel "VAR.S()" (resp. "ECARTYPE.STANDARD()")
calculée comme suit :
1 X n
s2 = (x i − m)2
n − 1 i =1
Le "n − 1" au dénominateur est la correction de biais. Comme m est aussi estimé à partir des
données, il n’y a que "n −1" différentes valeurs possibles dans un échantillon de taille n, vu que la
4
dernière peut être connue à partir des n −1 valeurs précédentes et la valeur de m. Cette correction
supprime totalement le biais de l’estimation de la variance. Elle supprime partiellement le biais
de l’estimation de l’écart-type.
L’Asymétrie c’est le troisième moment normalisé, appelé "skewness" en anglais, et mesure le niveau d’asymétrie
autour de la moyenne. Une valeur négative indique une propension à avoir des valeurs sous
la moyenne, une valeur positive valorise au-dessus de la moyenne. Une distribution normale,
comme toute distribution symétrique, a toujours un coefficient d’asymétrie de zéro. Il existe sur
Excel une forme "non biaisée" :
n n ³ x − m ´3
X i
Skew =
(n − 1)(n − 2) i =1 s
L’Aplatissement c’est le quatrième moment normalisé, aussi appelé "kurtosis", et mesure la "finesse" relative des
queues (évènements éloignés de la moyenne) comparée au "centre" (évènements proches de la
moyenne) de la distribution. C’est une bonne façon de capturer la propension d’une variable
aléatoire à donner des "valeurs extrêmes". La valeur de ce moment pour une distribution normale
est toujours de 3. Les distributions avec un kurtosis inférieur à 3 sont dites platykurtiques, tandis
que celles avec un kurtosis supérieur à 3 sont dites leptokurtiques. Ce moment existe sur Excel
sous une forme en "excès d’aplatissement" (normalisé en soustrayant 3) non biaisée :
" #
n(n + 1) X n ³ x − m ´4
i 3(n − 1)2
Kurt = −
(n − 1)(n − 2)(n − 3) i =1 s (n − 2)(n − 3)
En termes financiers, il semble logique et cohérent (la recherche comportementale et théorique l’ont
établi) que la plupart des agents vont présenter une aversion pour la variance, un goût pour un coefficient
d’asymétrie positif et une aversion pour le kurtosis... Nous pourrions utiliser ces éléments pour définir les
objectifs d’un portefeuille.
Suite de l’exemple Ainsi sur nos 5 rentabilités, 1%, −2, 2%, 0, 1%, −0, 3% et 1, 3% nous avons calculé
que la moyenne échantillonnale est m = −0, 02% et l’estimation de l’écart-type s = 1, 381%. Si nous
voulons obtenir le kurtosis, pour chaque observation il nous faut enlever la moyenne, puis diviser
par l’écart-type et enfin élever le résultat (toujours pour chaque point) à la puissance 4. Ce qui
³ ´4
donne 1%+0,02%
1,381% = 0, 298, 6, 210, 0, 0057%, 0, 0017 et 0, 835. Leur somme donne 7, 345. Diviser ce
nombre par le nombre d’observations donne une estimation biaisée du kurtosis de 1, 469. Utiliser
la formule Excel donne une estimation "corrigée du biais" de 1, 181, en excès de 3, soit un kurtosis
de 4, 181. Ces rentabilités proviennent d’une série qui semble un peu plus susceptible de présenter
des évènements extrêmes qu’une distribution normale. Cela illustre également que le kurtosis est
difficile à manipuler sur des échantillons très petits.
D. Risque
Les variables aléatoires étant, eh bien... aléatoires, nous leur associons intuitivement la notion de
risque. Ces résultats financiers dans le futur sont très probablement risqués. Mais qu’appelons-nous
"risque", exactement ?
Le dictionnaire Merriam-Webster défini le risque comme :
• 1 : possibilité de perte ou préjudice ou,
5
• ...
• 4 : la chance qu’un investissement (telle qu’une action ou commodité) perdra de la valeur

Cela fait ressortir clairement la notion intuitive de risque comme étant la probabilité associée à un résultat
négatif, une perte ou l’obtention de moins qu’attendu.
Cela se transférerait très aisément à nos variables aléatoires avec leurs fonctions de répartition comme
la probabilité F X (t ) = P (X ≤ t ) d’avoir une valeur de X inférieure à la cible t . Typiquement la probabilité
que la rentabilité d’un portefeuille soit inférieure au coût des ressources investies. Cependant, l’histoire et
l’économie nous ont plus généralement conduit vers une direction différente.
Cela a commencé avec l’économie et les fonctions d’utilité1 . Arrow et Pratt ont défini l’"aversion
absolue pour le risque" A(c) = −u ′′ (c)/u ′ (c) où u(c) est l’utilité en c, et u ′′ (c) et u ′ (c) les dérivées premières
et secondes en c. Dans le cas d’une fonction d’utilité quadratique ou plans de consommation normalement
distribués, cela correspond à une aversion pour la variance.
Cette vision fut appliquée à la finance quand Harry Markowitz conçu sa "théorie moderne du
portefeuille". Il avait besoin d’une quantité à minimiser pour une rentabilité espérée donnée (ou quelque
chose à garder constant lors de la maximisation de la rentabilité espérée). De nombreuses mesures,
quantités, faits aurait pu être utilisés mais il remarqua que "les gens n’aiment pas la variance" et par
conséquent c’est cela qu’il a utilisé.
Dès lors, la finance et l’économie contemporaines comprennent la plupart du temps le risque comme
étant la variance, ou, sa racine carrée pour "la linéariser", l’écart-type. De toute évidence, ces mesures du
risque sont convenables, sous certaines hyptothèses simplificatrices : si les distributions de probabilité
des variables en question sont gaussiennes, elles sont entièrement déterminées par leur moyenne et leur
écart-type, et donc n’importe quelle "mesure du risque" sera une fonction de l’écart-type. Et même si la
distribution n’est pas gaussienne, mais juste elliptique, l’écart-type donnera une bonne idée du montant
qu’on pourrait perdre pour un niveau de certitude donné (ou la probabilité de perdre un certain montant),
et par conséquent une bonne indication du risque.
Néanmoins, dans la vraie vie les distributions empiriques de quantités financières semblent grandement
différer d’un loi de Gauss, dans de nombreux cas, et utiliser des statistiques alternatives pour le risque
pourrait s’avérer utile.
E. Ratio de Sharpe
Un agent averse au risque cherchera à réduire la variance, et augmenter la moyenne, pour une variable
aléatoire financière donnée, bien souvent les rentabilités d’un investissement. Cependant, ces deux
objectifs se contredisent et la question de quelle part de moyenne peut-on sacrifier afin de réduire la
variance (ou écart-type) ou réciproquement quelle part de variance supplémentaire peut-on accepter afin
d’augmenter la moyenne des rentabilités est très importante. De tout évidence cela rejoint les moments
de la distribution d’une variable aléatoire représentant les rentabilités dudit investissement.
William Sharpe a proposé le ratio qui porte aujourd’hui son nom, pour répondre à ces questions. Le
ratio de Sharpe est défini comme suit :
E [r i − r f ] E [r i − r f ]
Si = =p ,
σi var[r i − r f ]
Où r i est la rentabilité de l’actif i , r f le taux sans risque, ou rentabilité d’un investissement sans risque
(on l’approxime habituellement par le rendement procuré par les obligations d’État à court terme,
1 La "fonction d’utilité" est un outil utilisé en économie qui permet de modéliser le niveau de satisfaction qu’un agent retire
d’une quantité consommée. C’est une simplification utile de comment les humains prennent leurs decisions économiques
concernant la consommation, l’investissement, le risque pris, etc.
6
typiquement OAT 3 mois en France) et σi est l’écart-type des rentabilités de i , nettes du taux sans
risque, r f , et évidemment, S i est le ratio de Sharpe de l’actif i .
On peut aussi utiliser le ratio de Sharpe pour comparer la performance d’un portefeuille à celle d’un
benchmark et par conséquent utiliser les rentabilités du benchmark à la place du taux sans risque.
Le ratio de Sharpe permet d’évaluer la rentabilité par unité de risque (en considérant l’écart-type
comme "le risque") et permet aux investisseurs de comparer différents investissements entre eux. On
pourrait remarquer que l’écart-type n’inclut aucune notion de risque systématique ou idiosyncratique et
par conséquent pourrait ne pas être un bon élément pour comparer les rentabilités. Pour cette raison il
est plus pertinent de comparer les ratios de Sharpe de portefeuilles d’une certaine taille plutôt que les
ratios de Sharpe d’actions individuelles, même si l’on peut considérer que la plupart des entreprises sont
déjà, dans une certaine mesure, des portefeuilles diversifiés.
Suite de l’exemple Ainsi sur nos 5 rentabilités journalières, 1%, −2, 2%, 0.1%, −0, 3% et 1, 3%
nous avons calculé que la moyenne échantillonale est m = −0, 02% et l’estimation de l’écart-type
s = 1, 381%. Si nous supposons que (ce qui se rapproche de la vérité en ce moment) le taux sans
risque sur une horizon journalière n’est pas significativement différent de 0, nous pouvons estimer
E (R i −r f )
le ratio de Sharpe de ces actions. S i = σi = −0,02%−0
1,381% = −1, 45%. Cette valeur est négative,
ce qui signifie que le "gain" que nous réalisons par unité de risque accepté (tel que mesuré par
l’écart-type) est négatif : pas bon !
F. Aller plus loin que le ratio de Sharpe

Comme nous venons de le noter, la composante risque du ratio de Sharpe est discutable et assez
arbitraire. On pourrait recourir à toutes sortes de mesures de risque au dénominateur de ce ratio.
Une simple évolution est le ratio de Sortino qui remplace l’écart-type par le "semi-écart-type gauche".
Ce "semi-écart-type gauche" est la racine carrée de la semi-variance gauche, qui est la variance calculée
uniquement à partir des rentabilités inférieures à la rentabilité cible (la rentabilité espérée de l’investissement
ou le taux sans risque). On pourrait définir l’estimateur échantillonal du semi-écart-type gauche comme :
s
1 X n
DR = 1x ≤T (x i − m)2
n − 1 i =1 i
où x i est la i ème rentabilité de la série, T est la rentabilité cible, n le nombre d’observations, m la

rentabilité moyenne et 1xi ≤T est une fonction indicatrice qui prend la valeur de 1 si la condition x i ≤ T est
réalisée, et 0 autrement.
Ce concept peut être étendu à tout moment d’ordre supérieur, centralisé ou normalisé. Cela définit
les "semi-moments".
Une forme générale du semi-moment d’ordre n dans le cas continu serait :
Z +∞ ³ x − m ń Z T ³ x − m ń
µn− = 1x≤T f (x)dx = f (x)dx
−∞ s −∞ s
et Z +∞ ³ x − m ń Z ∞ ³ x − m ń
µn+ = 1x≥T f (x)dx = f (x)dx
−∞ s T s
Où T est la cible (bien souvent choisi comme étant la moyenne de X ).
7
De toute évidence l’estimateur discret/échantillonal équivalent serait :
1 X n ³ x − m ń
i
mn− = 1xi ≤T ,
n − 1 i =1 s
et le symétrique pour m n+ .
Un gros avantage de ces statistiques est qu’elles se préoccupent des "chances de résultats négatifs"
et par conséquent se rapprochent de ce que nous entendons "naturellement" par risque. Nous voulons
éviter d’avoir une probabilité trop élevée de perte mais, pour la plupart des gens, avoir une probabilité de
gain important n’est pas vraiment un problème !!
Multiplier les semi-moments d’ordre supérieur par la variance ou l’écart-type (pour maintenir une
comparabilité au niveau de la taille) pourrait procurer des approximations du risque qui conduiraient à
des stratégies d’optimisation de portefeuille intéressantes. Ces ratios correspondants pourraient être :
ri − r f
M Si = .
mn− s
Jouer avec différents ratios pourrait conduire à une optimisation de portefeuille qui répondrait mieux
aux besoins et préférences d’investisseurs spécifiques.
II. Tests d’Hypothèses

Les hypothèses de test dérivent d’une question posée. On formule deux hypothèses qui sont deux
réponses possibles et exclusives de cette question :
− hypothèse principale (hypothèse nulle)
− hypothèse alternative
Ces hypothèses sont toujours formulées au niveau de la population visée. L’échantillon servira à
trancher entre les deux hypothèses.
Deux approches :
− Test statistique
− Intervalle de confiance
Quelle que soit notre décision, elle peut être erronée à cause des fluctuations aléatoires :
• Soit en rejetant H0 alors qu’elle est vraie : P(rejeter H0 | H0 vraie). Ce risque d’erreur est appelé
risque de première espèce, noté α ;
• Soit en acceptant H0 alors qu’elle est fausse : P(ne pas rejeter H0 | H1 vraie). Ce risque d’erreur est
appelé risque de seconde espèce, noté β.
8
Décision
Accepter H0 Rejeter H0
Réalité
Décision correcte
Erreur de première espèce
H0 vraie 1 - α Vrais positifs
α Faux positifs
Seuil de confiance
Décision correcte
H0 fausse Erreur de deuxième espèce
1 - β Vrais négatifs
(H1 vraie) β Faux négatifs
Puissance du test
Remarque : un test unilatéral est plus puissant qu’un test bilatéral (meilleure capacité à identifier une
différence réelle).
On cherche à minimiser ces deux types d’erreur, mais en pratique il faut trouver un compromis. Il y a
en effet une interdépendance entre α et β. Si α est tiré vers le bas, alors β monte :
On cherchera donc à limiter l’erreur la plus grave.
Ex : Une personne est jugée pour un délit commis. Le juge doit minimiser la probabilité de se tromper
en affirmant que la personne est coupable :
½
H0 : prévenu innocent
H1 : prévenu coupable
L’erreur de première espèce consiste à condamner le prévenu alors qu’il est innocent, tandis que
l’erreur de deuxième espèce est de l’acquitter alors qu’il est coupable. Si on rejette H0 , c’est que l’on
considère que le test (de culpabilité) permet de distinguer le prévenu, et donc que le test est positif. Rejeter
à tort H0 (erreur de 1ère espèce), c’est par conséquent la probabilité d’avoir un test qui sera positif par
erreur (un faux positif).
Ainsi le choix de α conditionne la capacité du test à rejeter H0 :
• Si α est trop petit, on ne rejette que très rarement H0 (test conservatif )
• Si α est trop grand, on va rejeter très souvent H0 , mais le risque de se tromper est grand...
9
Distribution sous H0 Distribution sous H1
Zone d’acceptation de H0 Zone de rejet de H0

Seuil
Risque α
Seuil de confiance 1 − α
Le risque β se calcule si la loi de la ST sous H1 est connue :
Distribution sous H0 Distribution sous H1
Zone d’acceptation de H0 Zone de rejet de H0

Seuil
Risque β
Puissance 1 − β
En pratique, vu que l’on raisonne sous H0 , on fixera donc le risque α de façon assez arbitraire, et le
risque β s’ajustera automatiquement.
Test statistique
Cette approche consiste à calculer une statistique de test (ST) qui va permettre de rejeter ou non
l’hypothèse H0 . Il s’agit simplement d’une formule à appliquer une fois l’échantillon obtenu. La valeur
calculée étant susceptible de varier d’un échantillon à l’autre, une ST est définie comme une v.a.
La probabilité pour que la statistique de test STcal c dépasse, sous l’hypothèse H0 , la valeur seuil
ST seui l , est appelée probabilité critique (pc), ou p-value en anglais. Plus cette probabilité est faible, plus
forte est la contradiction entre H0 et le résultat observé avec l’échantillon. Elle est fournie directement
par les logiciels statistiques et permet de mesurer la compatibilité de H0 avec les données de l’échantillon.
Pour un seuil de significativité α donné, on compare pc et α, afin d’accepter ou de rejeter H0 :
10
• Si pc ≤ α : rejet de H0 en faveur de H1 . En d’autres termes, les données sont incompatibles avec H0 .

La différence avec la norme est statistiquement significative, et la probabilité qu’elle puisse être
attribuée au seul fait du hasard est faible ;
• Si pc > α : H0 acceptée car rien ne permet de la rejeter (il convient de s’exprimer avec précaution).
Les données ne sont pas incompatibles avec H0 . La différence avec la norme est non statistiquement
significative, et n’est pas suffisamment importante par rapport aux fluctuations aléatoires pour
pouvoir raisonnablement exclure qu’elle soit un artefact dû au hasard.
Fluctuation de la ST due à l’échantillonnage (sous H0 ) :
La p-value est l’aire

sous la courbe de la loi
suivie par la ST sous H0
Acceptation de H0 Rejet de H0 Acceptation de H0 Rejet de H0
αseui l αseui l
p-value p-value
0 ST 0 STcal c
c al c
ST seui l ST seui l
H0 acceptée H0 refusée
Ex : Un économiste conclut qu’une différence entre des moyennes d’échantillon est "statistiquement
significative au seuil de 1%". On peut affirmer que :
• pc ≤ 1% afin de pouvoir rejeter H0 . En d’autres termes, la statistique de test doit être suffisamment
improbable pour pour permettre de rejeter l’hypothèse nulle;
• S’il n’y avait pas de différence entre les moyennes de population, la probabilité d’en observer une
entre les moyennes d’échantillon serait de 1% ou moins ;
• La conclusion de l’économiste est une preuve solide qu’il existe une différence entre les moyennes
de population. Cependant cela n’indique pas si, oui ou non, cette différence est assez grande pour
revêtir une importance pratique.
Signification statistique et signification au sens commun (économique) sont deux concepts entièrement
différents. Une ST est une v.a. à cause de l’échantillonnage des individus mesurés. L’hypothèse H0
donne une distribution à la ST. L’échantillon donne une valeur à la ST. La p-value indique si cette
valeur est cohérente avec la distribution (et donc avec l’hypothèse H0 )
11
Prenons l’exemple du test de conformité d’une moyenne :
− µ = valeur moyenne prise par ce caractère (inconnue)
− µ0 = valeur hypothétique de ce paramètre (connue) = la norme
On compare µ à µ0 en testant deux hypothèses alternatives :
− H0 = respect de la norme
− H1 = non respect selon 3 modalités :
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
½ ½ ½
ou ou
H1 : µ ̸= µ0 H1 : µ > µ0 H1 : µ < µ0
Le seuil d’acceptabilité, ou risque d’erreur admis, sera ici la probabilité d’accepter H1 alors que H0
est vraie. La région critique est représentée par la probabilité α, soit l’ensemble des valeurs observées de
la statistique de test provoquant le rejet de l’hypothèse nulle. Et la zone d’acceptation, elle, contiendra
l’ensemble des valeurs observées de la statistique provoquant l’acceptation de l’hypothèse nulle, soit la
probabilité (1–α).
Notation : la ST seui l est notée z lorsqu’elle est lue dans une table de la loi normale, et t dans une table
de Student. Et on indique en indice α lorsqu’il s’agit d’un test unilatéral, et α/2 en bilatéral. Quant à la ST
on la notera alors respectivement Z et T .
L’hypothèse nulle sera acceptée lorsque :
• Pour H1 : µ ̸= µ0 :
− Si σ connu : Z ∈ [−z α/2 ; z α/2 ]

− Si σ inconnu : T ∈ [−t α/2 ; t α/2 ]
⇒ La zone de rejet de H0 se situe dans les deux queues de distribution :
12
• Pour H1 : µ > µ0 :
− Si σ connu : Z < z α
− Si σ inconnu : T < t α
⇒ La zone de rejet de H0 se situe dans une seule queue de distribution, à droite :
• Pour H1 : µ < µ0 :
− Si σ connu : Z > −z α
− Si σ inconnu : T > −t α
⇒ La zone de rejet de H0 se situe dans une seule queue de distribution, à gauche :
Ex : Un récent article dans les Échos affirme que les taux à 1 an sont, en moyenne, à moins de 4%. Un
petit échantillon révèle les taux suivants (en %) : 2,8 ; 3,3 ; 4,4 ; 2,8 ; 4,1 ; 4,2 ; 3,6. Peut-on conclure au seuil
de 1% que les taux sont inférieurs à 4% ?
H0 : µ = 4%
½
H1 : µ < 4%
Les statistiques de test sont données dans le mémorandum. Dans le cas d’une moyenne, la statistique
13
de test est égale à la moyenne échantillonnale que l’on centre et que l’on réduit :
³ ´
X −E X X − µ0
ST = ³ ´ = ∼ Tn−1
σ X S′
p
n
³ ´ ³ ´ σ
vu que E X = µ et que sous H0 , µ = µ0 , σ X = p et σ étant inconnu, on utilise l’estimateur non biaisé
n
S ′ . Cette statistique de test suit une loi normale centrée réduit si l’écart-type de la population est connu,
et de Student à n − 1 degrés de liberté (ddl) s’il ne l’est pas. Comme σ est inconnu, elle suit donc une loi
de Student. De plus, l’échantillon étant petit, on ne peut utiliser le théorème central limite (TCL) pour
approximer la loi de Student par la loi normale. Et enfin, la population étant supposée infinie (N > 20n),
le coefficient d’exhaustivité est négligeable.
3, 6% − 4%
• STc al c = = −1, 60
0, 661%
p
7
• Seuil pour une probabilité unilatérale de 1% : en regardant dans la table de Student p. 7 du
mémorandum à 6 ddl et α = 2% on trouve ST seui l = 3, 14 = −3, 14 (symétrie), en n’oubliant pas que
la table fournit la proba pour un test bilatéral et donc qu’il faut regarder la colonne correspondant à
un alpha de 2% de façon à avoir à gauche α/2 = 1%.
⇒ H0 n’est donc pas rejetée et est acceptée au seuil de 99% : la moyenne des taux n’est pas significativement
différente de 4%, ce qui contredit l’affirmation de l’article des Échos.
Rejet de H0 Acceptation de H0
1% 99%
p-value
STcal c 0
-1,60
ST seui l
-3,14
On pourrait aussi répondre à la question en estimant la probabilité critique. La probabilité critique

est la probabilité à gauche de STc al c = −1, 60 (soit l’aire sous la courbe).
Dans la table de Student à 6 ddl et t = 1, 44 (valeur la plus proche de 1,60), on trouve α = 20% en
bilatéral, soit α = 20%/2 = 10% en unilatéral. La probabilité critique se situe donc autour de 10%, ce qui
est largement supérieur au seuil de significativité de 1% ! Ce n’est donc pas étonnant que l’on ne puisse
pas rejeter l’hypothèse nulle. Pour cela il aurait fallu que la probabilité critique unilatérale soit inférieure
à 1%.
14
Intervalle de confiance
On peut aussi construire une région d’acceptation pour les statistiques de l’échantillon. Si la
moyenne de l’échantillon appartient à la région d’acceptation, alors l’hypothèse H0 ne sera pas rejetée,
et donc acceptée au seuil α. Et inversement, si la moyenne de l’échantillon n’appartient pas à la région
d’acceptation, alors l’hypothèse H0 sera rejetée, et par conséquent H1 sera acceptée au seuil α. Ainsi la
zone d’acceptation est :
• Pour H1 : µ ̸= µ0 :
σ σ
· ¸
− Si σ connu : x ∈ µ0 − z α/2 × p ; µ0 + z α/2 × p
n n
′
s s′
· ¸
− Si σ inconnu : x ∈ µ0 − t α/2 × p ; µ0 + t α/2 × p
n n
• Pour H1 : µ > µ0 :
σ
− Si σ connu : x < µ0 + z α × p
n
s′ s
− Si σ inconnu : x < µ0 + t α × p ou x < µ0 + t α × p
n n −1
• Pour H1 : µ < µ0 :
σ
− Si σ connu : x > µ0 − z α × p
n
s′ s
− Si σ inconnu : x > µ0 − t α × p ou x > µ0 − t α × p
n n −1
Statistique de test vs Intervalle de confiance

Ces deux approches donnent toujours la même réponse, et pour cause. Avec l’approche du test
statistique, on ne rejette en effet pas H0 si la ST se situe dans la zone d’acceptation, soit pour H1 : µ ̸= µ0
X − µ0
−t α/2 ≤ ³ ´ ≤ t α/2
σ X
En réarrangeant, on ne rejette pas si :

³ ´ ³ ´
− t α/2 × σ X ≤ X − µ0 ≤ t α/2 × σ X
³ ´ ³ ´
⇔ µ0 − t α/2 × σ X ≤ X ≤ µ0 + t α/2 × σ X
Ce qui est exactement la règle de l’approche par intervalle de confiance.
15
Ex : On prélève 150 barils de 5 Kg et on constate que le poids moyen est de 4,980 Kg, plus ou moins
0,055 Kg. Doit-on vérifier les machines au seuil de signification de 5% ?
H0 : µ = 5
½
H1 : µ ̸= 5
Sous H0 :
s′
µ ¶ r
′ 150
X ∼ N 5; p où s = × 0, 055 = 0, 0552
150 149
vu que σ est inconnu mais, l’échantillon étant grand, on peut approximer la loi de Student par la loi
normale (TCL).
S’agissant d’un test bilatéral, on cherche z α/2 , or la table de la loi normale en p. 6 du mémorandum donne
la probabilité à gauche du quantile. Il faut donc regarder à :
P (−z α/2 < Z < z α/2 ) = 0, 95

⇔ 2 × P (Z < z α/2 ) − 1 = 0, 95
⇔ P (Z < z α/2 ) = 0, 975
⇒ Cf. table : z α/2 = 1, 96
H0 est acceptée si :
s′
· ¸
x ∈ µ0 ± z α/2 × p
n
· ¸
0, 0552
⇔ x ∈ 5 ± 1, 96 × p
150
⇔ x ∈ [4, 991; 5, 009]
Or x = 4, 980 ∉ intervalle d’acceptation, donc H0 rejetée au profit de H1 au seuil de 5%. Avec 5% de chances
d’avoir tort, il faut donc vérifier les machines.
Et on serait arrivé à la même conclusion en calculant la statistique de test :
4, 980 − 5
Z= = −4, 44
0, 0552
p
150
Comme Z ∉ [−1, 96; 1, 96], on rejette H0 .
16
Récapitulatif
À cause des fluctuations aléatoires d’échantillonnage, on peut se retrouver avec un échantillon qui ne
soit pas représentatif et nous induise en erreur.
Ex : la moyenne de notre échantillon montre une différence par rapport à la norme, ce qui nous fait
rejeter H0 , alors que la valeur véritable du paramètre de la population est en fait égale à celle proposée
par l’hypothèse nulle.
En définissant le seuil de signification du test, α, on fixe donc la probabilité maximale de se tromper que
l’on est prêt à accepter.
On détermine la distribution de l’estimateur, afin de juger de la probabilité de sa valeur.
Ex : si l’estimateur de la moyenne est distribué normalement, il a 5 chances sur 100 de présenter un écart
à la moyenne supérieur à 1, 96σ. Autrement dit, 95% des moyennes d’échantillon sont distribués dans
une étendue d’environ 4 écart-types.
Cette loi normale quelconque, on la normalise en la centrant et en la réduisant, de façon à l’exprimer en

unités standard (Z) et pouvoir utiliser la table.
La zone de rejet est la zone pour laquelle la différence entre la moyenne de l’échantillon et la norme
lorsque H0 est vraie n’a qu’une faible probabilité de se produire (5%).
Mais la différence peut être positive ou négative, vu que dans le cas d’un test bilatéral la seule conclusion
possible est que le paramètre diffère de la valeur supposée en hypothèse, peu importe qu’il soit plus grand
ou plus petit. On doit donc partager la probabilité d’erreur (α) en deux parties égales de chaque côté de la
distribution, soit α/2 = 2, 5%.
Lorsque l’on est en mesure de spécifier une direction particulière pour l’hypothèse alternative, on
préfèrera conduire un test unilatéral. Dans ce type de test, il n’y a qu’une seule région de rejet, située du
côté spécifié par H1 : à gauche lorsque la valeur présumée est supérieure (µ < µ0 ), à droite lorsqu’elle est
présumée inférieure (µ > µ0 ).
Ex : si on pressent que la moyenne de la population est supérieure à une certaine valeur (H1 : µ > µ0 ),
on va calculer l’intervalle d’acceptation, ce qui revient à déterminer un intervalle de valeurs typiques
pour la statistique de test. Si H1 est vraie, alors la moyenne que l’on trouvera dans l’échantillon tendra à
prendre des valeurs plus grandes que celles qu’elle ne prendrait si H0 était vraie. On va donc dire que les
valeurs en-dessous d’un certain seuil (le quantile z) sont typiques de H0 , et que celles qui sont au-dessus
indiquent une préférence pour H1 . On fixe ce seuil de telle sorte que 95% du temps, si H0 est vraie, alors la
statistique de test est en-dessous de ce seuil : ainsi, il doit être pris égal au quantile z 95% = 1, 645, comme
on peut le lire sur la table de la loi normale centrée-réduite. L’intervalle à droite, ]1, 645; +∞[ est donc
l’intervalle de rejet de H0 . Si la valeur calculée sur les observations pour la statistique de test tombe
dedans, alors on rejette H0 et on accepte H1 au seuil de 5%.
17
A. Test de comparaison de deux moyennes

− µ A = moyenne inconnue dans la population A
− µB = moyenne inconnue dans la population B
On compare µ A à µB en testant deux hypothèses alternatives :
− H0 = égalité des deux moyennes
H0 : µ A = µB H0 : µ A = µB H0 : µ A = µB
½ ½ ½
ou ou
H1 : µ A ̸= µB H1 : µ A > µB H1 : µ A < µB
Loi de la différence des moyennes

Soit la v.a. ∆ telle que ∆ = X A − X B où les distributions d’échantillonnage des moyennes dans les
populations A et B suivent une loi normale telle que :
σ2A σ2B
Ã ! Ã !
X A ∼ N µA , et X B ∼ N µB ,
nA nB
X A et X B étant deux v.a. indépendantes, on peut établir la loi de ∆ :

³ ´ ³ ´ ³ ´
− E (∆) = E X A − X B = E X A − E X B = µ A − µB
³ ´ ³ ´ ³ ´ ³ ´ σ2 σ2 ³ ´
− V (∆) = V X A − X B = V X A + V X B − 2Cov X A , X B = A + B avec Cov X A , X B = 0
n A nB
Ainsi :
 s 
σ2A σ2B
• Si σ A et σB connus (cas rare) : ∆ ∼ N µ A − µB ; + 
nA nB
∆ − E (∆) ∆ − µ A − µB
¡ ¢
⇒ Soit Z = p = s ∼ N (0, 1)
V (∆) σ2A σ2B
+
n A nB
∆
⇒ Or sous H0 : µ A = µB , µ A − µB = 0, donc Z = s ∼ N (0, 1)
σ2A σ2B
+
nA nB
∆
• Si σ A et σB inconnus : T = s ∼ T(n A −1)+(nB −1)
s ′2
A s B′2
+
nA nB
18
Zone d’acceptation de H0 :
σ connu σ inconnu
 s   s 
σ2A σ2B s ′2
A s ′2
H1 : µ A ̸= µB ∆ ∈ ±z α/2 × +  ∆ ∈ ±t α/2 × + B
n A nB n A nB
s s
σ2A σ2B s ′2
A s ′2
H1 : µ A > µB ∆ < zα × + ∆ < tα × + B
n A nB n A nB
s s
σ2A σ2B s ′2
A s ′2
H1 : µ A < µB ∆ > −z α × + ∆ > −t α × + B
n A nB n A nB
Ex : On a tiré de façon indépendante un échantillon de 15 professeurs d’une grande université : 10

hommes et 5 femmes, dont les salaires annuels sont les suivants (en milliers d’euros) :
Hommes (X A ) 47 45 53 49 56 54 48 51 48 49
Femmes (X B ) 43 46 42 44 50
Un homme prétend qu’il n’y a pas de différence entre les salaires des hommes µ A et ceux des femmes
µB .
H0 : µ A = µB
½
H1 : µ A ̸= µB
10
• x A = 50, s 2A = 10, 6 et s ′2
A = × 10, 6 = 11, 8
9
5
• x B = 45, s 2A = 8 et s B′2 = × 8 = 10
4
Soit ∆ = X A − X B , σ A et σB étant inconnus et n < 30 (pas de TCL) :
∆
T=r ∼ T13
11, 8 10
+
10 5
On cherche t α/2 dans la table de Student à 13 ddl et α = 0, 05, et on trouve t α/2 = 2, 16.
H0 est acceptée si :
∆ ∈ [±t α/2 × σ(∆)]

⇔ ∆ ∈ [±2, 16 × 1, 78]
⇔ ∆ ∈ [−3, 85; 3, 85]
Or ∆ = 50 − 45 = 5 ∉ intervalle d’acceptation, donc H0 est rejetée au profit de H1 au seuil de 5%. Il y a donc

des différences de salaires entre hommes et femmes au sein de cette université.
19
B. Test de conformité d’une variance

Pour étudier un caractère d’une population mère :
− σ2 = variance de ce caractère (inconnue)
− σ20 = valeur hypothétique de la variance de ce caractère (connue) = la norme
On compare σ2 à σ20 en testant deux hypothèses alternatives :
− H0 = respect de la norme
( ( (
H0 : σ2 = σ20 H0 : σ2 = σ20 H0 : σ2 = σ20
ou ou
H1 : σ2 ̸= σ20 H1 : σ2 > σ20 H1 : σ2 < σ20
Loi suivie par la statistique de test sous l’hypothèse nulle :
n × S2
− Si µ connue (cas rare) : loi du Khi-deux à n degrés de liberté, ∼ χ2n
σ20
n × S2 (n − 1) × S ′2
− Si µ inconnue : loi du Khi-deux à n − 1 degrés de liberté, ∼ χ2n−1 ou ∼ χ2n−1
σ20 σ20
Zone d’acceptation de H0 :
µ connue µ inconnue
σ20 σ20 σ20 σ20

" # " #
2
H1 : σ ̸ σ20
= 2
s ∈ C1 × ;C 2 × ′2
s ∈ C1 × ;C 2 ×
n n n −1 n −1
σ20 σ20
H1 : σ2 > σ20 s2 < C2 × s ′2 < C 2 ×
n n −1
σ20 σ20
H1 : σ2 < σ20 s2 > C1 × s ′2 > C 1 ×
n n −1
Même si une loi du Khi-deux est asymétrique, on pourra utiliser une table pour trouver les quantiles.
La seule différence par rapport à une loi normale ou de Student, est qu’on ne pourra pas exploiter la
symétrie pour trouver le quantile à l’opposé. Par exemple, en bilatéral et lorsque µ est connue, il faudra
chercher C1 et C2 tel que :
³α´ α
− C 1 = χ2n ⇒ cf. table Khi-deux à n et , en utilisant la table p. 10 du mémorandum
2 2
donnant la probabilité d’une valeur inférieure au quantile χ2
³ α´ α
− C 2 = χ2n 1 − ⇒ cf. table Khi-deux à n et 1 −
2 2
20
f χ2
¡ ¢
α/2
α/2
1−α
χ2
0 C1 C2
et si µ inconnue, idem mais avec n − 1 ddl.
Ex : On extrait d’une fabrication 18 produits aléatoirement. On trouve 236,36 g pour la variance de

leur masse (X) qui est distribuée selon le modèle normal. Est-il possible, au seuil de 5% de conclure que la
variance de la fabrication est différente de 605 ?
H0 : σ2 = 605
½
H1 : σ2 ̸= 605
• Paramètres population : µ inconnue donc n − 1 ddl

18
• Statistiques échantillon : s 2 = 236, 36 ⇒ s ′2 = × 236, 36 = 250, 26
17
• C 1 = χ217 (0, 025) = 7, 56 (cf. table avec n − 1 = 17 et α = 0, 975)
• C 2 = χ217 (0, 975) = 30, 19 (cf. table avec n − 1 = 17 et α = 0, 025)

· ¸
605 605
⇒ Région d’acceptation de H0 : 7, 56 × ; 30, 19 × = [269, 05; 1074, 41]
17 17
Or s ′2 = 250, 26 ∉ intervalle d’acceptation, donc H0 est rejetée au profit de H1 . La variance de la
fabrication est différente de 605 avec 5% de chances de se tromper.
C. Test de comparaison de deux variances

− σ2A = variance inconnue dans la population A
− σ2B = variance inconnue dans la population B
On compare σ2A à σ2B en testant deux hypothèses alternatives :
− H0 = égalité des deux variances
( ( (
H0 : σ2A = σ2B H0 : σ2A = σ2B H0 : σ2A = σ2B
ou ou
H1 : σ2A ̸= σ2B H1 : σ2A > σ2B H1 : σ2A < σ2B
21
Loi du rapport des variances

S ′2
A
Soit F = avec S ′2 ′2
A > S B car F doit être supérieur à 1 (sinon inverser).
S B′2
nA
× S 2A
′2 n 2 nA − 1
Comme S = ×S , F = n
n −1 B
× S B2
nB − 1
F suit une loi de Fisher-Snedecor : F ∼ F(n A −1;nB −1) (si A au numérateur et B au dénominateur)
Zone d’acceptation
La zone d’acceptation de H0 est :
• Pour H1 : σ2A ̸= σ2B : F ∈ f α/2 (n A − 1; n B − 1) ; f 1−α/2 (n A − 1; n B − 1)

£ ¤
α/2
1−α α/2
0 f α/2 f 1−α/2
Rejet Acceptation Rejet de

de H0 de H0 H0
• Pour H1 : σ2A > σ2B : F < f 1−α (n A − 1; n B − 1) (avec A au numérateur et B au dénominateur)
1−α α
0 f 1−α
Acceptation de H0 Rejet de H0
• Pour H1 : σ2A < σ2B : F < f 1−α (n B − 1; n A − 1) (avec B au numérateur et A au dénominateur)
22
Ex : Des canards d’élevage sont traditionnellement nourris au maïs grain complémenté avec du soja,
du colza et du tournesol. Pour des raisons économiques, on expérimente de remplacer le soja par des
drèches de maïs.
− Type A : soja, colza, tournesol
− Type B : drèches de maïs, colza, tournesol
L’alimentation de type B va-t-elle provoquer une plus grande dispersion du poids des canards ?
• n A = 50 et s 2A = 105 623g
• n B = 50 et s B2 = 129 600g
(
H0 : σ2A = σ2B
H1 : σ2A < σ2B
• s B2 > s 2A donc B au numérateur et A au dénominateur :
nB 50
× s B2 × 129 600 129 600
nB − 1
F= n = 49 = ≈ 1, 23
A 50 105 623
× s 2A × 105 623
nA − 1 49
• Valeur critique au seuil de 0,05, cf. table : f 0,95 (49; 49) ≈ 1, 60
⇒ H0 acceptée si F < f 1−α (n B − 1; n A − 1), or 1, 23 < 1, 60 donc on ne rejette pas H0 . Avec 5% de chance
de se tromper, l’alimentation de type B ne provoque donc pas une plus grande dispersion du poids des
canards.
III. Régressions Linéaires

La régression2 est l’outil le plus important à la disposition de l’économètre. L’économétrie est une
discipline consistant à appliquer des techniques statistiques à des données économiques, en vue d’estimer
et tester empiriquement des modèles théoriques et obtenir des résultats numériques. Littéralement,
économétrie signifie "mesure économique".
Mais qu’est-ce qu’une régression ?

Il s’agit de décrire et évaluer la relation entre une variable réelle donnée (Y) et une ou plusieurs autres
variables réelles (X 1 , X 2 , . . . ) :
− Y est appelée variable dépendante, ou exogène, ou à expliquer, ou encore à prédire;
− X 1 , X 2 , . . . sont qualifiées de variables indépendantes, ou endogènes, ou explicatives, ou encore

de prédicteurs.
2 On doit le terme "régression" à Sir Francis Galton qui, en 1877, fit une étude sur la taille humaine. Il montra que la taille des
enfants issus de parents de grande taille avait tendance à régresser (ou diminuer) pour s’approcher de la grandeur moyenne de la
population. Il qualifia ce phénomène de régression à la moyenne. Par la suite, le terme de "régression", qui décrivait ce résultat
particulier, a été appliqué à la méthode, même s’il serait plus approprié de parler "d’estimation" ou "de prévision".
23
Séries temporelles
Supposons que nous avons les données suivantes (en %) sur les rentabilités en excès du taux sans
risque du portefeuille XXX, ainsi que celles d’un indice de marché :
Rentabilité en excès Rentabilité en excès

Année, t du portefeuille XXX de l’indice de marché
r Xt X X − r ft t
rm − r ft
1 17,8 13,7
2 39 23,2
3 12,8 6,9
4 24,2 16,8
5 17,2 12,3
De prime abord, le beta du portefeuille XXX semble positif, mais nous voulons en savoir plus sur la
relation entre ce portefeuille (x) et l’indice de marché (y) d’après les données en notre possession.
Pour étudier cette relation, nous disposons donc de n observations différentes de Y et X, qui peuvent
être numérotées : le couple (y i , x i ) correspond à la i -ème observation effectuée. La première étape serait
de dessiner un nuage de points de ces deux variables à partir de leurs coordonnées :
La silhouette de ce nuage de points est une première indication précieuse sur la nature de la relation
entre Y et X. On remarque que cette silhouette est étirée dans une direction : une relation linéaire entre Y
et X est donc envisageable. Autrement dit, y, la valeur prise par la v.a. Y, semble dépendre de x, celle que
prend X.
Une relation linéaire prend la forme f (x) = bx, où b est un nombre réel appelé coefficient de la
fonction linéaire ou coefficient de proportionnalité, ou encore pente. Une fonction affine, elle, est de
la forme f (x) = a + bx, où a est l’ordonnée à l’origine ou constante. Dans les deux cas la variation de
24
y est proportionnelle à la variation de x. La seule différence est que dans le premier cas la droite passe
par l’origine, tandis que dans le second elle coupera l’axe des ordonnées au-dessus ou au-dessous de 0
suivant si la constante est positive ou négative.
Ex :
Liaison linéaire positive Liaison linéaire négative Liaison non linéaire Absence de liaison
Trouver la droite de meilleur ajustement

Il semblerait donc que ce nuage de points puisse être ajusté par une droite. Ainsi, on supposera
l’existence de deux coefficients réels inconnus a et b tels que :
Y = a + bX
afin d’obtenir la droite de meilleur ajustement des données.
Par contre, l’équation Y = a + bX est complètement déterministe, ce qui n’est pas réaliste : on voit
bien que les points ne sont pas parfaitement alignés. Autrement dit, la valeur de Y ne peut pas être
exactement déduite de la valeur de X. On ajoute donc un terme d’erreur aléatoire, noté u. Ce terme
d’erreur, appelé aussi résidu, va permettre de prendre compte les influences aléatoires extérieures sur
y t que nous ne pouvons modéliser, tout comme les erreurs de mesure. Formulé plus simplement, il
représente la déviation entre ce que le modèle prédit et la réalité. L’équation devient :
y t = α + βx t + u t
où t = 1, 2, 3, 4, 5
Il s’agit de la droite de régression.
Déterminer les coefficients de la régression

On choisira α et β de façon à minimiser les distances (verticales) entre les données et la droite
d’ajustement (ou de régression), de façon à ce que cette droite passe au plus près du nuage de points :
25
Méthode des Moindres Carrés Ordinaire (MCO)

Il s’agit de la méthode la plus utilisée pour ajuster une droite aux données. Elle consiste à prendre
le carré de chaque distance (ce "quelque chose" noté u t qui trouble la relation et qui fait que les points
correspondants aux observations se situent au-dessus ou en-dessous de la position qu’ils devraient
occuper sur la droite cherchée) et à minimiser leur somme (d’où le nom "moindres carrés"). En d’autres
termes, la fonction qui décrit "le mieux" les données, est celle qui minimise la somme quadratique des
erreurs de prédictions (résidus).
Notons y t la donnée observée au point t , ŷ t la valeur prévue par le modèle égale à α + βx t , et u t le

résidu égal à y t – ŷ t :
¢2
On cherche donc à minimiser 5t =1 y t − ŷ t , ce qui revient à minimiser la somme des carrés des
P ¡
résidus 5t =1 u t2 , soit u 12 + u 22 + u 32 + u 42 + u 52 :
P
T T ¡ ¢2 T £ ¢¤2
u t2 = y t − α + βx t
X X X ¡
y t − ŷ t = où t = 1, . . . , T
t =1 t =1 t =1
26
En notation matricielle, l’équation s’écrit :

     
y1 1 X 11 u1
y  1 X 12  u 
 2   β0
µ ¶  2
y3 = 1 X 13  × + u 3 
     
    β1 (k+1)×1  
y4 1 X 14  u 4 
y 5 T ×1 1 X 15 T ×(k+1) u 5 T ×1
soit plus simplement :

y = Xβ+u
avec y un vecteur colonne (T × 1) des valeurs observées pour la variable dépendante, X une matrice
(T × (k + 1)) des valeurs observées pour les k facteurs (ici un seul) avec une colonne de 1 qui servira à
calculer la constante, β un vecteur colonne ((k + 1) × 1) des paramètres inconnus de la population que
l’on souhaite estimer, et u un vecteur colonne (T × 1) des termes d’erreur.
Le problème de minimisation s’écrit alors :
min(y − X β)′ (y − X β) où β ∈ Rk+1

β
Et la solution est donnée par le vecteur :
β̂ = (X ′ X )−1 X ′ y
µ ¶
−1, 74
Reprenons notre exemple. On trouve β = , soit :
1, 64
ŷ t = −1, 74 + 1, 64x t
Supposons à présent qu’un analyste financier prévoit l’année prochaine une rentabilité du marché de
10% en excès du taux sans risque. Quelle est alors la rentabilité prévue pour le portefeuille XXX ?
La valeur espérée pour y est de :
ŷ t = −1, 74 + 1, 64 × 10% = 14, 66%
La mesure de la qualité de l’ajustement

La relation entre Y et X étant approximative et imprécise, vu que la valeur de Y n’est qu’en partie
déterminée par X, il paraît naturel de mesurer ce degré d’imprécision.
Décomposition de la variance
La variance empirique de Y, appelée variance totale de Y (notée SCT pour Somme des Carrés Totale),
peut se décomposer en deux parties additives :
• la première dite variance expliquée (notée SCE pour Somme des carrés Expliquée) est, comme son
nom l’indique, la variance de ce qui, dans Y, peut être expliqué par la modèle linéaire ;
27
• la seconde, dite variance résiduelle (notée SCR pour Somme des Carrés des Résidus), est, symétriquement,
la variance de ce qui, dans Y, ne peut l’être.
Source de la Somme des

ddl Variance
variation carrés
P¡ ¢2
P¡ ¢2 yi − y
Totale n −1 yi − y
n −1
P¡ ¢2 P¡ ¢2
Expliquée 1 ŷ i − y ŷ i − y
P¡ ¢2
P¡ ¢2 y i − ŷ i
Résiduelle n −2 y i − ŷ i
n −2
P¡ ¢2 P ¡ ¢2 P ¡ ¢2
Ainsi SCT = SCE + SCR, soit yi − y = ŷ i − y + y i − ŷ i
⇒ Plus la variance résiduelle est faible, plus le modèle linéaire permet d’expliquer une grande partie
des variations observées de Y dans les données.
Coefficient de détermination
Sachant que les variations observées peuvent être mesurées par la variance empirique de Y, et que les
variations expliquées peuvent l’être par la variance des valeurs prévues pour Y par le modèle, il s’ensuit
une définition naturelle du coefficient de détermination R 2 :
SC E
R2 =
SC T
Il mesure ainsi la variance de Y expliquée par le modèle. Du fait du caractère additif des variances
expliquée et résiduelle, son complément à 1 est bien la part de la variance qui n’est pas expliquée :
SC R
1–R 2 =
SC T
Par construction (rapport de deux variances et vu que SCE ≤ SCT), il est toujours compris entre 0 et 1.
Plus on se rapproche de 1, plus le modèle permet de prévoir les variations de Y, et plus il est proche de 0,
plus le modèle échoue.
Remarque : il y a bien d’autres considérations que le R 2 , et un modèle avec un faible R 2 n’est pas
nécessairement à jeter. Pour qui a soif (de connaissance bien sûr), quelques gouttes dans la gourde valent
mieux que rien du tout.
Coefficient de corrélation de Pearson

Comme son nom l’indique, la démarche du coefficient de détermination est clairement orientée : Y
est expliqué par X, et non l’inverse. Et pourtant, dans le cas d’une seule variable explicative, la variance de
Y expliquée par un modèle linéaire en X est strictement égale à la part de la variance de X expliquée en Y !
X et Y jouent en effet un rôle parfaitement symétrique dans la formule :
Cov(X , Y )2
R2 =
V (X )V (Y )
28
C’est donc la théorie et non l’économétrie qui indique le sens de la causalité. Comme le disait un vieux
sage3 , "l’économétrie est à une théorie, ce que le lampadaire est à l’ivrogne : il le soutient plus qu’il ne
l’éclaire."
Pour tenir compte de cette particularité, on introduit un nouveau concept qui lui ne contient aucune
idée de causalité : celui de corrélation entre X et Y. L’intensité de cette corrélation est mesurée par le
coefficient de corrélation, qui se trouve être égal à la racine carrée du R 2 :
Cov(X , Y )
r=
σ(X )σ(Y )
Il apporte la même information sur la qualité de la liaison que le coefficient de détermination mais, étant
compris entre −1 et 1, il présente l’avantage de comporter un signe qui indique si la relation est positive
ou négative. Plus r est proche de 0, plus la relation linéaire entre les variables est faible. Plus il s’approche
de −1 ou 1, est plus la relation linéaire, négative ou positive, entre les variables est forte.
Remarque : dans le cas où il y a plusieurs variables explicatives, une telle symétrie n’est plus de mise
(la part de Y expliquée par X 1 , X 2 , . . . fait sens, mais pas la part de la variance de X 1 , X 2 , . . . expliquée par Y)
et on préfèrera calculer le coefficient de détermination multiple qui lui, basé sur l’analyse de variance, se
généralise sans mal.
Coefficient de détermination ajusté

Le R 2 augmente nécessairement lorsqu’on ajoute une variable explicative au modèle et qu’on l’estime
de nouveau, vu que la somme des carrés des résidus diminue. C’est pour cela qu’a été inventé un autre
concept, le R 2 ajusté, qui n’augmente que si l’introduction de la nouvelle variable induit une réduction
"suffisamment" grande de la somme des carrés des résidus :
SC R/(n − k − 1) n −1 ¡
R a2 j = 1– 1 − R2
¢
= 1−
SC T /(n − 1) n −k −1
avec k le nombre de variables explicatives.
Les hypothèses sous-jacentes au modèle classique de régression linéaire

Maintenant que nous avons vu comment estimer les paramètres d’un modèle, il nous faut expliciter les
conditions pour que ces estimations soient de qualité. Comme le y t dépend non seulement des données
x t observées, mais aussi de termes d’erreur inobservables u t , nous devons définir plus précisément
comment ces u t sont générés. Ils seront ainsi supposés :
1. E (u t ) = 0 : les erreurs ont une moyenne nulle ;
2. V (u t ) = σ2 : la variance des erreurs est constante et finie pour toutes les valeurs de x t ;
3. Cov(u i , u j ) = 0 : les erreurs sont statistiquement indépentantes les unes des autres ;
4. Cov(u t , x t ) = 0 : les termes d’erreur et variables x t sont indépendantes ;
5. u t est normalement distribué.

3 Inspiré d’Andrew Lang : "He uses statistics as a drunken man uses lamp-posts—for support rather than illumination."
29
On peut formuler des hypothèses alternatives et additionnelles mais nous ne nous attarderons pas
dessus. Nous n’aborderons pas non plus les conséquences d’infractions à ces hypothèses, les moyens de
les diagnostiquer, ni la thérapeutique pour y remédier.
Propriétés des estimateurs MCO

Si les hypothèses 1. à 4. sur les résidus sont remplies, alors les estimateurs α̂ et β̂ déterminés par MCO
sont dits BLUE, pour Best Linear Unbiased Estimators, ou estimateur linéaire sans biais de variance
minimale :
• "Estimator" : β̂ est l’estimateur de la vraie valeur de β ;
• "Linear" : β̂ est un estimateur linéaire ;
• "Unbiased" : en moyenne, la valeur observée de α̂ et β̂ sera égale à leur vraie valeur ;
• "Best" : signifie que l’estimateur MCO β̂ a une variance minimale parmi les estimateurs linéaires
non biaisés.
Convergence/Biais/Efficacité
• Convergence : les estimateurs des moindres carrés α̂ et β̂ sont dits convergents, c’est-à-dire que
leurs valeurs estimées convergent vers les vraies valeurs à mesure que la taille d’échantillon croît à
l’infini.
• Biais : les estimateurs des moindres carrés α̂ et β̂ sont non biaisés, c’est-à-dire E (α̂) = α et E β̂ = β.
¡ ¢
En moyenne, leurs valeurs estimées sera donc égale aux vraies valeurs.
• Efficacité : un estimateur β̂ du paramètre β est dit efficace s’il n’est pas biaisé et qu’aucun autre
estimateur non biaisé ne possède une variance inférieure. Si l’estimateur est efficace, on minimise
la probabilité d’être éloigné de la vraie valeur de β.
Tests de significativité
Significativité des variables explicatives
Une variable contribue-t-elle de façon significative (statistiquement parlant) à l’explication de la
variable Y ? Pour répondre à cette question, on testera systématiquement les coefficients α et β par
rapport à zéro. Les coefficients sont aussi quelques fois présentés avec leur intervalle de confiance,
comme nous le verrons dans l’exemple avec Excel.
En règle générale, les logiciels de statistiques fournissent directement les "t -stat" ou les "p-value", et
il ne reste plus qu’à comparer ces valeurs à des "valeurs seuils".
Significativité de l’action des variables explicatives

Le lien observé est-il significatif ou simplement dû au hasard ? Pour répondre à cette question, nous
considèrerons le test de Fisher qui s’intéresse à la significativité globale d’un modèle :
H0 : X n’agit pas sur Y ⇔ β = 0

½
H1 : X agit sur Y ⇔ β ̸= 0
30
On peut démontrer que ce couple d’hypothèses est équivalent à :

½
H0 : F = 1
H1 : F ̸= 1
SC E /1
où F = , suit la loi de Fisher à (1, n − 2) degrés de liberté.
SC R/(n − 2)
On comprend aisément que si la variance expliquée est faible et la variance résiduelle grande, alors F
sera faible. Une bonne régression devrait donc donner des variations expliquées élevées et des variations
résiduelles faibles. Un F élevé est donc souhaitable par rapport à F seui l . Dans la formulation suivante, on
voit bien que F tend vers l’infini quand R 2 tend vers 1 :
(n − 2)R 2
F=
1 − R2
Application sous Excel

Reprenons l’exemple précédent en utilisant l’utilitaire d’analyse d’Excel. Pour y accéder : Données >
Utilitaire d’analyse > Régression linéaire. Si l’onglet "Utilitaire d’analyse" n’apparait pas : Fichier > Options
> Compléments :
Cliquer sur "Atteindre. . . " en bas de la fenêtre puis cocher "Analysis ToolPak".
On régresse donc la rentabilité du portefeuille XXX sur l’indice de marché, et on obtient le rapport
détaillé suivant :
31
Commentons ce rapport de haut en bas :
• Coefficient de détermination multiple : dans le cas à deux variables, cela correspond simplement
au coefficient r de corrélation linéaire qui permet de mettre en évidence une liaison entre deux
types de séries de données statistiques. Vous pouvez aussi l’obtenir avec COEFFICIENT.CORRELA-
TION(B2:B6;C2:C6) ou PEARSON(B2:B6;C2:C6).
Remarque : dans le cas où il y a plusieurs variables explicatives, Excel proposera malgré tout un
coefficient de corrélation multiple égal à la racine carrée du R 2 , mais cela a peu de sens comme
nous l’avons vu précédemment.
• Coefficient de détermination R2 en B5 : il représente la part de variation expliquée par le modèle

dans la variation totale. Vous l’obtiendrez directement avec COEFFICIENT.DETERMINATION(B2:B6;
C2:C6).
• Coefficient de détermination R2 en B6 : correspond au coefficient de détermination R 2 ajusté, qui

dépend du nombre de variables explicatives.
r
SC R
• Erreur-type : c’est l’estimation de l’écart-type supposé constant des résidus, σ̂u = , mais on
n −2
ne s’étendra pas dessus.
• Tableau d’analyse de variance : on retrouve ici la SCE, SCR et SCT, avec leurs degrés de liberté
respectifs. Les moyennes des sommes des carrés en tenant compte des ddl sont également
indiquées, avec en premier SCE/1 puis SCR/(n-2).
Vérifions manuellement :
¡ ¢2 ¡ ¢2 ¡ ¢2
Observation y ŷ yi − y y i − ŷ i ŷ i − y
1 17,8 20,76 19,36 8,73 2,09
2 39 36,35 282,24 7,01 200,27
3 12,8 9,59 88,36 10,3 158,98
4 24,2 25,84 4 2,7 13,28
5 17,2 18,46 25 1,58 14,01
y 22,2 Total 418,96 30,33 388,63
• F en E12 : c’est le test de Fisher. En regardant dans la table p. 11 du mémorandum à v 1 = 1 et v 2 = 3,

on trouve une valeur seuil de 10,1 (ou INVERSE.LOI.F(0,05;1;3)). Avec F = 38,45 on rejette donc
largement l’hypothèse nulle : le lien observé est significatif. Cela est confirmé par la valeur critique
< 1%, en F12.
• α̂ en B17 : valeur de la constante (qu’on pourra retrouver en faisant ORDONNEE.ORIGINE(B2:B6;

C2:C6) ou E(Y) – β× E(X)). On peut voir qu’elle n’est pas significativement différente de 0. Sa
32
probabilité critique ou p-value est en effet de 70,14%. On a donc 70% de chance de se tromper
en rejetant l’hypothèse "H0 : α = 0". Autant dire qu’on ne rejette pas l’hypothèse nulle. Cela est
confirmé par la t -stat égale à −0, 42 ((α̂ − 0)/σ̂α̂ ), très loin de la valeur seuil à −2, 1318 pour un
niveau de confiance à 95% (cf. loi de Student à 4 ddl et p = 95% dans le mémorandum p. 8 ou
LOI.STUDENT.INVERSE.N(0,05;4)) si l’on considère un test unilatéral avec "H1 : α < 0", ou d’une
valeur seuil à 2,776 en valeur absolue si l’on considère un test bilatéral "H1 : α ̸= 0" (cf. loi de
Student à 4 ddl et α = 5% dans le mémorandum p. 7 ou en utilisant la fonction LOI.STUDENT.
INVERSE(0,05;4) ou LOI.STUDENT.INVERSE.BILATERALE(0,05;4)).
• β̂ en B18 : lorsque x varie d’une unité, y varie dans le même sens de 1,64 unités, toutes choses
égales par ailleurs. Ce coefficient beta (qu’on pourra également obtenir en faisant PENTE(B2:B6;
C2:C6) ou Cov(X,Y) / V(X)), est lui significativement supérieur à 0 à 99%. Sa t -stat = 6,20 est en
effet largement supérieure à la valeur t seui l = 3, 7469 (cf. loi de Student à 4 ddl et p = 99% dans le
mémorandum p. 8) d’un test unilatéral avec "H1 : β > 0". On rejette donc l’hypothèse nulle au profit
de l’hypothèse alternative.
• En C17 et C18 vous avez les erreur-types σ̂α̂ et σ̂β̂ des estimateurs α̂ et β̂. Une fois l’estimation
de la valeur y calculée, une question vient en effet naturellement : "Jusqu’à quel point peut-on
se fier à cette estimation ?". L’erreur-type de l’estimation répond à cette question en mesurant
la dispersion des points autour de la droite de régression : plus cette mesure est petite, plus
la prévision est susceptible d’être fiable. L’erreur-type permet donc de quantifier le degré de
variation
q (ouPerreur) possible associéq à une estimation obtenue à partir de la droite de régression.
σ̂α̂ = σ̂u /( i x i − nx ) et σ̂β̂ = x 2 × σ̂2α̂ + σ̂2u /n
2 2 2
• Enfin en colonnes F et G vous avez les intervalles de confiance des estimateurs α̂ et β̂. La t -stat à 3
ddl (n−k−1) et α = 5% est de 3,182 (cf. table p. 7 du mémorandum, ou LOI.STUDENT.INVERSE(0,05;
3)). L’IC est donc le coeff +/- t × erreur-type.
Remarque : Excel fournit par défaut un IC à 95% (colonnes F et G), puis un IC au niveau de confiance
spécifié (colonnes H et I, tronquées ici car ayant demandé 95%, on se retrouve avec deux fois la
même chose).
Enfin il y a la possibilité de cocher une case pour obtenir les résidus :
33
Lorsqu’on fait la somme des résidus, on trouve bien 0, et lorsqu’on ajoute les résidus au carré, on
retrouve bien SCR.
Remarque : avec DROITEREG(B2:B6;C2:C6;VRAI;VRAI) vous pouvez également obtenir certaines des

informations ci-dessus (attention, le beta est donné en premier, la constante ensuite).
IV. Le Modèle d’Évaluation Des Actifs Financiers

Le MEDAF, ou CAPM en anglais, est le modèle d’évaluation d’actifs le plus ancien et le plus connu.
Sous sa forme initiale, il se présente de la façon suivante :
E (r i ) = r f + βi · E r m − r f
¡ ¢
Il relie la rentabilité d’un titre i à la rentabilité du portefeuille de marché. Portefeuille de marché qui, à
l’équilibre, est le seul portefeuille efficient, c’est-à-dire offrant la meilleure rentabilité pour un niveau de
risque donné. Tous les investisseurs sont alors supposés détenir le portefeuille de marché, et leur attitude
face au risque ne s’exprime que dans la proportion de leur richesse qu’ils allouent entre ce portefeuille et
un emprunt ou prêt réalisé au taux sans risque.
Les investisseurs doivent donc être rémunérés pour tout investissement sur la durée, la valeur
temporelle de l’argent étant représentée par l’actif sans risque r f (par exemple les bons du trésor 1 mois),
et pour supporter un risque supplémentaire, le risque systématique, capturé par β. La rémunération pour
¡ ¢
ce risque de marché est donnée par la prime de risque de marché, E r m − r f . Le risque idiosyncratique,
quant à lui, pouvant être éliminé au moyen d’une diversification, ne requiert pas de rémunération. Cette
diversification on l’obtient en ajoutant des titres à son portefeuille, des titres qui soient imparfaitement
corrélés entre eux.
Le beta d’un titre représente sa sensibilité par rapport au marché :
• β = 1 signifie que le titre se comporte comme la Bourse ;
• β > 1 signifie que le titre réagit plus fort que le marché et doit donc être davantage rémunéré ;
• β < 1 signifie que le titre amortit les réactions de la Bourse, et par conséquent requiert une
rémunération moindre.
Il s’obtient donc en régressant les rentabilités de ce titre i , en excès du taux sans risque, sur les
rentabilités du portefeuille de marché, elles aussi en excès du taux sans risque, au cours d’une période
donnée. On peut également le calculer de la façon suivante :
Cov (r i , r m )
βi =
V (r m )
34
Rappel
Covariance
La covariance, Cov(X,Y), indique la façon dont deux variables aléatoires évoluent l’une par rapport à
l’autre. Si la covariance est positive, les deux variables évoluent dans le même sens. Si elle est négative,
elles évoluent l’une à l’inverse de l’autre.
Remarque : la variance n’est rien d’autre que la covariance de la variable avec elle-même : V(X) = Cov(X,X)
Corrélation
Le coefficient de corrélation, ρ(X , Y ), mesure l’intensité de la liaison entre deux variables aléatoires. Par
construction, la valeur de ce coefficient est toujours compris entre −1 et +1.
Cov(X , Y )
ρ(X , Y ) =
σ X σY
Le portefeuille de marché
Sur le plan pratique, il est d’usage de mesurer la valeur du portefeuille de marché en utilisant un
indice boursier regroupant toutes les actions du marché, pondérées par leur capitalisation boursière.
Supposons que les investisseurs n’incluent pas dans leur portefeuille un titre. La demande pour ce
titre étant nulle, son cours chute. Ce faisant, il devient plus attractif que les autres titres, ce qui incite
les investisseurs à l’inclure dans leur portefeuille optimal. À l’équilibre, tous les titres seront donc inclus
dans le portefeuille de marché, à proportion de leur valeur de marché (cours × nombre de titres en
circulation). La seule question est donc le prix auquel les investisseurs seront prêts à inclure un titre dans
leur portefeuille.
Test du MEDAF
La principale implication du MEDAF est qu’à l’équilibre, le portefeuille de marché est efficient (couple
rentabilité/risque optimal). Cette efficience du portefeuille de marché implique que :
− beta est le seul risque expliquant les rentabilités espérées ;
− la prime de risque de marché est significativement supérieur à 0.
Fama-MacBeth (1973) dérivent ainsi quatre conditions pour tester ces hypothèses :
• C1 : Avec des prêts et emprunt au taux sans risque, la rentabilité espérée des actifs zero-beta4 est
égale au taux sans risque, et la constante devrait être égale au taux sans risque, soit E (γ̃0,t ) = r f . De
façon équivalente, en utilisant les rentabilités en excès du taux sans risque, on teste E (γ̃0,t ) = 0.
• C2 : Un risque plus élevé devrait s’accompagner d’une rentabilité espérée plus élevée.
• C3 : La relation entre la rentabilité espérée d’un titre et la covariance avec le portefeuille de marché
est linéaire.
• C4 : Il n’y a pas d’autre mesure de risque que le beta du marché.

4 La rentabilité d’un titre n’est pas corrélée avec le marché (β = 0) lorsque la moyenne des covariances de ce titre avec les
rentabilités des autres titres compense exactement la variance des rentabilités de ce titre. Un tel actif risqué est alors considéré
comme sans risque au sens où il ne contribue en rien à la variance des rentabilités du marché.
35
Et de proposer la régression suivante en coupe transversale :
R i ,t = γ̂0,t + γ̂1,t · βi ,t −1 + γ̂2,t · β̂2i ,t −1 + γ̂3,t · s i ,t −1 (ê i ) + η̂ i ,t
où βi ,t −1 est le beta du titre i obtenu dans une régression temporelle, et s i ,t −1 représente l’écart-type des
résidus de cette régression.
Cette méthodologie se déroule donc en deux étapes :
1) Régressions en séries temporelles pour obtenir les β et s de chaque titre
2) Régressions en coupe transversale pour obtenir les primes de risque γ̂ à chaque date
Remarque : avec une régression en coupe transversale (dite aussi en coupe instantanée), on effectue
simplement une régression sur des données à un même instant t . Au lieu d’avoir par exemple les données
d’une seule entreprise à plusieurs dates dans le cas de séries temporelles, on considère les données de
plusieurs entreprises à une même date.
Les valeurs des coefficients de cette régression fournissent des indications fondamentales sur la
validité empirique du MEDAF :
• La constante γ̂0,t représente l’erreur d’évaluation (pricing error), c’est-à-dire la moyenne des
rentabilités en coupe transversale qui demeure non expliquée par le modèle. Si E (γ̃0,t ) = 0, alors
l’hypothèse C1 est confirmée par les données.
• γ̂1,t représente la prime de risque de marché et reflète la capacité du beta à expliquer les rentabilités
moyennes en coupe transversale. Si E (γ̃1,t ) > 0, alors les données valident l’hypothèse C2.
• γ̂2,t teste la linéarité de la relation entre rentabilités espérées et beta de l’hypothèse C3. Si E (γ̃2,t ) = 0,
alors l’hypothèse de linéarité n’est pas rejetée.
• Enfin, γ̂3,t indique si d’éventuelles mesures de risque contribuant systématiquement aux rentabilités
moyennes observées sont manquantes, en-dehors de beta (C4). Si γ̂3,t = 0, alors le beta du marché
est la seule mesure de risque.
V. Méthodes de Monte Carlo et Décisions d’Investissement Avancées

Travailler sur des équations de variables aléatoires peut très vite devenir trop complexe même pour
les esprits mathématiques les plus affutés. Ajouter deux variables aléatoires avex deux distributions
différentes donnera une variable aléatoire qui a encore une autre distribution. Parfois ne serait-ce
qu’ajouter deux variables aléatoires avec la même distribution donnera une distribution différente pour
la variable résultante. Ajouter à cela une structure de dépendance complexe et les pistes sont encore plus
brouillées. De toute évidence ce n’est pas impossible mais requiert beaucoup de calculs compliqués et de
savoir.
Appliquer les propriétés d’échantillonnage et observer les résultats des essais randomisés pour
résoudre la structure d’un modèle aléatoire ou déterministe n’est pas totalement nouveau. L’expérience
sur les aiguilles de George-Louis de Buffon (X V I I I e siècle) compte parmi les premiers exemples. Dans
ce jeu vous lancez aléatoirement des aiguilles de même longueur sur un parquet constitué de lames
36
parallèles de même largeur et compter les aiguilles qui tombent à cheval sur une rainure du parquet
permet d’approximer la valeur de π.
L’idée précise de la simulation de Monte Carlo est apparue au milieu du X X e siècle avec le projet
Manhattan sur les armes nucléaires. Stanislaw Ulam, un mathématicien polonais a eu l’idée originale,
en essayant de déterminer combien de mains d’un certain type pourraient être obtenues dans un jeu de
carte, et puis a travaillé dessus avec le brillant John von Neumann qui a sauté sur l’idée et programmé le
premier ordinateur (ENIAC) qu’il a développé pour effectuer la simulation. Cela a massivement accéléré
les calculs requis pour déterminer les premières armes nucléaires et l’essentiel de la physique nucléaire
moderne.
Les mathématiques sous-jacentes sont très basiques et simples (du moins pour des simulations
basiques) mais la puissance de la méthode lui permet d’être, conjointement avec les ordinateurs, un
élément extrêmement important du savoir moderne. Par exemple, la première (et probablement aussi
l’actuelle) itération du moteur de recherche de Google est basée sur Monte Carlo.
A. Le concept de Monte Carlo

Le nom Monte Carlo fait référence au casino à Monaco où l’oncle d’Ulam avait pour habitude de parier
(et perdre) des montants significatifs d’argent. Cela vient du fait qu’en jeu vous pourriez concevoir des
stratégies gagnantes de cette façon : imaginez un grand nombre de mains aléatoires, faites la moyenne des
résultats et vous obtenez un analogue de la distribution des gains/pertes pour votre stratégie en général.
La définition de "Monte Carlo" en statistiques n’est pas consensuelle et de nombreux auteurs différents
choisissent d’appliquer le nom à l’ensemble ou seulement une partie des méthodes basées sur les
propriétés d’échantillonnage pour les modélisations randomisées ou probabilistes. Cependant nous
pouvons décrire la façon d’être "en général" de telles méthodes comme :
• définir le domaine des inputs possibles
• définir la ou les distributions de probabilité de ces inputs
• générer aléatoirement une grande quantité d’inputs avec ces distributions sur ce domaine
• effectuer des calculs déterministes sur chacun de ces inputs
• agréger les résultats
En pratique la principale difficulté ici est la génération d’un nombre important d’inputs sur un
domaine donné suivant une distribution définie. Pour y parvenir nous avons besoin de la fonction
de répartition inverse de cette distribution. Cette fonction de répartition inverse renvoie, pour une
probabilité p donnée, le niveau X tel que P (x ≤ X ) = p. Nous savons que les probabilités résident, par
construction, entre 0 et 1. Par conséquent obtenir des nombres aléatoires uniformes entre 0 et 1 permet
d’obtenir des nombres distribués selon la fonction de répartition désirée, sur son domaine de définition.
C’est une des raison pour laquelle chaque langage de programmation ou logiciel avec une orientation
"calcul" incluera un ou plusieur générateurs de nombres aléatoires produisant des valeurs entre 0 et 1. La
qualité de la simulation de Monte Carlo reposera essentiellement sur le caractère aléatoire des nombres
entre 0 et 1 qui servent comme les "graines" ("seeds" en anglais) des échantillons aléatoires sur lesquels
se basent ensuite les calculs.
B. Exemple basique : déterminer la valeur de π

Nous savons que la surface d’un cercle de rayon r est A = πr 2 . Si nous considérons un cercle unitaire
(de rayon 1) et l’insérons dans un carré de côté 2, et regardons l’un des quadrants de ce "gros carré", nous
37
avons un carré unitaire dans lequel un quart du cercle unitaire est inscrit. L’aire du carré ordinaire est de
toute évidence A t = 12 = 1 et l’aire de la partie à l’intérieur du "quart de cercle" est A c = 14 π12 = π4 .
Chaque point dans ce carré unitaire aura ses coordonnées dans (1, 0)x(1, 0). Si nous générons deux
variables aléatoires, chacune entre 0 et 1, nous avons de facto généré un point aléatoire dans notre carré.
Nous pouvons obtenir un nombre aléatoire entre 0 et 1 sur Excel en utilisant la fonction "ALEA()" dans la
version française, ou "RAND()" en anglais. Faisons cela dans deux colonnes adjacentes.
Maintenant que nous avons généré les inputs, passons à la partie "calculs déterministes". Nous devons
déterminer pour chaque point s’il tombe à l’intérieur du quart de cercle ou en dehors. En supposant que
le centre du cercle unitaire soit au point (0,0) (on pourrait se placer à n’importe quel coin du carré mais
les calculs seraient un peu plus complexes), comment devrions-nous nous y prendre ? Eh bien, si on se
rappelle que l’équation d’un cercle est r = x 2 + y 2 , avec r le rayon, x et y les deux coordonnées de chaque
point, on peut voir que n’importe quel point pour lequel on dispose des coordonnées, si la somme des
coordonnées au carré est inférieure ou égale à 1, le point sera à l’intérieur ou sur le cercle, si la somme est
supérieure à 1, le point sera à l’extérieur du cercle.
Figure 1. Calculer π avec Excel
Utilisons donc la fonction "SI()" (ou "IF()" en anglais) pour avoir un 1 pour chaque point variable que
nous avons généré qui tombe à l’intérieur du quart de cercle unitaire et 0 autrement. La fonction pourrait
se lire "= SI(A12 + B 12 >= 1; 0; 1)" ou "= IF(A12 + B 12 >= 1, 0, 1)".
Á présent nous disposons d’une colonne de zéros et de uns qui proviennent des points générés
aléatoirement se situant à l’intérieur ou à l’extérieur du cercle unitaire. Puisque l’aire totale du carré
unitaire est 1 (12 , vraiment) et l’aire du quart de cercle unitaire est π /4 , si les points sont vraiment dispersés
de façon aléatoire dans notre carré unitaire, le ratio entre les points à l’intérieur (identifié par un "1" dans
notre dernière colone) et le nombre total de points aléatoires devrait être multiplié par 4 pour arriver à
une estimation de π.
C. Méthodes de Monte Carlo et décisions d’investissement améliorées

Lorsque l’on analyse une décision d’investissement, on regarde généralement la série des cash-flows
(flux de trésorerie) futurs, on les actualise, et ensuite soit on regarde la somme de ces cash-flows actualisés
pour obtenir la Valeur Actuelle Nette ou VAN (NPV en anglais) soit on essaie par diverses méthodes de
déterminer quel taux actualisé rendrait cette somme des cash-flows actualisés égale à zéro (c’est-à-dire
trouver le Taux de Rendement Interne ou TRI - IRR en anglais). Ces deux valeurs, comme l’indice de
profitabilité ou la période de payback (actualisé) sont souvent utilisés "tel quel".
Cependant, lorsque l’on considère cette situation, il y a clairement un problème. Le coût du capital ou
taux d’actualisation est connu même s’il est relativement difficile de l’estimer avec précision. Le premier
cash-flow, en t 0 est aussi plus ou moins bien défini, vu qu’il s’agit de l’investissement initial ou "CapEx"
38
(capital expenditure). Les cash-flows suivants, par contre, sont dans le futur et seulement plus ou moins
estimés. Tels qu’ils sont, on pourrait leur assigner différentes probabilités à différents niveaux. Cela ferait
clairement de ces cash-flows une série de variables aléatoires. Et clairement le niveau de la variance (ou
de façon équivalent l’écart-type) de ces variables augmenterait avec le temps : le premier cash-flow n’est
pas entièrement connu mais on peut être certain que la plupart des valeurs possibles seront proches
de la valeur moyenne (qui est généralement considérée comme "LA" valeur). Le cash-flow en année 5
par exemple sera typiquement très incertain vu qu’il est quasiment impossible de prévoir les conditions
économiques, politiques etc. qui prévaleront aussi loin dans le futur.
De plus, il pourrait y avoir différents niveaux de corrélation entre les différents cash-flows : si la
première année est un franc succès les objectifs de la seconde seront sans doute plus facilement atteints
que si cette première année a été difficile.
Par conséquent la VAN et le TRI (tout comme les autres indicateurs de performance statistiques) sont
de ce fait des variables aléatoires et en savoir plus que leur moyenne serait optimal. Un projet avec une
VAN (moyenne) de 5 millions pourrait avoir 45% de chance de finir avec une VAN négative et un autre
projet avec une VAN (moyenne) de seulement 3,5 millions pourrait avoir 90% de chance de se retrouver
en fait avec une VAN supérieure à 2 millions. Auquel cas le second projet est sans doute préféré malgré sa
VAN moyenne plus faible.
De façon à explorer ces propriétés de répartition (moments ou probabilité d’être positif etc.) de la
VAN ou du TRI, mener une simulation de Monte Carlo semble tout indiqué. C’est en particulier le cas si
nous voulons avoir différents niveaux ou types de variabilité pour les composants des cash-flows (certains
coûts peuvent être fixes, d’autres peuvent varier légèrement, et les ventes pourraient être très volatiles,
certains éléménts pourraient être bornés et forcés à être positifs ou inférieurs à un certain seuil...) ou la
dépendance entre les multiples années pourraient être grandement complexifiée. Indubitablement cela
requiert une simulation de Monte Carlo pour comprendre.
VI. Interpolation Linéaire

L’interpolation linéaire est une méthode simple, dans la lignée du produit en croix, pour déduire
une valeur. Alors que la règle de trois découle d’une relation linéaire (droite passant par l’origine),
l’interpolation linéaire va permettre une relation affine. S’il suffit d’observer un point pour déduire une
valeur avec le produit en croix, l’interpolation linéaire en nécessitera deux.
A. Interpolation linéaire : une relation affine

Supposons que l’on connaisse les valeurs prises par une fonction f en deux points x a et x c : f (x a ) = y a
et f (x c ) = y c
C
yc •
yb B
•
ya A
•
x
xa xb xc
39
D’après le théorème de Thalès, les côtés correspondants aux deux triangles ont des longueurs
proportionnelles :
xb − x a y b − y a
=
xc − x a yc − y a
Autrement dit, le ratio des différences dans une quantité est égal au ratio des différences correspondantes
dans une autre quantité.
Il en résulte :
yb − y a
x b = x a + (x c − x a ) ×
yc − y a
Ex : Une société considère un projet d’investissement dont les flux de liquidité sont les suivants :
Année 0 1 2
Flux −4 000 2 000 4 000
Le graphique ci-dessous trace la VAN en fonction de différents taux d’actualisation :
À partir des points A et B dont on connait les coordonnées, respectivement (0%,2 000) et (50%,−889),
on pourrait déduire par interpolation linéaire le TRI, le taux qui annule la VAN :
VAN(0%) = 2 000
VAN(50%) = −889
0 − 2 000
Soit 0% + (50% − 0%) × = 34, 62%
−889 − 2 000
Problème : on voit bien que ce taux est surestimé vu que la courbe de la VAN, en bleu, passe sous la
droite sécante (AB), et que le vrai TRI se situe par conséquent davantage autour de 28%.
Pour obtenir une estimation du TRI satisfaisante, il conviendra donc d’encadrer au plus près la vraie
valeur. Une interpolation linéaire à partir des VAN obtenues avec des taux de 25 et 30% donnera ainsi :
VAN(25%) = 160
40
VAN(30%) = −94, 67
soit un TRI interpolé de 28,14%, qui s’approche bien plus du vrai TRI qui s’élève à 28,08% d’après la
fonction Excel.
La VAN étant plus proche de 0 avec un taux de 30% que de 25%, un perfectioniste pourrait approcher
encore davantage la vraie valeur par interpolation en affinant par exemple à partir des valeurs suivantes :
VAN(27%) = 54,81
VAN(29%) = −45, 91
L’interpolation linéaire fait donc sens même en cas de fonction non linéaire quelconque, étant donné
que la courbure relative est proportionnelle à l’échelle. Avec deux points "très proches", l’approximation
linéaire sera par conséquent bonne. Et plus précisément, pour toute courbure d 2 f (x)/d x 2 , il existe un t
£ ¤
tel que le segment f (x), f (x + t ) peut être considéré linéaire pour un niveau d’approximation donné.
Autrement dit, la fonction f peut être approchée en tout point par une fonction affine tangente. Ceux qui
souhaitent aller plus loin pourront s’intéresser à l’algorithme de Newton-Raphson, et plus généralement à
celui de descente de gradient.
Les applications de l’interpolation linéaire sont multiples. Elle permettrait dans la même veine
d’approcher le délai de récupération du capital investi, ou payback en anglais, (temps au bout duquel le
montant cumulé des cash-flows, actualisés aux taux de rentabilité minimum exigé par l’entreprise, est
égal au capital investi), autrement dit le temps nécessaire pour commencer à rentabiliser l’investissement
initial.
Ex : En année 3 le cumul des CFs actualisés est de −33K€, et 46K€ en année 4. Le payback se situe
donc quelque part entre la 3e et la 4e année.
f(3) = −33
f(4) = 46
0 − (−33)
soit x = 3 + (4 − 3) × = 3, 42 soit 3 ans et 5 mois du fait d’un joli produit en croix :
46 − (−33)
1 an = 12 mois
donc 0,42 an = 0, 42 × 12/1 = 5,01 mois
On pourrait aussi utiliser l’interpolation linéaire pour approcher le quantile lors des tests d’hypothèses.
Ex : Mettons que l’on cherche le quantile de façon à avoir une probabilité de 1% d’être dépassé,
P (Z < z α ) = 0, 99, une lecture de la table de la loi normale donne :
f(2,32) = 0,9898
f(2,33) = 0,9901
z α − 2, 32 0, 99 − 0, 9898
Par interpolation linéaire, nous avons donc : =
2, 33 − 2, 32 0, 9901 − 0, 9898
0, 99 − 0, 9898
Soit z α = 2, 32 + (2, 33 − 2, 32) × = 2, 32637
0, 9901 − 0, 9898
La vraie valeur que l’on pourrait obtenir avec Excel, LOI.NORMALE.STANDARD.INVERSE.N(0,99), est
de 2,32635. L’approximation fournie par l’interpolation linéaire est donc tout à fait satisfaisante.
41
B. Produit en croix : une relation linéaire

Le fait que la droite passe par l’origine simplifie les calculs. Supposons que l’on connaisse la valeur
prise par une fonction f au point x a : f (x a ) = y a
y a yb
Nous avons le même rapport de proportion = qui correspond à la pente de la droite, β :
x a xb
yb B
•
β
ya A
•
x
xa xb
On cherche le point x b qui donne la valeur y b :
xa
xb = y b ×
ya
Ex : Combien reçoit en euros un exportateur qui a vendu pour 50 000$ US de biens, sachant que le
cours EUR/USD est actuellement de 1,0226 ?
La relation entre EUR et USD est linéaire, avec un coefficient directeur de 1,0226 :
42
1 EUR = 1, 0226 USD
??? EUR = 50 000 USD

L’exportateur reçoit ainsi 50 000 × 1/1, 0226 = 48 894, 97 euros.
Ex : Quel est le taux d’imposition d’une société dont le bénéfice avant impôts est de 640 M€ et le
montant d’impôts payé est de 256 M€ ?
f(100%) = 640
f(???) = 256
soit un taux d’imposition effectif de 256 × 100%/640 = 40%
43

Cours

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Droits d'auteur :

Formats disponibles

Méthodes Quantitatives Avancées

Grenoble Ecole de Management 1A ET- Finance 1

I. Variables aléatoires, Distributions, Moments et Risques... vers le Ratio de Sharpe et Au-delà 3

F. Aller plus loin que le ratio de Sharpe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

II. Tests d’Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

A. Test de comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

B. Test de conformité d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

C. Test de comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

III. Régressions Linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

IV. Le Modèle d’Évaluation Des Actifs Financiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

V. Méthodes de Monte Carlo et Décisions d’Investissement Avancées . . . . . . . . . . . . . . . 36

A. Le concept de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

B. Exemple basique : déterminer la valeur de π . . . . . . . . . . . . . . . . . . . . . . . . . . 37

C. Méthodes de Monte Carlo et décisions d’investissement améliorées . . . . . . . . . . . . 38

VI. Interpolation Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

A. Interpolation linéaire : une relation affine . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

B. Produit en croix : une relation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

• "Econometric Analysis", William H. Greene, Pearson

• "Basic Econometrics", Damodar Gujarati et Dawn Porter, McGraw-Hill

I. Variables aléatoires, Distributions, Moments et Risques... vers le Ratio de

De la même manière, le moment central d’ordre n sera :

et le moment normalisé d’ordre n :

où les x i sont les observations, N la taille de l’échantillon, m la moyenne échantillonnale et s l’écart-type

C.1. Signification des moments

• 1 : possibilité de perte ou préjudice ou,

• 4 : la chance qu’un investissement (telle qu’une action ou commodité) perdra de la valeur

F. Aller plus loin que le ratio de Sharpe

où x i est la i ème rentabilité de la série, T est la rentabilité cible, n le nombre d’observations, m la

De toute évidence l’estimateur discret/échantillonal équivalent serait :

II. Tests d’Hypothèses

− hypothèse principale (hypothèse nulle)

On cherchera donc à limiter l’erreur la plus grave.

Ainsi le choix de α conditionne la capacité du test à rejeter H0 :

• Si α est trop petit, on ne rejette que très rarement H0 (test conservatif )

Distribution sous H0 Distribution sous H1

Zone d’acceptation de H0 Zone de rejet de H0

Le risque β se calcule si la loi de la ST sous H1 est connue :

Distribution sous H0 Distribution sous H1

Zone d’acceptation de H0 Zone de rejet de H0

• Si pc ≤ α : rejet de H0 en faveur de H1 . En d’autres termes, les données sont incompatibles avec H0 .

La p-value est l’aire

Acceptation de H0 Rejet de H0 Acceptation de H0 Rejet de H0

Prenons l’exemple du test de conformité d’une moyenne :

− µ = valeur moyenne prise par ce caractère (inconnue)

− µ0 = valeur hypothétique de ce paramètre (connue) = la norme

On compare µ à µ0 en testant deux hypothèses alternatives :

− H1 = non respect selon 3 modalités :

L’hypothèse nulle sera acceptée lorsque :

− Si σ connu : Z ∈ [−z α/2 ; z α/2 ]

⇒ La zone de rejet de H0 se situe dans les deux queues de distribution :

⇒ La zone de rejet de H0 se situe dans une seule queue de distribution, à droite :

⇒ La zone de rejet de H0 se situe dans une seule queue de distribution, à gauche :

On pourrait aussi répondre à la question en estimant la probabilité critique. La probabilité critique

Statistique de test vs Intervalle de confiance

En réarrangeant, on ne rejette pas si :

Ce qui est exactement la règle de l’approche par intervalle de confiance.

P (−z α/2 < Z < z α/2 ) = 0, 95

⇒ Cf. table : z α/2 = 1, 96

Et on serait arrivé à la même conclusion en calculant la statistique de test :

Comme Z ∉ [−1, 96; 1, 96], on rejette H0 .

On détermine la distribution de l’estimateur, afin de juger de la probabilité de sa valeur.

Cette loi normale quelconque, on la normalise en la centrant et en la réduisant, de façon à l’exprimer en

A. Test de comparaison de deux moyennes

− µB = moyenne inconnue dans la population B