Académique Documents
Professionnel Documents
Culture Documents
Lahcen OULHAJ
Contact :
OCP Policy Center
Ryad Business Center – Aile Sud, 4ème etage
Mahaj Erryad - Rabat, Maroc
Tél : +212 537 27 08 08
Email : contact@ocppc.ma
Website : www.ocppc.ma
ISBN : 978-9954-9636-7-8
Dépôt Légal : 2017MO2006
ii
A propos d’OCP Policy Center
OCP Policy Center est un think tank marocain « policy oriented », qui a pour mission de contribuer
à approfondir les connaissances et à enrichir la réflexion autour de questions économiques et de
relations internationales revêtant un enjeu majeur pour le développement économique et social
du Maroc, et plus largement pour celui du continent africain. Porteur d’une « perspective du Sud
», sur les grands débats internationaux ainsi que sur les défis stratégiques auxquels font face les
pays émergents et en développement, OCP Policy Center apporte une contribution sur quatre
champs thématiques majeurs : agriculture, environnement et sécurité alimentaire; développement
économique et social ; économie des matières premières ; et géopolitique et relations internationales.
Sur cette base, OCP Policy Center est activement engagé dans l’analyse des politiques publiques
et dans la promotion de la coopération internationale favorisant le développement des pays du
Sud, via ses travaux de recherche, ses conférences et séminaires et son réseau de jeunes leaders.
Conscient que la réalisation de ces objectifs passe essentiellement par le développement du Capital
humain, le think tank a pour vocation de participer au renforcement des capacités nationales et
continentales en matière d’analyse économique et de gestion à travers sa Policy School récemment
créée.
www.ocppc.ma
A propos de l’auteur
Lahcen Oulhaj est depuis le 22 février 2011, Membre du Conseil Economique, Social et
Environnemental (CESE). Il est également président de la commission de l’analyse de la
conjoncture au sein du même conseil. En parallèle, Oulhaj est professeur de sciences économiques,
poste qu’il occupe depuis 1990, à l’université Mohamed V de Rabat-Agdal. Il enseigne aujourd’hui
la philosophie en licence de science politique, l’économétrie et l’économétrie des données de
panel ainsi que l’optimisation dynamique en master de sciences économiques, les méthodes
quantitatives en master de science politique, et la politique économique en master des échanges
euro-méditerranéens. Il a enseigné à la Faculté de Droit de Casablanca avant de rejoindre celle
de Rabat.
Il a été Doyen de la Faculté des sciences juridiques, économiques et sociales de l’université
Mohamed V de Rabat-Agdal de janvier 2005 à septembre 2013. Il a été Chef du département
de sciences économiques dans le même établissement entre 2000 et 2002. Il a aussi été membre
de la Commission de la révision constitutionnelle mars-juin 2011. Nommé par le Roi au conseil
d’administration de l’Institut royal de la culture amazighe (IRCAM) en juin 2002, il reste membre
de ce conseil d’administration jusqu’en juin 2010.
Lahcen Oulhaj, titulaire du Doctorat d’état en sciences économiques en janvier 1995 et responsable
du Laboratoire d’Economie Appliquée à la faculté de Droit de Rabat, a réalisé et encadré plusieurs
projets de recherche pour FEMISE, depuis 1999 (membre du Streering Committee), plusieurs
articles publiés dans différentes revues, et a encadré un grand nombre de thèses. Chercheur sur les
questions politiques, linguistiques et anthropologiques, il a publié un manuel d’économie en 1985,
un livre de grammaire amazighe en 2000, et Vocabulaire de l’amazigh moderne, en 2013.
Abstract
Linear algebra
Systems of linear equations and matrix transformation
Calculus
Ordinary differential equations
Probability and mathematical statistics
Random variables
Asymptotic theory
Variational calculus
Préface
Ce manuel est destiné aux étudiants des Masters de sciences sociales et, en par-
ticulier, de sciences économiques. Il peut être utile aux étudiants de licence voulant
approfondir ce qu’ils ont appris dans ce cycle, en vue de se préparer au cycle sui-
vant. Il peut également servir aux enseignants d’économie voulant réviser des notions
oubliées, faute d’utilisation, ou, carrément, découvrir des chapitres mathématiques
nouveaux, comme les systèmes linéaires d’équations ou le calcul des variations, qu’ils
n’ont jamais rencontrés durant leurs études.
Le présent livre commence par rappeler les notions d’algèbre matricielle, norma-
lement, programmée en licence de sciences économiques.
Le chapitre 2 constitue un prolongement naturel du premier, en algèbre linéaire. Il
propose l’étude des systèmes linéaires d’équations et les transformations de matrices,
pour traiter de la décomposition des matrices, devenue un outil couramment utilisé
en économétrie des séries chronologiques et des données de panel.
Le chapitre 3 reprend le calcul différentiel et intégral de licence et l’approfondit
pour déboucher sur le calcul fractionnaire, resté longtemps à la marge des études
mêmes de mathématiques. Ces notions de dérivées ou intégrales, en fait différinté-
grales, d’ordres fractionnaires, en fait réels, sont de plus en plus utilisées en économie,
notamment par les économistes de la London School of Economics, qui ont développé
le modèle ARFIMA, F pour fractionnaire. Ces notions sont particulièrement utiles
en économétrie financière.
Le chapitre 4 traite des équations différentielles ordinaires, lesquelles sont deve-
nues indispensables dans l’étude des systèmes dynamiques en économie. On sait que
la macroéconomie servant de cadre aux politiques économiques (conjoncturelles) est
devenue dynamique, depuis les travaux des économistes du cycle réel des affaires
(Finn E. Kydland et Edward C. Prescott, entre autres) au début des années 1980.
Ce modèle du cycle réel (RBC model), après avoir intégré des apports keynésiens et
monétaristes, est devenu le modèle DSGE (Dynamic and Stochastic General Equi-
librium), qui constitue l’outil privilégié de la conduite de la politique monétaire, à
travers le monde, au moins jusqu’en 2008.
Le chapitre 5 rappelle et approfondit les cours de licence sur les statistiques et
probabilités. Il présente toutes les lois discrètes usuelles.
Le chapitre 6 prolonge le chapitre précédent en approfondissant l’étude des lois
v
usuelles et variables continues uni et multidimensionnelles. Il présente également la
fonction génératrice des moments, ainsi que les fonctions d’une variable aléatoire
continue.
Le chapitre 7 présente des éléments de la théorie statistique asymptotique, les
moments empiriques et les distributions empirique et théorique. Il traite également
des notions, très utiles à l’économiste statisticien, de convergence et les théorèmes
fondamentaux de statistique.
Le dernier chapitre 8 introduit l’optimisation dynamique qui est au cœur de
l’analyse économique et s’attarde quelque peu sur le calcul des variations, resté depuis
Newton, Euler et Lagrange, le seul outil de résolution des problèmes d’optimisation
dynamique, jusqu’aux années 1950 qui ont vu l’élaboration du principe du maximum
du russe Pontryaguine et de la programmation dynamique de l’américain Richard
Bellman.
vi
Prologue
1. Stigler, G., Stigler, S., Friedland, C. The Journals of Economics, Journal of Political Economy,
105(2), 1995, pp. 331–59.
vii
Malthus considère que la réalité économique est complexe et changeante et que
les modèles théoriques et les cadres conceptuels généraux ne peuvent pas en rendre
compte. Ricardo, par contre, considère que des modèles simples peuvent représenter
des phénomènes complexes différents.
Cette dispute entre Ricardo et Malthus a été suivie d’une autre controverse entre
Walras et Edgeworth, en 1891, et elle sera ressuscitée dès le début du 20ème siècle
pour en dominer la première moitié.
La controverse qui a opposé Léon Walras (1834-1910) et Francis Ysidro Edge-
worth (1845-1926) porte sur le degré d’utilisation des mathématiques en économie.
Walras considère que les mathématiques sont l’expression naturelle du raisonnement
économique. Edgeworth et Alfred Marshall (1842-1924), en revanche, considèrent que
le raisonnement déductif est essentiel, mais il ne constitue pas le mode de raisonne-
ment de l’économiste.
Plus tard, Vilfredo Pareto (1848-1923), va adopter la position de Alfred Mar-
shall et d’Edgeworth et va critiquer cette utilisation des mathématiques en économie
en considérant qu’elle donne une apparente rigueur au raisonnement, alors que les
prémisses peuvent être douteuses.
Il y a eu aussi la dispute entre les deux grands économistes britanniques Francis
Ysidro Edgeworth et Alfred Marshall, eux-mêmes. Le principal ouvrage du premier en
économie est “Mathematical Psychics : An Essay on the Application of Mathematics
to the Moral Sciences ”, publié en 1881. William Stanley Jevons (1835-1882) et son
élève, Alfred Marshall, saluent la publication, même si ce dernier estime que l’ouvrage
nécessitait encore du travail dur pour le rendre plus simple à la lecture.
La position très critique de Marshall à l’égard de l’utilisation des mathématiques
en économie est résumée par un célèbre paragraphe de sa lettre à Arthur Bowley, en
1906, où il dit : “ But I know I had a growing feeling in the later years of my work
at the subject that a good mathematical theorem dealing with economic hypotheses
was very unlikely to be good economics : and I went more and more on the rules—
(1) Use mathematics as a short-hand language, rather than as an engine of inquiry.
(2) Keep to them till you have done. (3) Translate into English. (4) Then illustrate
by examples that are important in real life. (5) Burn the mathematics. (6) If you
can’t succeed in 4, burn 3. This last I did often.” Il ajoute, dans la même lettre, la
terrible phrase qui suit : “ And I think you should do all you can to prevent people
from using Mathematics in cases in which the English language is as short as the
Mathematical.”
John Maynard Keynes (1883-1946) a eu comme professeur, Alfred Marshall, qui
a beaucoup fait pour qu’il devienne économiste. Keynes ne va pas tarder à adopter
la position de son maître à l’égard de l’utilisation des mathématiques en économie,
alors que sa thèse, publiée en 1921, a porté sur la théorie des probabilités.
Déjà dans sa Théorie générale (1936), il écrit que l’utilisation des mathématiques
en économie empêche l’économiste de voir la complexité et les interdépendances du
monde réel dans des symboles prétentieux et d’aucun secours. En 1938, il écrit à
Roy Harrod que la conversion d’un modèle économique en formule détruit son utilité
comme instrument de pensée.
Lorsque la “Société d’économétrie, société internationale pour l’avancement de
viii
la théorie économique dans sa relation avec les statistiques et les mathématiques
”, a été créée en 1930, en Amérique, par les jeunes économistes rassemblés par le
norvégien Ragnar Frisch qui pensait, comme le nom de la Société l’indique, que
les mathématiques et les statistiques étaient essentielles pour procurer rigueur et
capacité de prédiction à l’économiste, Keynes réagit vigoureusement en ciblant le
jeune économiste hollandais Jan Tinbergen (1903-1994). Ce dernier venait de publier,
en 1939, un traité majeur sur la mise à l’épreuve statistique des théories du cycle des
affaires, dans le cadre des travaux du National Bureau of Economic Research.
La critique détaillée adressée par Keynes, en 1939, à Tinbergen, visait son ap-
proche économétrique. La première critique considère que toutes les variables explica-
tives ne peuvent être prises en compte. Il y a donc omission de variables et mauvaise
spécification du modèle, chez Tinbergen. Keynes considère que la régression ne peut
être ainsi que partielle et biaisée. La deuxième critique de Keynes visait la linéarité
et la normalité supposée par Tinbergen. Keynes critique aussi le choix du nombre de
retards dans le modèle. Il considère que quand bien même le modèle est bien spéci-
fié, les hypothèses a priori diffèrent d’un statisticien à un autre et conduisent à des
conclusions différentes, et qu’il n’y a donc pas moyen d’obtenir la vérité objective et
non ambigüe. Keynes compare l’économétrie à l’alchimie.
Tinbergen répond à Keynes par un plaidoyer pour l’utilisation des mathématiques
en économie. Il adopte une position empiriste en considérant que la preuve peut
guider la recherche de la vérité.
La position de Keynes est calquée sur celle d’Alfred Marshall qui considère que
“les faits, en eux-mêmes, ne parlent pas” et qu’ils nécessitent toujours des hypothèses
a priori. Leur opposition aux mathématiques ne provient pas de l’empirisme qu’ils
rejettent. Pour eux, le raisonnement est essentiel et il doit être verbal et non mathé-
matique. C’est ce que pensaient aussi Smith, Ricardo, John Stuart Mill, Schumpeter
et Friedrich von Hayek (et l’école de Vienne, presque dans son ensemble).
Les arguments de Keynes sont forts. Ils ont d’ailleurs été pris en compte dans le
développement des techniques économétriques au cours des années 1940 et 1950. Ce-
pendant, l’instabilité des relations économiques évoquée par Keynes dans sa critique
de l’économétrie n’est pas recevable, du moins en macroéconomie, car la variabilité
des comportements individuels n’influence que marginalement les comportements
moyens des populations. C’est que le comportement de l’ensemble est plus que la
somme des comportements individuels, il y a comme une sorte d’émergence, dans
le passage de la microéconomie à la macroéconomie. C’est là l’origine du problème
d’agrégation posé par Edmond Malinvaud (1923-2015) 2 et ignoré par Keynes. Ce
dernier prétend faire de la macroéconomie, d’où le titre de son ouvrage en 1936,
mais son traitement des fonctions d’investissement et surtout de consommation est
microéconomique. Et, en microéconomie, domaine de Marchall aussi, l’instabilité est
perceptible. Nous reviendrons plus tard à cette question importante.
Durant la seconde moitié du 20ème siècle, l’économétrie et l’économie mathéma-
tique vont dominer, comme l’on a vu, dans l’enseignement économique des grandes
universités internationales, comme dans la recherche économique.
2. Edmond Malinvaud, Théorie macroéconomique, 2 tomes, Editions Dunod, 1981–1982. Malin-
vaud a posé ce problème d’agrégation dans les modèles input-output, dès 1954.
ix
Dans le domaine des sciences physiques, la découverte de la double nature de
la lumière et du rayonnement donna lieu à des disputes violentes entre les tenants
de la physique classique déterministe, Einstein, Podolsky et Rosen et les défenseurs
de l’esprit de l’école de Copenhague, Bohr, Planck, de Broglie, Pauli, Heisenberg,
Schrödinger, Dirac . . . Les premiers refusaient l’incertitude de Heisenberg, l’action à
distance et considéraient que le chat de Schrödinger ne pouvait être que soit bien
mort, soit bien vivant. On connaît la formule célèbre d’Albert Einstein, selon laquelle
“ Dieu ne joue pas aux dès ”. Mais l’on connaît aussi la réponse de Bohr : “ ce n’est
pas à toi, Einstein, de dire à Dieu ce qu’il doit faire ” !
Le test de Bell semble avoir tranché en faveur de Bohr, et la physique quantique
a continué triomphalement son chemin, depuis.
Aujourd’hui, les sciences sociales, représentées par l’économie, et les sciences phy-
siques semblent avoir convergé vers le même paradigme épistémologique 3 . Pour une
fois, l’économie a quelque peu précédé la physique dans la modélisation stochastique.
Il est vrai que la physique classique déterministe utilise les mathématiques depuis
Galilée et Newton. Il est vrai que les succès indéniables de la mathématisation de la
physique ont exercé une fascination sur les économistes. Il y a eu ce qu’on pouvait
appeler une envie de physique en économie. Plusieurs économistes ont cédé à cette
envie et ont développé l’économie mathématique. Mais, les lois économiques n’étant
pas déterministes, la mathématisation ne pouvait pas emporter le consensus et l’on a
vu l’opposition à ce mouvement par de grands économistes. Maintenant que la phy-
sique, elle-même, est devenue probabiliste, la mathématisation de fait de l’économie
semble être acceptée partout.
Ce paradigme épistémologique vers lequel ont convergé les sciences physiques et
l’économie, au 20ème siècle ne peut pas être le paradigme aristotélicien. Nous avons
vu que la philosophie de la connaissance d’Aristote correspond à l’empirisme, c’est-à-
dire à la connaissance sensible : Nous accédons à la réalité par le moyen de nos sens.
On sait aussi que Aristote a rejeté la distinction platonicienne entre l’âme et le corps,
en considérant que la première est faite pour le second et que les deux ne font qu’une
seule substance, c’est-à-dire que l’âme ne survit pas à la dissolution du corps. Mais, il
reconnaît tout de même l’existence de la plus noble partie de l’âme, immortelle qu’il
appelle l’intellect-agent qui est unique pour tous les hommes. Aristote a également
rejeté la théorie platonicienne des formes ou des idées. Si bien que, pour lui, toute
connaissance dérive, en définitive, de la sensation.
Cet empirisme aristotélicien ne pouvait convenir qu’aux sciences naturelles d’an-
tan, lesquelles excluaient les mathématiques qui menaient leur vie séparément. Les
mathématiques existaient-elles en dehors de nos esprits ? Etaient-elles découvertes
ou inventées ? Les mathématiciens étaient divisés là-dessus.
Aujourd’hui, la physique et les mathématiques ont largement fusionné. La réalité
physique se confond avec ce qu’en disent les mathématiques. L’empirisme n’est plus
de mise. Le retour à Platon est inévitable. Pour lui, la connaissance c’est l’accès
aux formes et la connaissance sensible n’est pas une vraie connaissance. Les sens
ne permettent d’accéder qu’à l’apparence des choses. En effet, nos sens sont très
3. Collectif sous la direction de Michel Bitbol, Théorie quantique et sciences humaines, CNRS
Editions, Paris, 2009.
x
imparfaits : on ne voit avec nos yeux qu’une partie négligeable de la réalité, on
n’entend qu’une infime partie des vibrations existantes . . . La réalité accessible par
les sens est changeante et chaotique. C’est avec notre esprit que nous ordonnons,
nous classons et surtout nous réduisons les objets à l’essentiel pour les grouper,
en faisant abstraction des différences entre les individus. C’est avec notre esprit
que nous accédons aux formes, c’est-à-dire aux classes immuables, c’est-à-dire aux
mathématiques qui constituent la véritable connaissance, la réalité intelligible.
On sait que pour Platon, la vraie connaissance est la connaissance intellectuelle.
Elle consiste à voir dans les objets particuliers, ce qu’il y a de général. Ces idées
ou ces formes, existent- elleshors de l’esprit ? Platon répond par l’affirmative. Elles
sont éternelles et immuables, et l’âme immortelle, avant son union au corps, se trou-
vait dans le monde intelligible des idées. L’esprit en conserve des images et l’âme
contemple donc les idées par l’intermédiaire des sens. Donc, pour atteindre le réel, il
faut commencer par sacrifier ce qui nous semble être réel, s’arracher à l’emprise de
l’apparence, à la recherche de la vérité scientifique et du bonheur.
S’il est difficile de suivre Platon sur cette théorie de la réminiscence, il est aisé de
le faire pour ce qui est de l’existence d’un monde des mathématiques séparé de notre
monde mental et du monde physique. C’est ce que fait le grand savant contemporain
Roger Penrose 4 . Ce dernier présente, dans son livre, une démonstration convaincante
de l’existence séparée et indépendante de ce monde des mathématiques, en disant
que “ la précision, la fiabilité et la cohérence nécessaires à nos théories scientifiques,
exigent quelque chose qui aille au-delà de n’importe lequel de nos esprits individuels
”, lesquels “ sont imprécis, peu fiables et incohérents dans leurs jugements”. Penrose
pose la question de comment savoir que quelqu’un raisonne ou déraisonne si l’on n’a
pas une norme extérieure, un monde objectif et transcendant nos subjectivités.
Le grand philosophe Immanuel Kant (1724-1804) a pratiquement repris la théorie
platonicienne de la connaissance en considérant que la connaissance sensible est im-
possible, en ce sens que les objets en soi nous sont totalement inaccessibles. Il reprend
la distinction entre objet et forme. La forme accessible par les sens est l’espace et celle
accessible par la conscience est le temps. Il adopte une position intermédiaire entre
l’empirisme de Hume et l’innéisme de Descartes. Toutefois, la physique moderne,
tant la relativité générale d’Einstein que la physique quantique mettent à mal cette
théorie des formes de Kant. Platon demeure la référence en matière de philosophie de
la connaissance. C’est sous son paradigme épistémologique que s’unifient les sciences
naturelles et les sciences sociales. La mathématisation de l’économie en constitue un
corollaire. Et le consensus semblait acquis autour de cela depuis le milieu du siècle
dernier.
Cependant, en novembre 2008, la Reine Elisabeth II rend visite à la London
School of Economics et interroge les professeurs d’économie de la prestigieuse insti-
tution sur la raison pour laquelle les économistes n’ont pas prédit la crise financière
et économique mondiale qui venait de se déclencher en Amérique et qui avait touché
l’Europe et l’ensemble de la planète. La question royale relance la controverse autour
de l’utilisation des mathématiques en économie.
En juin suivant, une conférence fut organisée par l’Académie britannique, autour
4. Roger Penrose, à la découverte des lois de l’univers, éditions Odile Jacob, Paris, 2007.
xi
de la question de la Reine. Une lettre, en guise de résumé de la réponse apportée par
la conférence, lui a été envoyée, le 22 juillet 2009, par les professeurs Tim Besley et
Peter Hennessy de cette Académie.
La lettre affirme que plusieurs personnes ont prédit la crise. Mais, les prédictions
ne précisent ni la forme, ni le moment, ni la gravité de la crise. Elle considère que
la prédiction du moment de la crise est essentielle pour l’action politique préventive.
Il y a eu des avertissements sur les déséquilibres dans les marchés financiers et dans
l’économie mondiale. La réponse des professeurs rappelle les avertissements de la
BRI et de la Banque d’Angleterre. Mais, les risques systémiques ne pouvaient pas
être vus.
Elle rappelle qu’avant la crise, il y a eu une période de croissance mondiale sans
précédent, laquelle croissance a enregistré une amélioration des niveaux de vie de
millions de personnes dans les pays pauvres et, particulièrement, en Chine et en
Inde. Mais, cette prospérité a provoqué un excès d’épargne globale. Ceci a conduit
à des rendements bas pour les investissements sûrs de long terme. Cette situation a
amené les investisseurs à chercher une rentabilité plus grande au prix de plus grands
risques. Les Etats-Unis, comme le Royaume Uni ont bénéficié de cette montée de la
Chine qui a abaissé les coûts de beaucoup de biens que ces pays achètent et profité
de l’accès au capital dans le système financier. Il est ainsi devenu facile pour les
ménages et entreprises d’emprunter. Mais, cela a conduit à une hausse des prix des
logements. Et plusieurs ont lancé des avertissements à ce sujet. Toutefois, contre les
avertissements, les gens font confiance aux banques et considèrent qu’elles savent ce
qu’elles font. Il existait aussi une croyance ferme que les marchés financiers avaient
changé et les politiques étaient fascinés par ces marchés. Ces vues ont été renforcées
par les modèles économiques et financiers dont les prédictions des petits risques à
court terme étaient bonnes. Personne n’acceptait cependant qu’il pût se tromper. Il
y avait un sentiment général que tout allait bien, une sorte de déni et d’illusion. On
pensait qu’on pouvait toujours traiter les conséquences de l’éclatement d’une bulle,
comme celle des dot.com au tout début du siècle présent. En plus, l’inflation était si
basse qu’on ne pouvait pas saisir que l’économie était surchauffée. On pensait que
les autorités monétaires ne devaient s’occuper que de prévenir l’inflation et qu’elles
ne devaient pas s’occuper de contrôler les déséquilibres de l’économie.
La lettre met le doigt sur ce qui n’allait pas : chacun pensait agir correctement et
l’échec était collectif, au niveau duquel aucune autorité n’était en charge. Les petits
risques individuels étaient vus, mais les grands risques systémiques ne l’étaient pas.
En résumé, la réponse à la question royale affirme que l’incapacité de prédire le
timing, la gravité et l’étendue de la crise et de la juguler est l’échec de l’imagination
collective à comprendre les risques du système dans son ensemble.
Par ailleurs, pour expliquer la crise financière et économique de 2008, certains
analystes ont accusé la nature des modèles mathématiques utilisés dans les marchés
financiers. Mais, personne n’a remis en question la mathématisation elle-même, de
l’économie et de la finance.
En revanche, dans nos universités marocaines, cette controverse autour de l’uti-
lisation des mathématiques en économie n’a jamais cessé. C’est que l’enseignement
de l’économie au Maroc, comme dans beaucoup d’universités françaises, est resté en
xii
dehors du courant mondial dominant. La plupart des professeurs, étant eux-mêmes
formés dans une économie marxisante, faisant davantage du matérialisme historique
que de l’analyse économique positive, ont entretenu un enseignement de discours plu-
tôt littéraire dans nos universités. Et, à chaque fois que des professeurs formés dans
des universités anglo-saxonnes, pour la plupart, tentaient soit de sortir de la forma-
tion idéologique partisane ou d’introduire un formalisme plus ou moins mathématisé,
on assistait à une levée de boucliers.
Dans ce prologue, nous essayons de montrer l’utilité et la nécessité d’un enseigne-
ment, de bon niveau, des mathématiques aux étudiants de sciences économiques. Il
s’agit, pour nous, de légitimer le contenu du présent ouvrage destiné aux étudiants
de Master en sciences économiques.
Cette légitimation nous semble nécessaire dans la mesure où certains étudiants
nous posent ouvertement ces questions d’utilité et de nécessité des mathématiques
pour les sciences économiques. Il faut dire que même certains enseignants d’économie
sont opposés, sinon à l’enseignement des mathématiques, du moins à l’enseignement
de ce qu’ils appellent les mathématiques pures. Ils demandent à ce que seules les
mathématiques “appliquées”, genre mathématiques financières, soient enseignées en
licence de sciences économiques.
Pour défendre l’utilisation des mathématiques en économie et légitimer le contenu
du présent ouvrage, nous présentons ci-après une argumentation plutôt pragmatique,
en donnant la parole à deux professeurs, Gregory Mankiw (né en 1958) et le grand
économiste néoclassique Irving Fisher.
Un étudiant de Bachelor en économie à l’université de Michigan, pose, le 15 sep-
tembre 2006, au professeur Gregory N. Mankiw de l’université de Harvard, sur son
blog (Greg Mankiw’s blog, Random Observations for Students of Economics), la ques-
tion suivante : “les économistes, utilisent-ils réellement toutes ces mathématiques ?” “
Les économistes du FMI et de la Banque mondiale, utilisent-ils les mathématiques ?
” Evidemment, à non pas douter, la question qui est derrière est “pourquoi vous nous
enseignez autant de mathématiques”.
La réponse de Mankiw (auteur du célèbre manuel de Macroéconomie) à la ques-
tion est de savoir pourquoi nous, universitaires, voulons que les étudiants en écono-
mie, aient un bon niveau en mathématiques. Il avance 5 raisons à cela.
i- Tout économiste a besoin d’une formation solide en théorie économique et en
économétrie et, pour cela, il a besoin de comprendre le langage mathématique
utilisé par cette théorie économique et par l’économétrie ;
ii- Dans la vie professionnelle, pour lire la littérature économique académique
relative à la politique économique, on a besoin de mathématiques utilisées
abondamment par cette littérature ;
ii- Les mathématiques sont un bon entrainement pour l’esprit. Cela fait de vous
un penseur rigoureux ;
iV- Pour mesurer le degré d’intelligence (IQ), les mathématiques sont privilégiées ;
v- Les programmes de sciences économiques cherchent à former les étudiants
davantage pour la recherche scientifique que pour l’activité professionnelle.
Nous, enseignants, enseignons donc ce que nous savons pour ce que nous
xiii
faisons. Nous ne sommes pas nécessairement versés dans ce que font les pra-
ticiens. Ces derniers, n’ont-ils pas besoin d’autant de mathématiques ? Cela
est possible. Mais, si un étudiant veut faire un doctorat et donc aller vers
l’enseignement et la recherche, il a intérêt à avoir une formation solide en
mathématiques.
Avec les mathématiques, on apprend donc la précision et on évite les contra-
dictions et l’incohérence dans le raisonnement. Rien que pour cela, il ne faut pas
hésiter à apprendre les mathématiques. Mais, si l’on veut être économiste et com-
prendre ce qu’écrivent les pairs dans les revues, on ne pourra pas faire l’économie
d’une formation solide en mathématiques.
Irving Fisher (1867-1947), considéré par Joseph Schumpeter, James Tobin et
Milton Friedman, comme le plus grand économiste américain de tous les temps, a
été formé par le physicien théoricien Willard Gibbs (1839-1903) et par le sociologue
Graham Sumner, qui ont codirigé sa thèse de doctorat. Il a fait des contributions
majeures aux théories néoclassiques de l’utilité et de l’équilibre général. Sa thèse,
soutenue à Yale, en 1892, a porté sur les “recherches mathématiques sur la théorie
de la valeur et des prix”.
Irving Fisher a été président de l’association américaine d’économie en 1918. Il a
participé à la fondation de l’association d’économétrie en 1930 et a été son premier
président. En 1929, il a été choisi par l’association américaine de mathématiques
pour donner la 17ème conférence Josiah Willard Gibbs.
Dans sa conférence, donnée le 31 décembre 1929, Fisher commence par exprimer
sa vénération pour J. Willard Gibbs, dont il était élève quarante ans auparavant.
Il explique que c’était par accident qu’il est passé de la physique théorique et des
mathématiques à l’“application des mathématiques aux sciences sociales ”, sujet choisi
pour sa conférence. Il précise tout de même que son enthousiasme pour la conférence
ne lui vient pas uniquement de sa vénération pour Gibbs, que Lord Kelvin et d’autres
considèrent comme le Sire Isaac Newton de l’Amérique. D’autres savants placent le
thermodynamicien Gibbs au rang de Newton, Lagrange et Hamilton.
Pour donner des éléments d’explication de tant de vénération pour Gibbs, I. Fi-
sher affirme que son maître essaie toujours de placer son raisonnement à un niveau
général et d’obtenir le maximum de résultats à partir d’un minimum d’hypothèses.
Gibbs a toujours considéré que “le tout est plus simple que ses parties”, ajoute Fi-
sher. Il considère que nous devons toujours commencer par essayer de résoudre le
cas général. Les cas particuliers en découleront. Il n’y a donc pas besoin de faire des
expériences. Il faut se contenter de faire des déductions à partir d’anciens résultats
généraux. Gibbs élabora ainsi l’analyse vectorielle en simplifiant le système des qua-
ternions de Hamilton, en s’inspirant de Grassmann. Fisher précise que Gibbs était
mathématicien, mais ne s’intéressait pas tant aux mathématiques en tant que telles,
mais à leurs applications ; non pas tant à la forme, mais à la substance.
Fisher a été formé en mathématiques, ou, plus exactement, en applications des
mathématiques, en méthodes géométriques et en analyse vectorielle, par Gibbs, et
initié aux sciences sociales par le sociologue Sumner. Il applique ces méthodes dans
sa thèse. Il déplore le fait qu’il y ait peu de monde formé dans les deux champs,
comme lui et le norvégien Ragnar Frisch qui ne pouvait plus se passer de l’analyse
xiv
vectorielle. Fisher souhaite que l’utilisation de cette analyse se développe en sciences
sociales, au moins comme support et vecteur de la pensée.
Fisher affirme que le calcul différentiel et intégral était utilisé par les économistes
mathématiciens et statisticiens. Mais, les mathématiques ainsi utilisées demeurent
élémentaires, à ses yeux, car, dit-il, il existe un proverbe cité par Gibbs qui dit que
“le cerveau humain n’a jamais pu inventer une machine à rendement de travail aussi
élevé que celui de l’algèbre”.
Dans sa conférence, Fisher cite les quatre domaines de science sociale auxquels
les mathématiques ont été, ou ont pu être, appliquées. Il s’agit de :
i- L’économie pure ;
ii- Le lissage des séries ou l’ajustement de courbes (régression) ;
iii- La corrélation ;
iv- Les probabilités.
Il passe en revue les principaux travaux effectués dans ces champs, y compris les
siens. Il évoque les contributions majeures de Cournot, d’Edgeworth, de Marshall et
de Jevons, sans oublier Walras et Pareto, Pantaleoni et Baroni ainsi que Wicksell. Il
évoque également ses contemporains, d’abord américains, comme Henry Moore, J.
H. Rogers, C. F. Roos, C. Evans, H. Schultz, H. Hotelling et, ensuite, non-américains,
comme J.M. Keynes, Pigou et plusieurs autres économistes de France, d’Allemagne,
de Scandinavie et d’ailleurs. Il parle de petite bande d’utilisateurs de mathématiques
qui continuent tout de même à décrier cette utilisation.
Fisher loue les mathématiques pour la précision et la concision qu’elles apportent
au raisonnement économique et pour les grands services qu’elles rendent à l’investi-
gation dans le domaine social. Les mathématiques permettent d’éviter des confusions
et les doubles emplois ou comptages.
Fisher insiste sur le fait que le “monde économique est un monde à n dimensions”,
dans la mesure où les variables économiques, comme le prix d’un bien ou l’utilité
marginale, sont des fonctions, non d’une seule variable, mais de plusieurs.
Il ajoute aux quatre domaines ci-dessus, celui des indices. Il évoque la distinction
entre flux et stock. Il fait allusion à la régression, à la science actuarielle . . . Il affirme
que “tôt ou tard, toute véritable science tend à devenir mathématique”. Et l’économie
est simplement en léger retard (en 1929) pour atteindre le niveau de l’astronomie, la
physique et la chimie, alors que la biologie est plus en retard.
En conclusion, Fisher affirme avec force que la méthode scientifique est une,
qu’elle soit appliquée à un domaine ou un autre. Il reprend Gibbs selon qui les
mathématiques sont un langage plus précis et plus complet que le langage ordinaire.
Et il prévoit un avenir radieux pour un développement sain des mathématiques en
sciences sociales.
En définitive, pour le grand économiste Fisher, l’utilisation des mathématiques
en économie est naturelle, utile et nécessaire. Elle est efficace et son avenir ne fait
aucun doute. Fisher ne cherche pas à défendre l’utilisation des mathématiques en
économie. Il pratique. Il applique les mathématiques aux sciences sociales sans se
poser de question. Pour lui, il n’y a qu’une seule méthode scientifique et la seule
xv
voie, pour les sciences sociales de devenir de véritables sciences, est d’utiliser les
mathématiques.
J’aurais pu procéder comme Fisher, au lieu de chercher à justifier une formation
solide en mathématiques, pour les économistes. J’aurais pu me contenter de pratiquer
naturellement, moi, qui suis devenu économiste un peu par hasard, étant originaire
des sciences de l’ingénieur. Mais, conscient de la responsabilité que j’ai prise dans la
réforme des études économiques, en 2002-3, puis en 2008, et dans la mise en place
du Master de sciences économiques, d’orientation quantitative, ce prologue se veut
comme une sorte de plaidoyer en faveur de la direction prise, laquelle n’a pas toujours
été accueillie favorablement.
Toutefois, a-t-on encore besoin, en 2016, de continuer à défendre l’utilisation des
mathématiques en économie, alors que l’économie est presque totalement mathéma-
tisée de fait ? En effet, il n’y a pas que la traditionnelle économie mathématique qui
soit mathématique, comme son nom l’indique. La théorie économique pure est, elle-
même, mathématisée à un niveau de loin supérieur à celui de Léon Walras, ou même
de son successeur à Lausanne, Pareto. Puis, toute la recherche empirique, largement
dominée par les méthodes économétriques, recourt à des méthodes mathématiques de
plus en plus sophistiquées, aidées en cela par le développement de l’outil informatique
et le big data que ce dernier, combiné à Internet et à toutes sortes de technologies
nouvelles, a permis.
Le résultat est que les revues économiques sont peuplées, presque exclusivement,
d’équations et de formules mathématiques. Aujourd’hui, un économiste exclusive-
ment littéraire est incapable de comprendre les articles de revues et de contribuer à
la recherche académique en économie.
Evidemment, l’économie mathématique est ancienne. Elle remonte à William
Petty (1623-1687), à Giovanni Ceva (1647-1734) et, surtout, à Antoine Augustin
Cournot (1801-1877). Parmi ces fondateurs, il faut aussi citer Alfred Marshall (1842-
1924) et Irving Fisher dont il a été longuement question.
On peut dire que cette mathématisation est devenue dominante dans la théorie
économique de l’équilibre général, au 20ème siècle, avec des économistes mathémati-
ciens comme Kenneth Arrow (né en 1921) et Gérard Debreu (1921-2004). Une autre
théorie s’est développée comme économie mathématique dès son origine. C’est la
théorie du cycle des affaires élaborée par Wesley Clair Mitchell (1874-1948) et ses
disciples dans le cadre du National Bureau of Economic Research, à partir de 1913.
Un autre domaine largement mathématisé, dès ses débuts, a été appelé “ phy-
sique sociale” par son fondateur Adolphe Quételet (1796-1874). Ce domaine concerne
la statistique et la démographie. Il est construit autour de l’important concept de
l’homme moyen que cet auteur a forgé.
La discipline née en 1930 et qui va s’imposer comme “the main stream” en éco-
nomie, à partir des années 1950-1960, est l’économétrie, voulue, dès l’origine, par
son principal créateur, Ragnar Frisch (1895-1973), comme application des mathé-
matiques à l’économie, à l’image des sciences physiques. Elle va cependant intégrer,
pratiquement dès ses débuts, en 1944, les probabilités et l’ancienne théorie des erreurs
élaborée par Gauss, dans les cadres de l’astronomie et de la géodésie, et se distin-
guer de l’économie mathématique du cycle des affaires ou de la théorie de l’équilibre
xvi
économique général.
L’économétrie a beaucoup évolué depuis sa fondation institutionnelle en 1930.
Scientifiquement, elle est née comme activité de construction de grands modèles
macroéconomiques composés de plusieurs équations linéaires mettant en relation des
variables macroéconomiques. Ces modèles ont d’abord été l’œuvre de Tinbergen,
dans le cadre de la Société des Nations, créée après la première guerre mondiale et
dont le siège a été établi à Genève, en Suisse.
Aujourd’hui, on ne peut guère échapper à ces différents domaines mathématisés
de l’économie. Ne pas étudier les mathématiques, c’est vouloir rester en dehors de
ces domaines, c’est-à-dire en dehors de l’essentiel en économie.
xvii
xviii
Remerciements
xix
xx
À la mémoire de ma mère, à mon épouse et à mes enfants, Sophia, Youssef et Norah
xxi
xxii
Sommaire
Abstract iii
Préface v
Prologue vii
Remerciements xvii
Dédicaces xxi
Sommaire xxv
xxiii
2 Systèmes linéaires d’équations et transformations de matrices 23
2.1 Système consistant d’équations linéaires . . . . . . . . . . . . . . . . 24
2.2 L’inverse généralisée d’une matrice . . . . . . . . . . . . . . . . . . . 27
2.3 Espace nul d’une matrice et espace de ses colonnes . . . . . . . . . . 28
2.4 Pseudo-inverse d’une matrice . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Factorisation des matrices . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Résolution des systèmes linéaires d’équations . . . . . . . . . . . . . 44
xxiv
8 Introduction à l’optimisation dynamique : Calcul variationnel 259
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
8.2 Introduction au calcul variationnel . . . . . . . . . . . . . . . . . . . 261
8.3 Exemples de problèmes d’optimisation dynamique pouvant être traités
par le calcul variationnel . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.4 Résolution de l’exemple 3.1 . . . . . . . . . . . . . . . . . . . . . . . 267
8.5 L’équation d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.6 Applications de l’équation d’Euler . . . . . . . . . . . . . . . . . . . 272
8.7 Résolution de l’équation d’Euler dans des cas particuliers . . . . . . . 278
8.8 Conditions de second ordre . . . . . . . . . . . . . . . . . . . . . . . 285
8.9 Problème isopérimétrique . . . . . . . . . . . . . . . . . . . . . . . . 286
8.10 Cas où le point final n’est pas spécifié . . . . . . . . . . . . . . . . . 290
8.11 Cas où l’horizon est libre . . . . . . . . . . . . . . . . . . . . . . . . . 292
8.12 Cas de point final sous contrainte . . . . . . . . . . . . . . . . . . . . 295
Bibliographie 303
xxv
xxvi
Chapitre 1
Rappels d’algèbre linéaire
On peut aussi vérifier que F est un espace vectoriel, mais c’est plus long que de vérifier
la propriété ci-dessus qui se contente de vérifier la stabilité de F pour (+) et pour (·).
1
2 Chapitre 1. Rappels d’algèbre linéaire
∀x ∈ E : x = x1 + x 2 + · · · + xk avec xi ∈ Ei
k
On écrit alors : E = E1 ⊕ E2 ⊕ · · · ⊕ Ek . On a dans ce cas : dim(E) = dim(Ei ).
i=1
Si E = A ⊕ B, A et B sont dits supplémentaires. Ainsi pour le plan, l’axe des
x et l’axe des y sont supplémentaires, dans la mesure où tout vecteur du plan peut
s’écrire sous la forme d’une somme d’un vecteur de l’axe des abscisses et d’un vecteur
de l’axe des ordonnées.
L’application de E dans R : x → x = x, x est une norme, appelée
norme euclidienne associée au produit scalaire. La norme euclidienne a les propriétés
suivantes :
- ∀λ ∈ R, ∀u ∈ E, λu = |λ| u ;
- ∀u, v ∈ E, u + v ≤ u + v ;
- ∀u ∈ E, u = 0 ⇒ u = 0E .
Pour tout espace Euclidien, on a l’inégalité de Cauchy-Schwarz :
ker(f ) = {x ∈ E : f (x) = 0F }.
n
f (aj ) est un élément de F ⇒ f (aj ) = γij bi . D’où :
i=1
p
p
n
n
p
y= αj f (aj ) = αj γij bi = αj γij bi .
j=1 j=1 i=1 i=1 j=1
p
On en déduit βi = αj γij qui peut s’écrire sous cette forme :
j=1
β1 γ11 γ12 · · · γ1p α1
β2 γ21 γ22 · · · γ2p α2
.. = .. .. .. ..
. . . ··· . .
βn γn1 γn2 · · · γnp αp
βi est donné par le produit de la ligne correspondante dans le tableau des γ par
la colonne des α en faisant la somme des produits de chaque élément de la ligne
concernée par l’élément correspondant de la colonne des α. Le tableau ci-dessus
exprime y écrit dans la base de F en fonction de x écrit dans la base de E.
Les éléments de chaque ligne de la matrice associée sont données par les coefficients
des α dans l’expression du β de la ligne considérée. Le nombre de lignes correspond à
la dimension de l’espace d’arrivée et le nombre de colonnes correspond à la dimension
de l’espace de départ.
6 Chapitre 1. Rappels d’algèbre linéaire
Et de manière abrégée :
On voit bien que l’addition des matrices est commutative et qu’elle est associative,
cela découle directement de la commutativité et de l’associativité de l’addition des
réels, éléments des matrices :
Pour multiplier une matrice X par un scalaire, il faut multiplier chacun des éléments
de X par ce scalaire :
X = [aij ], αX = [αaij ].
On voit que la multiplication des matrices n’est pas commutative : A · B = B · A. Le
produit B · A peut ne pas exister quand A · B existe. Et même quand B · A existe,
il est très souvent différent de A · B. La multiplication des matrices est par contre
associative : A · B · C = (A · B) · C = A · (B · C).
Exemple :
avec,
5 2 1
A(3,3) = 2 10 −3 et u = (x, y, z)
1 −3 2
celle-ci.
1 0 ··· ··· 0
.. ..
0 1 .
.
.. . . .. .. ..
In =
. . . .
.
.. .. ..
. . . 0
0 ··· ··· 0 1
iij = 1 si i = j
In = [iij ] et
iij = 0 si i = j
Pour toute matrice A dont la multiplication par In est possible, on a : A · In =
In · A = A, car
n
A · In = [aij ][iij ] = aik ikj = [0 + · · · + 0 + (aij × 1) + 0 + · · · + 0] = [aij ] = A
k=1
La multiplication d’une matrice par elle-même n’est possible que si cette matrice est
carrée. Dans ce cas, on a :
b11 b12 a11 a12 b11 b21 a11 a21
· = ·
b21 b22 a21 a22 b12 b22 a12 a22
b11 a11 + b21 a12 b11 a21 + b21 a22
=
b12 a11 + b22 a12 b12 a21 + b22 a22
A = A
La trace d’une matrice carrée notée tr(A) est la somme des éléments de sa dia-
gonale principale :
tr(A) = a11 + a22 + · · · + ann
Il est facile de vérifier les résultats suivants :
tr(A + B) = tr(A) + tr(B)
tr(AB) = tr(BA)
tr(λA) = λtr(A)
Les matrices partagées sont additionnées comme si leurs éléments étaient des sca-
laires. Par exemple :
A 1 A2 B 1 B2 A1 + B1 A2 + B2
+ =
A3 A 4 B3 B4 A3 + B 3 A 4 + B 4
à condition bien sûr que chaque élément de A ait les mêmes dimensions (mêmes
nombres de lignes et de colonnes) que l’élément correspondant de B.
Les matrices partagées sont multipliées comme si leurs éléments étaient des sca-
laires, lorsque cette multiplication est possible, c’est-à-dire lorsque le nombre de
colonnes dans la première matrice partagée est égal au nombre de lignes dans la
10 Chapitre 1. Rappels d’algèbre linéaire
seconde matrice partagée et lorsque tous les produits des différents éléments de A
avec les différents éléments de B sont possibles.
A1(n1 ,p1 ) A2(n1 ,p2 ) B1(p1 ,k1 ) B2(p1 ,k2 )
· =
A3(n2 ,p1 ) A4(n2 ,p2 ) B3(p2 ,k1 ) B4(p2 ,k2 )
(A1 B1 + A2 B3 )(n1 ,k1 ) (A1 B2 + A2 B4 )(n1 ,k2 )
(A3 B1 + A4 B3 )(n2 ,k1 ) (A3 B2 + A4 B4 )(n2 ,k2 )
Pour une matrice carrée A d’ordre n quelconque, le déterminant peut être ainsi défini
de manière récursive :
n
|A| = (−1)j+1 a1j |A1j |
j=1
Là, pour obtenir le déterminant, nous avons développé par rapport à la première
ligne. On peut vérifier qu’on obtient le même résultat en développant par rapport à
n’importe quelle ligne ou par rapport à n’importe quelle colonne. Pour une matrice
triangulaire inférieure,
a11 0 · · · ··· 0
a21 a22 0 0
.. . .. a . .. ..
A= . 33 .
.. . .. . ..
. 0
an1 an2 · · · a(n−1)n ann
On peut vérifier que |A| = a11 a22 · · · ann . De ceci, on tire immédiatement que |In | =
1 × 1 × · · · × 1 = 1n = 1. De même que : |αIn | = α × α × · · · × α = αn .
Ainsi pour une matrice carrée A d’ordre n, on a : |αA| = αn |A|.
Par contre, si seuls les éléments d’une ligne ou d’une colonne sont multipliés par
un scalaire, le déterminant de cette matrice est multiplié par ce scalaire. Mais, si l’on
ajoute aux éléments d’une ligne (ou d’une colonne) une autre ligne (ou une autre
Méthodes mathématiques avancées 11
= α2 |A|
a11 a12 + αa11
= a11 (a22 + αa21 ) − a21 (a12 + αa11 )
a21 a22 + αa21
= a11 a22 + αa11 a21 − a21 a12 − αa21 a11
= a11 a22 − a21 a12
= |A|
Le déterminant du produit de deux matrices A et B est le produit des détermi-
nants respectifs des deux matrices. Montrons le dans le cas simple de deux matrices
carrées d’ordre 2 :
a a b11 b12 a11 b11 + a12 b21 a11 b12 + a12 b22
|AB| = 11 12 · =
a21 b11 + a22 b21 a21 b12 + a22 b22
a21 a22 b21 b22
= (a11 b11 + a12 b21 )(a21 b12 + a22 b22 ) − (a11 b12 + a12 b22 )(a21 b11 + a22 b21 )
= a11 b11 a21 b12 + a11 b11 a22 b22 + a12 b21 a21 b12 + a12 b21 a22 b22
−a11 b12 a21 b11 − a11 b12 a22 b21 − a12 b22 a21 b11 − a12 b22 a22 b21
= a11 a22 (b11 b22 − b21 b12 ) + a12 a21 (b21 b12 − b11 b22 )
= a11 a22 |B| − a21 a12 |B|
= (a11 a22 − a21 a12 )|B|
= |A| |B|
Si le déterminant de B est égal à 1, c’est-à-dire si B est triangulaire avec des
1 uniquement sur la diagonale principale ou si B est une matrice identité, on a :
|AB| = |A||B| = |A|.
Si l’on permute deux lignes ou deux colonnes dans une matrice, son déterminant
change de signe :
a12 a11 a12 a11
=
a22 a21 a22 a21 = a12 a21 − a22 a11
= −(a 11 a22 − a21
a12 )
a11 a12
= −
a21 a22
12 Chapitre 1. Rappels d’algèbre linéaire
Si une matrice contient uniquement des zéros sur une ligne ou sur une colonne, son
déterminant est nul. Cela découle même de la définition ci-dessus du déterminant,
en développant justement par rapport à la ligne ou à la colonne dont les éléments
sont tous nuls. On peut également montrer que |A| = |A |.
A−1 A = AA−1 = In
Ce résultat
signifie
que l’inverse de la transposée de A est la transposée de l’inverse
de A : A−1 = (A )−1 .
On peut également vérifier les résultats suivants :
α1 x1 + α2 x2 + · · · + αk xk = 0.
Méthodes mathématiques avancées 13
Si ces scalaires non tous nuls n’existent pas, les k vecteurs x sont dits linéairement
indépendants.
Une matrice dont les vecteurs-lignes ou les vecteurs-colonnes sont linéairement
dépendants, a son déterminant nul. La réciproque est vraie.
Ax = λx ⇒ Ax − λIn x = 0 ⇒ (A − λIn )x = 0
Lorsque x est différent de zéro, cette égalité exige que le déterminant de la parenthèse
soit nul. Les solutions λ qui annulent ce déterminant sont appelées valeurs propres
de la matrice A. |A − λIn | = 0 correspond à l’équation caractéristique en λ de A
et |A − λIn | correspond à son polynôme caractéristique en λ. Les valeurs propres
de A sont les racines de son polynôme caractéristique, les solutions de son équation
caractéristique. Les valeurs propres d’une matrice peuvent être réelles ou complexes.
Exemple :
5 3 5−λ 3
A= et A − λI2 =
2 3 2 3−λ
|A − λI2 | = (5 − λ)(3 − λ) − 6 = 0 ⇒ 15 − 5λ − 3λ + λ2 − 6 = 0
⇒ λ2 − 8λ +√9 = 0 √
⇒ λ1 = 4 + 7 et λ2 = 4 − 7
3 3
√ √
⇒ v1 = −1 + 7 et v2 = −1 − 7
1 1
α 1 v1 + α2 v2 = 0 ⇒ α1 Av1 + α2 Av2 = α1 λ1 v1 + α2 λ2 v2 = 0
α1 λ 1 v 1 + α 2 λ 1 v 2 = 0
α 1 v1 + α2 v2 = 0 ⇒
⇒ α1 λ 2 v 1 + α 2 λ 2 v 2 = 0
α 1 λ 1 v 1 + α 2 λ2 v 2 = 0
⇒ α2 (λ2 − λ1 )v2 = 0 ⇒ α2 = 0
α1 λ1 v 1 + α 2 λ1 v 2 = 0
car λ2 = λ1 et v2 = 0
α 1 λ1 v 1 + α 2 λ2 v 2 = 0
⇒ α1 (λ2 − λ1 )v1 = 0 ⇒ α1 = 0
α1 λ2 v 1 + α 2 λ2 v 2 = 0
car λ2 = λ1 et v1 = 0
La matrice partagée AV est une matrice carrée d’ordre n. Ses éléments Ax sont
égaux (par définition) aux produits A λ. On a donc :
AV = Ax1 Ax2 · · · Axn = λ1 x1 λ2 x2 · · · λn xn = V Λ
D’où : AV = V Λ ⇒ A = V ΛV −1 (|V | =
0 puisque les xi sont linéairement indépen-
dants).
A = V ΛV −1 ⇒ Λ = V −1 AV
Exemple :
1 2 0 1−λ 2 0
A= 0 3 0 ⇒ |A − λI3 | = 0 3−λ 0
2 −4 2 2 −4 2 − λ
An = P ΛP −1 P ΛP −1 · · · P ΛP −1 = P Λn P −1
Décomposition de Jordan
Soit une matrice A dont les n valeurs propres ne sont pas distinctes et dont les
n vecteurs propres ne sont pas linéairement indépendants. Considérons que cette
matrice a p < n valeurs propres distinctes et donc p vecteurs propres linéairement
indépendants. Cette matrice peut aussi être décomposée de la manière suivante :
Pour A, il existe une matrice non singulière M telle que : A = M JM −1 avec J
une matrice en blocs de Jordan Ji
J1 0 · · · 0
.
0 J2 . . . ..
J = .. . . ..
. . . 0
0 · · · 0 Jp
16 Chapitre 1. Rappels d’algèbre linéaire
Les blocs de Jordan correspondent aux valeurs propres. Lorsque la valeur propre en
question est simple, non multiple, ou de multiplicité 1, son bloc de Jordan correspond
au scalaire 1. Lorsque la valeur propre considérée est multiple de degré k, le bloc de
Jordan lui correspondant est une matrice carrée d’ordre k qui a la même valeur propre
sur sa diagonale principale et des 1 sur la diagonale au-dessus (la super-diagonale).
λ1 0 · · · 0
.
0 λ2 . . . ..
Ji = . .
.. .. ... 0
0 · · · 0 λi
Exemple :
5 4 2 1 4 1 0 0
0 1 −1 −1 0 4 0 0
A=
−1 −1 3
J =
0 0 0 2 0
1 1 −1 2 0 0 0 1
λ= 4 4 2 1
−1 0 1 −1 −1 −1 0 0
0 0 −1 1 −1 −1 −1 0
P =
1 −1 0
P −1 =
0 0 0 1 1
−1 1 1 0 0 1 1 1
A = P JP −1
Av = λv ⇒ (A − λIn )v = 0
⇒ M (A − λIn )(M −1 M )v = 0
⇒ M AM −1 M v − λM M −1 M v = 0
⇒ −1
M AM −1(M v) −λ(M v) = 0
⇒ M AM − λIn (M v) = 0
Cela veut donc dire que le vecteur propre associé à la même valeur propre est M v
pour la matrice M AM −1 .
Dans la décomposition de Jordan ci-dessus A = M JM −1 : on a :
1
|A| = |M JM −1 | = |M | × |J| × |M −1 | = |J| car |M −1 | =
|M |
Comme J est triangulaire (supérieure), son déterminant est le produit des éléments
de sa diagonale principale. Or, sa diagonale principale est composée des valeurs
Méthodes mathématiques avancées 17
Donc, la trace de A est égale à la trace de J, laquelle est la somme des valeurs propres
de A. Donc, pour toute matrice diagonalisable M , la somme des valeurs propres est
égale à la trace de M .
B = P −1 AP ⇐⇒ A = P BP −1 ⇐⇒ A = Q−1 BQ avec Q = P −1
B = P −1 AP =⇒ |B − λIn | = |P −1 AP − λIn | = |P −1 AP − λP −1 In P |
= |P −1 (A − λIn )P | = |A − λIn |
1
car |P −1 | = .
|P |
Exemple simple :
a11 a12 b11 b12 a11 B a12 B
A= B= A⊗B =
a21 a22 b21 b22 a21 B a22 B
a11 b11 a11 b12 a12 b11 a12 b12
b11 b12 b11 b12
a11 a12
b21 b22 a11 b21 a11 b22 a12 b21 a12 b22
b21 b22
A⊗B = =
b11 b12 b11 b12 a21 b11 a21 b12 a22 b11 a22 b12
a21 a22
b21 b22 b21 b22 a21 b21 a21 b22 a22 b21 a22 b22
A = MA JA MA−1 et B = MB JB MB−1
(A ⊗ B)(C ⊗ D) = AC ⊗ BD
Méthodes mathématiques avancées 19
Donc :
(MA−1 ⊗ MB−1 )(A ⊗ B)(MA ⊗ MB ) = MA−1 A ⊗ MB−1 B (MA ⊗ MB )
= MA−1 AMA ⊗ MB−1 BMB
= JA ⊗ JB
On vient de voir aussi que l’inverse d’un produit de Kronecker est le produit de
Kronecker des inverses :
D’où :
Considérons une matrice A(n,n) définie positive et une matrice B(n,n) non singu-
lière.
A définie positive =⇒ ∀x, x = 0 : x Ax > 0
Bx = v ⇒ v = x B v = 0 car v = 0 ⇒ 0 valeur propre de B
v Av > 0, car A est définie positive. v Av = (x B )A(Bx) = x (B AB)x
v Ax > 0 ⇔ x (B AB)x > 0 ⇔ B AB est une matrice définie positive,
ses valeurs propres sont supérieures à 0.
Résultat : si A est définie positive, B AB est définie positive pour toute matrice B
non singulière.
Soit u une fonction des variables éléments d’une matrice A(n,p) . La dérivée de u
par rapport à la matrice A est la matrice (n, p) dont les éléments sont les dérivées
de u par rapport à chaque élément de A :
du ∂u
u = f (a11 , a12 , · · · , anp ) =⇒ =
dA ∂aij
Méthodes mathématiques avancées 21
En application des deux définitions ci-dessus, il est facile de vérifier les dérivées
matricielles suivantes :
Introduction
m
a1j xj
j=1
..
m .
aij xj
A(n×m) × x(m×1) =
j=1
..
m .
anj xj
j=1
24 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
a11 x1 a1j xj a1m xm
.. .. ..
. . .
A(n×m) × x(m×1) =
ai1 x1 + . . . + aij xj
+ . . . + aim xm
.. .. ..
. . .
an1 x1 anj xj anm xm
= a 1 x1 + · · · + aj xj + · · · + am xm
Ax est donc une combinaison linéaire des colonnes de A, les coefficients sont x1 , x2 ,
. . . , xm .
[A|b] y = 0 ⇔ Ay = 0
La 1ère équation donne x = 3−y. En remplaçant x par 3−y dans la seconde équation,
on obtient : 3 − y + 3y = 5 ⇒ y = 1 et y = 1 ⇒ x = 3 − y = 2.
Le système a donc une seule solution (x = 2, y = 1). Le système est ainsi consistant.
Il a autant d’équations (2) que d’inconnues (2) : il est exactement déterminé.
Matriciellement
1 1 x 3
= =⇒ A×x=b
1 3 y 5
Ce système est non consistant : il n’a pas de solution. En effet si l’on divise par 2 la
seconde équation, on obtient : x + y = 6. La 1ère équation est x + y = 7. Il n’existe
pas de couple (x, y) vérifiant les 2 équations : x + y = 6 = 7! Pourtant ce système
comporte autant d’équations que d’inconnues, 2.
Matriciellement, on a
1 1 x 7
= =⇒ A×x=b
2 2 y 12
On voit bien que A est singulière. Dans ce cas, il n’y a pas de solution.
A n’est pas carrée. Le système est consistant puisque rg(A) = rg[A|b] = 2. En effet,
1 1 4
1 3 10 = 0.
2 5 17
Ce système n’est pas consistant, car les deux 1ères équations donnent, comme on
vient de voir x = 1 et y = 3. Ce couple (1, 3) vérifie les 2 premières équations, mais
non la 3ème : 2 × 1 + 5 × 3 = 17 or la 3ème dit que 2 × 1 + 5 × 3 = 15 : impossible. Il
n’y a donc pas de solution pour le système. Ce système comporte 3 équations pour
2 inconnues : il est surdéterminé.
Matriciellement, on a :
1 1 4
1 3 x
= 10 =⇒ A×x=b
y
2 5 15
1 1 4
[A|b] = 1 3 10
2 5 15
Le rang de [A|b] est 3, le rang de A est 2, d’où
Notons que :
— Un système est sous déterminé si rg(A) < m (nombre de colonnes de A)
— Un système est surdéterminé si n > m et rg([A|b]) > rg(A)
— Un système est exactement déterminé si n = m et rg(A) = n = m.
⇒ A− = A−1
L’inverse généralisée de A n’est pas unique, s’il n’y a pas de restriction sur A. On
obtiendra donc un type d’inverse généralisée selon les restrictions introduites sur A.
Mais pour toute inverse généralisée, on a les propriétés suivantes :
• AA− A = A ⇒ (AA− A) = A ⇒ A A− A = A (A : transposée de A). D’où,
si A− est l’inverse généralisée de A, alors A− est l’inverse généralisé de A
• AA− A = A ⇒ A− AA− A = A− A. D’où A− A est une matrice (m×m) idempotente.
• AA− A = A ⇒ rg(A− A) = rg(A) (car rg((AA− )A) ≤ rg(A))
• AA− A = A ⇒ A − AA− A = 0 ⇒ A(Im − A− A) = 0 ⇒ A− A = Im
28 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
• A− A − A − A = 0
= A− A − A− AA− A (A− A . . . A− A = A− A)
= (I − A− A)(A− A)
= 0
• I − A − A = I − A − A − A− A + A− A
= I − A− A − A− A + A− AA− A
= (I − A− A)(I − A− A)
D’où I − A− A est idempotente.
• (A− A)(A− A) = A− A ⇒ rg(I − A− A) = rg(I) − rg(A− A) = m − rg(A)
⇒ x = A− b et AA− b = b
A− b est une solution du système.
Si Gb est une solution du système, on a :
A(Gb) = b ⇒ AG(AA− b) = b
A(GAA− b) = b ⇒ GAA− b est une autre solution
⇒
(AGA)A− b = b ⇒ AGA = A ⇒ G = A−
Si Ax = b est consistant, A− b est une solution du système et pour tout z, A− b +
(I − A− A)z est également une solution, puisque :
A A− b + (I − A− A)z = AA− b + (A − AA− A)z = b + (A − A)z = b
Toute solution du système peut donc être mise sous cette forme :
A− b + (I − A− A)z
N (A) = {x\ x ∈ Rm et Ax = 0}
La droite
x2= −x1 correspond ainsi à N (A), noyau de f . C’est
l’ensemble
des vec-
a 1
teurs , a ∈ R. Cet espace vectoriel est engendré par .
−a −1
Considérons maintenant l’application linéaire g de R2 dans R2 :
x1 x1 1 0 x1
g = =
x2 x1 1 0 x2
1 0
La matrice associée à g est A = .
1 0
L’image de g, C(A ), est l’espace des
vecteurs
de R2 dont les deux composantes sont
x 1
égales . Il est engendré par .
x 1
Le noyau de g, N (A ), est l’espace des vecteurs de R2 dont l’image par g est zéro :
x1 x1 0
g = =
x2 x1 0
0
C’est l’ensemble des vecteurs dont la 1ère composante est nulle, de forme =
x
0 0
x . C’est l’espace engendré par le vecteur . L’espace N (A ) correspond à
1 1
l’axe vertical des x2 , dans le plan.
On remarque que l’image de g, C(A ) correspond à la droite x2 = x1 , la droite
perpendiculaire à x2 = −x1 (correspondant au noyau de f ). D’où : N (A) ⊥ C(A ).
De même que le noyau de g, N (A ), l’axe vertical est perpendiculaire à C(A), l’image
de f correspondant à l’axe horizontal dans le plan : N (A ) ⊥ C(A).
On remarque aussi que la dimension de R2 de départ est 2, égale à la somme de
la dimension de C(A) = 1 et de la dimension de Ker(f ), N (A) = 1. Ce résultat,
dim(E) = dim(Imf ) + dim(Kerf ) est général comme l’est N (A) ⊥ C(A ). En effet,
A(n, m) de terme général (aij ), i = 1, . . . , n et j = 1, . . . , m. Donc A (m, n) de terme
général (aji ).
m
Un vecteur x ∈ N (A) est tel que Ax = 0 ⇒ aij xj = 0. Un vecteur y ∈ C(A ) est
j=1
tel que y = A z pour tout z de Rn
n
⇒ yj = aij zi
i=1
m
Le produit scalaire de x par y est x j yj
j=1
m m
n
m
n n m
x j yj = xj aij zi = xj aij zi = zi aij xj = 0
j=1 j=1 i=1 j=1 i=1 i=1 j=1
Évidemment, la décomposition de matrices qui nous intéresse ici est celle en relation
avec la résolution de systèmes d’équations linéaires Ax = b, car la décomposition ba-
sée sur les valeurs propres, la décomposition spectrale, a déjà été vue dans le chapitre
1er . Nous avons aussi vu, dans le même chapitre 1er , la décomposition de Jordan.
Mais, nous n’avons pas vu toutes les sortes de décomposition spectrale (décompo-
sition de Schur, décomposition QZ, décomposition de Takagi et décomposition en
valeurs singulières).
Il existe d’autres types de factorisation de matrices, décomposition polaire, décom-
position polaire algébrique, décomposition sectorale, . . .
Nous nous contenterons, dans le présent chapitre, de compléter la décomposition
spectrale commencée dans le chapitre précédent, avant de traiter des décompositions
en relation avec la résolution des systèmes d’équations linéaires.
Décomposition de Schur
Cette décomposition, s’appliquant aux matrices carrées, est due au mathémati-
cien allemand d’origine russe, Issai Schur (1875-1941). Elle s’appelle aussi triangula-
risation de Schur. Il en existe deux sortes : la décomposition complexe des matrices
complexes ou des matrices réelles à valeurs propres complexes, et la décomposition
réelle des matrices réelles à valeurs propres réelles.
Décomposition complexe : Soit A(n, n), une matrice complexe ou réelle à va-
leurs propres complexes. La décomposition de Schur consiste à transformer A en
U T U ∗ , où T est une matrice triangulaire supérieure ayant sur sa diagonale les valeurs
propres de A, U est une matrice complexe unitaire (c’est-à-dire que U ∗ U = U U ∗ = I
où U ∗ est la matrice adjointe de U et I la matrice identité), U ∗ est la matrice adjointe
ou transconjuguée (transposée de la matrice conjuguée, le conjuguée de a + ib est
a − ib, (a + ib)(a − ib) = a2 − i2 b2 = a2 + b2 ).
Décomposition réelle : Soit A(n, n), une matrice réelle à valeurs propres réelles.
Sa décomposition de Schur est A = V SV où toutes ces matrices sont réelles, V est
orthogonale (V −1 = V ), V est sa transposée (donc son inverse), S est une matrice
triangulaire supérieure (forme de Schur).
Méthodes mathématiques avancées 35
Pour une matrice complexe carrée normale (A∗ A = AA∗ , A∗ matrice adjointe de A),
T est une matrice diagonale et U contient les vecteurs propres de A. Si A est définie
positive, la décomposition de Schur de A se confond avec sa décomposition spectrale
vue ci-dessus et se confond avec la décomposition en valeurs singulières (voir ci-après).
Décomposition QZ
Pour 2 matrices carrées A et B, c’est la décomposition de Schur généralisée. Sa
version réelle est A = QSZ et B = QT Z , toutes des matrices réelles.
Elle s’applique aux matrices carrées. Q et Z sont orthogonales, S et T sont triangu-
laires supérieures.
Décomposition de Takagi
Il s’agit d’une décomposition applicable aux matrices complexes carrées symé-
triques. Elle correspond à A = V DV où V est une matrice unitaire, V sa transposée
et D est une matrice réelle diagonale non négative. Les éléments de sa diagonale sont
les racines carrées non négatives des valeurs propres de AA .
Cette décomposition n’est pas basée sur les valeurs propres. Elle est due au travail
de 1925 du mathématicien Japonais Teijï Takagi (1875-1960).
Comme AA et A A ont le même rang r, seules r de leurs valeurs propres sont
positives et les autres étant nulles. Nous pouvons ainsi écrire
Dr 0 Mr 0
D= et M = (D et M matrices partagées)
0 0 0 0
D’où
AA = SS = P1 A(P1 A) = P1 AA P1
⇒ P 1 = In et P2 = Ip
A A = S S = (AP2 ) AP2 = P2 A AP2
Ainsi,
A = S = Qr Dr1/2 Rr = U ΛV
Exemple de SVD : Soit la matrice
3 1 1
A(2, 3) =
−1 3 1
A = U ΛV
Pour les valeurs propres et les vecteurs propres associés de AA , on trouve
λ1 = 12
1
et λ2 = 10 (mêmes valeurs propres de A) Pour λ1 = 12 on trouve u1 = . Pour
1
1
λ2 = 10 on trouve u2 = .
−1
38 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
u1 u2
1 1
La matrice ayant en colonne les vecteurs propres de AA est
.
1 −1
Il faut orthonormer ces vecteurs par la méthode, vue ci-dessus, de Gram-Schmidt,
sauf qu’ici, u1 · u2 = 0,donc u1 ⊥
u2 . Dans ce cas, on divise par sa norme u1 =
√ 1 1 √
2. On obtient u1 = √ , √ normé. Pour u2 , on a u2 = 2. D’où u2 =
2 2
1 1
√ √
1 1 2 2
√ , − √ . Et finalement, U =
.
2 2 1 1
√ −√
2 2
Le calcul de V se fait de la même manière avec A A.
10 0 2
A A = 0 10
4
2 4 2
On trouve évidemment les mêmes valeurs propres non nulles λ1 = 12, λ2 = 10 et
λ3 = 0, et les vecteurs propres
1 2 1
v1 = 2 , v2 = −1 , v3 = 2
1 0 −5
√ √ √
On les normalise par la même méthode, v1 = 6, v2 = 5, v3 = 30. On
trouve donc
1 2 1 1 2 1
√ √ √ √ √ √
6 5 30 6 6 6
2 1 2 2 1
V = √ − √ √ d’où
V = √ − √ 0
6 5 30 5 5
1 5 1 2 5
√ 0 −√ √ √ −√
6 30 30 30 30
√
12 √0 0
Quant à Λ = , Λ est (2, 3).
0 10 0
On peut vérifier que A = U ΛV . √ √
Avec Matlab, la commande svd(A) donne λ1 et λ2 , λ1 et λ2 valeurs propres non
nulles de A A et de AA . La commande [U, S, V ] = svd(A) donne
−0.7071 −0.7071 3.4641 0 0
U= et Λ=S=
−0.7071 0.7071 0 3.1623 0
et V à 4 décimales correspondant à −V trouvé ci-dessus.
Décomposition LU de matrices
L : lower triangular : triangulaire inférieure
U : upper triangular : triangulaire supérieure
La décomposition LU est donc la transformation d’une matrice A en LU :
A = LU
Dans les deux cas, U est bien triangulaire supérieure, mais L retournée n’est pas
triangulaire inférieure. En fait L retournée par Matlab est le produit d’une matrice
triangulaire inférieure et de matrices de permutation P . Pour obtenir P , il faut
utiliser la commande [L, U, P ] = lu(A).
Appliquée
à M , cette
commande nous donne la même U triangulaire supérieure,
1 0 0
L= 1 1 0 maintenant devenue triangulaire inférieure avec des 1 sur la
0.5 0.5 1
0 1 0
diagonale et P = 0 0 1 . Notons que ce L est le produit de P et de L de la
1 0 0
commande [L, U ] = lu(X). Bref, la commande à 3 arguments [L, U, P ] nous donne
L et U recherchés et on peut ignorer P .
Factorisation QR
Il s’agit d’une factorisation utile constituant à transformer A(n, p) en un produit
de Q, une matrice orthogonale (QQ = Q Q = I) et R, une matrice triangulaire ou
trapézoïdale.
A = QR, Q(n, p)
Méthodes mathématiques avancées 41
b = (X X)−1 X Y ⇒ (X X)b = X Y
⇒ R Rb = R Q Y ⇔ R−1 R Rb = R−1 R Q Y ⇔ Rb = Q Y = Z
Dans Matlab,
R = qr(A) : donne la matrice R de la décomposition A = QR de A
[Q, R] = qr(A) donne R triangulaire supérieure et Q unitaire, A = QR
Exemple :
1 2 4
A= 4 3 1
2 5 0
Décomposition de Choleskey
Cette méthode est due au mathématicien soldat français André-Louis Cholesky
(1875-1918), mort de ses blessures durant la première guerre mondiale (31/8/1918).
Elle s’applique aux matrices réelles symétriques définies positives, auquel cas la dé-
composition A = LL est unique, L une matrice triangulaire inférieure avec des
éléments diagonaux positifs.
On peut montrer que dans ce cas de matrice A réelle symétrique définie positive, il
existe une décomposition A = LL unique en utilisant la décomposition A = LU .
Cette décomposition est également utilisée pour résoudre un système d’équations
linéaires Ax = b où A est réelle symétrique définie positive. Elle est utilisée en ré-
gression (lorsque X X est définie positive). Elle est utilisée en analyse en composantes
principales (ACP).
Avec Matlab, la commande [L, p] = chol(A, lower ) pour une matrice A définie po-
sitive, donne L triangulaire inférieure telle que A = LL et p = 0. La commande
L = chol(A) fait aussi l’affaire.
Exemple : soit la matrice définie positive symétrique (faite à partir des coefficients
du binôme) suivante
1 1 1 1 1
1 2 3 4 5
A= 1 3 6 10 15
1 4 10 20 35
1 5 15 35 70
La commande R = chol(A) donne :
1 1 1 1 1
0 1 2 3 4
R=
0 0 1 3 6
0 0 0 1 4
0 0 0 0 1
X X = V CV
X X = LU
Méthodes mathématiques avancées 43
Dans ce qui précède, nous avons vu quelques factorisations parmi les nombreuses
méthodes de décomposition de matrices. Toutes les factorisations ne s’appliquent pas
à toutes les matrices de quelque nature que ce soit. Les factorisations possibles d’une
matrice donnée dépendent de la nature de cette matrice. C’est pour cela que nous
avons choisi de récapituler les différentes méthodes et de préciser à quelle sorte de
matrice elles s’appliquent :
8. La décomposition QR idem ;
A diagonale
Lorsque, dans Ax = b, A est une matrice diagonale (n, n),
a11 0 ... 0
0 ... .. .
. ..
A= . . aii = 0 ∀i
.. .. aii 0
..
0 ... 0 .
C’est que l’inverse d’une matrice A diagonale est A−1 dont les éléments diagonaux
sont les inverses des éléments diagonaux de A. Le déterminant de A dans ce cas, est
égal à l’inverse de celui de A−1 , égal au produit des éléments diagonaux :
n
det(A) = aii
i=1
A triangulaire
A triangulaire inférieure : Lorsque, dans Ax = b, la matrice A(n, n) est trian-
gulaire inférieure,
a11 0 . . . . . . . . . 0
a21 a22 0 0
.. .. .. ..
. . . .
A=
ai1 . . . . . . aii 0 0
.. ..
. . 0
an1 . . . . . . . . . . . . ann
b1
La 1ère équation du système est a11 x1 = b1 ⇒ x1 = .
a11
b1
Dans la 2ème équation, a21 x1 + a22 x2 = b2 , on remplace x1 par et on obtient :
a11
b1 1 b1
a21 + a22 x2 = b2 ⇒ x2 = b2 − a21
a11 a22 a11
bn
ann xn = bn ⇒ xn =
ann
bn
On y remplace xn par et on obtient :
ann
bn
a(n−1)n + a(n−1)(n−1) xn−1 = bn−1
ann
1
(Sous Matlab, calculer A−1 , ensuite A−1 b) :
0.1 29.1
−0.1 14.9
Faisons varier b en lui additionnant
0.1 pour obtenir b1 = 30.1
−0.1 23.9
6.2222
0.1333
Résolvons à nouveau le système Ax = b1 . Cela donne x∗1 = 1.6333 .
−3.2556
On voit bien qu’une faible variation de b, ses composantes n’ayant varié que de 0.1,
dans l’absolu, soit 0.3 % pour 30, a donné une forte variation de la solution x, sa
première composante ayant été multipliée par 6.2.
Prenons un autre exemple de système linéaire Ax = b où
1 0.5 1.5
A= et b=
0.667 0.333 1
1
La solution évidente est x∗ =
1
1.5
Remplaçons b ci-dessus par b1 = Ce qui revient à faire varier sa seule
0.999
seconde composante de 1 pour mille.
0
La solution du nouveau système est x∗1 = .
3
Avec une variation infime sur la seule seconde composante de b, on a obtenu une très
forte variation de x.
Comment mesurer la sensibilité de la solution aux perturbations des données A et b
d’un système linéaire Ax = b ? C’est Turing qui a apporté une réponse à ce problème.
La mesure de cette sensibilité s’appelle le conditionnement, condition number, qui
dépend de la norme matricielle retenue. Turing avait retenu la norme de Frobenius.
Si l’on note la norme d’une matrice A, A, alors le conditionnement de A est
La norme d’une matrice A(n, p), notée A est telle que :
A ≥ 0 ;
A = 0 ⇒ A = 0 ;
α A = |α| · A α scalaire ;
A + B ≤ A + B.
La norme sous-multiplicative d’une matrice carrée satisfait, en plus, la propriété :
A B ≤ A B.
6 9 3 6
L’option est pour le choix de la norme : 2 pour 2-norme, spectral, infinity ou Frobe-
nius.
Et pour saisir la matrice carrée d’ordre 2 ci-dessus sur MuPad, on saisit :
Lorsque cond(A) est élevé, on dit que le problème est mal conditionné.
50 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
Exemple :
5 3 −2 3 4
2 1 5 1
0
0 0 0 -4 3
0 0 0 0 7
0 0 0 0 0
Les éléments non nuls encerclés sont les pivots.
Une matrice échelonnée est dite matrice échelonnée réduite ou matrice canonique en
lignes si les pivots valent 1 et si les autres coefficients dans les colonnes des pivots
sont nuls.
Exemple :
1 0 −2 0 0
0 1 1 0 0
0 0 0 1 0
0 0 0 0 1
0 0 0 0 0
Toute matrice peut être transformée en une matrice échelonnée réduite au moyen
d’opérations élémentaires sur les lignes :
— Permuter 2 lignes ;
— Multiplier une ligne par un scalaire non nul ;
— Ajouter à une ligne le multiple d’une autre ligne.
La matrice échelonnée réduite est unique. Le nombre de lignes possédant un pivot
non nul correspond au rang de la matrice initiale.
Rappelons que nous cherchons à résoudre le système linéaire Ax = b. Pour transfor-
mer A en matrice échelonnée réduite, on effectue des opérations sur A, mais pour
obtenir un système équivalent, il faut effectuer ces opérations élémentaires sur b aussi.
Lorsqu’on obtient, à la place de A, une matrice échelonnée réduite, c’est-à-dire en fait
une matrice triangulaire supérieure, U , on obtient un nouveau système équivalent au
système de départ de la forme :
U x = L−1 b
Ce système est évidemment facile à résoudre comme l’on a vu, puisque U est trian-
gulaire supérieure : x = U −1 L−1 b = (LU )−1 b
Méthodes mathématiques avancées 51
Exemple : pour
1 2 3
A= 2 1 5
8 7 1
La commande linalg :: gaussElim(A) donne la matrice échelonnée suivante :
1 2 3
A = 0 −3 −1
0 0 −20
A = LE = LU ⇒ L = AU −1
Méthode de Gauss-Seidel
Cette méthode est due aux mathématiciens allemands, C.F. Gauss (1777-1855)
et P.L. Von Seidel (1821-1896).
Elle est appliquée pour résoudre des systèmes linéaires de dimension finie, de la forme
Ax = b. Elle est itérative, en ce sens qu’elle génère une suite qui converge vers une
solution, lorsqu’une telle solution existe et lorsque les conditions de convergence sont
satisfaites (il y a nécessairement convergence lorsque A est symétrique définie posi-
tive). L’algorithme suppose que les éléments diagonaux de A sont non nuls.
L’algorithme :
On veut résoudre Ax = b, c’est-à-dire qu’on cherche x tel que Ax soit égal à b :
a11 a12 · · · a1p b1
a21 b2
A= . et b= .
.. ..
an1 · · · · · · anp bp
Dans cette expression, on remplace les xj par leurs valeurs xkj et on obtient
xk+1
1
Méthodes mathématiques avancées 53
Ici, on a A(3, 3), donc 3 inconnues [x1 , x2 , x3 ] donc 3 étapes dans chaque itération.
On choisit de partir de [x1 , x2 , x3 ] = [1, 1, 1]
1 1
[12, 3, −5] · [x1 , x2 , x3 ] = 1 ⇒ x1 = (1 − 3x2 + 5x3 ) = (1 − 3 + 5)
12 12
= 0.25 = x11
1 1
[1, 5, 3]·[x1 , x2 , x3 ] = 28 ⇒ x2 = (28−x1 −3x3 ) = (28−1×0.25−3)
5 5
= 4.95 = x12
54 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
2ème étape :
1 1
x2 = (28 − x1 − 3x3 ) = (28 − 1 × 0.1471 − 3 × 3.1231) = 3.6967 = x22
5 5
3ème étape :
1 1
x3 = (76 − 3x1 − 7x2 ) = (76 − 3 × 0.1471 − 7 × 3.6967) = 3.8217 = x23
13 13
2ème étape :
1 1
x2 = (28 − x1 − 3x3 ) = (28 − 1 × 0.7515 − 3 × 3.8217) = 3.1567 = x32
5 5
3ème étape :
1 1
x3 = (76 − 3x1 − 7x2 ) = (76 − 3 × 0.7515 − 7 × 3.1567) = 3.9730 = x33
13 13
4.95 − 1
× 100 = 79.7980 %
4.95
— de l’itération 1 à 2, x2 est passé de 4.95 à 3.6967, soit un taux de variation de
3.6967 − 4.95
× 100 = −33.9032 %
3.6967
— de l’itération 2 à 3, x2 est passé de 3.6967 à 3.1567, soit un taux de variation
de
3.1567 − 3.6967
× 100 = −17.1065 %
3.1567
Cette baisse est bien évidente : 79.80 %, 33.90 %, 17.11 %, . . .
Ax = (L + D + U )x = b ⇒ Lx + Dx + U x = b
⇒ (L + D)x = b − U x
⇒ x = (L + D)−1 (b − U x)
⇒ xk+1 = (L + D)−1 b − (L + D)−1 U xk
C’est pour cela que les propriétés de convergence de la méthode dépendent du spectre
de la matrice (L + D)−1 U .
Méthode de Jacobi
Cette méthode, très proche de la méthode de Gauss-Seidel, est due au mathéma-
ticien allemand, Carl G.J. Jacobi (1804-1851).
Comme la méthode précédente, la méthode de Jacobi est itérative. Elle est utilisée
pour résoudre des systèmes linéaires d’équations de la forme Ax = b.
La différence entre ces deux algorithmes est que, pour la méthode de Jacobi, à l’itéra-
tion k, on calcule les xki à partir des xk−1
i , alors que, comme on a vu, dans l’algorithme
de Gauss-Seidel, à l’itération k, pour calculer les xki , on utilise tous les xki qu’on vient
de trouver et les xk−1
i , pour les xi qui n’ont pas encore été calculés.
12 + y − 2z
De la 1ère équation, on tire : x = ,
5
56 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
−25 − 3x + 2z
de la 2ème équation, on tire : y = ,
8
6−x−y
de la 3ème équation, on tire : z = .
4
On part de (x0 , y 0 , z 0 ) = (0, 0, 0)
1ère itération :
12 + 0 − 2 × 0
x = = 2.4 = x1
5
−25 − 0 + 0
y = = −3.125 = y 1
8
6−0−0
z = = 1.5 = z1
4
2ème itération :
12 − 3.125 − 2 × 1.5
x = = 0.815 = x2
5
−25 − 3 × 2.4 + 2 × 1.5
y = = −3.65 = y2
8
6 − 2.4 + 3.125
z = = 1.68125 = z 2
4
3ème itération :
12 − 3.65 − 2 × 1.68125
x = = 0.9975 = x3
5
−25 − 3 × 0.815 + 2 × 1.68125
y = = −3.0103 = y 3
8
6 − 0.815 + 3.65
z = = 2.2088 = z3
4
On voit bien que l’algorithme est en train de s’approcher de la solution exacte
1
[x, y, z] = [1, −3, 2]. En effet, A−1 b = −3
2
Cette méthode semble converger moins vite que la méthode précédente. Matricielle-
ment, la méthode de Jacobi consiste à décomposer la matrice A de la façon suivante :
A = D − L − U , où D est la matrice diagonale qui reprend la diagonale de A, L est
triangulaire inférieure stricte et U triangulaire supérieure stricte.
Dans l’exemple ci-dessus, on a :
5 −1 2
A = 3 8 −2 = D − L − U
1 1 4
Méthodes mathématiques avancées 57
5 0 0 0 0 0 0 1 −2
→ D = 0 8 0 , L = −3 0 0 , U = 0 0 2
0 0 4 −1 −1 0 0 0 0
L’itéré à k + 1, xk+1 est fonction de l’itéré précédent, xk :
Lorsqu’il s’agit d’ajuster une équation à des données, on a affaire à des systèmes sur-
déterminés. La régression linéaire est un système surdéterminé. L’ajustement d’équa-
tions aux données est une partie importante de l’inférence statistique.
Dans le système Xb ≈ y, la ligne i correspond à la relation :
yi ≈ b1 x1i + . . . + bm xmi
yi ≈ b0 + b1 x1i + . . . + bm xmi
r r = (y − Xb) (y − Xb)
= (y − b X )(y − Xb)
= y y − y Xb − b X y + b X Xb
= y y − 2y Xb + b X Xb (y Xb = b X y : scalaire)
dr r dr r
=0 ⇒ = 0 − 2X y + 2X Xb = 0
db db
⇒ X y = X Xb
⇒ b = (X X)−1 X y
X Xb = X y : ce système est appelé système des équations normales. X X est la
matrice de Gram. La qualité de la solution dépend du conditionnement de la matrice
X X, lequel est le carré de celui de X. Toute information fournie par X X peut être
fournie par X. On peut donc travailler directement avec X.
Cette solution des moindres carrés a des propriétés utiles :
Le vecteur des résidus (y − Xb) est orthogonal à chaque colonne de X :
X (y − Xb) = X y − X Xb = 0
(les produits scalaires de colonnes de X par le vecteur des résidus sont nuls).
Méthodes mathématiques avancées 59
Lorsqu’on introduit, dans X, la colonne des 1, pour avoir une constante, le produit
scalaire du vecteur des résidus par la colonne des 1 est nul et donc la somme des
résidus est nulle.
Une autre conséquence pour les modèles à constante est que la solution des moindres
carrés donne ajustement exact pour les moyennes de y et des x (moyenne nulle des
résidus).
Dans ce qui précède, pour déterminer la solution des moindres carrés, les éléments de
X et y ont été traités sur un pied d’égalité. Il peut en être autrement et considérer que
les yi et les lignes Xi ne doivent pas compter de la même manière dans l’ajustement.
Dans ce cas, on a des poids ωi , soit un vecteur de poids ω, affectés aux différentes
lignes de X et aux différents yi . Il s’agit là de moindres carrés pondérés. On cherche
là à minimiser la somme des carrés des résidus pondérés : (y − Xb) W (y − Xb) où
W est définie positive. C’est une version du problème presque similaire.
On peut imaginer qu’il n’y a pas que la méthode des moindres carrés pour résoudre
un système linéaire surdéterminé comme celui des statisticiens de l’ajustement.
Au lieu, par exemple, de considérer la norme euclidienne des résidus à minimiser, on
peut choisir d’autres normes : la somme des valeurs absolues des résidus, la norme
L∞ du vecteur des résidus, Lp , . . .
On peut aussi choisir de minimiser les distances orthogonales.
Chapitre 3
Calcul différentiel et intégral
3.1 Introduction
Le calcul infinitésimal, appelé calculus tout simplement en anglais, également
appelé calcul différentiel et intégral en français, a été inventé par les deux mathéma-
ticiens Isaac Newton (né en 1642 et décédé en 1726 en Angleterre) et Gottfried
Wilhelm Leibniz (1646 – 1716 en Allemagne).
Les historiens des mathématiques remontent, pour les premières notions en la
matière, à Archimède de Syracuse (grec ancien, 287 – 212 av. J .C., Sicile) pour sa
méthode d’exhaustion permettant de calculer l’aire sous un arc de parabole avec la
somme d’une série infinie. Ils remontent aussi à l’école de Kerala, en Inde, au 14ème
siècle pour son développement en série entière des fonctions trigonométriques. Cette
école n’a cependant pas développé des méthodes d’intégration et de différentiation
(ou de dérivation).
C’est en Europe, au 17ème siècle, que le traitement de deux problèmes, celui de
la tangente et celui de la quadrature, vont mobiliser les mathématiciens.
Le premier problème qui consiste à trouver les différentes tangentes à une courbe
donnée aboutit à la notion de dérivée. Le second problème qui consiste à calculer
l’aire engendrée par une courbe, aboutit à la notion d’intégrale. Plusieurs mathéma-
ticiens ont donc travaillé sur ces problèmes et ont apporté leur contribution à leurs
résolutions. C’était d’abord des Italiens avec Cavalieru, Torricelli, Mengoli
et Angeli ; puis les anglais Gregory, Wallis, Barrow et Newton. Il y a eu
aussi des français, Pascal, Descartes, Roberval et surtout Pierre de Fermat
(1601 – 1665). Ce dernier, pour donner l’équation de la tangente à une courbe, dé-
veloppe en 1636 une méthode qui n’est autre que la limite et la dérivation dont les
noms ne seront forgés que postérieurement (il faudra attendre Lagrange pour le
terme “dérivée”). C’est le mathématicien hollandais Christiaan Huygens (1629 –
1695) qui a le mieux expliqué cette méthode nouvelle et incomprise de Fermat, à
l’Académie française des sciences en 1667. C’est Huygens qui, dans sa communi-
cation à l’Académie des Sciences, a parlé pour la première fois de l’infiniment petit
(infinitésimal). Huygens rencontre Leibniz à Paris en 1672 et l’initie au problème
de la tangente qu’il traite alors en philosophie. Leibniz comprend vite que la dérivée
62 Chapitre 3. Calcul différentiel et intégral
Soit f une fonction réelle à valeurs réelles définie sur un ensemble d’intervalles de
R dont la réunion est le domaine de définition Df . Soit x0 ∈ Df . Pour tout h ∈ R∗
tel que [x0 , x0 + h] ⊂ Df , on appelle taux d’accroissement de f en x0 et avec un pas
de h la quantité :
f (x0 + h) − f (x0 )
tx0 (h) =
h
f (x0 + h) − f (x0 )
f (x0 ) = lim tx0 (h) = lim
h→0 h→0 h
f (x + h) − f (x)
f (x) = lim
h→0 h
Cette notation f (a) (f prime) vient de Lagrange. La notation de Leibniz est
df (a) df
ou .
dx dx x=a
64 Chapitre 3. Calcul différentiel et intégral
La notation de Newton, retenue en physique, est f˙(a) pour une fonction du temps
t. La notation d’Euler est Dx f (a).
Ainsi,
— pour f (x) = x,
f (x + h) − f (x) x+h−x
f (x) = lim = lim =1
h→0 h h→0 h
— pour f (x) = kx, k constante,
f (x + h) − f (x) k(x + h) − kx
f (x) = lim = lim =k
h→0 h h→0 h
— pour f (x) = cte,
c−c
f (x) = lim =0
h→0 h
— pour f (x) = x2 , f (x) = 2x vu là haut
— pour f (x) = x3 ,
(xn ) = nxn−1 .
f (x + h) − f (x)
f (x) = lim
h→0 h
[g(x + h) + k(x + h)] − [ g(x) + k(x) ]
= lim
h→0 h
[g(x + h) − g(x)] + [ k(x + h) − k(x) ]
= lim
h→0 h
g(x + h) − g(x) k(x + h) − k(x)
= lim + lim
h→0 h h→0 h
= g (x) + k (x)
D’où :
u u v − uv
=
v v2
Dérivée de la puissance d’une fonction : g(x) = f 2 (x) = f (x).f (x)
f 3 (x) = f 2 (x).f (x) −→ f 3 (x) = f 2 (x) .f (x) + f 2 (x).f (x) =
2.f (x).f (x) f (x) + f 2 (x).f (x) = 3f 2 (x).f (x)
Ainsi
(ku) = ku
On sait que : e(n1 +n2 ) = en1 .en2 . Donc, pour a et b réels positifs :
=⇒ a = ey1 et b = ey2
=⇒ y1 = ln(a) et y2 = ln(b)
D’où :
ln(a.b) = ln(a) + ln(b)
On sait aussi que : (en1 )n2 = en1. n2 . Donc, pour x réel positif :
y = ln (xn ) =⇒ xn = ey
y
=⇒ (x1 )n = (e n )n
y
=⇒ x = e n
y
=⇒ = ln(x)
n
=⇒ y = n ln(x)
D’où
ln (xn ) = n · ln(x)
On en déduit que : ln x−1 = − ln(x). Et donc :
a
ln = ln(a) − ln(b)
b
Utilisons ces propriétés pour calculer la dérivée de ln(x) :
x+h
ln
ln(x + h) − ln(x) x 1 h
(ln(x)) = lim = lim = lim ln 1 +
h→0 h h→0 h h→0 h x
1 h 1
= lim · =
h→0 h x x
En effet : lim ln(1 + h) = h
h→0
Dérivée de f (x) = ex :
ex+h − ex ex eh − ex ex e h − 1
f (x) = (ex ) = lim = lim = lim
h→0 h h→0 h h→0 h
eh − 1
= ex lim = ex
h→0 h
Donc
(ex ) = ex
68 Chapitre 3. Calcul différentiel et intégral
df (u(x)) df du
= · = f (u) · u (x)
dx du dx
Ainsi si f (u(x)) = ln(y) avec y = x2 (c’est-à-dire f (x) = ln(x2 ))
df dy 1 2x 2
ln(x2 ) = · = · (2x) = 2 =
dy dx y x x
1
On sait aussi que ln(x2 ) = 2 ln(x) et que (ln(x)) = , d’où : (ln(x2 )) = 2(ln(x)) =
x
1 2
2 = . Donc :
x x
1 dy y
[ln(y(x)] = · = .
y dx y
Il est facile de reprendre les démonstrations précédentes concernant le produit et le
rapport de fonctions, en utilisant ce théorème de dérivée de fonctions composées.
Calculons la dérivée de z(x) pour z = f (y) = y 2 + y avec y = g(x) = 2x + 1. On
vient de voir que :
dz dz dy
= .
dx dy dx
dz
2 = 2y + 1
z =y +y dy
⇒
y = 2x + 1 dy = 2
dx
dz dz dy
⇒ = . = (2y + 1)2 = 2 [2(2x + 1) + 1] = 8x + 6
dx dy dx
⇒ z (x) = 8x + 6
z = y2 + y
⇒ z(x) = (2x + 1)2 + (2x + 1) = 4x2 + 6x + 2
y = 2x + 1
⇒ z (x) = 8x + 6
Calculons la dérivée de √
x+1
z(x) = √
( x + 1 + 1)2
On peut le faire en appliquant la règle de la dérivée d’un rapport de deux fonctions
u(x)
et pour calculer v (x), on appliquera la règle de la dérivée d’une puissance de
v(x)
fonction un (x).
Méthodes mathématiques avancées 69
√
dz dy 1−y 1 1− x+1
=⇒ z (x) = . = . √ = √ √
dy dx (y + 1)3 2 x + 1 ( x + 1 + 1)2 .2 x + 1
Quelle est l’aire comprise entre l’axe des x, la courbe de y = f (x) et les droites
verticales y = a et y = b ?
70 Chapitre 3. Calcul différentiel et intégral
b
I= f (x).dx, intégrale def (x) de x = a à x = b
a
Définition : une fonction F est appelée primitive (ou anti-dérivée) de f dans l’in-
tervalle [a, b] si l’on a F (x) = f (x) pour tout x, a < x < b.
1 1
Exemple : F (x) = x3 est une primitive de f (x) = x2 . Mais, G(x) = x3 + 22 est
3 3
1
également une primitive de f (x). En fait, toute fonction x3 +c, avec c une constante
3
quelconque, est une primitive de f (x) = x2 .
b
f (x)dx = F (b) − F (a)
a
On écrit aussi
b
F (b) − F (a) = [F (x)]bx=a = [F (x)]ba = F (x)a
Ce théorème peut être scindé en deux parties :
c b b
2. Si f est continue sur [a, b] et a ≤ c ≤ b alors f+ f= f (l’aire entre a
a c a
et b est la somme des deux aires entre a et c et entre c et b) ;
b
3. Si m ≤ f ≤ M sur [a, b], alors (b − a)m ≤ f ≤ (b − a)M (en prenant
a
b
m = f (a) et M = f (b), il est évident que l’aire hachurée f est comprise
a
entre le rectangle minimal de hauteur m = f (a) et de largeur (b − a) et le
rectangle maximal de hauteur M = f (b) et de même largeur (b − a). L’aire
hachurée a la même largeur (b − a), mais sa hauteur est variable, croissant
dans notre cas de m à M ).
Preuve de la 1ère partie : Soit x un point dans l’intervalle [a, b]. Par définition,
g(x + h) − g(x)
g (x) = lim
h
h→0
x
La propriété 2 ci-dessus donne g(x) := f :
a
x+h x
x+h
x+h
g(x + h) − g(x) 1
g(x + h) − g(x) = f− f= f =⇒ = f
h h
a a x x
La limite de l’aire située entre x et x + h et divisée par h lorsque h tend vers zéro
n’est autre que f (x), donc g (x) = f (x).
Partie 2 du TFCI :
f , fonction continue sur [a, b]. Supposons que F est continue sur [a, b] et que
F = f sur (a, b). Alors
b
f = F (b) − F (a)
a
x
Preuve : Considérons g de la première partie g (x) = f (x) g(x) = f . F et g
a
sont dérivables et on sait que F (x) = f (x) = g (x) dans l’intervalle (a, b). F et g
diffèrent alors par une constante c. D’où
b a b
F (b) − F (a) = [g(b) + c] − [g(a) + c] = g(b) − g(a) = f− f= f
a a a
72 Chapitre 3. Calcul différentiel et intégral
Donc
b
f = F (b) − F (a)
a
b
f (x)dx = F (b) − F (a)
a
Ainsi
1 1
.dx = ln(x), ex .dx = ex , x2 .dx = x3 , ...
x 3
L’intégrale ici n’est pas une intégrale entre a et b. Il s’agit d’une intégrale indéfinie.
b
f (x).dx est une fonction de x, alors que l’intégrale définie. f (x).dx est un
a
nombre, une aire. En réalité :
f (x).dx = F (x) + c (si F est une primitive de f ).
x x
4. Soit g(x) = f (t).dt. On sait que f (t).dt = F (x) − F (a) (TFC )
a a
x
d d
g (x) = f (t).dt = [F (x) − F (a)] = F (x)
dx dx
a
Carlo s’appuie sur les probabilités et recourt à l’ordinateur. Elle est ainsi appelée
car elle utilise le hasard, comme dans les casinos de la cité-Etat de Monaco ou de
Monte-Carlo.
Cette méthode a été proposée par S. Ulam et N. Metropolis dans un papier
intitulé “the Monte Carlo Method”publié en septembre 1949 par le “Journal of the
American Statistical Association”, Vol. 44, N˚, 247.
b
Pour le calcul de l’intégrale f (x).dx, la méthode consiste à prendre au hasard
a
un point c dans l’intervalle [a, b] et à calculer (b − a)f (c), comme si la fonction f (x)
était constante entre a et b et égale à f (c). On répète un grand nombre de fois cette
expérience et on calcule la moyenne des intégrales ainsi calculées avec les différents
points situés dans l’intervalle et puis au hasard. Cette moyenne tendra d’autant plus
vers l’intégrale recherchée que le nombre de points pris est élevé.
D’où
df (u(x)) = f (u) · u (x).dx =⇒ f (u(x)) = f (u) · u (x) · dx
Donc pour intégrer une fonction, f (x), on peut la mettre sous la forme f (u) · u (x)
en posant u = h(x), passant ainsi d’une fonction de x à une fonction de u. C’est cela
le changement de variable.
du
u=x+4 =⇒ u = 1 =
=⇒ du = dx.
dx
En substituant u à x, le problème revient à chercher u5 · du. Il est évident que
u6 1
u5 · du = + cte = (x + 4)6 + cte
6 6
Calculons cos(5x + 2) · dx. Posons alors u = 5x + 2 donc
1
u = 5 =⇒ du = 5 · ·dx =⇒ dx = · du
5
1
Substituons u à x dans l’intégrale. Elle devient cos(u) · · du. Il s’agit donc de
5
1
calculer cos(u) · du. On sait que (sin(u)) = cos(u) et donc qu’une primitive de
5
cos(u) est sin(u) + cte. D’où :
1 1 1
cos(u) · du = sin(u) + cte = sin(5x + 2) + cte
5 5 5
On peut généraliser ce résultat, obtenant
1
cos(ax + b) · dx = · sin(ax + b) + cte
a
et donc, que
1
sin(ax + b) · dx = − · cos(ax + b) + cte,
a
(puisque : (cos(x) = − sin(x) =⇒ −(cos(x) = sin(x)).
1 1
Calculons · dx. Posons u = 1 + 3x donc, u = 3 =⇒ dx = du.
1 + 3x 3
Substituons pour obtenir
1 1 1 1 du 1 1
· dx = · · du = = ln |u| + cte = ln |1 + 3x| + cte
1 + 3x u 3 3 u 3 3
Méthodes mathématiques avancées 75
16 16
1 3 1 1 u4 16 1 1
u du = u3 du = · = · · (164 − 94 )
7 7 7 4 9 7 4
9 9
16
1 3 1 1 2 1
u du = (65536 − 6561) = 2106.25 = (7x + 2)4 1 = (164 − 94 )
7 28 28 28
9
du
Substituons u à x = 3x2 =⇒ du = 3x2 · dx
dx
√
3x2 · 1 + x3 · dx = 1 + x3 · 3x2 · dx = u · du
On sait que
3
3 3 3 1 3√ 2 3 √
u2 = u 2 −1 = · u 2 = u ⇐⇒ · u 2 = u
2 2 2 3
D’où
√
2 3 2 3
udu = u 2 + cte = · (x3 + 1) 2 + cte
3 3
Ainsi, si on veut calculer f (g(x)) · g (x) · dx , on substitue u = g(x) et on aura à
calculer f (u)· du (car du = g (x) · dx)
2x
Calculons √ · dx. On voit que si on pose u(x) = x2 + 1, on obtient
x2 + 1
u (x) = 2x, d’où l’intégrale ci dessus est ramenée à la forme f (g(x)) · g (x) · dx .
Dans ce cas, on a à calculer
1 √
√ · du = 2 u + cte = 2 x2 + 1 + cte
u
76 Chapitre 3. Calcul différentiel et intégral
Donc
ln(x) dx = x(ln(x) − 1) + cte
x4
2. Calculons x3 ln(x) dx. Posons u = ln(x) et dv = x3 dx =⇒ v = et
4
dx
du = .
x
3
x ln(x) dx = u dv = uv − v du
x4 x4 1
= ln(x) − dx
4 4 x
x4 x3
= ln(x) − dx
4 4
x4 x4
= ln(x) − + cte
4 16
3. Parfois, il faut répéter l’intégration par parties pour arriver à intégrer une
fonction : considérons x2 sin(x) dx. Posons u = x2 =⇒ du = 2x dx et
dv = sin(x) dx =⇒ v = − cos(x). D’où
x2 sin(x) dx = u dv
= −x2 cos(x) − − cos(x) 2x dx
= −x2 cos(x) + 2 x cos(x) dx
Méthodes mathématiques avancées 77
u u v − uv
(uv) = u v + uv =
v v2
df df dg
[f (g(x))] = f (g(x)) · g (x) =⇒ = ·
dx dg dx
u (x)
eu(x) = u (x) · eu(x) [ln(u(x))] =
u(x)
Dérivées usuelles
1 − cos(x) cos(x) 1
(csc(x)) = − csc(x) · cotg(x) = = =− ·
sin(x) sin2 (x) sin(x) sin(x)
(ax ) = ax ln(a) (y = ax ⇐⇒ y = ex ln(a) =⇒ y = ln(a)ex ln(a) = ln(a)y)
1 1
(ex ) = ex ; (ln(x)) = pour x > 0 ⇐⇒ lnx = pour x = 0
x x
Intégrations usuelles
1
dx = x + c ; k dx = kx + c ; xn dx = xn+1 + c ; (n = −1)
n + 1
1 1
dx = lnx + c ; x−1 dx = lnx + c ; x−n dx = x−n+1 + c (n = 1)
x −n +1
1 1 a 1 a
dx = ln |ax + b| + c ; x b dx = a x b +1 + c ; cos(x) dx = sin(x) + c
ax + b a + 1
b
ax
sin(x) dx = − cos(x) + c ; ex dx = ex + c ; ax dx = + c;
ln(a)
1
ln(x) dx = x ln(x) − x + c, x ex dx = (x − 1) ex + c ; dx = lnln(x) + c
x ln(x)
Méthodes mathématiques avancées 79
eax
eax sin(bx) dx = (a sin(bx) − b cos(bx)) + c
a2 + b2
Techniques d’intégration :
— Changement de variable
b g(b)
f (g(x)) · g (x) dx = f (u) du
a g(a)
si on pose u = g(x)
— Intégration par parties
(uv) = u v + uv =⇒
d(uv) = v du
+ u dv
=⇒ d(uv) = v du + u dv
=⇒ uv = v du − u dv
=⇒ u dv = u v − v du
comme c(0) = 0 pour le coût variable. Mais pour le coût total global c(0) = 30 =⇒
cte = 30. D’où la fonction de coût total global cg = q 3 + 30.
5 5 5
1 1 5 1
(12−q) dq− 7 dq = 12q − q 2 − 7q = 5q − q 2 = 52 − 52 = 25−12.5 = 12.5
2 0 2 0 2
0 0
12 12
1
(12 − p) dp = 12p − p2 = 144 − 72 − 84 + 24.5 = 12.5
2 7
7
Méthodes mathématiques avancées 81
∂z ∂z x2
= 2x ln(y) ; =
∂x ∂y y
Calculons les dérivées partielles de z = xy 2 + x2 y + 5x
∂z ∂z
= y 2 + 2xy + 5 ; = 2xy + x2 + 0
∂x ∂y
On définit, d’une manière analogue, les dérivées partielles d’une fonction d’un nombre
quelconque de variables. Exemple u = f (x, y, z, t)
∂u f (x + h, y, z, t) − f (x, y, z, t)
= lim
∂x h→0 h
∂u f (x, y + h, z, t) − f (x, y, z, t)
= lim
∂y h→0 h
...
82 Chapitre 3. Calcul différentiel et intégral
Exemple : u = x2 + y 2 + 3xtz 2
Les dérivées partielles correspondent aux taux de variation de la fonction par rapport
à la variation d’une seule variable, les autres variables étant maintenues constantes.
Comment varie la fonction u lorsque toutes les variables x, y, z et t varient en même
temps ? C’est la question de la variation totale de u et non plus de sa variation
partielle suite à la variation d’une seule variable.
Cette variation totale sera :
∆u = f (x + h1 , y + h2 , z + h3 , t + h4 ) − f (x, y, z, t)
∆u = f (x + h, y, z, t) − f (x, y, z, t).
∂f (x, ȳ)
f (x, y + ∆y) − f (x, y) = ∆y
∂y
D’où :
∂f (x, ȳ)
∆z = f (x + ∆x, y + ∆y) − f (x, y + ∆y) + ∆y
∂y
De même, le premier crochet n’est autre que le numérirateur de la dérivée partielle
par rapport à x, au point (x, y + ∆y). Ce crochet est, toujours selon le théorème de
Lagrange :
∂f (x̄, y + ∆y)
∆x
∂x
D’où
∂f (x̄, y + ∆y) ∂f (x, ȳ)
∆z = ∆x. + ∆y
∂x ∂y
Méthodes mathématiques avancées 83
∂f (x,y) ∂f (x,y)
Ces deux dérivées partielles tendent respectivement vers et lorsque
∂x ∂y
∆x et ∆y tendent vers 0. On obtient :
∂f (x,y) ∂f (x,y)
∆z = ∆x + ∆y
∂x ∂y
On peut ainsi écrire la différentielle totale dz de la manière suivante :
∂f ∂f
dz = dx + dy
∂x ∂y
Calculons la différentielle totale et l’accroissement total de la fonction z = xy au
point (2, 3) lorsque ∆x = 0.1 et ∆y = 0.2.
Solution :
∆z = (x + ∆x).(y + ∆y) − xy
= xy + x∆y + y∆x + ∆x∆y − xy
= x∆y + y∆x + ∆x∆y
= 2 × 0.2 + 3 × 0.1 + 0.1 × 0.2
= 0.72
∂f ∂f
dz = dx + dy = y dx + x dy = 3 × 0.1 + 2 × 0.2 = 0.7
∂x ∂y
La différence entre l’accroissement total (0.72) et la différentielle totale (0.7) est
minime ( 100
2
). Elle est égale à ∆x∆y = 0.1 × 0.2.
Le raisonnement précédent peut être étendu au cas d’une fonction d’un nombre
quelconque de variables indépendantes :
∂f ∂f ∂f ∂f
du = dx + dy + dz + dt + . . .
∂x ∂y ∂z ∂t
L’exemple précédent nous apprend que ∆z dz
∂f ∂f
∆z = f (x + ∆x, y + ∆y) − f (x, y) et dz = ∆x + ∆y
∂x ∂y
∂F ∂F
∆z = ∆x u + ∆x v + α 1 ∆x u + α2 ∆x v
∂u ∂v
(voir plus haut).
En divisant tous les termes par ∆x, on obtient :
∆z ∂F ∆x u ∂F ∆x v ∆x u ∆x v
= + + α1 + α2
∆x ∂u ∆x ∂v ∆x ∆x ∆x
Lorsque ∆x → 0, ∆x u et ∆x v → 0 (continuité supposée de u et v), α1 et α2 → 0.
On a aussi :
∆z ∂z ∆x u ∂u ∆x v ∂v
lim = ; lim = ; lim =
∆x→0 ∆x ∂x ∆x→0 ∆x ∂x ∆x→0 ∆x ∂x
D’où :
∂z ∂F ∂u ∂F ∂v
= + +0
∂x ∂u ∂x ∂v ∂x
De la même manière, on obtiendra :
∂z ∂F ∂u ∂F ∂v
= +
∂y ∂u ∂y ∂v ∂y
Exemple :
2
z = F (u, v) = ln(u2 + v), u = f (x, y) = ex+y et v = h(x, y) = x2 + y.
∂z ∂z
Calculons et .
∂x ∂y
∂z 2u ∂z 1 ∂u 2 ∂u 2 ∂v ∂v
= , = 2 , = ex+y , = 2y ex+y , = 2x, =1
∂u u2 + v ∂v u +v ∂x ∂y ∂x ∂y
∂z ∂F ∂u ∂F ∂v 2u 2 1 2 2
= + = ex+y + 2 2x = 2 (u ex+y + x)
∂x ∂u ∂x ∂v ∂x u2 + v u +v u +v
∂z ∂F ∂u ∂F ∂v 2u 2 1 1 2
= + = 2 2yex+y + 2 1= 2 (2u 2y ex+y + 1)
∂y ∂u ∂y ∂v ∂y u +v u +v u +v
Ces formules des dérivées partielles de z par rapport à x et y peuvent être étendues
aux cas de plus de deux variables.
Si une fonction z est fonction de plusieurs variables, lesquelles sont toutes fonc-
tions d’une seule variable x : z = f (u, v, w, s) et u = f1 (x), v = f2 (x), w = f3 (x),
dz
s = f4 (x), on peut alors calculer la dérivée d’après la première formule ci-dessus :
dx
dz ∂z ∂u ∂z ∂v ∂z ∂w ∂z ∂s
= + + +
dx ∂u ∂x ∂v ∂x ∂w ∂x ∂s ∂x
Méthodes mathématiques avancées 85
dz
est la dérivée totale de z (elle n’est pas partielle). Comme u, v, w et s ne dé-
dx
pendent que d’une seule variable x.
Exemple :
√
z =u+ v avec u = x2 et v = sin(x)
∂z ∂z 1 du dv
= 1, = √ , = 2x, = cos(x)
∂u ∂v 2 v dx dx
et
dz 1 1
= 1 × 2x + √ cos(x) = 2x + cos(x)
dx 2 v 2 sin(x)
On peut vérifier en remplaçant u et v par leurs valeurs en fonction de x :
√ 1 1
z =u+ v = x2 + sin(x) =⇒ z (x) = 2x + (sin(x))− 2 cos(x)
2
∂F ∂F dy 2x x
= 2x, = 2y et =− =− .
∂x ∂y dx 2y y
— F (x, y) = ey − ex + xy = 0
∂F ∂F dy −ex + y ex − y
= −ex + y, = ey + x et =− y = y .
∂x ∂y dx e +x e +x
Exemple :
y = 7x6 , y = 42x5 , y = 210x4 , y = y (3) = 840x3 , . . . , y (n) (x) = y (n−1) (x)
On note aussi
dy d2 y d3 y dn y
y = , y = , y = , . . . , y (n)
= .
dx dx2 dx3 dxn
Pour une fonction de deux (ou plus de deux) variables z = f (x, y), les dérivées
∂z ∂z
partielles = fx (x, y) et = fy (x, y) sont en général des fonctions de x et y dont
∂x ∂y
on peut calculer les dérivées partielles. Ces dernières sont les dérivées partielles du
second ordre de la fonction z. Ces dérivées partielles du second ordre d’une fonction
z de deux variables sont au nombre de quatre, puisqu’il y a deux variables. C’est
qu’à chaque fois, on peut dériver soit par rapport à x, soit par rapport à y.
∂z ∂z
∂ 2 ∂
∂z ∂x ∂ z ∂x ∂2z
Ainsi donne = 2 et =
∂x ∂x ∂x ∂y ∂x∂y
et
∂z ∂2z ∂2z
donne et .
∂y ∂x∂y ∂y 2
Ces quatre dérivées partielles de second ordre peuvent être notées fxx
(x, y), f (x, y),
xy
fyx (x, y), fyy (x, y). Chacune de ces 4 dérivées partielles d’ordre 2, donnera deux
Exemple : f (x, y) = x2 y + y 3
(x − a)n+1
Rn (x) = Q(x) avec Q(x) une fonction à déterminer.
(n + 1)!
On montre que
(x − a)n+1 (n+1)
Rn (x) = f [a + θ(x − a)] avec 0 < θ < 1.
(n + 1)!
x x2 xn xn+1
f (x) = f (0)+ f (0)+ f (0)+. . .+ f (n) (0)+ .f (n+1) (θx) 0<θ<1
1! 2! n! (n + 1)!
Exemple : f (x) = ex
x x2 x3 xn xn+1 θx
ex = 1 + + + + ... + + e 0<θ<1
1! 2! 3! n! (n + 1)!
On voit que le reste tend vers 0 lorsque x tend vers 0, comme il tend vers 0 lorsque
n → +∞.
Considérons maintenant une fonction de deux variables z = f (x, y) . On peut
appliquer la formule de Taylor ci-dessus à z en maintenant l’une des deux variables
constantes. On l’applique tour à tour pour trouver la formule appliquée à une fonction
de deux variables au voisinage de M (a, b). On trouve ainsi pour n = 2 :
1 2
∆x fxx (a, b) + 2∆x∆yfxy (a, b) + ∆y 2 fyy (a, b) + α0 ∆ρ3 .
2!
À l’inverse, on peut intégrer une fonction pour obtenir son intégrale générale (ou
sa primitive) et qu’on peut, là aussi, intégrer l’intégrale de la fonction de départ :
f (x) dx dx.
C’est aussi ce qu’on appelle une double intégrale. En généralisant pour calculer l’in-
tégrale de l’intégrale de l’intégrale de f (x), on obtient la triple intégrale de f (x) :
f (x) dx dx dx
1 x2
(x2 + y 2 ) dy dx.
0 0
x2 x2
y3 (x2 )3 x6
(x2 + y 2 ) dy = x2 y + = x2 .x2 + − 0 = x4 + .
3 0 3 3
0
1 5 1
x6 x x7 1 1 26
(x4 + ) dx = + = + −0= .
3 5 21 0 5 21 105
0
Le domaine d’intégration D est le domaine limité par les courbes x = 0, y = 0,
y = x2 , x = 1.
Méthodes mathématiques avancées 89
On vient de voir que le calcul d’une intégrale double revient à calculer successi-
vement deux intégrales simples par rapport à une seule variable, d’abord l’une, puis
l’autre. Les propriétés des intégrales (simples) déjà vues demeurent donc valables,
dans chacune des deux étapes par rapport à la variable considérée.
Nous passons maintenant à une question qui est souvent oubliée dans les manuels
classiques de mathématiques, alors qu’elle commence à jouer un rôle de plus en plus
important en économétrie, surtout en économétrie des séries temporelles, mais pas
seulement. Il s’agit du calcul fractionnaire, c’est-à-dire du calcul des dérivées et in-
tégrales d’ordres non entiers, plutôt réels que fractionnaires.
Il s’agit d’une question assez complexe et qui n’a pas toujours reçu l’attention qu’elle
mérite dans les manuels de mathématiques destinés aux étudiants de sciences écono-
miques. Toutefois, nous nous contenterons, dans ce qui suit, d’une simple introduc-
tion.
df (x)
f (1) (x) = m.xm−1 =
dx
d2 f (x)
f (2) (x) = m.(m − 1).xm−2 =
dx2
d3 f (x)
f (3) (x) = m.(m − 1).(m − 2).xm−3 =
dx3
..
.
dn f (x) m!
f (n) (x) = m.(m − 1).(m − 2)...(m − n + 1)xm−n = = xm−n
dxn (m − n)!
Il apparaît ainsi clair que pour étendre l’ordre de la dérivée f (n) à des nombres non
entiers, il faut étendre la notion factorielle à r (r non entier ou r ∈ R et non seulement
r ∈ Q , et au-delà r ∈ C). L’extension, de la factorielle à des nombres non entiers a
été faite par Euler après avoir été envisagée par Daniel Bernoulli et Christian–
Goldbach vers 1720. Euler a proposé d’abord (1729) l’expression de n! sous forme
de produit infini :
1 n
∞
1+
K
n! = n
k=1 1+
k
pour présenter ensuite en 1730 (moins de quatre mois après, d’octobre à janvier) la
forme intégrale de n! :
1
n! = (− log(s))n ds.
0
En posant
0 ∞
n! = tn −e−t dt = −tn e−t dt = tn e−t dt
∞ 0
On peut calculer
∞ ∞
∞
Γ (1) = t1−1 e−t dt = e−t dt = −e−t 0 = −e−∞ − (−e0 ) = 0 − 1 = 1
0 0
∞ ∞
n+1−1 −t
Γ (n + 1) = t e dt = tn e−t dt
0 0
Cette intégrale peut être calculée par parties en répétant l’opération n fois pour
obtenir tn−n en dérivant tn−n+1 . Posons donc u = tn et dv = e−t dt. D’où ; du =
n tn−1 dt et v = −e−t
∞ ∞ ∞
∞
u dv = uv − v du = −tn e−t 0 − −e−t n tn−1 dt
0 0 0
∞ ∞ ∞
−t ∞ −t n−1 −tn
= n
−t e 0
+n e t dt = +n e−t tn−1 dt
et 0
0 0
∞ ∞
−tn −0n −tn
= lim − +n e−t tn−1 dt = lim − 0 + n e−t tn−1 dt
t→∞ et e0 t→∞ et
0 0
−∞
Pour calculer la limite ci-dessus qui est de la forme on peut appliquer la règle ∞ ,
de L’Hôpital en dérivant le numérateur et le dénominateur n fois pour trouver
D’où :
∞
Γ (n + 1) = n e−t tn−1 dt = n.Γ (n)
0
Γ (2) = Γ (1 + 1) = 1Γ (1) = 1! = 1
Γ (3) = Γ (2 + 1) = 2Γ (2) = 2 × 1! = 2! = 2
Γ (4) = Γ (3 + 1) = 3Γ (3) = 3 × 2! = 3! = 6
..
.
Γ (n + 1) = n Γ (n) = n (n − 1)! = n!
Donc
Γ (n + 1) = n!
En effet, on a vu ci-dessus que
∞ ∞
n −t
Γ (n + 1) = t e dt = n tn−1 e−t dt
0 0
92 Chapitre 3. Calcul différentiel et intégral
puisque
∞
∞ 1 ∞ 1 1
e−t dt = −e−t 0 = − t = − ∞ −− 0 =1
e 0 e e
0
Cette fonction gamma définie pour n’importe quel nombre (n > 0) généralise donc
la factorielle n! à n’importe quel n complexe (à partie réelle positive).
Euler a également établi, pour la fonction gamma, la formule de réflexion sui-
vante :
π
Γ (1 − Z)Γ (Z) =
sin(πZ)
et la formule de duplication suivante :
1 √
Γ (Z)Γ Z + = 21−2Z π Γ (2Z)
2
D’où,
1 √
Γ = π
2
Pour Z = 23 , la formule de duplication nous donne
3 4 6 √ 6
Γ Γ = 21− 2 πΓ
2 2 2
3 √
Γ Γ (2) = 21−3 π Γ (3)
2 √
3 √ π
Γ = 2−2 π × 2 =
2 2
Méthodes mathématiques avancées 93
En utilisant ces deux formules, on peut ainsi obtenir les résultats suivants (y compris
pour des nombres négatifs) :
√
3 4 π 1 √
Γ − = , Γ − = −2 π, Γ (1) = 0! = 1,
2 3 2
√ √
5 3 π 7 15 π
Γ = , Γ = , ...
2 4 2 8
En effet, pour z = n, la formule de duplication nous donne :
1 √
Γ (n)Γ n + = 21−2n π Γ (2n)
2
√
1 21−2n π (2n − 1)! (2n − 1)! √
⇒Γ n+ = = 2n−1 π
2 (n − 1)! 2 (n − 1)!
Rappelons que
D−1 f (x) = f (x) dx (intégrale générale)
D’où pour les nombres entiers négatifs (Z), l’ordre négatif de la dérivée est l’ordre
opposé (positif) de l’intégrale de f (x) :
D−2 f (x) = f (x) dx2 , D−3 f (x) = f (x) dx3 , · · ·
Aucun problème donc pour la dérivée d’ordre −n. Il s’agit d’une intégrale multiple
d’ordre n. La réciproque est vraie : l’intégrale d’ordre −n de f (x) est la dérivée
d’ordre n de f (x). Revenons maintenant à l’ordre fractionnaire. Pour α fractionnaire,
pour que Dα f (x) soit valable, il faut vérifier les relations suivantes :
Pour Dα eax , on peut provisoirement considérer que c’est aα eax . Cherchons une ex-
pression générale d’une dérivée fractionnaire Dα . Prenons la fonction sin x et cos x.
Ainsi prendre la dérivée de sin x, c’est additionner π2 à x et prendre sin x + π2 .
C’est que (sin x) = sin x + π2 d’où sin x + π2 2 et donc
= sin x + 2π
nπ
Dn sin x = sin x +
2
Peut on remplacer n par α fractionnaire et écrire :
απ
Dα sin x = sin x + ?
2
De même pour la fonction cos x, on a D cos = − sin x, la dérivation est une rotation
de π2 , d’où : απ
Dα cos x = cos x + ?
2
Ainsi si l’on considère l’expression d’Euler eix = cos x + i sin x, en utilisant Dα eax =
aα eax , on obtient : Dα eix = iα eix .
La formule d’Euler est eiπ + 1 = 0. Elle implique que eiπ = −1 = i2
α α iπα
eiπ = i2 ⇒ eiπ 2 = i2 2 ⇒ iα = e 2
D’où
iπα π
Dα eix = iα eix = e 2 eix = ei(x+ 2 α)
et en reprenant l’expression d’Euler ci-dessus, on obtient :
π
π π
Dα eix = ei(x+ 2 α) = cos x + α + i sin x + α
2 2
Cette dérivée d’ordre α de eax supposée correspond donc à la dérivée d’ordre α des
fonctions circulaires sin x et cos x ci-dessus. Retournons aux dérivées de f (x) = xm
déjà vues. Nous avons établi que pour n naturel
m!
D n xm = xm−n
(m − n)!
On a vu que : m! = Γ (m + 1) et (m − n)! = Γ (m − n + 1) D’où :
Γ (m + 1)
D n xm = xm−n
Γ (m − n + 1)
Nous avons vu que la fonction Γ généralisé la factorielle n! à des nombres fraction-
naires α. D’où :
Γ (m + 1)
D α xm = xm−α
Γ (m − α + 1)
Nous étendons ainsi la dérivée de xm à tout ordre fractionnaire α. Non seulement,
on vient d’étendre l’ordre de dérivation de f (x) = xm à α arbitraire, mais à toute
∞
fonction pouvant être développée en série de Taylor de x : f (x) = an xn de la
n=0
manière suivante :
∞
∞ ∞
Γ (n + 1)
Dα f (x) = Dα an xn = an D α xn = an xn−α
Γ (n − α + 1)
n=0 n=0 n=0
96 Chapitre 3. Calcul différentiel et intégral
Ceci n’est égal à exque lorsque (n − α) est entier. C’est-à-dire lorsque α est entier.
Lorsque α est fractionnaire, les deux dérivées d’ordre α obtenues (en utilisant les deux
expressions de Dα , celle de eax et celle de xn ) ne sont pas égales ! La dérivée fraction-
naire est ainsi problèmatique. La dérivée fractionnaire d’une fonction élémentaire ne
devrait pas être élémentaire pour pouvoir vérifier différentes expressions.
À la recherche d’une expression transcendantale de la dérivée fractionnaire, re-
venons à l’intégrale
ou à la dérivée d’ordre relatif négatif (Z− ). Nous avons vu que :
D f (x) = f (x) dx. Seulement la partie droite de cette égalité est indéfinie. Pour
−1
En général : x
1
D−n f (x) = f (t) (x − t)n−1 dt
(n − 1)! 0
Si l’on remplace −n par un α fractionnaire, on obtient :
x
1 f (t)
Dα f (x) = dt
Γ (−α) 0 (x − t)1+α
Donc pour −1 < α < 0, la dérivée d’ordre α donne une intégrale d’ordre α dans son
expression x
1
Dα f (x) = (x − t)−1−α f (t) dt
Γ (−α) 0
Pour fixer les idées, prenons α = −0.5. Cela donne :
x
1 1
D− 2 f (x) = (x − t)−0.5 f (t) dt
Γ ( 12 ) 0
98 Chapitre 3. Calcul différentiel et intégral
Pour α = −1.5 on a :
x
1
D−1.5 f (x) = D−1 D−0.5 f (x) = (x − t)−0.5 f (t) dt
Γ (1.5) 0
D−2.5 f (x) = D−2 D−0.5 f (x) D−2 Correspond à une intégrale et D−0.5 à une
dérivée ou intégrale d’ordre fractionnaire −0.5.
x
1
Dα f (x) pour −1 < α < 0 correspond à (x − t)−1−α f (t) dt. On a α =
Γ (−α) 0
α + n − n donc,
x
1
Dα f (x) = Dα+n−n f (x) = (x−t)−1−α f (t) dt = Dα−n [Dn f (x)] = Dα−n g(x)
Γ (−α) 0
x
1
Dα−n g(x) = (x − t)−1−α+n g(t) dt avec g(x) = Dn f (x)
Γ (n − α) 0
D’où, x
α−n n 1 dn f (t)
D [D f (x)] = (x − t)n−1−α dt
Γ (n − α) 0 dtn
C’est là l’expression de Caputo pour la dérivée fractionnaire.
Reprenons
Dα f (x) = Dα+n−n f (x) = Dn Dα−n f (x)
x
1
Dα−n f (x) = (x − t)n−α−1 f (t) dt
Γ (n − α) 0
D’où
Dα f (x) = Dn [Dα−n f (x)]
x
dn 1 n−α−1
= (x − t) f (t) dt
dxn Γ (n − α) 0
x
1 dn
= (x − t)n−α−1 f (t) dt
Γ (n − α) dxn 0
C’est là l’expression de Riemann-Liouville de la dérivée fractionnaire.
Il existe plusieurs expressions de la dérivée fractionnaire. Nous allons y revenir
lorsque nous aurons résolu un problème de bornes d’intégration que nous avons laissé
en suspens.
En réalité, la borne inférieure de l’intégrale a été arbitrairement fixée à zéro. Elle
aurait pu être à b. C’est pour cela que l’on écrit souvent :
x
α 1 f (t)
b Dx f (x) = dt
Γ (−α) b (x − t)α+1
La question à poser est donc quelle borne inférieure b choisir pour avoir :
α Γ (n + 1)
b Dx f (x) = xn−α
Γ (n − α + 1)
La contradiction à laquelle nous avons abouti précédemment vient de ce que nous
avons voulu calculer une dérivée fractionnaire sans tenir compte du fait qu’elle doit
faire intervenir des bornes, puisque les intégrales se calculent dans des bornes et
que les dérivées fractionnaires correspondent à des intégrales fractionnaires. Une
intégrale se fait dans des bornes, donc une dérivée fractionnaire doit se calculer dans
des bornes. On ne pouvait donc pas généraliser :
D’où
α p Γ (p + 1)
0 Dx x = xp−α
Γ (p − α + 1)
Le résultat est que la dérivée fractionnaire de eax se calcule entre −∞ et x et la
dérivée fractionnaire de xp se calcule entre 0 et x. C’est pour cette raison que l’on
est tombé dans la contradiction ci-haut ou dans deux expressions non égales de la
dérivée fractionnaire : nous avons emprunté deux chemins non équivalents. Pour eax
et pour le développement en série de eax en xp . Dans le premier cas, les bornes sont
−∞ et x et dans le second, les bornes sont 0 et x !
Maintenant que la contradiction est résolue, terminons cette section introductive
au calcul fractionnaire par la présentation des différentes définitions de la dérivée ou
intégrale fractionnaire (c’est pour cela que l’on parle souvent de différintégrale).
Dérivée de Caputo
x
α 1 dn f (t)
0 Dx (f (x)) = (x − t)n−α−1 dt −1<α<0
Γ (n − α) 0 dtn
100 Chapitre 3. Calcul différentiel et intégral
Dérivée de Riemann-Liouville
x
1 dn
Dxα (f (x)) = (x − t)n−α−1 f (t) dt
Γ (n − α) dxn 0
Dérivée de Weyl
∞
1 dn
Dxα (f (x)) = (x − t)n−α−1 f (t) dt
Γ (n − α) dxn x
Dérivée de Erdelyi-Kober
1 d n σ(n+η) n−α
α
D0,σ,η (f (x)) = x−nσ x I0,σ,η+σ (f (x)) σ>0
σxσ−1 dx
Dérivée de Hadamard
1 d n x x n−α−1 dt
D0α (f (x)) = x log f (t)
Γ (n − α) dx 0 t t
Dérivée de Riesz
1
Dxα (f (x)) =
2 cos α π2
m x ∞
1 d m−α−1 m−α−1
× (x − t) f (t) dt + (t − x) f (t) dt
Γ (α) dx −∞ x
Une équation différentielle est une équation étabilssant une relation entre la va-
riable indépendante x, la fonction inconnue de x, y = f (x) et ses dérivées y , y , . . .
Symboliquement, une équation différentielle est :
F x, y, y , y , · · · , y (n) = 0.
Lorsque y est fonction d’une seule variable x, l’équation différentielle est qualifiée
d’ordinaire. Dans ce qui suit, il ne sera question que d’équations différentielles or-
dinaires. Les équations différentielles concernant des fonctions de plusieurs variables,
sont des équations différentielles aux dérivées partielles.
L’ordre d’une équation différentielle correspond à l’ordre le plus élevé des déri-
vées contenues dans l’équation.
Exemples :
x2 y + y + 27 est une équation du premier ordre.
ln(x) − y + 5y + 3y est une équation du second ordre.
7y (3) + 2y + ex est une équation du troisième ordre.
La solution ou l’intégrale d’une équation différentielle est toute fonction y = f (x)
vérifiant identiquement cette équation.
Une équation différentielle peut être résolue par la méthode de séparation des
variables si dans cette équation, on peut séparer deux termes l’un dépendant de y
seule et l’autre dépendant de x seule.
À titre d’exemple : g(y) · y = f (x) où g(y) ne dépend que de y et f (x) ne dépend
que de x, peut être écrite sous la forme :
dy
g(y) · y = f (x) ⇒ g(y) · = f (x) ⇒ g(y) · dy = f (x) · dx.
dx
Dans cette dérnière écriture, les deux variables y et x sont séparées. La solution est :
g(y) · dy = f (x) · dx + cte.
Exemple 1 :
dy x3
y = x2 ⇒ = x2 ⇒ dy = x2 dx ⇒ dy = x2 dx ⇒ y = + c.
dx 3
Exemple 2 :
dy dy
y = 5xy ⇒ = 5xy ⇒ = 5xdx
dx y
dy 5 5 2 5 2
⇒ = 5xdx ⇒ ln(y) = x2 + c ⇒ y = e 2 x +c = cte e 2 x
y 2
Une équation différentielle de la forme f (x, y) + g(x, y) · y = 0 ou de la forme
équivalente : f (x, y)dx + g(x, y)dy = 0 est dite exacte s’il existe une fonction u(x, y)
telle que :
du = ux dx + uy dy = f (x, y)dx + g(x, y)dy
Cette équation différentielle est donc exacte si elle est la différentielle totale de
quelque fonction, d’où du = 0. Sa solution est u = cte.
Exemple :
x3 y + 3x2 y = 0 ⇒ x3 dy + 3x2 ydx = 0
On peut vérifier que u(x, y) = x3 y. Ainsi ux = 3x2 y et uy = x3 ; d’où u(x, y) =
c
x3 y = cte ⇒ y = 3 .
x
Autre exemple : (1+2xy)y +y 2 = 0 peut être écrite ainsi : (1+2xy)dy +y 2 dx = 0.
En intégrant par rapport à y la fonction (1 + 2xy), on obtient y + xy 2 + cte et en
intégrant par rapport à x la fonction y 2 , on obtient xy 2 + cte. On constate que si on
Méthodes mathématiques avancées 103
e−P x est le facteur intégrant. C’est ce facteur qui nous a permis d’intégrer l’équa-
tion différentielle considérée. Le point (y(0) = y0 ) utilisé pour calculer la constante
c est appelé condition initiale.
104 Chapitre 4. Équations différentielles ordinaires
⇒ d yeP x = f (x)eP x dx
⇒ yeP x = f (x)eP x dx
1
⇒ y= f (x)eP x dx = e−P x f (x)eP x dx
eP x
En effet,
d u(x)dx
= u(x) ⇒ d u(x)dx = u(x)dx ⇒ u(x)dx = u(x)dx.
dx
Rappelons aussi que :
[f (x) · g(x)] = f (x) · g(x) + f (x) · g (x).
Appliquons cette règle à
y(x)e u(x)dx = y e u(x)dx + yu(x)e u(x)dx = e u(x)dx y + yu(x)
⇒ yxa = bxa dx + c
⇒ y = x−a bxa dx + cx−a
1 a+1
⇒ y = x−a b x + cx−a (a = −1)
a+1
b
⇒ y= x + cx−a (a = −1)
a+1
106 Chapitre 4. Équations différentielles ordinaires
b a+3
⇒ yta = t + c, (a = −3)
a+3
b 3
⇒ y= t + ct−a , (a = −3)
a+3
Méthodes mathématiques avancées 107
Pour a = −3, on a :
yt−3 = bt−1 dt + c = b ln(t) + c ⇒ y = bt3 ln(t) + ct3 .
y + p(x)y = q(x)y n
y −3 y + xy −2 = x3
1
Posons z = y −2 . Cela donne z = −2y −3 y ⇒ y −3 y = − z . Remplaçons y par z
2
dans l’équation ci-dessus. On obtient l’équation linéaire suivante :
1
− z + xz = x3 ⇔ z − 2xz = −2x3 (4.2)
2
108 Chapitre 4. Équations différentielles ordinaires
On peut utiliser le facteur intégrant e −2xdx comme on a vu lorsque u(x) et v(x)
sont variables dans une équation linéaire du premier ordre.
2 +cte 2
−2xdx
e = e−x = ce−x
Multiplions tous les termes dans l’équation (4.2) par ce facteur. On obtient :
2 2 2 2 2 2
z ce−x − 2xce−x z = −2x3 ce−x ⇒ z e−x − 2xe−x z = −2x3 e−x (4.3)
La partie gauche est :
2 2
z e−x + z e−x = u v + uv
2
en posant u= z et v = e−x . On sait que u v + uv = (uv) . Donc, la partie gauche
2
est égale à ze−x . Ainsi le (4.3) est :
2 2 2 2
ze−x = −2x3 e−x ⇒ ze−x = −2x3 e−x dx + cte.
2
2
2
Cette dernière parenthèse est la dérivée de e−x . D’où x2 −2xe−x = x2 e−x .
2 2
En Posant u = x2 et e−x dx = dv ⇒ v = e−x et du = 2xdx, on obtient
2
2 2 2 2
−2x3 e−x dx = udv = uv− vdu = x2 e−x − e−x 2xdx = x2 e−x +e−x +cte
D’où :
2 2 2 2 1
ze−x = x2 e−x + e−x + cC ⇒ z = x2 + 1 + cex comme z = y −2 , on a y = z − 2
1
⇒y= √
x2 + 1 + ce2
∗ y = 0 implique y = cte. D’où y = xc + ϕ(c). Les y(x) sont donc des droites
de pente c, solutions générales de l’équation en résolvant l’équation de Clai-
raut ;
∗ x + ϕ (y ) = 0 cela donne une solution singulière en résolvant l’équation impli-
cite f (x, y ) = 0 pour trouver y puis y.
y = xf (y ) + g(y )
où f et g sont des fonctions données de y . Ces équations sont linéaires par rapport
à x et y.
L’équation de Clairaut ci-dessus est un cas particulier de l’équation de Lagrange,
lorsque f (y ) = y .
On peut intégrer l’équation de Lagrange en introduisant p = y . Elle devient alors :
y = xf (p) + g(p)
∗ Si p = cte, p = 0, donc p − p2 = y − p2 = 0.
y y 1 c
y = − ⇒ = − ⇒ ln(y) = − ln(x) + c = ln(x−1 ) + C ⇒ y = x−1 ek = .
x y x x
c
Si les conditions initiales sont y(2) = 1, on a 1 = ⇒ c0 = 2. Une solution
2
2
particulière est donc y = . La solution générale correspond à la famille d’hyperboles
x
c 2
y = et l’intégrale particulière y = appartient à cette famille et elle passe par le
x x
point (2, 1) du plan (x, y).
Ainsi, lorsqu’on parle de solution d’une équation différentielle, on peut signifier
aussi la famille de courbes pour l’intégrale générale ou une courbe donnée pour l’in-
tégrale particulière considérée. On parlera ainsi d’une solution (particulière) passant
par un point donné.
Résoudre une équation différentielle, c’est donc chercher sa solution générale ou
son intégrale générale, ou chercher la solution particulière satisfaisant aux conditions
initiales, le cas échéant.
Géométriquement, il s’agit de déterminer la famille de courbes intégrales dans le
plan (x, y) dépendant de c et de déterminer des courbes particulières passant par des
points donnés.
On sait que la valeur de la dérivée y à un point donné d’une courbe intégrale
correspond à la pente de la tangente à la courbe en ce point.
L’équation différentielle y = ϕ(x, y) définit donc un ensemble de directions ou
un champ de directions dans le plan (x, y).
On appelle isocline de l’équation différentielle y = ϕ(x, y) le lieu géométrique
des points vérifiant y = cte. À chaque valeur de cte correspond une isocline. L’équa-
tion de l’isocline correspondant à c est évidemment y = ϕ(x, y) = c.
Il est évident que les courbes intégrales sont déterminées par les isoclines. Ces
dernières donnent l’allure des premières dans le plan.
112 Chapitre 4. Équations différentielles ordinaires
φ c (x, y, c) = −2(x − c) = 0 ⇒ x = c
φ(x, y, c) = 0 et x = c ⇒ y 2 − R2 = 0 ⇒ y = ±R
Le couple de droites y = +R et y = −R constituent bien l’enveloppe (les cercles de
la famille n’ont pas de points singuliers).
φ(x, y, c) = y 3 − (x − c)2 = 0
Calculons φ c :
φ c = +2(x − c) = 0 ⇒ x = c
y 3 − (c − c)2 = 0 ⇒ y = 0
l’axe des x, d’équation y = 0, est le lieu des points singuliers. Vérifions le :
φ x = −2(x − c) = 0
φ y = 3y 2 = 0
et comme ils sont des points de la famille, ils vérifient y 3 − (x − c)2 = 0. Les trois
équations φ = φ x = φ y = 0 nous donnent le point x = c, y = 0.
Méthodes mathématiques avancées 113
2
φ(x, y, c) = (y − c)2 − (x − c)3 = 0
3
Calculons φ c :
F (x, y, y ) = 0.
y = f (x, y)
On dit dans ce cas que l’équation est résoluble par rapport à la dérivée. Pour ces
équations résolubles par rapport à la dérivée, y = f (x, y), la fonction f et sa dérivée
pa rapport à y, fy sont continues dans un domaine D du plan x, y, et si (x0 , y0 ) est
un point de D, il existe une solution unique y = ϕ(x) satisfaisant à y = y0 lorsque
x = x0 .
Géométriquement, cela signifie qu’il existe une fonction y = ϕ(x) et une seule
dont la courbe passe par le point (x0 , y0 ).
Cette condition y0 = ϕ(x0 ) s’appelle la condition initiale
114 Chapitre 4. Équations différentielles ordinaires
y = f (x, y)
y = 2ex − x − 1
c1 y(x) + c2 z(x) = 0
116 Chapitre 4. Équations différentielles ordinaires
y + ay + by = 0
En substituant, on obtient :
cr2 erx + acrerx + bcerx = 0 ⇒ cerx r2 + ar + b = 0
Comme e±ix = cos(x) ± sin(x), la solution générale pourra être réécrite ainsi :
6 2 24 63
y = x + x+
5 25 125
12 24
y = x+
5 25
d’où :
12 24 6 2 24 63 2 3 12 2 63 131
x+ −2 x + x+ +5 x + x + x+
5 25 5 25 125 5 25 125 625
= 2x3 + 0x2 + 3x + 1
Ce qui vérifie l’équation.
Donc, lorsque w(x) est un polynôme, la solution de l’équation différentielle est
un polynôme de même degré dont les coefficients sont déterminés de la manière
précédente.
Par contre, si w(x) contient des termes trigonométriques ou exponentiels, la so-
lution à essayer devrait contenir ces fonctions à additionner au polynôme.
Exemple : Soit à résoudre y − 2y = x + ex sin(x). La solution à essayer serait de
la forme :
y(x) = ax + ex (k1 sin(x) + k2 cos(x)) + b.
Cela donne
En substituant, on a :
1 1
⇒ −2a = 1 ; a − 2b = 0 ⇒ a = − ;b = −
2 4
120 Chapitre 4. Équations différentielles ordinaires
ex (k1 sin(x) + k2 cos(x) + k1 cos(x) − k2 sin(x) − 2k1 sin(x) − 2k2 cos(x)) = ex sin(x)
⇒ k1 sin(x) + k2 cos(x) + k1 cos(x) − k2 sin(x) − 2k1 sin(x) − 2k2 cos(x)) = sin(x)
⇒ k1 − k2 − 2k1 = 1 et k2 + k1 − 2k2 = 0
1
⇒ k 1 = k2 = −
2
D’où la solution :
1 1 1 1
y(x) = − x − + ex (− sin(x) − cos(x))
2 4 2 2
Donc,
1 x 1 1 x 1 1
y (x) = − + e − sin(x) − cos(x) + e − cos(x) + sin(x)
2 2 2 2 2
1
y (x) = − + ex (−cos(x))
2
De là on vérifie l’équation différentielle : y − 2y = x + ex sin(x)
y (x) = c1 (x)y1 (x) + c1 (x)y1 (x) + c2 (x)y2 (x) + c2 (x)y2 (x)
y + uy + vy = w ⇔ c1 y1 + c1 y1 + c2 y2 + c2 y2 + u(c1 y1 + c2 y2 ) + v(c1 y1 + c2 y2 ) = w
Comme on a supposé que y1 et y2 sont des solutions de l’équation réduite, les deux
parenthèses ci-dessus sont nulles et on obtient :
On a posé la restriction c 1 y1 + c 2 y2 = 0.
Nous avons là un système de deux équations linéaires dont les inconnues c1 et c2
peuvent être trouvées, et en les intégrant, on trouvera c1 et c2 .
c1 y1 + c2 y2 = w
c1 y1 + c2 y2 = 0
Méthodes mathématiques avancées 121
e3x
Exemple : Résoudre : y − 6y + 9y = .
x2
L’équation caractéristique de l’équation réduite homogène est r2 − 6r + 9 = 0
dont la double racine est r1 = r2 = 3. D’où y1 (x) = e3x et y2 (x) = xe3x sont deux
solutions linéairement indépendantes de l’équation réduite y − 6y + 9y = 0.
Une solution particulière de l’équation complète est :
où c1 et c2 satisfont les deux équations du système ci-haut pouvant être écrit comme
suit :
e3x
3c1 (x)e3x + c2 (x) e3x + 3xe3x = 2
c (x)e3x + c (x)xe3x = 0 x
1 2
1 1 −1
Par substitution, on obtient c2 (x) = ⇒ c2 (x) = − et c1 (x) = ⇒ c1 (x) =
x2 x x
− ln |x|.
La solution particulière devient donc,
1
− ln |x|e3x − xe3x = y(x) ⇒ y(x) = − ln |x|e3x − e3x
x
La solution générale est alors
Exemple : résoudre
Équations non-homogènes
La forme générale de ces équations non-homogènes est :
Exemple : résoudre
y (3) − y (2) + y = x2
Essayons donc
0 − 2a + ax2 + bx + c = x2 ⇒ a = 1, b = 0, c = 2
Méthodes mathématiques avancées 123
En dérivant 2 fois puis 3 fois et en substituant puis en égalisant les coefficients à ceux
du polynôme w(x) = x2 , on obtient :
1 4 1 3
y(x) = − x − x − x2
12 3
En effet,
1
y (x) = − x3 − x2 − 2x
3
y (x) = −x2 − 2x − 2
y (x) = −2x − 2
y (x) − y (x) = (−2x − 2) − (−x2 − 2x − 2) = x2
Une méthode générale pour trouver une solution particulière de l’équation complète
consiste à appliquer la méthode de la variation des constantes également déjà vue.
Avant de l’appliquer au cas général, d’ordre n, appliquons la méthode à l’équation
différentielle linéaire d’ordre 3. Il s’agit de résoudre :
y + a1 y + a2 y + a3 y = f (x)
Posons c1 y1 + c2 y2 + c3 y3 = 0. Cela donne y = c1 y1 + c2 y2 + c3 y3 .
Dérivons pour trouver
y = c1 y1 + c1 y1 + c2 y2 + c2 y2 + c3 y3 + c3 y3
124 Chapitre 4. Équations différentielles ordinaires
Remplaçons dans l’équation complète y, y , y et y par leurs valeurs, pour trouver :
+a1 (c1 y1 + c2 y2 + c3 y3 ) + a2 (c1 y1 + c2 y2 + c3 y3 ) + a3 (c1 y1 + c2 y2 + c3 y3 ) = f (x).
Cela donne
+c3 (y3 + a1 y3 + a2 y3 + a3 y3 ) + c1 y1 + c2 y2 + c3 y3 = f (x).
Cette équation en ci plus les deux restrictions ci-dessus en ci nous donne un système
d’équations (en 3 équations) nous permettant de déterminer les ci (x). En les inté-
grant, on trouvera les ci (x) qui nous donnent donc la solution générale de l’équation
complète.
Considérons donc l’équation différentielle linéaire d’ordre n suivante :
où les ai et f (x) sont des fonctions continues de x (ou des constantes). Suppososns
que l’on a déterminé la solution générale
n
ȳ = c i yi
i=1
On obtient ainsi le système de n équations nécessaires pour déterminer les ci (x).
Ce système est comme suit :
c1 y1 + c2 y2 + . . . + cn yn = 0
c y + c y + . . . + c y = 0
n n
1 1. 2 2
..
(n−2) + c y (n−2) + . . . + c y (n−2) = 0
c 1 y1
2 2 n n
c y (n−1) + c y (n−1) + . . . + c y (n−1) = f (x)
1 1 2 2 n n
Ce système d’équations avec pour inconnues les ci a une solution bien déterminée :
le déterminant des coefficients des ci est le déterminant des solutions particulières yi
de l’équation homogène. Ce déterminant est le déterminant de Wronski, qui n’est
pas nul puisque les yi sont linéairement indépendants.
Une fois les ci trouvées, on les intègre : ci = ci dx+c̄i . Les c̄i sont des constantes
d’intégration.
L’expression générale y ∗ = ni=1 ci yi comprenant des c̄i constitue ainsi la solution
générale de l’équation complète :
Exemple :
y (4) − 10y (3) + 35y (2) − 50y + 24y = x2 + 1
L’équation homogène associée est y (4) −10y (3) +35y (2) −50y +24y = 0. Son équation
caractéristique est k 4 −10k 3 +35k 2 −50k+24 = 0. Une racine évidente est k1 = 1 d’où
(k − 1) peut être mis en facteur. Pour cela, il faut diviser le polynôme caractéristique
par (k − 1), on obtient :
On peut vérifier que k2 = 2 est une racine du second facteur. On pourra donc mettre
en facteur (k − 2) en divisant ce polynôme de 3ème degré par (k − 2). On trouve
k1 = 1, k2 = 2, k3 = 3 et k4 = 4.
Ce déterminant n’est pas nul puisque les 4 solutions particulières ex , e2x , e3x et e4x
sont linéairement indépendantes.
Calculons les déterminants de chacune des ci en remplaçant dans le déterminant
principal la colonne correspondante par la colonne :
0
0
0
2
x +1
Cela donne le produit de (x2 +1) par le déterminant obtenu en supprimant la dernière
ligne et la colonne correspondante en tenant compte du signe.
Pour avoir c1 , le déterminant D1 est :
0 e2x e3x e4x
0 2e2x 3e3x 4e4x
D1 =
0 4e2x 9e3x 16e4x
x2 + 1 8e2x 27e3x 24e4x
D1
On trouve ainsi, c1 = . On intégrera c1 pour trouver c1 . Calculons d’abord D. On
D
peut développer par rapport à la première colonne. Ce qui nous donne une somme
algébrique de 4 déterminants d’ordre 3 tous multipliés par ex . Le résultat final est
D = 12e10x . D’où
−2(x2 + 1)e9x −2(x2 + 1) −x
c1 = = e
12e10x 12
En intégrant c1 , on obtient
−2(x2 + 1) −x
c1 (x) = e dx
12
2 2 x 1
= (x + 1)e−x + e−x + e−x
12 3 3
2 2 2 x 1
= e−x x + + + + c̄1
12 12 3 3
2 2 x 1
= e−x x + + + c̄1
12 3 2
128 Chapitre 4. Équations différentielles ordinaires
Donc :
D1 x2 ex (x − 1) x4 x3
c1 = = x
= x3 − x 2 ⇒ c 1 = − + c̄1
D2 e 4 3
1 0 ex
0 ex
D2 = 0 0 ex = 1 2 x = −x2 ex
0 x 2 ex x e
−x2 ex −x3
c2 = = −x2 ⇒ c2 (x) = + c̄2
ex 3
1 x 0
1 0
D3 = 0 1 0 = 1 = x2
0 2 0 x2
0 x
x2
c3 = = x2 e−x ⇒ c3 (x) = −e−x (x2 + 2x + 2) + c̄3
ex
D’où la solution générale de l’équation complète :
4 3
x x3 x
y(x) = − + c̄1 × 1 + − + c̄2 × x + −e−x (x2 + 2x + 2) + c̄3 × ex
4 3 3
x 4 x3
= − − − x2 + (c̄2 − 2)x − 2 + c̄1 + c̄3
12 3
À travers ces deux exemples, il apparaît clair que la résolution d’une équation diffé-
rentielle linéaire d’ordre n revient à résoudre un système d’équations différentielles
linéaires du premier ordre (dont le déterminant principal est le wronskien).
Méthodes mathématiques avancées 129
Pour résoudre (4.6), on peut ramener le système ou la paire des deux équations du
premier ordre en une seule équation du second ordre, en différenciant la première, ce
qui donne y = a1 y + b1 z . Remplaçons ici z par sa valeur donnée par la seconde
équation. D’où
y = a1 y + b1 (a2 y + b2 z) = a1 y + b1 a2 y + b1 b2 z
r2 − (a1 + b2 )r + (a1 b2 − b1 a2 ) = 0
Si les racines de cette solution sont réelles et distinctes (si (∆ > 0), alors le solution
générale de l’équation (4.7) est y(x) = c1 er1 x + c2 er2 x (r1 et r2 étant les racines de
l’équation caractéristique).
À partir de là, on peut calculer y (x). Et en remplaçant dans la première équation
de (4.6), on obtient z(x) :
⇒ y = y + y − (y − y) = 2y
⇒ y − 2y = 0
⇒ r2 − 2√= 0 √
⇒ r1 = 2 et√r2 = − 2√
⇒ y(x) = c1 e 2x √+ c2 e− 2x √
√ √
⇒ y (x) = 2c1 e 2x − 2c2 e− 2x
√ √ √ √ √ √
⇒ z(x) = 2c1 e 2x − 2c2 e− 2x − c1 e 2x + c2 e− 2x
√ √ √ √
⇒ z(x) = ( 2 − 1)c1 e 2x − ( 2 + 1)c2 e− 2x
avec B = A(r − a1 )
y = Aerx ⇒ y = Arerx
z = Berx ⇒ z = Brerx
En remplaçant y, y , z et z dans, on obtient la nouvelle paire d’équations linéaires
homogènes (4.6) suivante :
Arerx = Aa1 erx + Bb1 erx Ar = a1 A + b1 B
⇒
Brerx = Aa2 erx + Bb2 erx Br = a2 A + b2 B
(a1 − r)A + b1 B = 0
⇒
a2 A + (b2 − r)B = 0
C = M −1 (0) = (0) ⇒ A = B = 0
Méthodes mathématiques avancées 131
1 1
a = (a1 + b2 ), b = 4(a1 b2 − a2 b1 ) − (a1 + b2 )2 2
2
Dans ce cas :
y(x) = eax (k1 cos(bx) + k2 sin(bx)) + ys
z(x) = eax (c1 cos(bx) + c2 sin(bx)) + zs
1er Cas : a = 0 (partie réelle nulle). La solution y(x), z(x) oscille à l’intérieur
de deux bornes. Dans l’espace y, z, les trajectoires sont des ellipses atour de
ys , zs .
2ème Cas : a < 0 et b = 0. La solution oscille et tend vers ys , zs . L’equilibre est
un foyer stable.
3ème Cas : a > 0 et b = 0. La solution oscille et s’éloigne de ys , zs à moins qe
y(0) = ys , z(0) = zs . L’équilibre est un foyer instable.
3. Racines réelles et égales r1 = r2 = 0.
L’équilibre est stable si r < 0 et instable si r > 0.
Pour les systèmes non-linéaires, on les approche par des systèmes linéaires dans
le voisinage du point ys , zs et on les étudie comme des systèmes linéaires dans ce
voisinage.
1 1
y (x) = 2y + 2z ⇒ z = (y − 2y) = y − y
2 2
Méthodes mathématiques avancées 133
et
y (x) = 2y + 2z ⇒ y = 2y + 2z
⇒ y = 2y + 2(y + 3z)
1
⇒ y = 2y + 2y + 6( y − y)
2
⇒ y = 5y − 4y
⇒ y − 5y + 4y = 0
⇒ r2 − 5r + 4 = 0
(Remarquons que le déterminant du système initial ci-dessus −Ir est égal au poly-
nôme caractéristique ci-dessus :
2−r 2
= (2 − r)(3 − r) − 2 = r2 − 5r + 4
1 3−r
∗
p∗ = m n∗ .
Si dans une première série d’épreuves, on jette la pièce un grand nombre de fois
n∗ et si le nombre d’apparitions de face, le nombre de réalisations de l’événement
∗
“face”, A, est m∗ , la fréquence relative p∗ = mn∗ dans cette première série sera proche
de la fréquence relative p∗ d’une nouvelle série d’un grand nombre d’épreuves.
Et plus le nombre d’épreuves est grand, plus les p∗ sont très proches d’un nombre
constant p appelé probabilité de la réalisation de l’événement aléatoire A. Autrement
dit,
m∗
−−−−→ p : p∗ tend vers p lorsque n∗ tend vers l’infini
n∗ n∗ →∞
La fréquence relative p∗ s’approche de p lorsque le nombre d’épreuves augmente
indéfiniment. La probabilité est une caractéristique objective de l’éventualité de la
réalisation d’un événement donné. La détermination de la probabilité d’un événement
complexe d’après les probabilités des événements élémentaires le conditionnant et
l’étude des lois probabilistes régissant les événements aléatoires constituent l’objet
de la théorie des probabilités.
L’analyse de l’épreuve correspondante permet de calculer la probabilité de l’évé-
nement aléatoire élémentaire considéré. Pour le lancer d’une pièce de monnaie, il y a
deux faces : face et pile. Si la pièce est parfaite et qu’il n’y a donc aucune raison de
s’attendre plus à “face” qu’à “pile” pour un lancer, la probabilité d’obtenir face est
donc p = 12 . Pour un dé parfait, non pipé, il y a 6 faces correspondant aux numéros
1, 2, 3, 4, 5 et 6, la probabilité d’obtenir une face donnée des 6 faces est p = 16 . 6
est le nombre des résultats possibles, lorsqu’on jette un dé. L’ensemble des résultats
possibles de cette expérience qui consiste à jeter le dé et à lire le numéro obtenu est
Ω = {1, 2, 3, 4, 5, 6}. Un événement impossible sera d’obtenir 8 par exemple lorsqu’on
jette un dé de ce genre. La probabilité de réalisation de 8 est p(8) = 0.
Pour un jet, il est aussi impossible d’obtenir à la fois 4 et 6 par exemple. Ces
deux événements ne peuvent se réaliser simultanément. Ils sont incompatibles.
Lorsqu’on jette un dé, on est certain d’obtenir un numéro inférieur ou égal à 6. La
probabilité d’obtenir k ≤ 6 est donc 1, P (k ≤ 6) = 1. Il n’y a pas d’autre possibilité,
lorsqu’on jette un dé, que d’obtenir un nombre inférieur ou égal à 6. Chaque fois
qu’on lancera le dé, on obtiendra cet événement. Donc, si on lance le dé 30 fois, on
obtiendra 30 fois un nombre inférieur ou égal à 6, d’où P (k ≤ 6) = 30 n
30 = n = 1.
La probabilité d’un événement certain est 1.
La probabilité d’un événement impossible est 0.
On ne peut pas obtenir m∗ fois supérieur à n∗ lancers un événement donné A.
Autrement dit, la probabilité est comprise entre 0 et 1 :
0 ≤ P (A) ≤ 1 ∀A
Elle est égale à 0, lorsque l’événement est impossible. Elle est égale à 1, lorsqu’il est
certain. Lorsqu’il peut se réaliser comme il peut ne pas se réaliser, la probabilité est
comprise entre 0 et 1.
Le calcul de probabilités, dans les cas de dés, de pièces de monnaie ou de cartes
de jeu, dans ces cas simples, fait appel à l’analyse combinatoire qui permet de dé-
terminer le nombre de cas favorables m∗ et le nombre de cas possibles n∗ , dans la
Méthodes mathématiques avancées 137
sons de 2 cartes parmi 36 cartes) façons. D’où le nombre de cas possibles est :
2 36! 36 × 35
n = C36 = = = 18 × 35 = 630
2!(36 − 2)! 2×1
Pour les cas favorables m, il y a 9 cartes cœurs dans le jeu de 36 cartes. Parmi les 9
cartes, il faut tirer 2. Il y a donc C92 façons de le faire :
9! 9×8 36
n = C92 = = = 36. D’où p = = 0, 05714286
2!(9 − 2)! 2 630
La probabilité d’obtenir 2 cartes “cœur” lorsqu’on tire au hasard 2 cartes dans un
jeu de 36 cartes est ainsi de 5,7 %.
Solution : les 3 pièces jetées, quel est le nombre de situations possibles n ? Chacune
des 3 pièces a deux possibilités : pile et face. Pour chacune des 2 situations de la
1ère pièce, la deuxième a 2 situations possibles. Donc, pour les 2 premières pièces,
il y a 2 × 2 possibilités. Et pour chacune de ces 4 situations, la troisième pièce a 2
possibilités. Finalement, on a 8 situations possibles : PPP, PPF, PFF, PFP, FFF,
FFP, FPF, FPP.
Sur ces 8 situations possibles, on a 3 situations favorables de 2 “face” et 1 “pile” :
PFF, FFP, FPF. D’où p = 38 = 0.375, soit 37.5%.
Solution : le nombre n de cas possibles est 10 × 10 = 100 (on peut tirer n’importe
quelle boule parmi les 10 boules de la 1ère urne. Pour chacune des 10 boules de la
1ère urne, il y a 10 possibilités du tirage de la seconde urne).
Le nombre m de cas favorables : on peut tirer une rouge de la 1ère urne : 6 possi-
bilités. Pour chacune des 6 rouges, on peut tirer de la seconde urne n’importe quelle
boule des 10. Donc on a 6 × 10 cas favorables avec la rouge tirée de la 1ère urne.
Ensuite, on a 9 possibilités de tirer une rouge de la seconde urne. Avec chacune des
9 boules rouges de la seconde urne, on peut tirer n’importe quelle boule noire de la
1ère urne et on aura 9 × 4 autres cas favorables. Le nombre de cas favorables est donc
138 Chapitre 5. Probabilités et statistique mathématique
Exemple 4 : Sur un lot de 200 pièces, 5% des pièces sont défectueuses. On tire 6
pièces (au hasard) de ce lot. Quelle est la probabilité pour que les 6 pièces tirées
soient toutes sans défaut ?
D’où,
N o de l’individu 1 2 3 4 5 6 7 8 9 10
Sa taille X 1.60 1.67 1.57 1.70 1.80 1.55 1.70 1.65 1.70 1.62
Son poids Y 58.5 67.5 49.5 72 76.5 81 94.5 72 58.5 67.5
Inscrivons chacun des 10 numéros sur un bout de papier et mettons les 10 bouts
de papier dans une urne. Si l’on tire au hasard un numéro de l’urne, il ne peut être
que l’un des 10 numéros et rien d’autre. L’ensemble des événements possibles, appelé
référentiel ou univers, noté U ou Ω est U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
L’univers des tailles possibles est : Ω1 = {1.55, 1.57, 1.60, 1.62, 1.65, 1.67, 1.70, 1.80}.
L’univers des poids possibles est Ω2 = {49.5, 58.5, 67.5, 72.5, 81, 94.5}
Tirons au hasard de l’urne un individu, un numéro. Quelle est la probabilité que
l’individu tiré ait une taille supérieure ou égale à 1.65 et qu’il ait un poids inférieur
ou égal à 58.5 ?
Méthodes mathématiques avancées 139
P (E1 et E2 ) = P (E1 ∩ E2 )
La question posée est, sous la condition que E1 est réalisé, quelle est la probabilité
de E2 . Cette probabilité est appelée probabilité conditionnelle de E2 étant donné E1 ,
P (E2 /E1 ).
Comme E1 est réalisé, il n’y a plus que 7 possibilités pour tomber sur un individu
de E2 . Et parmi les 7 individus de E1 , 4 appartiennent à E2 . Autrement E1 ∩ E2 =
{2, 6, 8, 10}. D’où
4
P (E2 /E1 ) = 0.57
7
nombre m1 d’éléments dans E1 ∩ E2 m1 m1 /n
P (E2 /E1 ) = = =
nombre m2 d’éléments dans E1 m2 m2 /n
D’où
P (E1 ∩ E2 )
P (E2 /E1 ) = ⇒ P (E1 ∩ E2 ) = P (E2 /E1 ) × P (E1 )
P (E1 )
Deux événements E1 et E2 sont dits indépendants si P (E2 /E1 ) = P (E2 ). Cela veut
dire que la réalisation de E1 ou non n’influence pas la réalisation de E2 . Dans ce cas :
Exemple : Pour que le fonctionnement d’un appareil donné soit fiable, il faut que
3 éléments indépendants de cet appareil fonctionnent de manière fiable. Les proba-
bilités des fonctionnements fiables de 3 éléments sont respectivement 0.6, 0.7 et 0.9.
Quelle est la probabilité d’un fonctionnement fiable de l’appareil considéré ?
P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + P (A ∩ B3 )
Exemple : Trois coups sont successivement tirés sur une cible. Les probabilités
d’atteinte de la cible sont respectivement 0.3 pour le 1er coup, 0.5 pour le 2ème et 0.7
pour le 3ème (p1 = 0.3 ; p2 = 0.5 et p3 = 0.7).
La probabilité de destruction de la cible est λ1 = 0.4 lorsqu’elle est touchée une
seule fois, λ2 = 0.8 lorsqu’elle est touchée 2 fois, λ3 = 1 lorsqu’elle est touchée 3 fois.
Quelle est la probabilité de destruction de la cible après les 3 coups (A) ?
P (B4 ) = p1 × p2 × p3
= 0.3 × 0.5 × 0.7
= 0.105
C’est la situation où les 3 coups atteignent la cible.
C’est la situation où soit le 1er coup, soit le 2ème coup, soit le 3ème coup atteint la
cible et les 2 autres la ratent.
P (A) = P (B1 )×P (A/B1 )+P (B2 )×P (A/B2 )+P (B3 )×P (A/B3 )+P (B4 )×P (A/B4 )
Si A est réalisé, les probabilités des causes P (B1 ), P (B2 ), . . . sont modifiées. Dé-
terminons les probabilités des causes sachant que A est réalisé P (Bi /A). On sait
que
P (A ∩ B1 ) = P (B1 ) × P (A/B1 ) = P (A) × P (B1 /A)
De cela, on tire que
P (B1 ) × P (A/B1 )
P (B1 /A) =
P (A)
Méthodes mathématiques avancées 143
P (B1 /A) =
P (B1 ) × P (A/B1 )
P (B1 ) × P (A/B1 ) + P (B2 ) × P (A/B2 ) + P (B3 ) × P (A/B3 ) + P (B4 ) × P (A/B4 )
La même démarche nous donne P (B2 /A), P (B3 /A) et P (B4 /A). En général, on a :
P (Bk ) × P (A/Bk )
P (Bk /A) = n
P (Bi ) × P (A/Bi )
i=1
Exemple : reprenons l’exemple des 3 tirs successifs ci-dessus. Supposons que la cible
a été détruite. Quelle est la probabilité que cette destruction A ait été le résultat
de B1 , P (B1 /A), de B2 , P (B2 /A), de B3 , P (B3 /A) et de B4 , P (B4 /A). Nous avons
calculé P (Bk ) :
Nous avons calculé P (A), P (A) = 0.579. Nous avons dans l’énoncé
Nous pouvons donc utiliser la formule de Bayes pour calculer les probabilités des
causes B1 , B2 , B3 et B4 sachant que A esr réalisé, que la cible a été détruite :
P (B1 ) × P (A/B1 ) 0.105 × 0
P (B1 /A) = = = 0.
P (A) 0.579
Si la cible a été détruite c’est que les 3 tirs n’ont pas tous raté la cible. La probabilité
que la cible soit détruite sans être atteinte est nulle.
P (B2 ) × P (A/B2 ) 0.395 × 0.4
P (B2 /A) = = 0.27.
P (A) 0.579
La probabilité que la cible ait été détruite par un seul coup est 0.27.
P (B3 ) × P (A/B3 ) 0.395 × 0.8
P (B3 /A) = = 0.55.
P (A) 0.579
La probabilité que la cible ait été détruite par 2 des 3 coups tirés est 0.55.
P (B4 ) × P (A/B4 ) 0.105 × 1
P (B4 /A) = = 0.18.
P (A) 0.579
La probabilité que la cible ait été détruite par les 3 coups tirés est 0.18.
144 Chapitre 5. Probabilités et statistique mathématique
Exemple 1 : Si l’on jette une fois un dé et que l’on appelle X le nombre de points
de la face supérieure du dé et si le dé est parfait, le tableau de distribution de X est :
X 1 2 3 4 5 6
p 1/6 1/6 1/6 1/6 1/6 1/6
Exemple 2 : On tire une suite infinie de coups indépendants ayant chacun la même
probabilité p d’atteindre une cible. Appelons X la variable aléatoire dont la valeur
xk est le numéro d’ordre du tir ayant atteint pour la 1ère fois la cible. Trouvons la
loi de distribution de X.
Si x = 1, cela veut dire que la cible a été atteinte au 1er tir. La probabilité est p.
Si x = 2, cela veut dire que la cible n’a pas été atteinte au 1er tir et qu’elle l’a été
au deuxième. La probabilité de cette situation est P (nonA et A).
x 1 2 3 ... k
pk p (1 − p)p (1 − p)2 p ... (1 − p)k−1 p
Notons que
∞
∞
∞
1 − (1 − p)∞
pk = (1 − p)k−1 p = p (1 − p)k−1 = p =1
1 − (1 − p)
k=1 k=1 k=1
Pour n = 3. Dans ce cas, 3 coups sont tirés. La cible peut être atteinte 0, 1, 2 ou 3
fois. Les valeurs prises par X sont donc 0, 1, 2 ou 3.
— La probabilité de x = 2. Dans ce cas, la cible est ratée une seule fois. Cela
peut être au 1er tir, au 2ème ou au 3ème tir et donc la probabilité est
x 0 1 2 3
pk q3 3pq 2 3p2 q p3
m est le nombre de fois qu’on a atteint la cible. Donc, la cible a été ratée n − m
fois. C3m est le nombre de combinaisons possibles de m coups parmi les 3 coups tirés.
C30 = 1, C31 = 3 façons d’atteindre la cible une seule fois ou 3 façons de la rater une
seule fois, C32 = 3 façons de l’atteindre 2 fois, c’est en fait la rater une seule fois.
C33 = 1 : une seule façon : l’atteindre à tous les coups.
Cnm pm q n−m = P (x = m)
P (x = m) = Cnm pm q n−m
Méthodes mathématiques avancées 147
On peut aussi calculer la probabilité pour que x > k pour n tirs. Elle est égale à la
somme des probabilités de x = k + 1, de x = k + 2, . . . et de x = n. On obtient
n
P (x > k) = Cnm pm q n−m
m=k+1
Au lieu de tirer des coups de face sur une cible, on peut considérer le lancer d’une
pièce de monnaie et définir x par le nombre de fois où la pièce présente “face” lorsqu’on
la lance n fois. Dans ce cas, si la pièce est parfaite, la probabilité d’obtenir “face” à
un lancer est p = 0.5 et la probabilité de ne pas l’obtenir est q = 0.5. La probabilité
d’obtenir m fois “face” sur n lancers est donc
P (x = m) = Cnm pm q n−m
n! n!
Cni = = Cnn−i =
i!(n − i)! (n − i)!(n − n + i)!
Dans ce cas seules les variables aléatoires dont la série converge sont considérées.
Pour un grand nombre d’épreuves indépendantes N , si la fréquence d’occurrence
de xk est nk , la moyenne arithmétique de la variable x est :
n n
1 nk
x̄ = x k nk = xk .
N N
k=1 k=1
nk
Comme pour un grand nombre N d’épreuves la fréquence relative N tend vers la
probabilité de la réalisation de xk , nNk → pk , on a :
n
n
nk
x̄ = xk −−−→ xk pk = E(x).
N n→∞
k=1 k=1
Exemple : Dans une loterie de 100000 billets, il y a 1 lot de 10000 dirhams, 10 lots
de 1000 DH et 100 lots de 100 DH. X est le gain pour le possesseur d’un seul billet.
X est une variable aléatoire et sa loi de distribution est
E(Y ) = 1 × p + 0 × (1 − p) = p.
X 1 2 3 4 5 6
p 1/6 1/6 1/6 1/6 1/6 1/6
1 1 1 1 1 1
E(x) = 1 × +2× +3× +4× +5× +6×
6 6 6 6 6 6
1 21
= (1 + 2 + 3 + 4 + 5 + 6) =
6 6
= 3.5
Si on considère un autre dé similaire et qu’on considère que Y est le nombre de points
de la face qui apparait lorsqu’on le jette. On a également E(Y ) = 3.5.
Si maintenant on lance les deux dés au même temps et qu’on appelle Z la somme
de X et Y , Z = X + Y . Trouvons la loi de distribution de Z. Quelles sont les
valeurs possibles pour Z ? Pour chacune des valeurs de X, Y peut prendre 6 va-
leurs différentes, donc on aura 62 = 36 combinaisons possibles de (1, 2, 3, 4, 5, 6) et
(1, 2, 3, 4, 5, 6). Et il n’y a aucune raison de privilégier une combinaison par rapport
à une autre : elles sont équiprobables. Autrement dit, la probabilité de chacune des
combinaisons est 36 1
. Les valeurs possibles sont entières et comprises entre le mini-
mum Z = 1 + 1 = 2 et le maximum Z = 6 + 6 = 12. Elles sont donc 2, 3, 4, 5, 6, 7,
8, 9, 10, 11, 12. Une seule combinaison donne 2 (1 et 1). Sa probabilité est donc 36 1
.
Même chose pour 12 (6 et 6). Pour trouver les valeurs possibles et leurs fréquences,
on peut construire le carré des sommes comme ceci
1 2 3 4 5 6 Zi fi Zi fi
1 2 3 4 5 6 7 2 1 7 6
2 3 4 5 6 7 8 3 2 8 5
3 4 5 6 7 8 9 d’où les fi : 4 3 9 4
4 5 6 7 8 9 10 5 4 10 3
5 6 7 8 9 10 11 6 5 11 2
6 7 8 9 10 11 12 12 1
150 Chapitre 5. Probabilités et statistique mathématique
1 2 3 4 5 6 5
E(Z) = 2 × +3× +4× +5× +6× +7× +8×
36 36 36 36 36 36 36
4 3 2 1
+9 × + 10 × + 11 × + 12 ×
36 36 36 36
1
= (2 × 1 + 3 × 2 + 4 × 3 + 5 × 4 + 6 × 5 + 7 × 6 + 8 × 5 + 9 × 4
36
+10 × 3 + 11 × 2 + 12 × 1)
1
= (3 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12)
36
253
=
36
= 7 = 3.5 + 3.5
πij = P (X = xi ) × P (Y = yj /X = xi ) = P (Y = yj ) × P (X = xi /Y = yj )
6
6
j=1 πij = P (X = xi ) × P (Y = yj /X = xi )
j=1
6
= P (X = xi ) × P (Y = yj /X = xi )
j=1
= P (X = xi ) × 1
De même
6
yj πij = P (Y = yj ) × 1
j=1
D’où :
6
6
E(X + Y ) = xi × P (X = xi ) + yj × P (Y = yj ) = E(X) + E(Y )
i=1 j=1
Cette démonstration peut être aisément étendue au cas général pour obtenir
X× Y 1 2 3 4 5 6
1 1 2 3 4 5 6
2 2 4 6 8 10 12
3 3 6 9 12 15 18
4 4 8 12 16 20 24
5 5 10 15 20 25 30
6 6 12 18 24 30 36
B(bj ) 1 2 3 4 5 6 8 9 10
1 2 2 3 2 4 2 1 2
pj 36 36 36 36 36 36 36 36 36
B(bj ) 12 15 16 18 20 24 25 30 36
4 2 1 2 2 2 1 2 1
pj 36 36 36 36 36 36 36 36 36
18
On vérifie que pj = 1 et E(B) = j=1 bj × pj
1
E(B) = (1 × 1 + 2 × 2 + 3 × 2 + 4 × 3 + 5 × 2 + 6 × 4 + 8 × 2 + 9 × 1
36
+10 × 2 + 12 × 4 + 15 × 2 + 16 × 1 + 18 × 2 + 20 × 2 + 24 × 2 + 25 × 1
+30 × 2 + 36 × 1)
441
= = 12.25
36
On constate que 12.25 = 3.5 × 3.5. En effet,
bj = xi × y i , P (B = bj ) = P (B = xi × yi )
152 Chapitre 5. Probabilités et statistique mathématique
n
E(B) = E(XY ) = bj pj
j=1
P (B = bj ) = pj
= πii
= P (X = xi ) × P (Y = yi /X = xi )
= P (Y = yi ) × P (X = xi /Y = yi )
= P (X = xi ) × P (Y = yi )
Les deux variables X et Y étant indépendantes. D’où
E(XY ) = xi yi πii = x i y i pi pi = x i pi y i pi
i
i i i i i
= xi pi E(Y ) = E(Y ) x i pi = E(X)E(Y )
i i
E(X) est une constante est on a vu que E(X − Y ) = E(X) − E(Y ). Si Y = E(X)
donc, E(X − E(X)) = E(X) − E(X) = 0. On appelle variance de X l’espérance
mathématique du carré de l’écart à l’espérance mathématique de X
V (X) = E (X − E(X))2
Si on note E(X) = µ on a V (X) = E (X − µ)2 .
X 4 10 20
1 2 1
P 4 4 4
Méthodes mathématiques avancées 153
1 2 1
E(X) = 4 × + 10 × + 20 × = 11 = µ
4 4 4
D’où
X 4 10 20
X −µ -7 -1 9
(X − µ)2 49 1 81
1 2 1
P 4 4 4
1 2 1
V (X) = E (X − µ)2 = (xi − µ)2 pi = 49 × + 1 × + 81 × = 33
4 4 4
i
La racine carrée de la variance de X est appelé écart type de X. C’est l’écart qua-
dratique moyen de X. L’écart type est√noté σ(X).
Dans l’exemple ci-dessus, σ(X) = 33 5.75.
V (X) = E(X 2 − 2Xµ + µ2 )
= E(X 2 ) − 2µE(X) + E(µ2 )
= E(X 2 ) − µ2
Ainsi,
V (X) = E(X 2 ) − (E(X))2
C’est la formule développée de la variance de X. C, une constante
X 4 10 20
1 2 1
p 4 4 4
0 pour x<4
1
4 pour 4 ≤ x < 10
F (X) = 3
4 pour 10 ≤ x < 20
1 pour x ≥ 20
E(X) = 1 × p + 0 × q = p = m1 (X)
E(X 2 ) = 12 × p + 02 × q = p = m2 (X) = m3 (X)
V (X) = E(X 2 ) − (E(X))2 =p − p2 = p(1 − p) = pq
µ3 (X) = E(X − E(X))3 = E X 3 − 3X 2 E(X) + 3X(E(X))2 − (E(X))3
= E(X 3 ) − 3E(X)E(X 2 ) + 3(E(X))2 E(X) − (E(X))3
= p − 3p2 + 3p2 p − p3
= p(1 − 3p + p2 )
= p(1 − p)(1 − 2p)
Nous avons déjà vu en quoi elle consiste. Contentons nous de la définir ainsi :
PX (X = k) = Cnk pk (1 − p)n−k
et que
n
n
V (X) = V Xi = V (Xi ) = npq
i=1 i=1
Ainsi,
E(X) = np et V (X) = npq
Méthodes mathématiques avancées 157
Remarque : On note cette loi binômiale où n = 6, p = 0.5, B 6, 12 et de manière
générale une variable aléatoire X suivant une loi binômiale est notée X B (n, p).
Cette loi est tabulée pour différents n et pour p < 12 . Et lorsque p > 12 , on utilise
B (n, q), q = 1 − p < 12 . Puisque cette loi est symétrique.
1 − xk+1 1
Sk = ⇒ S∞ = puisque lim xk+1 = 0 pour |x| < 1
1−x 1−x k→∞
Dérivons les deux côtés pour obtenir
∞
1
kX k−1 =
(1 − x)2
k=0
D’où
∞
1 1 1
E(X) = k(1 − p)k−1 p = p =p 2 =
1 − (1 + p)2 p p
k=1
Ainsi
1
E(X) =
p
Exemple : Si on lance successivement une pièce de monnaie et qu’on appelle X = k,
le k ème lancer qui correspond au 1er lancer qui donne “face”, les (k − 1) lancers
précédents ayant donné “pile” à chaque fois :
k−1 k
1 1 1
P (X = k) = × =
2 2 2
k=2 k=2
1 2(1 − q)
= pq = pq
(1 − q)2 (1 − q)4
2 2q
= pq = 2 car 1 − q = p
(1 − q)3 p
Ainsi,
2
2q 1 1 2q + p − 1 2q − (1 − p) q
V (X) = + − = = = 2
p2 p p p2 p2 p
q
V (X) = 2
p
dans l’exemple ci-dessus : p = q ⇒ V (X) = 1
p = E(X). La variance est donc égale à
2.
possibles.
Dans une urne, il ya Nb boules blanches et Nr boules rouges avec N = Nb + Nr
boules au total. Donc, Nr = N − Nb .
On tire sans remise n boules de l’urne. Quelle est la probabilité de tirer k boules
blanches de l’urne ? 0 ≤ k ≤ n et k ≤ Nb et n − k ≤ Nr . D’où, k ≥ n − Nr ou
k ≥ n − (N − Nb ). Ainsi,
max{0, n − (N − Nb )} ≤ k ≤ min{n, Nb }
160 Chapitre 5. Probabilités et statistique mathématique
Pour fixer les idées, supposons que Nb = 7 et que N = 10, donc Nr = 3. On tire
sans remise n = 5 boules de l’urne. Quelle est la probabilité de tirer k = 3 boules
blanches parmi les 5 boules tirées de l’urne ?
Le nombre total des possibilités de tirage de 5 boules est C105 . Le nombre de cas
favorables c’est de tirer 3 boules blanches parmi les 7 boules blanches de l’urne et en
même temps tirer 2 boules rouges parmi les 3 boules rouges de l’urne : C73 × C32 .
La probabilité d’obtenir k = 3 boules blanches parmi les 5 boules tirées est donc
Nb
Vérifions que : P (k) = 1
k=0
Nb
Nb
k C n−k
CN b N −Nb
P (k) = n posons Nb = m
CN
k=0 k=0
m
m
k C n−k m
Cm N −m 1 k n−k 1 n
P (k) = n = n Cm CN −m = n CN =1
CN CN CN
k=1 k=0 k=0
En effet, on a
m
m(=k+m−k)
Crk Csn−k = Cr+s
k=0
et on sait que
r
s
r
s
(1 + x)r (1 + x)s = Crk xk Csk xk = Crk Csk xk+k
k=0 k =0 k=0 k =0
et
r+s
(1 + x)r+s = m
Cr+s xm
m=0
D’où :
n
k n−k n
CN C
b N −Nb
= CN
k=0
Méthodes mathématiques avancées 161
Ainsi,
Nb
E(X) = np avec p =
(N = Nb + Nr )
N
Démonstration : Reprenons l’exemple numérique ci-dessus : Nb = 7, Nr = 3, N = 10,
n = 5 (5 boules tirées sans remise de l’urne contenant 7 boules blanches (succès) et
3 boules rouges (échec), soit 10 boules en tout). X = k, k est le nombre de boules
tirées ; le nombre de succès, donc le nombre d’échecs est n − k).
On a vu que
k C n−k
CN N
P (X = k) = b n r
CN
Si l’on note de 1 à Nb les boules blanches (succès) et si l’on appelle Ei l’événement
“on a tiré parmi les n boules la boule blanche i”, comme le nombre total X de boules
blanches tirées parmi les n boules tirées de l’urne (sans remise) :
Nb
1 si la boule i est tirée
X= f (Ei ) avec f (Ei ) =
0 si la boule i n’est pas tirée
i=1
10 − 5
Dans notre exemple, V (X) = 5 × 0.7 × 0.3 × 0.58. D’où σX = V (X)
10 − 1
0.76.
N −n 1 − n/N
V (X) = n p q = npq
N −1 1 − 1/N
Une va X suit une loi de Poisson de paramètre λ > 0 si elle peut prendre n’importe
quelle valeur entière k de N avec la probabilité :
λk
P (X = k) = e−λ
k!
∞
λk
eλ =
k!
k=0
D’où,
∞
∞
∞ ∞ ∞
λk λk λk 1 λk eλ
P (X = k) = e−λ = = ∞ = = =1
k! k!eλ λk eλ k! eλ
k=0 k=0 k=0 k=0 k! k=0
k!
k=0
∞
∞
∞
∞
λk λk λk
E(X) = k P (X = k) = k e−λ = e−λ k = e−λ
k! k! (k − 1)!
k=0 k=1 k=1 k=1
∞
∞
∞
λk−1 λk−1 λk
= e−λ λ = λ e−λ = λ e−λ = λ e−λ eλ
(k − 1)! (k − 1)!
k !
k=1 k=1 k =0
= λ
Ainsi, E(X) = λ
∞
∞
λk
E(X(X − 1)) = k (k − 1) P (X = k) = k (k − 1) e−λ
k!
k=0 k=0
∞
∞
λk λk
= k (k − 1) e−λ =e −λ
k! (k − 2)!
k=2 k=2
∞
∞
λ2 λk−2 λk−2
= e−λ = λ2 e−λ
(k − 2)! (k − 2)!
k=2 k=2
∞
λk
= λ2 e−λ = λ2 e−λ eλ
k !
k =0
= λ2 (car k = k − 2)
Ainsi,
V (X) = λ2 + λ − λ2 = λ ⇒ V (X) = λ
D’où,
E(X) = V (X) = λ
Soient X P(λ) et Y P(µ) indépendantes, alors
La courbe de distribution des probabilités (ou courbe de densité) joint les sommets
des rectangles à la limite lorsque ∆xij → 0
b
P (xi < x < xj ) = f (x) dx = lim f (xi ) ∆xi
a ∆xi →0
Courbe de densité de X
Si toutes les valeurs possibles de la v.a . X se situent dans l’intervalle (a, b), alors
b
f (x) dx = 1, puisque X ne peut pas se situer en dehors de (a, b). Autrement dit :
a
P (a < x < b) = 1.
+∞
Si l’intervalle des valeurs de X est (−∞, +∞), alors f (x) dx = 1. Evidem-
−∞
ment, on a f (x) = 0 à l’exterieur de l’intervalle de définition. Si f (x) est la densité
de probabilité de X définie sur (−∞, +∞), alors la fonction
x
F (x) = f (x) dx
−∞
∞
F (x) = P (−∞ < X < x). On a F (x) = P (−∞ < X < +∞) = f (x) dx = 1
−∞
a b
F (a) = f (x) dx F (b) = f (x) dx
−∞ −∞
b a b
F (b) − F (a) = f (x) dx − f (x) dx = f (x) dx = P (a < x < b)
−∞ −∞ a
Si f (x) est paire, c’est-à-dire si f (x) = f (−x), la courbe de distribution est symé-
trique par rapport à l’axe de y, alors
∞
E(X) = x f (x) dx = 0.
−∞
168 Chapitre 6. Variables aléatoires continues
C’est ainsi que l’on appelle aussi E(X) centre de distribution des probabilités de X.
Si E(X) = M x, on a :
donc,
1
C= = f (x) pour x ∈ [a, b]
b−a
La fonction de répartition de X est :
x
Si x < a on a : F (x) = 0 dt = 0 ;
−∞ x
a
1 t x x−a
Si a ≤ x < b on a : F (x) = 0 dt + dt = = ;
b−a b−a a b−a
−∞a a b x
1
Si x ≥ b on a : F (x) = 0 dt + dt + 0 dt
−∞ a b−a b
b
t b−a
= = = 1.
b−a a b−a
D’où
0x − a
pour x<a
F (x) = pour a≤x<b
b−a
1 pour x≥b
Son graphe est alors :
Dans ce cas
a + (b − a)p − a (b − a)p
F (xp ) = = = p.
b−a b−a
(p est une fraction, un fractile d’ordre p).
La densité f (x) est discontinue en a et en b, mais la loi et la fonction de ré-
partition sont bien entendu absolument continues en a et en b. Comme la fonction
de répartition est linéaire entre a et b, il y a proportionalité entre la longueur d’un
sous-intervalle de a et b et la probabilité que X appartienne à ce sous-intervalle. En
effet
β β
1 x β β−α
P (α < X < β) = f (x) dx = dx = =
α α b−a b−a α b−a
+∞ b b 2 b
1 1 1 x
E(X) = xf (x) dx = x dx = x dx =
−∞ b − a b − a b − a 2 a
2 b a a
1 b a2 (b − a)(b + a) (b + a)
= − = =
b−a 2 2 a 2(b − a) 2
+∞ b b 3 b
2 1 2 1 2 1 x
E(X 2 ) = x f (x) dx = x dx = x dx =
−∞ b − a b − a b − a 3 a
3 b a a
1 b a3 b − a a2 + b2 + ab a2 + b2 + ab
= − = =
b−a 2 3 a b−a 3 3
b+a 1 (1 − 0)2 1
E(X) = = V (X) = =
2 2 12 12
= 1 − e−θx
Donc,
F (x) = 1 − e−θx
Sa courbe se présente ainsi :
Posons :
1
u=x et dv = e−θx dx ⇒ du = dx et v = − e−θx
θ
+∞ +∞ +∞ +∞
E(X) = θ xe−θx dx = θ udv = θ uv − vdu
0 +∞ 0 +∞
0
+∞ 0 +∞
1
= θx − e−θx + e−θx dx = −xe−θx + e−θx dx
θ 0
+∞ 0 0 0
1 1 +∞ 1 1
= − e−θx = − e−θx = − (0 − 1) =
θ 0 θ 0 θ θ
+∞ +∞
V (X) = E(X 2 ) − E 2 (X) ; E(X 2 ) = x2 θe−θx dx = θ x2 e−θx dx
0 0
Posons :
1
u = x2 et v = e−θx ⇒ du = 2xdx et v = − e−θx
θ
+∞
1 −θx +∞
E(X 2 ) = θ x2 − e +2 xe−θx dx
θ 0 0
+∞ +∞
1 1
On vient de voir que E(X) = θxe−θx dx = d’où θ xe−θx dx = ⇒
+∞ 0 θ 0 θ
1
xe−θx dx = 2 .
0 θ
Donc,
+∞ 1 2
E(X 2 ) = −x2 e−θx +2 2 = 2
0 θ θ
2 1 1
V (X) = − = 2
θ2 θ2 θ
Ainsi,
1 1
E(X) = V (X) =
θ θ2
d’où
+∞ +∞
2 2 2 +y 2 )
I2 = e−x dx e−y dy = e−(x dx dy
0 0 S
S étant le domaine défini par 0 ≤ x < +∞ et 0 ≤ y < +∞, soit le premier quadrant
du plan des coordonnées Oxy.
Le domaine S est balayé par le rayon OM de longueur r allant de 0 à +∞, en
rotation de ϕ allant de 0 à π2 .
π +∞ π +∞
2 2 2 2
I2 = e−r r dϕ dr = dϕ re−r dr
0 0 0 0
2
(x2 + y 2 = r2 : théorème de Pythagore, x = r cos ϕ et y = r sin ϕ, S = e−r r).
Or
+∞
2 1 +∞ 2 1 2 +∞ 1 1
re−r dr = − −2re−r dr = − e−r = − (0 − 1) =
0 2 0 2 0 2 2
Ainsi,
ϕπ
π √
1 2 2 π π π
I2 = dϕ = = −0= ⇒I =
0 2 2 0 4 4 2
+∞ √
−x2 π
Appliquons ce résultat de l’intégrale d’Euler-Poisson I = e dx = à
0 2
l’intégrale de la densité de probabilité de la loi normale :
+∞
1 (x−m)2
√ e− 2σ 2 dx
σ 2π −∞
174 Chapitre 6. Variables aléatoires continues
x−m √ (x − m)2
t= √ ⇒ dx = 2 σ dt et t2 =
σ 2 2σ 2
D’où l’intégrale recherchée est en fonction de t :
+∞ √ +∞ +∞
1 −t2
√ σ 2 2 1 2
√ e σ 2 dt = √ e−t dt = √ e−t dt
σ 2π −∞ σ 2π −∞ π −∞
+∞ 0 +∞ +∞ √
2 2 2 2 π √
e−t dt = e−t dt + e−t dt = 2 e−t dt = 2 = π
−∞ −∞ 0 0 2
Donc,
+∞ √
1 +∞ (x−m)2 1 +∞
2 √ 1 2 π
√ e− 2σ 2 dx = √ e−t σ 2 dt = √ e−t dt = √ = 1
σ 2π −∞ σ 2π −∞ π −∞ π
C.Q.F.D.
Construisons le graphe de la densité de probabilité de la loi normale
1 (x − m)2 1
f (x) = √ exp − = √ 2
σ 2π 2σ 2 σ 2π exp (x−m) 2 2σ
On remarque tout de suite que cette fonction est symétrique par rapport à m puisque
(x − m)2 = (m − x)2 .
Lorsque x → ∞, f (x) → 0.
1 −(x − m)2 −(x − m)2 − (x − m)2 −(x − m)2
f (x) = √ exp = √ exp
σ 2π 2σ 2 2σ 2 σ 2π2σ 2 2σ 2
−1 −(x − m)2 −1 x − m −(x − m)2
= √ 2(x − m)exp = √ exp
σ 2π2σ 2 2σ 2 σ 2π σ 2 2σ 2
m−x 1 (x − m)2
f (x) = √ exp −
σ 2 σ 2π 2σ 2
Donc,
m−x
f (x) = f (x)
σ2
m−x m−x m−x
f (x) = f (x) = f (x) + f (x)
σ2 σ2 σ2
−1 m−x m−x −1 (m − x)2
= f (x) + f (x) = + f (x)
σ2 σ2 σ2 σ2 σ4
(m − x)2 − σ 2 (m − x − σ)(m − x + σ)
= f (x) = f (x)
σ4 σ4
f (x) s’annule lorsque (m − x − σ)(m − x + σ) s’annule, c’est-à-dire à x = m − σ et
m−x
x = m + σ, les deux points d’inflexion de f . f (x) = f (x) s’annule à x = m et
σ2
Méthodes mathématiques avancées 175
−σ 2
change de signe et là f (x) = 4 f (x) < 0. Cela veut dire que f est au maximum
σ
1
à x = m, f (m) = √ .
σ 2π
Finalement, le tableau de variation de f (x) est
x −∞ m−σ m m+σ +∞
f (x) 0 0
f (x) + 0 -
f (x) 0 √1
σ 2π
0
= m+ (x − m) f (x) dx + (x − m) f (x) dx
−∞ m
m +∞
E(X) = m + (x − m) f (x) dx − (m − x) f (x) dx
−∞ m
Comme f (x) est symétrique par rapport à m, ces deux intégrales sont égales et leur
différence est nulle. D’où E(X) = m.
On a
V (X) = E(X 2 ) − E 2 (X)
Or,
+∞ +∞
1 (x − m)2
E(X 2 ) = x2 f (x) dx = √ x2 exp − dx
−∞ σ 2π −∞ 2σ 2
176 Chapitre 6. Variables aléatoires continues
x−m (x − m)2
t= , x − m = σt ⇒ x = σt + m et t2 = , dx = σdt
σ σ2
d’où
+∞ 2
1 t
E(X 2 ) = √ (σt + m)2 exp − σ dt
σ 2π −∞ 2
+∞ 2
σ 2 2 2 t
= √ (σ t + m + 2σtm) exp − dt
σ 2π −∞ 2
+∞ 2 +∞ 2
1 t t
= √ m2 exp − dt + σ 2 t2 exp − dt
2π −∞ 2 −∞ 2
+∞ 2
t
+2σm t exp − dt
−∞ 2
+∞ 2
1 2
√ 2 2 t
= √ m 2π + σ t exp − dt + 0
2π −∞ 2
+∞ 2
σ2 t
= m2 + √ t2 exp − dt
2π −∞ 2
−t2 −t2
En posant u = t et dv = t exp 2 dt, on obtient du = dt et v = −exp 2 . D’où
2 +∞ +∞ 2
σ2 t t
E(X 2 ) = m2 + √ −t exp − − − exp − dt
2π 2 −∞ −∞ 2
2 2 +∞ +∞ 2
−σ t t σ2 t
= m2 + √ exp − +√ exp − dt
2π 2 −∞ 2π −∞ 2
+∞ 2
σ2 t
= m2 + 0 + √ exp − dt
2π −∞ 2
σ2 √
= m2 + √ 2π
2π
= m2 + σ 2
Ainsi,
V (X) = E(X 2 ) − E 2 (X) = m2 + σ 2 − m2 = σ 2
D’où,
V (X) = σ 2 et σX = σ
Pour résumer les résultats précédents : une v.a. X suivant la loi normale de para-
mètres m et σ, c’est-à-dire ayant pour densité de probabilité f (x) avec
1 (x − m)2
f (x) = √ exp − ,
σ 2π 2σ 2
Méthodes mathématiques avancées 177
L’aire qui est sous la courbe en cloche et au dessus de l’axe des x est égale à 1.
L’aire qui se trouve sous la courbe au-delà de x est égale à l’aire en deçà de (−x).
L’aire hachurée à droite est égale à 1 moins l’aire sous la courbe pour t allant de −∞
à x, soit 1 − φ(x).
L’aire qui se situe sous la courbe et qui est délimitée par les verticales t = x et
t = −x est égale à
On peut lire dans la table de la loi normale que x correspondant à φ(x) = 0.75 est
x = 23 = 0.6745
Si l’on appelle p(a) cette aire comprise entre
la courbe en cloche et les deux
verticales t = a et t = −a. Pour a = 23 , on a p 23 = 0.5 et dans ce cas φ(a) = 0.75.
Cela veut dire que l’aire ainsi définie correspond à 50 % de l’aire qui se trouve sous
la courbe, soit l’unité et dans ce cas t = a = 23 . On avait posé t = x−m σ . Donc pour
n’importe quelle v.a. X suivant la loi normale de paramètre m et σ, pour avoir 50
% de l’aire de la courbe centrés sur m, on doit avoir x−m 2
σ = 3 ⇒ x = 3 + m.
2σ
Une v.a. X suit une loi gamma de paramètre k et θ, avec k > 0et θ > 0 si X ≥ 0
+∞
θk −θx k−1
et sa densité de probabilité est f (x) = e x , avec Γ(k) = e−x xk−1 dx.
Γ(k) 0
On note X γ(k, θ). Nous avons déjà vu dans la chapitre du calcul différentiel et
intégral que pour k > 1, Γ(k) = (k − 1)Γ(k − 1) et que Γ(k) = (k − 1)!.
Méthodes mathématiques avancées 179
Comme on a :
+∞ +∞
θk −θx k−1
f (x) dx = 1 ⇒ e x dx = 1
0 0 Γ(k)
+∞ +∞
θk θk +1
⇒ e−θx xk−1 dx = 1 = e−θx xk dx
Γ(k) 0 Γ(k + 1) 0
avec k = k − 1. D’où +∞
Γ(k + 1)
e−θx xk · dx =
0 θk +1
+∞
Γ(k + 1)
donc e−θx xk · dx = ou encore
0 θk+1
+∞ +∞
1 −θx kθ 1 Γ(k + 1)
e (θx) · dx = k e−y y k · dy =
θk 0 θ θθ 0 θk+1
+∞
θk+1 Γ(k + 1)
⇒ e−y y k · dy = = Γ(k + 1)
0 θk+1
D’où
1 1 Γ(k + 1) k
E(X) = · Γ(k + 1) = =
θΓ(k) θ Γ(k) θ
k
donc E(X) =
θ
V (X) = E(X 2 ) − E 2 (X)
+∞ +∞
θk θk
E(X 2 ) = e−θx xk−1 x2 dx = e−θx xk+1 dx
Γ(k) 0 Γ(k) 0
D’où : 2
k(k + 1) k k
V (X) = − = 2
θ2 θ θ
180 Chapitre 6. Variables aléatoires continues
k
Donc V (X) =
θ2
Nous avons déjà vu que E(aX) = aE(X) et que V (aX) = a2 V (X). Si on prend
alors a = θ, on obtient : E(θX) = V (θX) = k
La loi gamma de θX ne dépend plus de θ, mais seulement de k
Y = θX γ(k), X γ(k, θ)
k1 k2 k 1 + k2
E(Z) = E(X) + E(Y ) = + =
θ θ θ
et pour
k1 + k2
V (Z) = .
θ2
D’où Z γ(k1 + k2 , θ).
La loi exponentielle déjà vue est un cas particulier de la loi gamma :
θe−θx si x ≥ 0
X E(θ) ⇒ f (x) =
0 si x < 0
θ1 −θy 0
Y γ(1, θ) ⇒ f (y) = e y = θe−θy pour y ≥ 0.
Γ(1)
D’où
n
Sn = Xi γ(n, θ) et θSn γ(n).
i=1
Il existe un autre cas particulier de la loi de gamma. C’est la loi du χ2 que nous
allons voir.
Méthodes mathématiques avancées 181
1 θk −θx k−1
f (x) = 1 e−θx xk−1 =
e x
θk
Γ(k) Γ(k)
La loi du χ2n n’est donc pas autre chose que la loi γ n2 , 12 de paramètres k = n
2 et
θ = 2 . D’où
1
2 n 1 n/2
E(χn ) = E γ , = =n ⇒ E(χ2n ) = n
2 2 1/2
n 1 n/2
V (χ2n ) = V γ , = = 2n ⇒ V (χ2n ) = 2n
2 2 1/22
On peut ainsi passer de la loi du χ2 à la loi gamma. Cette dernière n’est pas tabulée.
Comme on a montré ci-dessus que la loi exponentielle est un cas particulier de la
loi gamma, la somme de plusieurs lois exponentielles donne une loi gamma, laquelle
correspond à une loi du χ2 .
X −m
Si X N (m, σ), alors U = N (0, 1).
σ
Si on considère Y = U 2 , la fonction de répartition de Y pour y > 0 est
√ √ √ √
F (y) = P (Y < y) = P (U 2 < y) = P (− y < u < y) = φ( y) − φ(− y)
X −m (X − m)2
Donc : si X N (m, σ), N (0, 1) et Suit une loi du χ21 .
σ σ2
Convolution des lois du χ2 :
n
Si l’on a n Xi N (0, 1) alors Xi2 suit une loi du χ2 de n degrés de liberté.
i=1
n est le nombre des v.a. indépendantes intervenues dans la loi du χ2 . Si ces v.a. sont
liées par k relations, le nombre de degrés de liberté devient n − k.
1 1
f (x) = e−x xk1 −1 et f (y) = e−y y k2 −1
Γ (k1 ) Γ (k2 )
1
Z ∗ = h(Y ) =
Y
+∞ +∞
1
E(Z ∗ ) = E[h(Y )] = h(y)f (y) dy = · f (y) dy
0 0 y
+∞ +∞
1 1 −y k2 −1 −1
E(Z ∗ ) = · f (y) dy = e y y dy
0 y 0 Γ(k 2)
+∞ +∞
1 −y k2 −2 1
= e y dy = e−y y k2 −2 dy
0 Γ(k2 ) Γ(k2 ) 0
1 (k2 − 2)! 1
E(Z ∗ ) = Γ(k2 − 1) = =
Γ(k2 ) (k2 − 1)! k2 − 1
D’où
1 1 k1
E(Z) = E(X) · E = k1 × =
Y k2 − 1 k2 − 1
Donc,
1 k1 (k1 + 1)
E(Z 2 ) = k1 (k1 + 1) × =
(k2 − 1)(k2 − 2) (k2 − 1)(k2 − 2)
k1 (k1 + 1) k12
V (Z) = −
(k2 − 1)(k2 − 2) (k2 − 1)2
X
E(Z) = V (Z) alors que θ = 1. La nouvelle loi suivie par n’est pas une loi gamma.
Y
C’est une loi de densité qu’il nous faut déterminer.
1 −x k1 −1
La densité de probabilité de X est f (x) = e x , loi gamma de para-
Γ(k1 )
mètre unique k1 , θ = 1.
1 −y k2 −1
La densité de probabilité de Y est f (y) = e x , loi gamma de para-
Γ(k2 )
mètre unique k2 , θ = 1.
X
Trouvons la densité de probabilité de Z = .
Y
Appelons FZ (z) la valeur de la fonction de distribution de Z à z. Lorsque Z = z,
x
on a = z ⇒ x = yz (y = 0)
y
z +∞ yz
FZ (z) = P (Z ≤ z) = f (z) dz = f (x, y) dx dy
0 0 0
et sa densité est
1 ln x − m 1 −1 2
f (x) = ϕ = √ exp (ln x − m)
σx σ σx 2π 2σ 2
Ces distributions de Pareto sont continues. La loi de Zipf, et son cas limite, la loi de
zêta, sont l’équivalent discret de la loi de Pareto.
Le paramètre k est appelé indice de Pareto.
+∞
k x0 k+1 k · x0
E(X) = · · x dx = pour k = 1, E(X) = +∞
x0 x 0 x k−1
x20 k
V (X) = pour k = 2, la variance est infinie.
(k − 1)2 k − 2
δ(0) = 1
δ(Q) = 0
Q : volume ne contenant pas 0
Elle permet de calculer aisément les moments des lois de probabilité. Pour une
v.a. X, elle est définie par MX (t) = E(etX ), t réel.
+∞ +∞
t2 x2
MX (t) = etx f (x) dx = 1 + tx + + . . . f (x) dx
−∞ −∞ 2!
t2 x2 t3 x3
puisque etx = 1 + tx + + + ...
2! 3!
+∞ +∞ +∞ 2 2
t x m2
MX (t) = f (x) dx+ tx f (x) dx+ f (x) dx+. . . = 1+tm1 +t2 +. . .
−∞ −∞ −∞ 2! 2!
mi étant le ième moment de X E(X), E(X 2 ), E(X 3 ), . . .
186 Chapitre 6. Variables aléatoires continues
1 x2
fX (x) = √ e− 2 ,
2π
+∞
1 x2
MX (t) = E etx = etx √ e− 2 dx
−∞ 2π
+∞
1 x2
= √ e− 2 +tx dx
2π −∞
x2 1 1
= − + tx = − (x2 − 2tx) = − (x − t)2 − t2
2 2 2
= − 12 (x − t)2 + 12 t2
Si l’on pose v = x − t, on obtient :
+∞
1 1 2 t2
MX (t) = √ e− 2 v +2
dv (dx = dv)
2π −∞
+∞
1 t2 v2
= √ e2 e− 2 dv
2π −∞
1 t2 √
= √ e 2 2π
2π
t2
= e2
Méthodes mathématiques avancées 187
On a
(n) dn MX
mn = E (X n ) = MX (0) = (0)
dtn
t2 (1) t2 (2) t2 t2
MX (t) = e 2 =⇒ MX (t) = te 2 , MX (t) = e 2 + t2 e 2
(1)
E(X) = MX (0) = 0 = m1
(2)
E(X 2 ) = MX (0) = 1 = m2
(1) θ (1) θ 1
MX (t) = =⇒ MX (0) = = = E(X) = m1
(θ − t)2 θ2 θ
(2) 2θ(θ − t) 2θ (2) 2θ 2
MX (t) = = =⇒ MX (0) = = 2 = E(X 2 ) = m2
(θ − t)4 (θ − t)3 θ3 θ
2 1 1
V (X) = E(X 2 ) − E 2 (X) =⇒ − = 2
θ2 θ2 θ
• Pour la loi normale X N (µ, σ) on a :
+∞
1(x − m)2
MX (t) = E(etx ) = etx exp − √ dx
−∞ σ 2π 2σ 2
+∞
1 (x − m)2
= √ exp tx − dx
σ 2π −∞ 2σ 2
(x − m)2 1 (x − m)2 1 x−m 2
tx − = − − 2tx = − − 2tx
2σ 2 2 σ2 2 σ
2
(x − m)2 x−m
− 2tx = − tσ − t2 σ 2 − 2mt
σ2 σ
(x − m)2 (x − m)
= + t2 σ 2 − 2tσ − t2 σ 2 − 2mt
σ2 σ
x−m 2
= − 2tx + 2tm + t2 σ 2 − t2 σ 2 − 2tm
σ
x−m 2
= − 2tx
σ
D’où
2
(x − m)2 1 x−m 2 2
tx − =− − tσ − t σ − 2mt
2σ 2 2 σ
188 Chapitre 6. Variables aléatoires continues
Posons
x−m dv 1
− tσ =⇒
v= = =⇒ dx = σ dv
σ dx σ
D’où +∞
1 1 v2 2 2
MX (t) = √ exp − − t σ − 2mt σ dv
σ 2π −∞ 2 2
2 2 +∞ 2
1 +t σ + 2mt v
= √ exp exp − dv
2π 2 −∞ 2
2 2
+t σ + 2mt
= exp
2
t2 σ 2
= emt e 2
t2 σ 2 (1) t2 σ 2 t2 σ 2
MX (t) = emt e 2 =⇒ MX (t) = memt e 2 + emt σ 2 t e 2 = (m + σ 2 t) MX (t)
(2)
=⇒ MX (t) = σ 2 MX (t) + (m + σ 2 t) MX (t)
V (X) = σ 2 + m2 − m2 = σ 2
Z1 Z2 = (X1 + i Y1 )(X2 + i Y2 ) = X1 X2 + i2 Y1 Y2 + i Y1 X2 + i X1 Y2 ,
d’où
Z1 Z2 = (X1 X2 − Y1 Y2 ) + i (X1 Y2 + Y1 X2 ),
E(Z1 Z2 ) = E(X1 X2 − Y1 Y2 ) + i E(X1 Y2 + Y1 X2 ).
Si Z1 et Z2 sont indépendantes, alors X1 et X2 sont indépendantes et Y1 et Y2 sont
indépendantes, de même pour X1 et Y1 ou Y2 , et X2 et Y1 ou Y2 . D’où E(Z1 Z2 ) =
E(Z1 ) E(Z2 ).
Méthodes mathématiques avancées 189
• Soit X une v.a. (réelle) avec pour fonction de distribution FX (x). La fonction
caractéristique de X est la fonction à valeurs complexes ϕX (t) ainsi définie :
+∞
itx
ϕX (t) = E e = eitx FX dx
−∞
Exemple 1 : X une v.a. de densité de probabilité f (x) = 3x2 pour 0 < x < 1.
Quelle est la fonction de densité de probabilité (p.d.f.) de Y = X 2 ? (0 < y < 1)
190 Chapitre 6. Variables aléatoires continues
√
y √
y
√ √y √ 3
FY (y) = P (X ≤ y) = f (x) dx = 3x2 dx = x3 0 = ( y)3 = y 2
0 0
√
3 3 1 3 y
FY (y) = y 2 =⇒ fY (y) = FY (y) = y 2 =
2 2
Donc,
√
3 y
fY (y) =
2
Exemple 2 : X une v.a. de p.d.f. f (x) = 3(1 − x)2 pour 0 < x < 1. Quelle est la
p.d.f. de Y = (1 − X)3 ?
1
1
FY (y) = P (Y ≤ y) = P (1 − x)3 ≤ y = P (1 − x) ≤ y 3 = P −x ≤ −1 + y 3
1
1
1
= P x ≥ 1 − y 3 = 1 − P x ≤ 1 − y 3 = 1 − FX 1 − y 3
1
1−y 3
= 1− 3(1 − x)2 dx
0
1−y 13 1−y 31
= 1 − −(1 − x)3 0 = 1 + (1 − x)3 0
1 3 3
= 1 + 1 − (1 − y) 3 − (1 − 0)3 = 1 + y 3 − 1 = y
D’où fY (y) = 1.
La technique passant par la fonction de distribution de X pour trouver la p.d.f.
de Y = g(X) revient aussi à faire un changement de variable.
g −1 (y)
FY (y) = P (Y ≤ y) = P [g(X) ≤ y] = P X ≤ g −1 (y) = fX (x) dx
−∞
g −1 (y)
fY (y) = FY (y) = fX (x) dx = fX (v(y)) · v (y)
−∞
√ 1
Dans l’exemple 1 ci-dessus : Y = X 2 =⇒ v(y) = y =⇒ v (y) = √
2 y
fY (y) = fX (v(y)) × v (y)
√ 1 √ 1
= fX ( y). √ = 3( y)2 √ fX (x) = 3x2
2 y 2 y
√
3 y
= , résultat trouvé
2
Dans l’exemple 2 :
Y = (1 − X)3 et fX (x) = 3(1 − x)2 d’où fY (y) = fX (v(y)) × v (y)
1 1
y = (1 − x)3 ⇒ y 3 = 1 − x ⇒ x = 1 − y 3
1 1 1 1 2 1 2
⇒ v(y) = 1 − y 3 ⇒ v (y) = − y 3 −1 = − y − 3 ⇒ v (y) = y − 3
3 3 3
1
2 2
fX (v(y)) = 3(1 − v(y))2 = 3 1 − 1 − y 3 = 3y 3
2 1 2 3 2 2
⇒ fY (y) = 3y 3 × + y − 3 = y 3 − 3 = 1,
3 3
ce qui correspond au résultat trouvé.
1. Lois marginales
Si on présente la loi du couple dans un tableau, les lois marginales sont dans les
marges, obtenues par sommation de ligne ou de colonne.
192 Chapitre 6. Variables aléatoires continues
Y
y1 y2 ··· yj ···
X
..
x1 .
..
x2 .
.. ..
. .
xi ··· ··· ··· pij ··· xi.
.. ..
. .
x.j
pij est la probabilité que X prenne comme valeur xi et qu’au même temps Y prenne
xj : pij = P (X = xi , Y = y j )
xi. est la somme des pij de la ligne i et x.j est la somme des pij de la colonne j.
2. Lois conditionnelles
X x1 x2 ... xi ...
Exemple : On jette deux dés distincts, X est le numéro que présente le 1er et Y
est le numéro que présente le second dé.
Lorsqu’on lance les deux dés, on peut savoir l’une des 36 situations possibles : cha-
cun des 6 numéros du 1er dé avec chacun des 6 numéros du second. Les 36 situations
possibles sont équiprobables et donc la probabilité de chacun est 36 1
.
Y
1 2 3 4 5 6
X
1 1
36
1
36
1
36
1
36
1
36
1
36
1
6
2 1
36
1
36
1
36
1
36
1
36
1
36
1
6
3 1
36
1
36
1
36
1
36
1
36
1
36
1
6
4 1
36
1
36
1
36
1
36
1
36
1
36
1
6
5 1
36
1
36
1
36
1
36
1
36
1
36
1
6
6 1 1 1 1 1 1 1
36
1
36
1
36
1
36
1
36
1
36
1
6
6 6 6 6 6 6
Quelle est la probabilité que X soit égal à 5 lorsque Y est 2 ? P (X = 5/Y = 2).
Lorsque Y = 2, X peut prendre l’un des 6 numéros 1,2,3,4,5,6. La probabilité
que X prenne 5 parmi ces 6 numéros est donc 16 . P (X = 5/Y = 2) = 16 . On sait que
1
P (X = 5, Y = 2) = 36
1
P (X = 5, Y = 2) 36 6 1
P (X = 5/Y = 2) = = 1 = =
P (Y = 2) 6
36 6
D’où
P (X = xi , Y = yj ) pij
P (X = xi /Y = yj ) = = = pji
P (Y = yj ) p.j
P (X = xi , Y = yj )
P (X = xi , Y = yj ) i p.j
= = =1
P (Y = yj ) P (Y = yj ) p.j
i
Les v.a. X et Y sont indépendantes si l’on a ∀i, j
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj )
P (X = xi ).P (Y = yj )
Dans ce cas P (X = xi /Y = yj ) = = P (X = xi )
P (Y = yj )
P (X = xi /Y = yj ) = P (X = xi )
C’est le cas dans notre exemple ci-dessus : P (X = 5/Y = 2) = P (X = 5) = 61 .
3. Moments conditionnels
Comme on a une loi conditionnelle de X, P (X = xi /Y = yj ), on peut définir
l’espérance mathématique conditionnelle de X pour Y = yj :
j
E(X/Y = yj ) = xi P (X = xi /Y = yj ) = x i pi
i=1 i=1
Ce couple (X, Y ) ne prend donc que les valeurs suivantes (1,4) ; (2,1) ; (3,3) ; (4,1)
et (4,2), avec les probabilités respectives de 0.3, 0.2, 0.1, 0.3 et 0.1. Evidemment, la
somme de ces probabilités est égale à 1. La probabilité d’une autre valeur du couple,
(1,3) ou (4,3) par exemple, est nulle.
La loi marginale de X est :
194 Chapitre 6. Variables aléatoires continues
X 1 2 3 4
P (X) 0.3 0.2 0.1 0.4 Somme des lignes
La somme de ces probabilités est bien sûr égale à 1. X prend les valeurs 1,2,3,4 avec
les probabilités respectives indiquées ci-dessus.
P (X = xi , Y = yj ) = P (X = xi ) × P (Y = yj )
Méthodes mathématiques avancées 195
Exemple :
Pour X = 1 :
V (Y /X = 1) = E(Y 2 /X = 1) − E 2 (Y /X = 1)
E(Y 2 /X = 1) = 1 × 0 + 22 × 0 + 32 × 0 + 16 × 1 = 16
E 2 (Y /X = 1) = 42 = 16
V (Y /X = 1) = 0
Pour X = 2 :
E(Y /X = 2) = 1 × 0 + 2 × 1 + 3 × 0 + 4 × 0 = 2
E(Y 2 /X = 2) = 12 × 0 + 22 × 1 + 32 × 0 + 42 × 0 = 4
V (Y /X = 2) = 4 − 22 = 0.
Pour X = 3 :
E(Y /X = 3) = 3
V (Y /X = 3) = 0
Pour X = 4 :
Soit une v.a. bidimensionnelle (X, Y ) définie dans R2 . Considérons une applica-
tion continue h : R2 −→ R. Cette application définit une nouvelle v.a. réelle h(X, Y )
dont on peut calculer les moments :
E [h(X, Y )] = pij h(xi , yj )
i j
cov(X, Y ) = E [h(X, Y )]
= E {[X − E(X)] [Y − E(Y )]}
= E {XY − XE(Y ) − Y E(X) + E(X)E(Y )}
cov(X, Y ) = E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
196 Chapitre 6. Variables aléatoires continues
La réciproque n’est pas toujours vraie : On peut avoir cov(X, Y ) = 0 sans indépen-
dance de X et Y .
Reprenons l’exemple ci-dessus X et Y dont les lois marginales sont :
X 1 2 3 4 Y 1 2 3 4
et
P (X) 0.3 0.2 0.1 0.4 P (Y ) 0.5 0.1 0.1 0.3
= 0.6
E(XY ) = 1 × 0 + 2 × 0.2 + 3 × 0 + 4 × 0.6 + 6 × 0 + 8 × 0.1 + 9 × 0.1 + 12 × 0
+16 × 0
= 0.4 + 2.4 + 0.8 + 0.9 = 4.5
Comme on a
P (Z = zk ) = {P (X = xi , Y = yj )/xi + yj = zk }
= {P (X = xi , Y = zk − xi )}
= P (X = xi ) × P (Y = zk − xi )
i
= P (Y = yj ) × P (X = zk − yj )
j
Les couples (X, Y ) sont l’ensemble des points du plan. F (x, y) représente la proba-
bilité de la zone hachurée ci-dessous (la zone en deçà de la verticale X = x et de
l’horizentale Y = y.
3. Lois conditionnelles
Méthodes mathématiques avancées 199
f (x, y) f (x, y)
fX (x/Y = y) = et fY (y/X = x) =
fY (y) fX (x)
fX (x/Y = y) = fX (x)
=⇒ f (x, y) = fX (x) fY (y)
fY (y/X = x) = fY (y)
E(X, Y ) = xy f (x, y) dx dy = x fX (x) dx y fY (y) dy = E(X) E(Y )
R2 R
R
e−x si 0 ≤ y ≤ x
f (x, y) =
0 sinon
Les points (X, Y ) vérifiant 0 ≤ y ≤ x sont les points du triangle hachurée dans la
figure suivante :
(Le triangle est délimité par la 1ère bissectrice x = y)
200 Chapitre 6. Variables aléatoires continues
x y
F (x, y) = f (u, v).du.dv
−∞ −∞
Dans notre cas, lorsque y < 0 la fonction de densité est nulle, la fonction de réparti-
tion l’est également. On doit donc intégrer pour y à partir de 0.
Comme x ≥ y, pour x, il faut intégrer à partir de y et aller jusqu’à x0 . D’où :
y=y
0 x=x
0
= f (x, y) dx dy
y=0 x=y
y=y 0
0 x=x y=y
0
x=x0
= e −x
dx dy = −e−x dy
x=y
y=0 x=y y=0
y=y
0 y=y
0 y=y
0
= −e−x0 + e−y dy = − e−x0 dy + e−y dy
y=0 −y y=y0y=0 y=0
= −e−x0 [y]y=y 0
y=0 + −e y=0
= −y0 e−x0 + −e−y0 + e0
Lois marginales : FX (x) = F (x, +∞), lorsque y tend vers l’infini et que x reste à
x, on est dans le cas 0 ≤ x ≤ y. Et là F (x, y) = 1 − e−x − xe−x . F (x, y) ne dépend
pas de y. D’où FX (x) = 1 − e−x − xe−x
FY (y) = F (+∞, y). Ici on est dans le cas où 0 ≤ y ≤ x et F (x, y) = 1 − e−y − ye−y .
Lorsque x tend vers l’infini F (+∞, y) = 1 − e−y (ye−x → 0). D’où
et
x=+∞
+∞
fY (y) = e−x dx = −e−x y = 0 − (−e−y ) = e−y
x=y
Lois conditionnelles :
f (x, y) e−x
fX (x/Y = y) = = −y = ey−x
fY (y) e
f (x, y) e−x 1
fY (y/X = x) = = = x = 0
fX (x) xe−x x
f (x, y) = e−x pour 0 ≤ y ≤ x, fX (x) = xe−x , fY (y) = e−y ⇒ f (x, y) = fX (x)×fY (y)
En effet, fX (x/Y = y) = fX (x) implique que les deux variables X et Y ne sont pas
indépendantes.
+∞
2
+∞
2
+∞ − x3 + 3x2 + 6x + 6
3 −x
E(X ) = x · fX (x) dx = x e dx = =6
0 0 ex
0
+∞ +∞ +∞
2 2 2 −y − y 2 + 2y + 2
E(Y ) = y · fY (y) dy = y e dy = =2
0 0 ey
0
√
V (X) = E(X 2 ) − E 2 (X) = 6 − 22 = 2 =⇒ σX = 2
V (Y ) = E(Y 2 ) − E 2 (Y ) = 2 − 12 = 1 =⇒ σY = 1
Car
+∞ +∞ +∞
E(Y /X = x)fX (x) dx = yfY (y) dy · fX (x) dx
−∞ −∞ −∞
+∞ +∞
= yfY (y)fX (x) dx dy
−∞ −∞
+∞ +∞
= yf (x, y) dx dy
−∞ −∞
+∞
= yfY (y) dy
−∞
= E(Y )
On trouve facilement M :
x = ax + bs ⇒ a = 1 et b = 0 1 0
=⇒ M=
y = cx + ds ⇒ c = −1 et d = 1 −1 1
D(x, y)
DM = = 1 : c’est le Jacobien de la transformation.
D(x, s)
+∞
z−x
+∞ z
+∞
avec
+∞
g(s) = f (x, s − x) dx
−∞
z−x
+∞
z−x
+∞
Pour se débarasser de la valeur absolue, il faut distinguer les différents cas où z > 0,
z < 0 et sous-cas x < 0 et x > 0.
1er cas z < 0
Dans ce cas, g(z) s’obtient en intégrant de −∞ à z puis de z à 0 et enfin de 0 à +∞
et donc :
z 0 +∞
1
g(z) = e−|x|−|z−x| dx + e−|x|−|z−x| dx + e−|x|−|z−x| dx
4 −∞ z 0
Pour les deux 1ères intégrales z < 0 et x < 0. Pour la 1ère x < z et pour la 2ème
x > z. Dans les deux premières : −|x| = x ; |z − x| = −x + z dans la première et
|z − x| = −z + x dans la 2ème ; d’où −|x| − |z − x| = x − (−x + z) = 2x − z pour la
1ère et −|x| − |z − x| = x − (−z + x) = z dans la 2ème .
Pour la 3ème intégrale, z < 0 et x > 0 ce qui implique −|x| = −x, |z − x| = x − z et
−|x| − |z − x| = −x − (x − z) = z − 2x. D’où :
z 0 +∞
1
g(z) = e2x−z dx + ez dx + ez−2x dx
4 −∞ z 0
z
1 1 2x−z z 0 −1 z−2x +∞
= e + xe |z + e
4 2 −∞ 2 0
1 1 z 1
= e + (−zez ) + ez
4 2 2
1 z
= (e − zez )
4
ez
g(z) = (1 − z)
4
2ème cas z > 0
Dans ce cas, pour obtenir g(z), il faut intégrer de −∞ à 0, puis de 0 à z et enfin de
z à +∞. Et donc
0 z +∞
1 −|x|−|z−x| −|x|−|z−x| −|x|−|z−x|
g(z) = e dx + e dx + e dx
4 −∞ 0 z
z > 0 et x < 0 pour la 1ère intégrale et x > 0 pour les 2 dernières, −|x| − |z − x| =
x − (z − x) = 2x − z pour la 1ère .
Méthodes mathématiques avancées 205
Donc,
1
g(z) = e−z (1 + z)
4
z < 0 ⇒ g(z) = 14 ez (1 − z) = 14 e−|z| (1 + |z|) : |z| = −z
Donc,
1
∀z : g(z) = e−|z| (1 + |z|)
4
V (X) =
X1 X2 ··· Xi ··· Xn
X1 σ12 Cov(X1 , X2 ) · · · Cov(X1 , Xi ) ··· Cov(X1 , Xn )
X2 Cov(X2 , X1 ) σ22 · · · Cov(X2 , Xi ) ··· Cov(X2 , Xn )
.. .. .. .. ..
. . . . .
Xi Cov(Xi , X1 ) Cov(Xi , X2 ) ··· σi2 ··· Cov(Xi , Xn )
.. .. .. .. ..
. . . . .
Xn Cov(Xn , X1 ) Cov(Xn , X2 ) ··· Cov(Xn , Xi ) ··· σn2
où σi2 = Cov(Xi , Xi ) = σX
2 .
i
avec,
X1 − E(X1 )
X2 − E(X2 )
X − E(X) = ..
.
Xn − E(Xn )
et (X − E(X)) = X1 − E(X1 ) X2 − E(X2 ) . . . Xn − E(Xn )
Les composantes de AX sont les sommes des Xi multipliées par des scalaires
V (Ai X) = V aij Xj = V (aij Xj ) = a2ij V (Xj )
j j j
D’où,
..
.
a2ij V (Xj )
V (AX) =
j
= A(m,n) V (X)(n,n) A
(n,m)
..
.
Y −E(Y ) = Y −AE(X)−b = AX +b−AE(X)−b = AX −AE(X) = A(X −E(X))
(Y − E(Y )) = (X − E (X))A
(Y − E(Y ))(Y − E(Y )) = A(X − E(X))(X − E(X ))A = AV (X)A
Ainsi, V (Y ) = AV (X)A .
X − E(X)
Maintenant, centrons et réduisons X. C’est-à-dire passons de X à
V (X)
X − E(X) 1 1 1
= V − 2 (X) [X − E(X)] = V − 2 (X)X − V − 2 (X)E(X) = AX + b
V (X)
1
Centrer et réduire X est une transformation affine Y = AX + b avec A = V − 2 (X)
1
(matrice carrée d’ordre n, V − 2 (X) existe puisque V (X) est une matrice carrée sy-
1
métrique et positive, formée de sommes de carrées) et b = −V − 2 (X) · E(X). On
vient de voir que
1 1
V (Y ) = AV (X)A = V − 2 (X)V (X)V − 2 (X) = In
Donc,
lim F (x1 , x2 , . . . , xn ) = FX1 (x1 )
Lorsque tous les
xi → ∞ sauf x1
PX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) = pX1 (x1 )pX2 (x2 ) . . . pXn (xn )
fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) p.d.f. conjointe, est obtenue en différenciant la c.d.f. conjointe,
ou la c.d.f. est obtenue en intégrant la p.d.f.
v- P (· · · ai < Xi < bi · · · )
b1 b2 bi bn
= ... ... fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn
a1 a2 ai an
∞ ∞ xi ∞
= ... ... fX1 ,X2 ,··· ,Xn (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn
−∞ −∞ −∞ −∞
210 Chapitre 6. Variables aléatoires continues
dFXi (xi )
=⇒ fXi (xi ) =
dxi
∞ ∞ xi ∞
= ... ... fX1 ,X2 ,··· ,Xn (t1 , t2 , . . . , xi , ti+1 , . . . , tn ) dt1 dt2 . . . dtn
−∞ −∞ −∞ −∞
4. Distribution multinômiale
Il s’agit d’une extension de la distribution binômiale au cas multidimensionnel.
Une expérience est appelée épreuve multinômiale avec les paramètres p1 , p2 , . . ., pk
si elle vérifie les conditions suivantes :
i- L’expérience a k résultats possibles mutuellement exclusifs A1 , A2 , . . ., Ak
k
ii- P (Ai ) = pi i = 1, 2, . . . , k et pi = 1
i=1
Répétons l’expérience n fois. Soit Xi la v.a. correspondant au nombre d’épreuves
donnant le résultat Ai . Le vecteur (X1 , X2 , . . . , Xk ) est appelé la v.a. ou le vecteur
aléatoire multinômial aux paramètres (n,p1 , p2 , . . ., pk ) et sa p.m.f. est :
n!
PX1 ,X2 ,··· ,Xk (x1 , x2 , · · · , xk ) = px1 px2 . . . pxk k
x1 !x2 ! · · · xk ! 1 2
Méthodes mathématiques avancées 211
k
pour xi = 0, 1, . . . , n ; i = 1, 2, . . . , k, avec xi = n
i=1
Notons que la distribution binômiale correspond à la distribution multinômiale
pour laquelle k = 2. Pour cette distribution binômiale, on a que deux résultats
possibles : succès ou échec.
On note X M(n, p1 , p2 , . . . , pk )
D’après ce qu’on a vu, on a
X1 E(X1 )
X2 E(X2 )
X= . E(X) = ..
.
. .
Xk E(Xk )
Comme Xi est une v.a. suivant une loi binômiale à (n, pi ) paramètres, E(Xi ) = npi .
D’où
p1
p2
E(X) = n × .
..
pk
Les lois marginales correspondent à des lois binômiales Xi B(n, pi ). On a vu que
V (Xi ) = npi (1 − pi )
Cov(Xi , Xj ) = E [(Xi − E(Xi )) (Xj − E(Xj ))]
= E(Xi Xj ) − n2 pi pj
= n(n − 1)pi pj − n2 pi pj
= pi pj (n2 − n − n2 )
Cov(Xi , Xj ) = −npi pj
Toutes les covariances sont négatives à cause de n = C te . Cela fait que lorsque Xi
augmente, Xj diminue, Xi étant le nombre d’épreuves donnant le résultat Ai parmi
les n épreuves. Si ce nombre augmente, Xi , doit diminuer, car xi = n
i
212 Chapitre 6. Variables aléatoires continues
n!
fXY (k, l) = P (X = k, Y = l) = pk θl (1−p−θ)n−k−l (avec k+l ≤ n).
k!l!(n − k − l)!
L’univers du couple (X, Y ) est l’ensemble des successions possibles de n chiffres (1,
0, -1) ci-dessus. La probabilité d’une succession présentant k succès, l échecs est
p(ω) = pk θl (1 − p − θ)n−k−l . Le nombre de ces successions présentant k succès et l
échecs est
n! (n − k)! n!
Cnk × Cn−k
l
= =
k! (n − k)! l! (n − k − l)! k! l! (n − k − l)!
D’où :
n!
P (X = k, Y = l) = pk θl (1 − p − θ)n−k−l
k!l!(n − k − l)!
Lorsqu’on développe un trinôme
n
n n−k
(a + b + c)n = (a + (b + c))n = Cnk ak (b + c)n−k = Cnk Cn−k
l
ak bl cn−k−l
k=0 k=0 l=0
n
En développant à l’intérieur de k=0 le binôme (b + c)n−k . D’où le nom de cette
distribution : la distribution du couple (X, Y ) est trinômiale. La distribution de X,
comme celle de Y sont binômiales de paramètres (n, p) et (n, θ) respectivement.
E(X) = np
E(Y ) = nθ
V (X) = np(1 − p)
V (Y ) = nθ(1 − θ)
E(X 2 ) = V (X) + E 2 (X) = np(1 − p) + n2 p2 = np(1 − p + np)
E(Y 2 ) = V (Y ) + E 2 (Y ) = nθ(1 − θ) + n2 θ2 = nθ(1 − θ + nθ)
Méthodes mathématiques avancées 213
P (X = k, Y = l)
P (X = k/Y = l) =
P (Y = l)
n!
pk θl (1 − p − θ)n−k−l
k!l!(n − k − l)!
=
n!
θl (1 − θ)n−l
l!(n − l)!
(n − l)! pk (1 − p − θ)n−k−l
= ·
k!(n − k − l)! (1 − θ)n−l
k
k p (1 − p − θ)n−k−l
= Cn−l ·
1−θ (1 − θ)n−k−l
k
k p 1 − p − θ n−k−l
= Cn−l ·
1−θ 1−θ
k n−k−l
k p p
= Cn−l · 1−
1−θ 1−θ
p
On reconnaît là la loi binômiale de paramètres (n − l, 1−θ ). Donc la loi conditionnelle
p p
(X/Y = y) B n − y, , E(X/Y = y) = (n − y)
1−θ 1−θ
En effet, lorsque le nombre d’échecs est fixé à y parmi les n épreuves, il ne reste plus
que n − y épreuves où le succès arrive. El la probabilité du succès est la probabilité
p
du succès pour chaque épreuve étant donné que l’échec n’est pas arrivé, donc .
1−θ
Or
E(Y 2 ) = V (Y ) + E 2 (Y ) = nθ(1 − θ) + n2 θ2
D’où,
p 2 pnθ
E(XY ) = n θ − nθ + nθ2 − n2 θ2 = (n − 1 + θ − nθ)
1−θ 1−θ
214 Chapitre 6. Variables aléatoires continues
pnθ
= (n − 1 + θ − nθ) − np · nθ
1−θ
pnθ (n − 1 + θ − nθ) − n2 pθ + n2 pθ2
=
1−θ
n2 pθ − npθ + npθ2 − n2 pθ2 − n2 pθ + n2 pθ2
=
1−θ
npθ(θ − 1)
=
1−θ
= −npθ
X1
X2
X= ..
.
Xn
On vient de voir que Cov(X, Y ) = −npθ lorsque X B(n, p) et Y B(n, θ). Ainsi,
lorsque Xi B(n, pi ), on a : Cov(Xi , Xj ) = −npi pj . Comme V (Xi ) = npi (1 − pi ),
la matrice des variances-covariances est donc la matrice carrée symétrique ayant sur
la diagonale les V (Xi ) et, en dehors de la diagonale, les Cov(Xi , Xj ) :
..
. Cov(X i , Xj )
V (X) =
V (Xi )
..
Cov(Xi , Xj ) .
V (Xi ) = npi (1 − pi )
Cov(Xi , Xj ) = −npi pj
1 et i=j
V (Xi ) = npi (sij − pj ) = Cov(Xi , Xj ) avec sij =
0 et i = j
et det(V (X)) = σ1 σ2 . . . σn . D’où :
1 1
f (x1 , . . . , xn ) = √ n 1/2
exp − (X − E(X)) [V (X)]−1 (X − E(X))
2π (det(V (X))) 2
Donc, toute combinaisonlinéaire dev.a. normales indépendantes suit une loi normale
E(X1 )
E(X2 )
de paramètres E(X) = .. et V (X) matrice diagonale formée des V (Xi ).
.
E(Xn )
La loi normale multidimensionnelle standard est N (0, In ) où 0 est le vecteur de
zéros de n composantes.
Transformation linéaire d’un vecteur aléatoire normal X −→ Nn (M, Σ).
X −→ Nn (0, In ), Y −→ Nn (A × 0 = 0, AA )
Donc,
1
X X = V (X ∗ )
Cov(Xi , Xj ) = 0 ⇒
n
X ∗ est une matrice non centrée et non réduite.
X ∗ − E(X ∗ )
X= X ∗ Nn (E(X ∗ ), V (X ∗ ))
V (X ∗ )
On montre que si la v.a. X AX suit une loi de chi-2 à p degrés de liberté χ2p avec A
une matrice symétrique d’ordre n, alors A est une matrice indépendante de rang p
(A2 = A et rgA = trace(A))
1
χ2p ⇔ f (x) = e−x/2 xp/2−1
2p/2 Γ(p/2)
Chapitre 7
Éléments de théorie statistique
asymptotique
217
218 Chapitre 7. Éléments de théorie statistique asymptotique
est une v.a. de loi P , on dit que l’échantillon aléatoire est un échantillon de la v.a. X.
Exemple : On fait l’hypothèse que la taille des 10000 étudiants de la faculté est
une v.a. normale X. X N (µ, σ 2 ). Un échantillon aléatoire de 60 étudiants est
tiré de la population. Les tailles de ces 60 étudiants sont 60 v.a. X1 , X2 , . . . , X60 .
Xi N (µ, σ 2 ), i = 1, 2, . . . , 60. On peut ne pas connaître les paramètres µ et σ 2 .
On peut donc chercher à les estimer.
Soit X1 , . . . , Xn un échantillon aléatoire d’une v.a. X. Une statistique est une
fonction g(X1 , X2 , . . . , Xn ) ne dépendant que des v.a. Xi . La moyenne et la variance
échantillonnales, ou empiriques, sont les statistiques les plus utilisées. Comme les X1 ,
X2 , . . . , Xn sont des v.a., toute statistique est une v.a. et sa distribution est appelée
distribution empirique ou échantillonnale (sample distribution en anglais).
n tend vers l’infini, V (X̄n ) tend vers 0. Cela veut dire de X̄n tend vers µ lorsque n
devient très grand. Intuitivement, lorsque l’échantillon se confond avec la population,
la moyenne de l’échantillon coïncide avec µ et devient certaine.
n
3 n 3
1 1
S X̄n = E (Xi − µ) = 3E (Xi − µ)
n n
i=1 i=1
1
= E [(X1 − µ) + (X2 − µ) + · · · + (Xn − µ)]3
n3
n n n
1
= E 3
(Xi − µ) + 3 (Xi − µ) (Xj − µ) + . . .
2 1
n3
i=1 i j=i
1
n n n
= E (X i − µ) 3
+ 3E (X i − µ) 2
(X j − µ) 1
+ . . .
n3
i=1 i j=i
1
= n E(X − µ)3 + 0
n3
E[(Xi − µ)2 (Xj − µ)1 ] = 0,
n
car (X − µ) = 0 ⇒ E[(X − µ)2 (X − µ)] = 0
j i j
j
Ainsi,
1
S X̄n = 2 S(X) (car S(X) = µ3 )
n
d’ordre 4 :
n
n
1 4 1 4
K X̄n = E (Xi − µ) = 4 E (Xi − µ)
n n
i=1 i=1
1 4
= E ((X 1 − µ) + (X 2 − µ) + · · · + (X n − µ))
n4
n n n
1 4
= E (X i − µ) + 4 (Xi − µ)3 (Xj − µ)1
n4
i=1 i j=i
n n
+6 (Xi − µ) (Xj − µ) + . . .
2 2
i j=i
1
n n
n
= E (X i − µ) 4
+ 0 + E 6 (X i − µ) 2
(X j − µ) 2
n4
i=1 i j>i
n n
1 6
= n K(X) + E (X i − µ) 2
(Xj − µ)2
n4
i j>i
1 1 n(n − 1) 2
= K(X) + 4 6 σ (X)σ 2 (X)
n3 n 2
1 3(n − 1) 4
= K(X) + σ (X)
n3 n3
Ainsi,
1
K X̄n = 3 K(X) + 3(n − 1)σ 4 (X)
n
n! n(n − 1)
car Cn2 = = et K(X) = µ4 .
2!(n − 2)! 2
On peut résumer les résultats ci-dessus comme suit :
2 σ 2 (X)
V X̄n = σX̄ =
n n
S(X)
S X̄n =
n2
K(X) + 3(n − 1)σ 4 (X)
K X̄n =
n3
On remarque que tous ces moments centrés (de deuxième, troisième et quatrième
ordres respectivement) de la moyenne empirique dépendent de la taille de l’échan-
tillon. Plus cette taille est grande moins sont grands la variance, la dissymétrie et
l’aplatissement de la distribution de la moyenne de l’échantillon.
Pour les moments ordinaires (non centrés) de X̄n , E(X̄n ), E(X̄n2 ), E(X̄n3 ) et
E(X̄n4 ) (en fait, nous avons déjà établi que E(X̄n ) = E(X) = µ), calculons d’abord
les moments ordinaires de X (ou des Xi ), E(X 2 ), E(X 3 ) et E(X 4 ), E(X) = µ.
Méthodes mathématiques avancées 221
= σ 2 (X) + 0 + µ2
Ainsi,
E(Xi2 ) = σ 2 (X) + µ2
(On retrouve en fait la formule développée connue de la variance : V (X) = E(X 2 ) −
[E(X)]2 ).
2
= S(X) + 3µσX + 0 + µ3
Ainsi,
E(X 3 = S(X) + 3µσX
2
+ µ3
• Pour le kurtosis E(X 4 ) :
E(X 4 ) = E [(Xi − µ) + µ]4
= E(Xi − µ)4 + 4µE(Xi − µ)3 + 6µ2 E(Xi − µ)2 + 4µ3 E(Xi − µ) + E(µ4 )
= V (X̄n ) + 0 + µ2
222 Chapitre 7. Éléments de théorie statistique asymptotique
Ainsi,
2
σX
E(X̄n2 ) = + µ2
n
car (E(X̄n ) = µ).
Ainsi,
1 3
E(X̄n3 ) = S(X) + µV (X) + µ3
n2 n
4
E(X̄n4 ) = E (X̄n − µ) + µ
= E(X̄n − µ)4 + 4µE(X̄n − µ)3 + 6µ2 E(X̄n − µ)2 + 4µ3 E(X̄n − µ) + E(µ4 )
Ainsi,
E(Xi · X̄n ) = E X̄n2
Méthodes mathématiques avancées 223
1 3
E(X1 · X̄n2 ) = 2
E X + µ(n − 1)E(X 2 ) + (n2 − 3n + 2)µ3 + 2(n − 1)µE(X 2 )
n
1 3
= 2
E X + 3(n − 1)µE(X 2 ) + (n2 − 3n + 2)µ3
n
1
= 2
S(X) + µ3 + 3µσX 2
+ 3(n − 1)µ(σX2
+ µ2 ) + (n2 − 3n + 2)µ3
n
1
= S(X) + µ3 (1 + 3(n − 1) + n2 − 3n + 2) + µσX 2
(3 + 3(n − 1)
n2
1
= S(X) + n2 µ3 + 3nµσX2
n2
E(X1 · X̄n2 ) = E(X̄n3 )
224 Chapitre 7. Éléments de théorie statistique asymptotique
On montre de la même manière que E(X1 · X̄n3 ) = E(X̄n4 ) et que la formule générale
est finalement
1 n+2 2
E(X12 · X̄n ) = S(X) + σ µ + µ3
n n X
1 n+3 3n + 3 2 2
E(X13 · X̄n ) = K(X) + S(X)µ + σX µ + µ 4
n n n
1 2(n + 1) n+5 2 2 n−1 4
E(X12 · X̄n2 ) = K(X) + S(X)µ + σ µ + σ + µ4
n2 n2 n X n2 X
n n
1 1 2
Ve (X) = (Xi − X̄n − µ + µ)2 = (Xi − µ) − (X̄n − µ)
n n
i=1 i=1
puisque µ = E(X̄n ), µ moyenne de la population
n
1
Ve (X) = (Xi − µ)2 − 2(Xi − µ)(X̄n − µ) + (X̄n − µ)2
n
i=1
n n n
1
= (Xi − µ)2 − 2(X̄n − µ) (Xi − µ) + (X̄n − µ)2
n
i=1 i=1 i=1
n
n n
1 2 1
= (Xi − µ)2 − (X̄n − µ) Xi − nµ + (X̄n − µ)2
n n n
i=1 i=1 i=1
n n n
1 i=1 Xi 1
= (Xi − µ)2 − 2(X̄n − µ) −µ + (X̄n − µ)2
n n n
i=1 i=1
n
1
= (Xi − µ)2 − 2(X̄n − µ)2 + (X̄n − µ)2
n
i=1
Ainsi,
n
1
Ve (X) = (Xi − µ)2 − (X̄n − µ)2
n
i=1
Méthodes mathématiques avancées 225
n
1
E(Ve (X)) = E (Xi − µ) − E(X̄n − µ)2
2
n
i=1
n
1
= E(Xi − µ)2 − E(X̄n − µ)2
n
i=1
1 2 2 1 2
= nσ − V (X̄n ) = σX − σX
n X n
Ainsi,
n−1 2
E(Ve (X)) = σ
n X
pour la ramener à une variance dont l’espérance coïncide avec σX . Il faut ainsi
2
n n
n n 1 1
Sn2 = × Ve (X) = × (Xi − X̄n )2 = (Xi − X̄n )2
n−1 n−1 n n−1
i=1 i=1
n n n n−1 2
2
E(Sn ) = E × Ve (X) = × E(Ve ) = × σ = σ2
n−1 n−1 n−1 n
Voilà donc la variance empirique qu’il convient d’adopter, étant donné qu’elle n’est
pas biaisée, c’est-à-dire qu’on a : E(S 2 ) = σX
2 .
n
n 2
1 2 n i=1 (Xi − X̄n )
V (Sn2 ) = V (Xi − X̄n ) = V
n−1 n−1 n
i=1
n 2
n2 i=1 (Xi − X̄n )
= 2
V
(n − 1) n
226 Chapitre 7. Éléments de théorie statistique asymptotique
n
n
n
2 2
(Xi − X̄n )2 = Xi − µ − X̄n + µ = (Xi − µ) − X̄n − µ
i=1 i=1 i=1
n
n 2
i=1 Xi
= (Xi − µ) − −µ
n
i=1
n n 2
i=1 Xi − nµ
= (Xi − µ) −
n
i=1
n
n 2
i=1 (Xi − µ)
= (Xi − µ) −
n
i=1
Posons Zi = Xi − µ, on obtient :
n
n
n 2 n
i=1 Zi
(Xi − X̄n )2 = Zi − = (Zi − Z̄n )2
n
i=1 i=1 i=1
D’où,
2 2
n n
i=1 Xi − X̄n i=1 Zi − Z̄n
V =V = V Z 2 − (Z̄n )2
n n
n n 2
i=1 Zi i=1 Zi
avec, Z̄n = et Z2 = .
n n
n 2
Sn2 = Z − (Z̄n )2
n−1
2 2 2
V Sn = E Sn2 − E(Sn2 ) = E Sn2 − σ 2 = E Sn4 − 2Sn2 σ 2 + σ 4
n2 2 n2 2
Sn4 = Z 2 − (Z̄ )2
n = Z 2 − 2Z 2 (Z̄ )2 + (Z̄ )4
n n
(n − 1)2 (n − 1)2
n2 2
E(Sn4 ) = 2
E Z 2 − 2E Z 2 (Z̄n )2 + E Z̄n4
(n − 1)
E(Zi4 ) = µ4
Méthodes mathématiques avancées 227
n n 2
2 2
2 i=1 Zi 1
2 1 2
E Z2 = E = 2E Zi = 2 E Z12 + . . . + Zn2
n n n
i=1
termes
n2 n entre crochets
1
4 2 2
= E Zi + n(n − 1)Zi Zj
n2
i=1
n termes avec le même i
car
et n2 − n = n(n − 1) termes avec i = j
1 1
nE(Zi4 ) + n(n − 1)E(Zi2 Zj2 ) = 2 nµ4 + n(n − 1)σ 4 )
=
n2 n
n 2
n 2
i=1 Zi i=1 Zi
E Z 2 Z̄n2 = E Z 2 E Z̄n2 = E E
n n n
1 1 2
= E Zi2 E (Z1 + . . . + Zn )
n n2
i=1
1
= 3 E (Z12 + . . . + Zn2 )(Z1 + . . . + Zn )2
n n
1
2 2 2
= 3 E (Z1 + . . . + Zn ) Zi + n(n − 1)Zi Zj i=j
n
i=1
n
2
1 2
= 3E Zi + n(n − 1)Zi Zj
n
i=1
2
n
1
= 3 E Zi2
+ n(n − 1)E(Zi Zj )
n
i=1
1 1
= 3 nµ4 + n(n − 1)σ 4 + n(n − 1) × 0 = 3 nµ4 + n(n − 1)σ 4
n n
n 4
i=1 Zi
E Z̄n4 = E
n
1
= E (Z1 + . . . + Zn )4 on a entre crochets n4 termes
n4
n
1
4 3 2 2 2
= E Zi + C 1 Zi Zj + C 2 Zi Zj + C 3 Zi Zj Zk + C 4 Zi Zj Zk Zl
n4
i=1
indices
différents
n
1 4 2 2
= E Zi + 0 + C2 E(Zi Zj ) + 0 + 0
n4
i=1
D’où
2
µ4 n − 2n + 3
V (Sn2 ) = E(Sn4 ) − σ 4 = + σ4 −1
n n(n − 1)
µ4 n2 − 2n + 3 − n(n − 1) µ4 n2 − 2n + 3 − n2 + n)
= + σ4 = + σ4
n n(n − 1) n n(n − 1)
µ4 −n + 3 1 n−3 4
= + σ4 = µ4 − σ
n n(n − 1) n n−1
D’où :
n
1 1 2
fY (y) = √ exp − yi , Y ∈ Rn
2π 2
i=1
Ainsi,
n
n
(Zi − Z̄n )2 = Yi2
i=1 i=2
230 Chapitre 7. Éléments de théorie statistique asymptotique
Ce résultat signifie que ni=1 (Zi − Z̄n ) ne dépend pas de Y1 correspondant à la
2
n
moyenne Z̄n . Cela implique ainsi que i=1 (Xi − X̄n )2 ne dépend pas de la moyenne
1 n
empirique X̄n , puisque Zi = Xiσ−µ . Le résultat est que X̄n et Sn2 = n−1 i=1 (Xi −
X̄n )2 sont indépendantes : la moyenne et la variance empiriques d’un échantillon tiré
d’une distribution normale sont des v.a. indépendantes : Cov(X̄n , Sn2 ) = 0 (Théo-
rème de Fisher).
n
n 2
i=1 (Xi − X̄n )
Yi2 χ2n−1 ⇒ χ2n−1
σ2
i=2
n 2 n
i=1 (Xi −X̄n )
Sn2 = n−1 ⇒ i=1 (Xi − X̄n )2 = (n − 1)Sn2
n 2
i=1 (Xi − X̄n ) Sn2
⇒ = (n − 1) χ2n−1
σ2 σ2
Sn2 √ (X̄n − µ)2
Nous venons de voir que (n − 1) 2
suit la loi χ2n−1 et que n suit une loi
σ σ
normale centrée réduite N (0, 1).
√ X̄n − µ X̄n − µ
n(X̄n − µ) √
√σ √σ
n(X̄n − µ)
σ
n n
= =t= =
2 2 S Sn
(n − 1) Sσn2 Sn n
σ 2 σ
(n − 1)
Le numérateur de la variable t ci-dessus suit donc une loi normale centrée réduite
et son dénominateur est la racine carrée d’une loi χ2n−1 divisée par son nombre de
degrés de liberté. Le numérateur et de dénominateur sont des v.a. indépendantes
et leur rapport suit une loi de Student à (n − 1) degrés de liberté. En effet, si le
numérateur de t est distribué suivant N (0, 1) et si son dénominateur l’est suivant
Méthodes mathématiques avancées 231
une loi de χ2k , t est distribué suivant une loi de Student à k degrés de liberté et sa
densité fT est donnée par :
− k+1
1 Γ k+1 t2 2
fT (t) = √ · k2 1 + k > 0, Γ fonction Gamma d’Euler
kπ Γ 2 k
Cette densité est symétrique, centrée sur 0, en forme de cloche. Son espérance est
indéfinie pour k = 1 et nulle pour k > 1. Sa variance est infinie pour k ≤ 2 et vaut
k−2 pour k > 2.
k
Cette loi de probabilité usuelle a été découverte et publiée en 1908 par William
Gossert sous le pseudonyme de Student (Son employeur, la brasserie Guinness à
Dublin lui interdisait de publier sous son vrai nom). C’est Ronald Fisher qui l’a fait
connaître et qui a donné au test de Student ce nom.
√ X̄n − µ X̄n − µ X̄n − µ
n = Sn =
Sn √ 2
Sn
n
n
Nous avons vu que E(Sn2 ) = σ 2 est nous avons vu que lorsque n devient très grand
E[Ve (X)] tend vers σ 2 , car n−1
n tends vers 1. On peut donc approcher la loi de
Student par la loi normale centrée réduite lorsque n est grand.
D’un autre côté, on peut à l’aide de cette loi de Student, construire l’intervalle
de confiance de l’estimateur de l’espérance mathématique µ d’une loi normale dont
la variance σ 2 est inconnue.
X̄n − µ Sn
t= Sn
⇒ X̄n = ±t √ + µ
±√ n
n
P (t < 1.676) = 0.95 ⇒ P (t < −1.676) = 0.05 ⇒ P (−1.676 < t < 1.676) = 0.90
P (t < 2.009) = 0.975 ⇒ P (t < −2.009) = 0.025 ⇒ P (−2.009 < t < 2.009) = 0.95
P (t < 2.678) = 0.995 ⇒ P (t < −2.678) = 0.005 ⇒ P (−2.678 < t < 2.678) = 0.99
— Nous avons vu que la loi de Student peut être approchée par une loi normale
centrée réduite lorsque n est grand.
232 Chapitre 7. Éléments de théorie statistique asymptotique
k2
E(F ) =
k2 − 2
2k22 (k1 + k2 − 2)
et V (F ) = avec k2 > 2 pour E et k2 > 4 pour V
k1 (k2 − 2)2 (k2 − 4)
Pour les calculs, il faut tenir compte de ce que
U2 /k2
F(k2 , k1 )
U1 /k1
Test du Chi-2
Exemple : On lance un dé 60 fois. Le nombre de fois Ni qu’on a obtenu la face i
est :
face i 1 2 3 4 5 6 Effectif total
effectif Ni 15 7 4 11 6 17 60
xi 0 1 2 3 4 5 total
Ni 5 10 7 4 3 1 30
234 Chapitre 7. Éléments de théorie statistique asymptotique
xi 0 1 2 3 4 total
pi 0.1353 0.271 0.271 0.18 0.1433 1
ei = npi 4 8 8 5.5 4.5 30
n
(Ni − npi )2
d(Fn , F ) =
npi
i=1
(5 − 4)2 (10 − 8)2 (7 − 8)2 (4 − 5.5)2 (4 − 4.5)2
= + + + +
4 8 8 5.5 4.5
= 0.25 + 0.5 + 0.125 + 0.41 + 0.41 + 0.0555 = 1.34
Le fractile d’ordre 0.95 de la loi χ24 est 9.488 9.49. Comme 1.34 < 9.4, on ac-
cepte H0 : les observations constituent un échantillon tiré d’une loi de Poisson P(2).
Remarque : le test du Chi-2 est également utilisé comme test d’homogénéité qui
consiste à tester l’hypothèse que deux échantillons proviennent de deux v.a. suivant
la même loi, et comme test d’indépendance de 2 v.a. X et Y .
On suppose que cet échantillon provient d’une population avec la fonction de distri-
bution cumulative F (x). On définit Dn comme suit :
1 − α = P (Dn ≤ Dn,α ) = P max |F (x) − Sn (x)| ≤ Dn,α
x
Exemple d’application : testons que l’échantillon suivant est tiré d’une distribu-
tion normale :
x 100 200 300 400 500 600 700 800 900 1000 Total
fréquence fi 8 25 88 172 243 252 144 49 13 6 100 = n
x i fi 481400
La moyenne est : x̄ = = = 481.4. avec xi les centres de classe
fi 1000
(xi − x̄)2 fi 89343600
et σ = = 155.17 2
x = = 89343.6
fi 1000
Les centres de classes sont 50, 250, 350, 450, . . . , 950.
Nous pouvons maintenant calculer Sn (x) pour chaque x > 50 = x1 , c’est-à-dire
qu’on aura Sn (x) = nk (k étant la fréquence cumulée). Sn (x) est donc la fréquence
relative cumulée.
Standardisons ou centrons et réduisons x (en retranchant x̄ et en divisant le
x − x̄
résultat par σ). Cela nous donne zi = . Les valeurs de zi nous donnent sur la
σ
table normale les F (zi ) correspondantes.
Si l’échantillon est normalement distribué, on devrait avoir la différence entre
Sn (x) et F (zi ) égale à 0.
Voici la table des calculs :
236 Chapitre 7. Éléments de théorie statistique asymptotique
Cela veut dire que lorsque n tend vers l’infini, la probabilité que Xn se confonde avec
X devient presque l’unité. Cela devient presque certain : Xn = X.
Une définition plus particulière intéressant les statisticiens consiste à prendre
X = Cte = a et à considérer les moyennes empiriques comme v.a. de la suite. Cela
revient à définir la convergence en probabilité par :
lim P |X̄n − a| < ε = 1
n−→∞
Inégalité de Tchebychev
Voyons d’abord une autre inégalité, celle de Markov (Andrei Andreyevich, mathé-
maticien russe, 1856-1922). Il s’agit du même Markov des chaînes et des processus.
L’inégalité de Markov établit pour une v.a. positive X dont E(X) existe et pour tout
λ > 0, que
1 E(X)
P (X ≥ λE(X)) ≤ ou P (X ≥ λ) ≤
λ λ
Cette inégalité est parfois appelée première inégalité de Tchebychev (Pafnuty, mathé-
maticien russe, 1821-1894, professeur de Markov). Elle est également appelée inégalité
de Bienaymé (Irénée-Jules, Statisticien français, 1796-1878).
Pour démontrer l’inégalité de Markov, considérons un événement E et la v.a.
indicatrice de E, IE telle que IE = 1 si E se réalise et IE = 0 si E ne se réalise pas.
La réalisation de l’événement correspond à X ≥ a et sa non-réalisation correspond
à X < a. Donc,
Comme E est une fonction croissante monotone, en prenant les espérances mathé-
matiques des deux parties de l’inégalité a · I(X≥a) ≤ X, on n’inverse pas l’inégalité,
et donc E(a · I(X≥a) ) ≤ E(X)
E a · I(X≥a) = a · E I(X≥a) = a [1 · P (X ≥ a) + 0 · P (X < 0)] = a · P (X ≥ a)
D’où
E(X)
E a · I(X≥a) = a · P (X ≥ a) ≤ E(X) ⇒ P (X ≥ a) ≤ , car a > 0
a
a peut être remplacé par λ ou ε.
L’inégalité de Tchebychev
Si X est une v.a. réelle continue avec E(X) = µ et V (X) = σ 2 , pour tout ε > 0, on
σ2
a : P (|X − µ| ≥ ε) ≤ 2 .
ε
+∞ µ−ε +∞
V (X) = σ 2 = (t − µ)2 fX (t) dt ≥ (t − µ)2 fX (t) dt + (t − µ)2 fX (t) dt
−∞ −∞ µ+ε
fX (x) : p.d.f. de X.
µ+ε
Dans la partie droite, il manque pour l’égalité (t − µ)2 fX (t) dt. Dans cette
µ−ε
partie droite, pour le 1er terme, on intégre de −∞ à µ − ε, donc t ≤ µ − ε.
t ≤ µ − ε ⇒ t − µ ≤ −ε ⇒ |t − µ| ≥ ε ou ε ≤ |t − µ| ⇒ ε2 ≤ (t − µ)2
t ≥ µ + ε ⇒ t − µ ≥ ε ⇒ (t − µ)2 ≥ ε2
D’où, pour les deux termes de la partie droite, on a ε2 ≤ (t − µ)2 . Donc, dans les
deux intégrales, si l’on remplace ce terme positif (t − µ)2 par cet autre terme positif
ε2 inférieur, on trouvera une somme inférieure. D’où :
µ−ε +∞
(t − µ)2 fX (t) dt + (t − µ)2 fX (t) dt
−∞ µ+ε
µ−ε +∞
2
≥ ε fX (t) dt + ε2 fX (t) dt
−∞ µ+ε
µ−ε +∞
= ε2 fX (t) dt + fX (t) dt
−∞ µ+ε
2
= ε P (X ≤ µ − ε ou X ≥ µ + ε) définition de la p.d.f.
= ε2 P (|X − µ| ≥ ε)
Méthodes mathématiques avancées 239
D’où :
σ2
σ 2 ≥ ε2 P (|X − µ| ≥ ε) ⇒ ≥ P (|X − µ| ≥ ε)
ε2
Ces inégalités de Tchebychev sont utiles pour la démonstration de certaines pro-
priétés, tout comme l’inégalité de Jensen (Johan, mathématicien danois, 1859-1925)
suivante :
Pour une fonction réelle convexe g sur un intervalle I de R qui contient X(Ω),
ensemble des valeurs possibles pour la v.a. pour laquelle E(X) et E[g(X)] existent,
on a : g[E(X)] ≤ E[g(x)].
Rappelons la définition d’une fonction réelle g(x) convexe sur un intervalle I =
[a, b] : pour tout x1 , x2 ∈ [a, b] et pour tout λ ∈ [0, 1], on a :
g(λx1 + (1 − λ)x2 ) ≤ λf (x1 ) + (1 − λ)f (x2 )
Cette fonction g(x) est dite strictement convexe si l’inégalité ci-dessus est stricte,
c’est-à-dire x1 = x2 . L’ordonnée de la moyenne des abscisses est plus petite que la
moyenne de leurs ordonnées.
Une fonction est dite concave si −f (x) est convexe.
Intuitivement, la convexité de g(x) entre x1 et x2 signifie que la courbe g(x) entre
x1 et x2 est en dessous des deux points (x1 , g(x1 )) et (x2 , g(x2 )).
Si g(x) est dérivable deux fois sur [a, b], la convexité signifie g (x) ≥ 0. L’expres-
sion mathématique de l’inégalité de Jensen consiste à prendre n valeurs de x dans
I, x1 , x2 , . . . , xn et n valeurs de λ entre 0 et 1 de manière à avoir ni=1 λi = 1 et
écrire ceci : (avec g(x) convexe)
n n
g λi x i ≤ λi g (xi )
i=1 i=1
Si les λi sont les probabilités des xi d’une v.a. X ne prenant que ces valeurs x1 ,
x2 , . . . , xn , alors ni=1 P (xi ) = 1 et l’inégalité de Jensen devient :
n n
g xi P (xi ) ≤ g(xi )P (xi ) ⇔ g [E(X)] = E [g(x)]
i=1 i=1
240 Chapitre 7. Éléments de théorie statistique asymptotique
Pour n = k,
k
k−1
g(xi )P (xi ) = g(xi )P (xi ) + g(xk )P (xk )
i=1 i=1
k
k−1
g(xi )P (xi ) = g(xi )P (xi )[1 − P (xk )] + g(xk )P (xk )
i=1 i=1
k−1
= (1 − P (xk )) g(xi )P (xi ) + g(xk )P (xk )
i=1
Comme on a ci dessus :
k
k−1
g(xi )P (xi ) = (1 − P (xk )) g(xi )P (xi ) + g(xk )P (xk )
i=1 i=1
k−1
≥ (1 − P (xk ))g xi P (xi ) + g(xk )P (xk )
i=1
Méthodes mathématiques avancées 241
k−1
Posons i=1 xi P (xi ) = xk−1 , d’où :
k
g(xi )P (xi ) ≥ (1 − P (xk ))g(xk−1 ) + g(xk )P (xk )
i=1
D’où :
k
k−1
g(xi )P (xi ) ≥ g (1 − P (xk )) xi P (xi ) + xk P (xk )
i=1 i=1
k−1
= g xi P (xi ) + xk P (xk )
i=1
k
= g xi P (xi )
i=1
En conclusion :
k
k
g(xi )P (xi ) ≥ g xi P (xi ) C.Q.F.D.
i=1 i=1
Si l’inégalité est vraie pour k − 1, elle est aussi vraie pour k. Comme elle est vraie
pour 2, alors elle est vraie 3, . . . , n pour tout n.
n
n 2
x2i P (xi ) ≥ xi P (xi ) ⇒ E(X 2 ) ≥ E 2 (X)
i=1 i=1
Dans le cas où g(x) = ln(x), on sait que ln(x) est concave puisque (ln(x))(2) = − x12 <
0. Donc, − ln(x) est convexe, d’où l’inégalité de Jensen pour − ln(x) :
n n n n
− ln xi P (xi ) ≤ − ln(xi )P (xi ) ⇒ ln xi P (xi ) ≥ ln(xi )P (xi )
i=1 i=1 i=1 i=1
alors plim(Xn ) = µ ou Xn −→ µ.
p
Cette loi dit simplement qu’une suite de v.a. converge en probabilité vers son
espérance mathématique lorsque n tend vers l’infini, si sa variance tend vers 0 lorsque
n tend vers l’infini. La loi faible est contenue dans cette limite de V (Xn ) et cette
2
limite est contenue dans le résultat V (X̄n ) = σn établi au début du présent chapitre
(Section 7.1. Moments empiriques) pour la moyenne empirique.
Pour démonter la loi faible des grands nombres, il suffit d’utiliser l’inégalité de
Tchebychev vue ci-dessus. En effet, pour cette inégalité, pour tout ε > 0, on a :
σ2
P (|X − µ| ≥ ε) ≤
ε2
V (X)
P (|X − µ| ≥ ε) ≤
ε2
Si V (X) −→ 0 lorsque n −→ ∞, alors lorsque n −→ ∞, on a P (|X − µ| ≥ ε) ≤ 0.
Comme une probabilité ne peut pas être négative, on a : P (|X − µ| ≥ ε) = 0.
C’est cela la convergence de X vers µ.
On peut généraliser cette loi faible des grands nombres ainsi : si lim E(Xn ) = µ
et lim V (Xn ) = 0 alors plim(Xn ) = µ. Il suffit de centrer les v.a. pour obtenir cette
généralisation.
Une application directe de la loi des grands nombres concerne la moyenne empi-
rique que nous venons d’évoquer.
En effet, la moyenne échantillonnale X̄n des n v.a. indépendantes et identique-
2
ment distribuées (i.i.d.) ayant E(Xi ) = µ et V (Xi ) = σ 2 , E(X̄n ) = µ et V (Xi ) = σn .
D’où lim V (X̄n ) = 0 et plim X̄n en vertu de la loi faible des grands nombres.
n−→∞
Théorème de Slutsky
Ce théorème dû au scientifique russe ( mathématicien, statisticien et économiste)
Evgeny (Eugen) Slutsky (1880-1948) est en fait énoncé de différentes manières et il
concerne la convergence en probabilité aussi bien que la convergence en loi que nous
n’avons pas encore vue. Le travail de Slutsky nous intéressant ici, a consisté à étendre
les propriétés des opérations algébriques sur les suites de nombres réels convergentes
aux suites de v.a.
La forme qui nous intéresse ici s’énonce ainsi :
Si f est une application réelle continue, alors Xn −→ X ⇒ f (Xn ) −→ f (X).
p p
Cela veut dire que la convergence en probabilité d’une suite de v.a. est conservée par
Méthodes mathématiques avancées 243
les fonctions réelles continues de v.a. C’est que la limite de la suite des images de
v.a. est l’image de la limite de la suite.
On peut généraliser ce théorème de Slutsky au cas de deux dimensions :
si f est une application de R2 dans R uniformément continue et si Xn et Yn
sont 2 suites de v.a. convergentes en probabilité vers X et Y respectivement, alors
f (Xn , Yn ) −→ f (X, Y ).
p
En appliquant ce théorème de Slutsky généralisé à l’addition et à la multiplication
de 2 suites de v.a., on obtient :
Xn + Yn −→ X + Y et Xn Yn −→ XY
p p
Cette fonction caractéristique existe toujours puisque cos(tx) et sin(tx) sont des
fonctions bornées [−1, 1] pour toute valeur de tx, leurs espérance mathématiques
existent donc toujours. Cette fonction caractéristique de X caractérise entièrement
la distribution de X.
Notons aussi que, si X et Y sont 2 v.a. indépendantes, alors ϕX+Y (t) = ϕX (t) ·
ϕY (t), car
E ei t(x+y) = E ei t x · ei t y = E ei t x E ei t y (indépendance de X et Y )
Une dernière propriété de la fonction caractéristique est ainsi : Xn est une suite de
v.a. ϕXn est la suite de leurs fonctions caractéristiques si lim ϕXn (t) = ϕ(t) et
n−→∞
si ϕ(t) est continue en t = 0, alors ϕ(t) est une
fonction
caractéristique, celle de
dlimXn . C’est-à-dire que et dlimXn = X et E ei t x = ϕ(t)
Cette propriété permet de démontrer le théorème central limite ci-après
σ 4 i 2 t2 (y − σ 2 i t)2 σ 2 t2 1
2
− 2
− − 2 (y − σ 2 i t)2
= e 2σ ×e 2σ =e 2 ×e 2σ
Donc +∞
1 σ 2 t2 1 2 2
E ei t (X−µ) = √ e− 2 e− 2σ2 (y−σ i t) dy.
σ 2π −∞
Méthodes mathématiques avancées 245
Posons z = y − σ 2 i t, alors dy = dz et
+∞ +∞
1 1 2 2 1 z2
√ e− 2σ2 (y−σ i t) dy = √ e− 2σ2 dz = 1
σ 2π −∞ σ 2π −∞
Ainsi,
σ 2 t2
E ei t (X−µ) = e− 2
et donc
σ 2 t2 σ 2 t2
E ei t X = ei t µ × E ei t (X−µ) = ei t y × e− 2 = ei t y− 2 = ϕX (t)
x2 x3 xn
ex = 1 + x + + + ... + + o xn+1 .
2! 3! n!
Appliquons cette formule à Yj :
i2 t2 2 i3 t3 3
ϕYj (t) = eitYj = E(1) + itE(Yj ) + E Yj + E Yj
2 3!
246 Chapitre 7. Éléments de théorie statistique asymptotique
1 1
E(Xj ) = 0 ⇒ E(Yj ) = 0, V (Xj ) = 1 ⇒ V (Yj ) = √ 2 = = E(Yj2 )
n n
Avec un n grand, on peut négliger les termes d’ordre supérieur à 2 et écrire
i2 t 2 1
ϕYj (t) = eitYj = 1 + 0 + + ...
2 n
D’où
t2
ϕYj (t) 1 −
2n
Les Yi sont indépendantes, la fonction caractéristique de leur somme est le produit des
fonctions caractéristiques des Yi (comme on a vu ci-dessus dans la présente section)
D’où, n
t2
ϕnj Yj (t) 1 − (pour n grand)
2n
Calculons la limite de ϕni Yj (t) lorsque n tend vers l’infini :
n n
t2 −t2 /2 −t2
lim 1− = lim 1+ =e 2
n−→∞ 2n n−→∞ n
car
n
−t2 /2 −t2 /2 −t2 /2 −t2 /2 −t2
ln 1+ = n ln 1 + et lim n ln 1 + =n =
n n n−→∞ n n 2
n
−t2 /2 −t2
⇒ lim exp ln 1 + =e 2
n−→∞ n
n
n
n
−t2 Xj 1 √
Finalement lim ϕnj=1 Yj (t) = e 2 , or Yj = √ = √ Xj = nX̄
n−→∞ n n
j=1 j=1 j=1
D’où
2
−t2 it×0−12 t2
lim ϕ√nX̄ (t) = e 2 =e
n−→∞
ce qui entraine
V (Zi ) = p − p2 = p(1 − p)
D’où
n
n
E(Y ) = E Zi = E(Zi ) = np
i=1
n
i=1
V (Y ) = V Zi = np(1 − p)
i=1
Zi − p
Si l’on centre et réduit les Zi , on obtient Xi =
p(1 − p)
n n
Zi − p
( ni=1 Zi − np) (Y − np) Y − np √
Xi = = = = n = nX̄
i=1 i=1
p(1 − p) p(1 − p) p(1 − p) np(1 − p)
Ainsi,
√ Y − np
nX̄n =
np(1 − p)
√
Le CTL nous dit que nX̄n converge en loi vers N (0, 1) lorsque n est grand. Donc, on
Y − np
peut approcher , loi binômiale de paramètres n et p, par une loi normale
np(1 − p)
d’espérance np de variance np(1 − p).
1
a) E(Yt Yt ) = Ωt , une matrice définie positive avec ΣTt=1 Ωt −→ Ωt une matrice
T
définie positive ;
b) E(Yit Yjt Ylt Ymt ) < ∞, pour tous i, j, l et m (dont i = j = l = m) où Yit est
le ième élément du vecteur Yt ;
T
1
c) Yt Yt −→ Ω
T
t=1
√
alors, T ȲT −→ N (0, Ω).
loi
Convergence de la loi binômiale : Une v.a. X suit une loi binômiale de para-
mètres n et p, B(n, p), si on a : P (x = k) = Cnk pk (1 − p)n−k .
Que se passe-t-il pour cette expression lorsque n −→ ∞. Deux situations doivent
être distinguées :
√ X̄n − p
n −→ N (0, 1)
p(1 − p) loi
n
X 1
où X̄n = = Xi . D’où :
n n
i=1
√ X
√ X̄n − p n n −p X − np
Zn = n = = et Zn −→ N (0, 1)
p(1 − p) p(1 − p) np(1 − p) loi
X − np X −5 X −5
Zn = = √ =
np(1 − p) 4.5 2.1213
P (X = k) = Cnk pk (1 − p)n−k
n! µ
k n−k
P (X = k) = p (1 − p) np = µ ⇒ p =
nk (n − k)! n
n!
µ n−k µ k
= 1−
nk (n − k)! n n
µk n! µ n µ −k
= k
× k 1− 1−
n n (n − k)! n n
250 Chapitre 7. Éléments de théorie statistique asymptotique
n! n(n − 1) · · · (n − k + 1) n(n − 1) · · · (n − k + 1)
lim = lim = lim =1
n→∞ nk (n − k)! n→∞ nk n→∞ n × n × ··· × n
µ n µ −µ
lim 1 − = lim exp n ln 1 − = lim exp n × = e−µ
n→∞ n n→∞ n n→∞ n
µ − k
lim 1 − = 1−k = 1
n→∞ n
Finalement,
µk µk e−µ
lim Cnk pk (1 − p)n−k = × 1 × e−µ × 1 =
n→∞ k! k!
On trouve ainsi la fonction de Poisson. Nous venons de montrer que lorsque np = µ
µ
et que donc p = c’est-à-dire que p diminue lorsque n augmente et qu’elle tend
n
vers 0 lorsque n tend vers l’infini, dans ce cas la loi binômiale converge vers la loi de
Poisson :
µk e−µ
lim B(k; n, p) =
n→∞ k!
Exemple numérique : Pour p = 0.1 et n = 30, on lit dans la table de la loi
binômiale P (X = 2) = 0.22766. Pour la table de la loi de Poisson de paramètre np =
3, on lit P (X = 2) = 0.224042. La loi de Poisson est donc une bonne approximation
de la loi binômiale à partir de n = 30.
Pour n = 100, toujours pour p = 0.1, on obtient pour la loi binômiale P (X =
2) = 0.00162, et pour la loi de Poisson P (X = 2) = 0.00227.
Remarque : au lieu de lire dans les tables statistiques, on peut utiliser le calculateur
de probabilité en ligne suivant : https ://www.easycalculation.com/statistics/
avec k ≤ n et n ≤ N puisqu’il ne peut pas y avoir de tirage, lorsque l’urne est vidée.
n2
Que se passe-t-il lorsque N → ∞, n → ∞, de sorte que → 0. Posons
N
k C n−k
CN
NA N − NA p Nq
p= ⇒ NA = Np ⇒ q = et P (X = k) = n
N N CN
Méthodes mathématiques avancées 251
k Np ! Np (Np − 1) · · · (Np−k+1 )
CN p
= =
k! (Np−k )! k!
1 1 Np (Np−1 ) · · · (Np−k+1 )
= Np (Np−1 ) · · · (Np−k+1 ) = Npk
k! k! Np · · · N p
Npk 1 2 k−1
= 1 1− 1− ... 1 −
k! Np Np Np
k
Np N k 1 2 k−1
= 1 − 1 − . . . 1 −
N k k! Np Np Np
k
N 1 2 k−1
= pk 1− 1− ... 1 −
k! Np Np Np
n−k N n−k 1 2 n−k−1
CN = q n−k 1− 1− ... 1 − même procédé
q
(n − k)! Np Nq Nq
n Nn 1 2 n−1
CN = 1n × 1− 1− ... 1 −
n! N N N
n
N 1 2 n−1
= 1− 1− ... 1 −
n! N N N
P (X = k)
k
1 kN 1 k−1
= p 1− ... 1 −
Nn 1 n−1 k! Np Np
1− ... 1 −
n! N N
N n−k 1 n−k−1
× q n−k 1− ... 1 −
(n − k)! Nq Nq
1 n! 1
= pk q n−k × k
×N 1−
1 n−1 k!(n − k)! Np
Nn 1 − ... 1 −
N N
k−1 n−k 1 n−k−1
... 1 − ×N 1− ... 1 −
Np Nq Nq
1 k−1 1 n−k−1
N k N n−k 1−
... 1 − Np × 1− ... 1 −
Np Nq Nq
= Cnk pk q n−k
1 n−1
Nn 1 − ... 1 −
N N
1 k−1 1 n−k−1
1 − Np . . . 1 − N p × 1 − Nq . . . 1 − Nq
= B(k, n, p) ×
1 n−1
1− ... 1 −
N N
= B(k, n, p) × R(k, n, N )
avec
k−1
i
n−k−1
i
1− × 1−
Np Nq
i=1 i=1
R(k, n, N ) = (7.1)
n−1
i
1−
N
i=1
Le 1er facteur, Cnk pk q n−k n’est autre que P (X = k) pour X B(n, p). On
peut lui appliquer le CLT de Moivre-Laplace lorsque n → ∞. Ce 1er facteur tend
vers la loi normale. Le second facteur R(k, n, N ), lui, est un ratio comportant au
numérateur A deux facteurs et au dénominateur D un seul facteur. Etablissons sa
limite inférieure et sa limite supérieure. Rappelons pour cela que 1 − x ≤ e−x , ∀x et
que 1 − x ≥ e−x(1+ε) pour 0 ≤ x ≤ δ où δ = δ(ε) −→ 0 lorsque ε → 0, ∀ε positif. Le
dénominateur de (7.1) est :
n−1
i
1
2
n−1
D= 1− = 1− 1− ··· 1 −
N N N N
i=1
n
Il est évident que lorsque N → ∞ et que → 0, on a D −→ 1.
N
Méthodes mathématiques avancées 253
Donc,
k−1
i
−
1 2 k−1 Np
1− 1− ... 1 − ≤e i=1
Np Np Np
Or,
−k(k − 1)
k−1
i 1
k−1
k(k − 1)
k−1
i
= i=+ =⇒ 1− ≤ e 2Np
Np Np 2 Np
i=1 i=1 i=1
(n − k)(n − k − 1)
n−k−1
−
=⇒ ≤e 2Nq
i=1
ce qui implique
On montre 1 que :
√
n2 x2 n n x npq(p − q)
E= + − + −→ 0
2N 2N N 2N pq
n2
lorsque n → ∞, N → ∞ et → 0.
N
On vient de montrer que la limite supérieure du numérateur tend vers 1 sous les
n2
conditions n → ∞ et → 0.
N
On peut établir maintenant la limite inférieure en utilisant 1−x ≥ e−x(1+ε) et obtenir
que :
k(k − 1) (n − k)(n − k − 1)
−(1 + ε) +
A≥e 2Np 2Nq soit A ≥ e−(1+ε)E
k − np √
1. x = √ ⇒ k = x npq + np
npq
254 Chapitre 7. Éléments de théorie statistique asymptotique
Cette limite inférieure tend aussi vers 1 sous les mêmes conditions. D’où :
Exemple numérique :
λk
Si X P(λ), on a P (x = k) = e−λ , k ∈ N.
k!
La fonction caractéristique de la loi de Poisson ϕX (t) est :
∞ ∞ ∞ i t k
λk i t k e−λ λe
ϕX (t) = E ei t X = ei t k × e−λ = λe × = e−λ
k! k! k!
k=0 k=0 k=0
Ainsi
√ √it √it
λn
ϕZn (t) = e−λn −i t λn λn e
e = exp −λn − i t λn + λn e λn
√it
ln ϕZn (t) = −λn − i t λn + λn e λn
or 2
√it
√it x2 it λn
e λn = ex = 1 + x + + ... = 1 + √ + + ...
2 λn 2
alors
it t2
ln ϕZn (t) = −λn − i t λn + λn 1 + √ − + ...
λn 2λn
t2
= −λn − i t λn + λn + it λn − + (. . .)
2
t2
= − + (. . .) (. . .) tend vers 0 lorsque n → ∞
2
t2
eln ϕZn (t) = e− 2 +(...)
t2
ϕZn (t) → e− 2 : c’est la fonction caractéristique de la loi normale standard
256 Chapitre 7. Éléments de théorie statistique asymptotique
Ainsi,
X n − λn
Zn = √ N (0, 1)
n loi
Exemple numérique :
Convergence des loi usuelles continues L’application directe du CLT aux dif-
férentes loi nous donne :
• Si X suit une loi gamma de paramètre k, γ(k), alors lorsque k → ∞, on a
X −k
√ −→ N (0, 1) (on sait que E(X) = V (X) = k.)
k loi
• Si X suit une loi du χ2 de nombre de degrés de liberté ν, lorsque ν → ∞, on
X −ν
a: √ −→ N (0, 1) (on sait que E(X) = ν et V (X) = 2ν.)
2ν loi
• Si X suit une loi de Student dont le nombre de degrés de liberté est n et si
n → ∞, alors : X −→ N (0, 1) (on sait que E(X) = 0 et V (X) = n−2 n
pour
loi
n > 2, pour n → ∞, V (X) → 1).
∞
∀ε > 0, P {|Xn − X| > ε} < +∞
n=1
eitb − eita
Uniforme (a, b) : ϕX =
it(b − a)
Exponentielle (θ) : ϕX = (1 − itθ)−1
1 2
Normale Standard (0, 1) : ϕX = e− 2 t
Note finale : nous avons vu dans ce qui précède les différents modes de conver-
gence et les deux théorèmes fondamentaux de la statistique mathématique. Tout
cela montre la place centrale qu’occupe la loi normale en statistique mathématique,
base de l’économétrie. Il va sans dire que les modes de convergence les plus im-
portants sont la convergence en probabilité et, surtout, la convergence en loi et en
distribution.
Chapitre 8
Introduction à l’optimisation
dynamique : Calcul variationnel
8.1 Introduction
Le grand mathématicien suisse Leonhard Euler (1707 - 1783) écrit dans son livre
“ Methodus Inveniendi Lineas Curvas ” ce qui peut être rendu en français par : “
Il n y a rien de tout ce qui se passe dans l’univers où la règle du maximum ou du
minimum n’apparaît pas ”.
Euler affirme par là que la problématique de l’optimisation, c’est-à-dire de la
recherche du maximum ou du minimum, est universelle.
Optimiser, c’est traiter mathématiquement le problème de prise de décision qui
se passe dans la plupart des sciences, en ingénierie, économie, finance, management,
statistiques . . .
L’optimisation mathématique, également appelée programmation mathématique
se divise en un grand nombre de branches et de sous-branches. Le projet NEOS,
administré par l’université américaine de Wisconsin-Madison, propose un arbre de
ces branches et sous branches de l’optimisation
(neos-guide.org/optimisation-Guide).
Selon la taxonomie proposée, l’optimisation se divise en trois grandes branches :
— L’optimisation à objectifs multiples ;
— L’optimisation déterministe ;
— L’optimisation incertaine.
L’optimisation incertaine se subdivise en optimisation stochastique et optimisation
robuste.
L’optimisation déterministe se divise en optimisation continue et optimisation dis-
crète.
L’optimisation discrète est de deux sortes : entière et combinatoire.
L’optimisation continue peut être contrainte ou sans contrainte.
L’optimisation déterministe, continue et non contrainte est de 4 types :
— Les moindres carrés non linéaires ;
259
260 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
La solution du problème est un nombre x∗ . Si F (x) est une fonction définie, x∗ peut
être déterminé avec précision. Si F est continue et dérivable, x∗ satisfait la condition
nécessaire de premier ordre F (x∗ ) = 0. En cas de fonction de plusieurs variables
F (x1 , x2 , . . . , xn ) comme fonction de profit, par exemple, dépendant des niveaux de
production de n produits différents, la solution est un ensemble de n nombres x∗1 ,
x∗2 , . . . , x∗n , représentant les n niveaux de production à produire et à vendre pour
maximiser le profit :
max F (x1 , x2 , . . . , xn )
xi ≥0,i=1,2,...,n
T 2 T
n 2 nt n nt2
a +b dt = a 2 t + b
0 T T T 2T 0
n2 nT 2
= a 2
T +b
T 2T
n2 nT
= a +b
T 2
Exemple 3.2 :
Le stock de capital d’un pays à t est K(t). Avec ce stock de capital, la produc-
tion est réalisée au taux F (K). La fonction de production F est supposée continue
et dérivable deux fois et concave. Le produit obtenu peut être consommé procurant
une satisfaction immédiate, comme il peut être réinvesti pour augmenter le stock de
capital et la production future.
dK
Le produit F (K) = consommation C(t) + investissement K K =
dt
Exemple 3.3 :
P (K) est le temps de profit pouvant être obtenu à l’aide du stock de capital
productif K. Si F (K) est l’output obtenu avec et que p est le prix du marché, on a :
P (K) = pF (K). Si P et F sont doublement dérivables, croissantes et concaves et si le
taux de dépréciation du capital est constant b (K = I − bK, I étant l’investissement
brut) et si C(I) est le coût de l’investissement additionnel, avec C, fonction croissante
et convexe et si les biens d’investissement ont un prix constant c, alors C(I) = cI, le
problème est de maximiser la valeur d’aujourd’hui du flux des profits nets pour une
période T :
T
max e−rt U P (K) − C(K + bK) dt
0
Exemple 3.4 :
Trouver la plus courte distance dans le plan entre les points (a, A) et (b, B).
Dans
√ le plan (t, x), une distance ds est, en vertu du théorème de Pythagore : ds =
dt2 + dx2
2
dx2 dx
ds = dt2 1+ 2 = dt 1 + = dt 1 + x (t)2
dt dt
Il s’agit donc de :
b 1/2
min 1 + [x (t)]2 dt
a
Exemple 3.5 :
Trouver dans un plan la surface maximum pouvant être contenue à l’intérieur
d’une courbe de longueur L et d’une droite (0, t)
Il faut trouver
la forme de la courbe. On sait que la surface sous la courbe d’équation
T
x(t) est x(t) dt. C’est elle qu’il faut maximiser sous contrainte :
0
T 1/2
1 + [x (t)]2 dt = L, x(0) = 0, et x(T ) = 0
0
T /k
yi − yi−1 2
min k avec y0 = 0 et yT /k = n
k
i=1
268 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
Pour trouver le minimum de cette quantité dépendant des yi , annulons les dérivées
partielles par rapport aux yi :
T /k yi −yi−1 2 T /k
Q = i=1 k k = k1 i=1 (yi − yi−1 )2
= k1 (y1 − y0 )2 + (y2 − y1 )2 + . . . , +(yT /k − yT /k−1 )2
∂Q 1
= [2(yi − yi−1 ) − 2(yi+1 − yi )] = 0
∂yi k
faut maintenant montrer que c’est le chemin optimal, c’est-à-dire qu’il correspond
au moindre coût.
Considérons un autre chemin z(t) satisfaisant les conditions z(0) = 0 et z(T ) = n.
Posons h(t) = z(t) − x(t). On a nécessairement h(0) = h(T ) = 0, puisque z(t) et x(t)
coïncident au point initial et au point terminal.
Comme x(t) = tn T , on a
tn tn n
h(t) = z(t) − ⇒ z(t) = h(t) + ⇒ z (t) = h (t) +
T T T
et la différence de coûts entre les deux chemins z et x est :
T T
2 2
n 2 n 2
[z (t)] − [x (t)] dt = h (t) + − dt
0 0 T T
T
n2 2n n2
= h (t)2 + 2 + h (t) − 2 dt
0 T T T
T
2n
= h (t)2 + h (t) dt
0 T
T
2n T
= h (t)2 dt + h (t) dt
0 T 0
T
2 2n
= h (t) dt + [h(t)]T0
0 T
T
2 2n
= h (t) dt + ×0 (h(T ) = h(0) = 0)
0 T
T
2
= h (t) dt ≥ 0
0
Méthodes mathématiques avancées 269
Donc la différence de coûts entre z(t) et x(t) est positive. Cela veut dire que le coût
du chemin de z est supérieur ou égal au coût du chemin x. Donc x(t) est la solution
optimale.
indépendantes t, x et x .
Nous cherchons donc x(t) vérifiant les conditions des points terminaux (initial et
final) et maximisant l’intégrale ci-dessus.
Supposons que x∗ (t) maximise (8.5), x(t) une autre fonction admissible. Défi-
nissons la différence entre les deux chemins : h(t) = x(t) − x∗ (t). Comme x et x∗
vérifient les conditions des points terminaux (elles passent toutes les deux par x0 et
x1 ), h(t0 ) = h(t1 ) = 0.
La déviation ou l’écart h est admissible, si x = x∗ + h est admissible, et pour
tout a, y(t) = x∗ (t) + a h(t) sera aussi admissible, car x∗ est admissible et h(t0 ) =
h(t1 ) = 0.
x∗ et h donnés, calculons (8.5) pour y(t) fonction du paramètre a. le résultat sera
une fonction de a, g(a) par exemple :
t1 t1
g(a) = F (t, y(t), y (t)) dt = F t, x∗ (t) + a h(t), x∗ (t) + a h (t) dt (8.6)
t0 t0
Comme g (0) = 0 on a :
t1
Fx h(t) + Fx h (t) dt = 0
t0
3. (g ◦ ×
f ) (a) = g (f (a)) fy1 (a)
y1
d
4. f (x, y) dy = fx (x, y) dy
dx y0 y0
270 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
t1
Calculons Fx h (t) dt en intégrant par parties, Fx = u et h (t)dt = dv
t0
t1 t1 t1
Fx h (t) dt = u dv = u v − v du
t0 t0 t0
t1
dFx
= [Fx h(t)]tt10 − h(t) dt (Fx supposée dérivable)
t0 dt
t1
dFx
= 0− h(t) dt (h(t1 ) = h(t0 ) = 0)
t0 dt
D’où
t1 t1 t1
dFx dFx
g (0) = 0 = Fx h(t) dt − h(t) dt = Fx − h(t) dt
t0 t0 dt t0 dt
Ceci est
tvrai ∀h nulle aux points terminaux, continue et dérivable.
1
Si g(t) h(t) dt = 0 ∀h(t) alors g(t) = 0.
t0
D’où,
dFx
Fx − =0 ⇒ Fx t, x∗ (t), x∗ (t) = dFx t, x∗ , x∗ / dt (8.7)
dt
C’est cela l’équation d’Euler. Il s’agit d’une généralisation de la condition nécessaire
de premier ordre f (x) = 0 pour x donnant le maximum de f (x) du calcul classique.
dFx
(Ainsi, si = 0 alors Fx = 0 condition nécessaire de premier ordre).
dt t1
Supposons qu’on a : g(t) h(t) dt = 0 ∀h(t) continue et dérivable et vérifiant
t0
h(t1 ) = h(t0 ) = 0 et que g(t) = 0 ou, disons g(t) > 0. Posons
(t − a)(b − t) a ≤ t ≤ b
h(t) =
0 t ailleurs sur [t1 , t2 ]
t1 a b t1
g(t) h(t) dt = g(t) h(t) dt + g(t) h(t) dt + g(t) h(t) dt
t0 t0 a b
b
= 0+ g(t) (t − a)(b − t) dt + 0
a
b
Comme g(t) > 0 et que t − a > 0 et que b − t > 0 pour a ≤ t ≤ b alors g(t) (t −
t1 a
Notons aussi Fx est une fonction de t, x et x et que dFx /dt est la dérivée totale
par rapport à t. La variation totale de Fx lorsque t varie est égale au total de la
variation de Fx due à t, à x et à x , puisque x et x sont elles-mêmes des fonctions
de t :
dFx /dt = Fx t + Fx x x + Fx x x
L’équation d’Euler peut ainsi être réécrite :
H(t, x, p) = −F (t, x, x ) + p x
Ce qui implique :
∂H ∂H
= −Fx et = x
∂x ∂p
Si x(t) vérifie l’équation d’Euler (8.7) ci-dessus, alors :
dFx dp
−Fx = − = − = −p
dt dt
∂H ∂H
p = − et x =
∂x ∂p
Ces deux équations différentielles de premier ordre sont appelées la forme canonique
de l’équation d’Euler. Le Hamiltonien joue un rôle important dans la théorie du
contrôle optimal de Pontriaguine.
Les solutions de l’équation d’Euler sont appelées extrémales (extremals). En ana-
lyse classique, les extrémales correspondent aux points stationnaires. La résolution
d’un problème de calcul variationnel, d’optimisation dynamique, consiste donc à
trouver les extrémales, puis parmi ces dernières, le chemin optimum.
272 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
8.6.2 Application 2
Trouvons les extrémales de
1
[x (t)]2 + 10 t x(t) dt
0
s.c. x(0) = 1 et x(1) = 2
C’est le même problème économique avec T = 1, n = 2 et un coût de stockage égal
à 10 t x(t).
2
F (t, x, x ) = x + 10 t x
dFx
Fx = 10 t, Fx = 2x , = 2x
dt
L’équation d’Euler est
dFx 5 5
Fx = ⇔ 10 t = 2x ⇒ x = 5t ⇒ x = t2 + c1 ⇒ x = t3 + c1 t + c2
dt 2 6
Pour déterminer c1 et c2 :
5
x(0) = 1 ⇒ × 03 + c1 × 0 + c2 = 1 ⇒ c2 = 1
6
5 5 1
x(1) = 2 ⇒ × 13 + c1 × 1 + 1 = 2 ⇒ c1 = 2 − 1 − =
6 6 6
D’où
5 1
x(t) = t3 + t + 1
6 6
Méthodes mathématiques avancées 273
8.6.3 Application 3
Trouvons les extrémales de
t1
t x (t) + [x (t)]2 dt
t0
s.c. x(t0 ) = x0 et x(t1 ) = x1
2
F (t, x, x ) = t x + x
dFx
Fx = 0, Fx = t + 2x , = 1 + 2x
dt
L’équation d’Euler est
dFx t + c1 1 c1
Fx = ⇔ 1 + 2x = 0 ⇒ t + 2x = c1 ⇒ x = = t+
dt 2 2 2
1 c1
⇒ x(t) = t2 + t + c2
4 2
Pour trouver c1 et c2 , on a :
1 c1
x(t0 ) = x0 ⇒ x0 = t20 + t0 + c2
4 2
1 2 c1
x(t1 ) = x1 ⇒ x1 = t1 + t1 + c2
4 2
Les deux équations nous permettent de déterminer c1 et c2 .
8.6.4 Application 4
Reconsidérons l’exemple 3.1 avec un coût de stockage non nul. Il s’agit alors de
T
2
min c1 x (t) + c2 x(t) dt
x(t) 0
s.c. x(0) = 0, x(T ) = n et x (t) ≥ 0
Fx = c2 , et Fx = 2 c 1 x
d(2 c1 x ) c2 c2 c2 2
= 2 c1 x = c2 ⇒ x = ⇒ x = t + c3 ⇒ x(t) = t + c3 t + c 4
dt 2c1 2c1 4c1
Les constantes d’intégration c3 et c4 sont déterminées en considérant les conditions
limites
c2
x(0) = 0 ⇒ x(0) = × 0 + c3 × 0 + c4 = 0 ⇒ c4 = 0
4c1
c2 1 c2 2 n c2 T
x(T ) = n ⇒ x(T ) = × T 2 + c 3 × T = n ⇒ c3 = n− T = −
4c1 T 4c1 T 4c1
274 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
8.6.5 Application 5
Reprenons l’exemple précédent en y introduisant une actualisation au taux continu
r. Il s’agit de :
T
2
min e−rt c1 x + c2 x dt
x(t) 0
s.c. x(0) = 0 et x(T ) = n
Nous devons aussi avoir ≥ 0 pour que le problème ait un sens en économie.
x (t)
2
F (t, x, x ) = e−rt c1 x + c2 x ⇒ Fx = c2 e−rt et Fx = 2x c1 e−rt
D’où,
c2 T nr c2 T c2 T c2 T
n+ + nr + n+
2rc1 r 2rc1 2c1 2rc1
k1 = rt = = rt et k2 =
e 1 ert − 1 e −1 1 − ert
−
r r r
Finalement
c2 T c2 T
nr + n+
2c1 ert c2 t 2rc1
x(t) = rt − +
e −1 r 2rc1 1 − ert
8.6.6 Application 6
Supposons que le coût de production est une fonction croissante, monotone et
convexe du taux de production x , g(x ), g(0) = 0, g ≥ 0, g > 0 pour x ≥ 0.
Le problème devient :
T
min e−rt g(x ), c2 x dt
x(t) 0
sous conditions limites x(0) = 0 et x(T ) = n
F (t, x, x ) = e −rt
g(x ), c2 x ⇒ Fx = c2 e−rt et Fx = e−rt g (x )
L’équation d’Euler est
dFx d e−rt g (x )
Fx = ⇔ = c2 e−rt
dt dt
−re−rt g (x ) + e−rt g (x ) × x = c2 e−rt ⇒ −rg (x ) + g (x ) × x = c2
La partie droite de cette de cette égalité est non négative, g (x ) ≥ 0, d’où x >
0. Donc x est croissante avec t jusqu’à T , lorsqu’on aura accumulé les n unités
commandées.
Par ailleurs, l’égalité (8.8) ci-dessus montre que x est une fonction croissante de r
et c2 (coût de stockage).
8.6.7 Application 7
Un individu cherche à déterminer le taux de consommation à chaque moment
qui va maximiser le flux de son utilité actualisé, durant un intervalle de temps T .
L’utilité de la consommation au moment de t est U (C(t)), fonction croissante et
concave (utilité marginale décroissante) : u > 0 et u < 0. Le taux d’actualisation
est r. L’objectif de cet individu est donc :
T
max e−rt U (C(t)) dt (8.9)
x(t) 0
276 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
L’individu considéré a, comme revenu, un salaire ω(t) exogène en plus des intérêts
iK procurés par la détention du capital K(t). L’individu peut emprunter (K <
0) ou louer (K > 0) au taux i. Le capital peut être vendu ou acheté à un prix
unitaire. Ce revenu à t composé de ω(t) est iK(t) est alloué à la consommation et à
l’investissement K (t) :
ω(t) + iK(t) = C(t) + K (t) (8.10)
Le capital initial K(0) = K0 et le capital final est K(T ) = KT . De (8.10), on tire :
C(t) = ω(t) + iK(t) − K (t)
i et ω sont donnés. On remplace C(t) par cette expression dans (8.9). On obtient :
T
max e−rt U ω(t) + iK(t) − K (t) dt
K(t) 0
s.c. K(0) = K0 et K(T ) = KT
L’intégrand est alors F (t, K, K ) avec x = K(t)
et x = K (t).
−rt
Fx = FK = ie U ω(t) + iK(t) − K (t)
∂F ∂F ∂C ∂C
= ie−rt U (C) = × ; =i
∂K ∂C ∂K ∂K
Fx = FK = −1e−rt U (C)
L’équation d’Euler
dFx −rt d −e−rt U (C)
Fx = ⇔ ie U (C) =
dt dt
⇒ re−rt U (C) − e−rt U (C)C = ie−rt U (C)
⇒ −U C = (i − r)U
U C
⇒ − =i−r
U
Donc
U C
− = i−r (8.11)
U
En effet,
d −e−rt U (C) d −e−rt d [U (C)]
= × U (C) − e−rt ×
dt dt dt
dU (C(t)) dC(t)
= re−rt U (C) − e−rt × ×
dC(t) dt
= re−rt U (C) − e−rt U (C) × C (t)
Méthodes mathématiques avancées 277
Le résultat (8.11) ci-dessus signifie que le taux de variation de l’utilité marginale est
proportionnel à (i − r).
U C U
Si i > r, on a − > 0, comme − > 0 par hypothèse, C > 0. D’où la
U U
consommation doit être croissante à travers le temps (si i > r) pour maximiser
l’utilité, r étant le taux d’impatience.
Si l’on pose U (C) = ln C, ω(t) = 0 et KT = 0, K(0) = K, on obtient : C(t) =
iK(t) − K (t).
d(ln C) 1 d( 1 ) −1
Lorsque U (C) = ln(C), on a U (C) = = et U (C) = C = 2 .
dC C dC C
Et (8.11) devient
(− 12 )C C
− C1 =i−r ⇒ =i−r
(C ) C
C C
=i−r ⇒ dt = (i − r) dt
C C
⇒ ln C = (i − r) t + c1 ; c1 est la constante d’intégration
Finalement
1 K0 (i−r) t it 1 K0
K(t) = × 1
×e + e K0 − × 1
r 1 − e (i−r) T r 1 − e(i−r) T
r r
−r t
1−e
K(t) = ei t K0 1 −
1 − e−r T
Et donc
e(i−r) t
C(t) = r K0
1 − e−r T
Exemple :
t1
2
max 3x − tx dt
x(t) t0
s.c. x(t0 ) = x0 et x(t1 ) = x1
2
F (t, x ) = 3x − tx , Fx = 0 et Fx = 3 − 2tx
Équation d’Euler :
d(3 − 2tx ) c1 − 3
= 0 ⇒ d(3 − 2tx ) = 0 ⇒ 3 − 2tx = c1 ⇒ tx = −
dt 2
c1 −3
c1 − 3
⇒ x = − 2
⇒x=− ln(t) + c2
t 2
Méthodes mathématiques avancées 279
Or
c1 − 3
x(t0 ) = x0 ⇒ x0 = − 2 ln(t0 ) + c2
x(t1 ) = x1 ⇒ x1 = − c1 − 3 ln(t1 ) + c2
2
Ces deux équations permettent de déterminer les constantes d’intégration c1 et c2 .
= Ft
D’où
d (F − x Fx )
= Ft ⇒ d F − x Fx = Ft dt
dt
Lorsque F ne dépend pas de t, Ft = 0 et donc :
d F − x Fx = 0 ⇒ F − x Fx = constante
D’où, dans ce cas de F = F (x, x ), il faut résoudre cette équation différentielle de pre-
t1
mier ordre F −x Fx = constante, pour déterminer x(t) qui maximise F (x, x ) dt
t0
280 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
Exemple : La brachistochrone
Nous avons vu au 3.6 que le problème consistait à
x1 1/2
1 1 + y2
min 1/2
dx
x(t) x0 (2g) y
1/2
1 1 + y2
F (y, y ) = √ ×
2g y
On est bien dans le cas N 2 où F ne dépend pas de t (ici x), mais seulement de y et
◦
y . D’où : F − y Fy = C te .
Calculons Fy .
−1/2
1 1 1 + y2 y
Fy = √ ×2
2g 2 y y
1/2 −1/2
1 1 + y 2 1 1 1 + y 2 2y
F − y Fy = √ − y √ ×
2g y 2g 2 y y
1/2 −1/2
1 1 + y2 1 + y 2 y 2
= √ − ×
2g y y y
1/2
2
1 1+y y 1/2 y2
= √ − 1/2 × y
2g y 1/2 1 + y2
1 1 + y2 y2
= √ −
2g y 1/2 1 + y 2 1/2 1 + y 2 1/2 y 1/2
1 1
= √
2g y 1/2 1 + y 2 1/2
1
2 −1/2
= √ y 1 + y
2g
= constante
Ainsi,
2 2c
y(1 + y ) = constante c ⇒ y = −1
y
c−y dy
⇒ y = =
y dx
dx y
⇒ =
dy c−y
y
⇒ dx = dy
c−y
Méthodes mathématiques avancées 281
D’où
y
x = c arcsin − cy − y 2 + C te
c
C’est là l’équation d’une cycloïde.
Exemple déjà vu :
t1
2
min x e−x dt s.c. x(t0 ) = x0 et x(t1 ) = x1
t0
On est dans le cas 7.3 avec F (x ) non linéaire, d’où x(t) doit être de la forme x(t) =
c1 t + c2 et les conditions aux bords permettent de déterminer c1 et c2 en fonction de
t0 , t1 , x0 et x1 .
Ax + Bx x = Bt + Bx x ⇒ A x = Bt
Cette égalité n’est pas une équation différentielle (elle ne comporte pas x ou ses
dérivées). Elle peut être considérée comme une fonction implicite pour x en terme
de t. Si x(t) satisfait les conditions aux bords, elle est une solution optimale.
Par contre si Ax ≡ Bt pour n’importe quel x(t), alors il existe une fonction P (t, x)
telle que Pt ≡ A, Px ≡ B, dans ce cas :
= P (t1 , x1 ) − P (t0 , x0 )
La valeur de l’intégrale ne dépend donc que des points terminaux et le chemin entre
les deux n’importe pas pour l’optimum : tout chemin faisable est optimal.
C’est comme si l’on a à maximiser (en fonction de x) une fonction constante. N’im-
porte quel x fait l’affaire.
Dans ce cas N ◦ 5, l’équation d’Euler est une identité.
Exemple 1 :
L’intégrale ne dépend pas de x(t). Elle ne dépend que des points terminaux.
Dans ce cas
dFx
Fx = c2 et Fx = c1 =0 ⇒
dt
et l’équation d’Euler est : c2 = 0. Dans le cas où c2 > 0 (coût de stockage), il n’y
a pas de calendrier de production optimal. Mais si c2 = 0, n’importe quel plan de
production sera optimal.
T
c2 = 0 ⇒ c1 x dt = [c1 x(t)]T0 = c1 [x(T ) − x(0)] = c1 n
0
Exemple 3 : Soit
Dans ce cas
dFx
Fx = t x et Fx = t x ⇒ = x + t x (t x = u v)
dt
L’équation d’Euler est
x + t x = t x ⇒ x(t) = 0.
⇔ n=0
Exemple 4 :
t1
e−rt (x − ax) dt s.c. x(t0 ) = 0 et x(t1 ) = x1 .
t0
Dans ce cas
dFx
F (t, x, x ) = e−rt (x − ax), Fx = −ae−rt et Fx = e−rt ⇒ = −re−rt
dt
L’équation d’Euler est :
valeur ne dépendant pas de x(t) pour t0 < t < t1 . Entre t0 et t1 , tout x(t) est bon.
Si a = r, l’équation d’Euler ne peut pas être satisfaite, pas d’optimum.
Exemple 5 :
T
max e−rt p(t) f (K(t)) − c(t)(K + bK) dt s.c. K(0) = K0 et K(T ) = KT .
0
Exemple 6 : soit
1
2
(x − 2xx + 10tx) dt sous x(0) = 1 et x(1) = 2
0
Dans ce cas,
dFx
Fx = −2x + 10t, Fx = 2x − 2x et = 2x − 2x
dt
L’équation d’Euler est :
5 5
−2x + 10t = 2x − 2x ⇒ x (t) = 5t ⇒ x (t) = t2 + c1 ⇒ x(t) = t3 + c1 t + c2
2 6
Or
x(0) = 1 ⇒ 1 = c2
x(1) = 2 ⇒ 2 = 56 + c1 + 1 ⇒ c1 = 1
6
D’où,
5 1
x(t) = t3 + t + 1
6 6
Méthodes mathématiques avancées 285
F est supposé deux fois différentiable pour ses trois arguments t, x et x . Supposons
que x∗ (t) maximise (8.12).
Pour une fonction donnée h(t) admissible, on définit :
t1
g(a) = F (t, x∗ + ah, x∗ + ah ) dt
t0
t1
Lorsque a = 0, g(0) = F (t, x∗ , x∗ ) dt correspondant au maximum de (8.12).
t0
Comme g(0) est le maximum, on doit avoir g (0) = 0 (condition nécessaire de premier
ordre).
t1
dg(a) ∂F (t, x∗ + ah, x∗ + ah )
g (a) = = dt (Règle de Leibniz)
da t0 ∂a
Lorsque a = 0, y = x∗ et donc :
t1
g (0) = Fx h + Fx h dt = 0
t0
avec a = 0, on a :
t1
2
g (0) = Fxx h2 + 2Fxx hh + Fx x h dt (8.13)
t0
Comme g (0) = 0 maximise g(a), g (0) doit être négative pour tout h(t) admissible.
L’intégrand de (8.13) est une forme quadratique en h et h . Cette forme quadratique
est non-positive si les coefficients sont les dérivées partielles secondes d’une fonction
concave en (x, x ) . D’où le résultat que pour maximiser (8.12), F doit être concave
en (x, x ) et x∗ (t) doit vérifier l’équation d’Euler.
La concavité de F en (x, x ) est remplacée, dans le cas général, par la condition de
Legendre suivante :
Fx x (t, x∗ (t), x∗ (t)) ≤ 0
Pour le minimum, il faut prendre le signe d’inégalité opposé, ce qui correspond à la
convexité de F en (x, x ).
F et G sont fonctions continues et dérivables deux fois, c est un nombre réel donné.
Nous avons déjà vu des exemples de ce problème. L’appellation isopérimétrique pro-
vient de l’exemple où l’on avait à maximiser l’aire entourée par une courbe de péri-
mètre fixe donné.
T T
L’exemple déjà vu de max e−rt P (x) dt sous contrainte : x(t) dt = n, est un
0 0
exemple de problème isopérimétrique. La contrainte isopérimétrique
peut être trans-
t
formée en condition de points terminaux en posant y(t) = x(s) ds comme produit
0
accumulé jusqu’à t. Donc = x(t). Dans ce cas, dans l’intégrale à maximiser, il
y (t)
T
faut substituer y à x et la contrainte x(t) dt = n devient y(0) = 0 et y(T ) = n.
0
Le problème est que dans le cas général, la transformation de la contrainte isopéri-
métrique en conditions aux bords n’est pas toujours simple. On peut alors utiliser la
technique du multiplicateur de Lagrange, en ajoutant à l’objectif, la contrainte (= 0)
multipliée par λ le multiplicateur de Lagrange :
T T T
L = e−rt P (x) dt − λ xdt − n = e−rt P (x) − λx dt + nλ (8.16)
0 0 0
Méthodes mathématiques avancées 287
L’intégrale (8.14) atteint son maximum pour x, lorsque (8.17) l’atteint pour le même
x et λ déterminé pour que (8.15) soit vérifiée.
Pour (8.17), l’équation d’Euler est :
d (Fx − λGx )
Fx − λGx =
dt
x∗ qui maximise (8.14) sous la contrainte (8.15), n’est pas une extrémale de l’intégrale-
contrainte, sinon on ne pourrait pas déterminer λ et x∗ qui satisfont (8.14) et (8.15).
Exemple 1 :
1 1
2
min x (t) dt sous c. x(t) dt = n, x(0) = 0 et x(1) = 2
0 0
dLx
Lx = −λ, Lx = +2x , = 2x
dt
L’équation d’Euler est alors :
dLx λ λ
Lx = ⇔ 2x = −λ ⇒ 2x + λ = 0 ⇒ 2x = −λ ⇒ x = − ⇒ x = − t + c1
dt 2 2
λ
⇒ x(t) = − t2 + c1 t + c2
4
or
x(0) = 0 ⇒ c2 = 0
λ λ
x(1) = 2 ⇒ − + c1 = 2 ⇒ c1 = 2 +
4 4
288 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
La contrainte
1 1
λ λ
x(t) dt = n ⇒ − t2 + 2 + t dt = n
0 0 4 4
λ 3 8+λ 2 1 λ 8+λ
⇒ − t + t =− + =n
12 8 0 12 8
−2λ + 3(8 + λ)
⇒ =n
24
⇒ −2λ + 24 + 3λ = 24n
⇒ λ = 24(n − 1)
⇒ c1 = 2 + 6(n − 1) = 6n − 4
D’où
Exemple 2 :
T T
2 1/2
max x dt sous c. 1 + x dt = n, x(0) = 0 et x(T ) = 0
0 0
1/2
L’intégrand augmenté est L = x − λ 1 + x 2 , on a :
1
2 −1/2
2 −1/2
Lx = 1, L x = − λ 1 + x × 2x = −λx 1 + x
2
d 2 −1/2
1= −λx 1 + x
dt
Méthodes mathématiques avancées 289
d 2 −1/2 2 −1/2
1= −λx 1 + x ⇔ d −λx 1 + x = dt
dt
2 −1/2
⇔ −λx 1 + x =t+k
−λx
⇔ =t+k
1 + x 2
λ 2 x 2
⇔ = (t + k)2
1 + x 2
2 2
⇔ λ2 x = (t + k)2 + (t + k)2 x
2
⇔ λ2 − (t + k)2 x = (t + k)2
2 (t + k)2
⇔ x =
λ2 − (t + k)2
t+k
⇔ x =
λ2 − (t + k)2
Faisons le changement de variable
du
u = λ2 − (t + k)2 ⇒ = −2(t + k)
dt
Donc
1 du 1 du
x = − √dt ⇒ x dt = − √
2 u 2 u
du 1
⇒ x dt = − √ =− √ du
2 u 2 u
√
⇒ x(t) = − u + c
⇒ x(t) = − λ2 − (t + k)2 + c
or √ √
x(0) = 0 ⇒ 0 = − λ2 − k 2 + c ⇒ c = λ2 − k2
x(T ) = 0 ⇒ 0 = − λ2 − (T + k)2 + c ⇒ c = λ2 − (T + k)2
D’où
T
λ2 − k 2 = λ2 − (T + k)2 ⇒ k 2 = (T + k)2 ⇒ k = −
2
On a trouvé ci-dessus x = − λ2 − (t + k)2 + c. On en tire :
x − c = − λ2 − (t + k)2 ⇒ (x − c)2 = λ2 − (t + k)2 ⇒ (x − c)2 + (t + k)2 = λ2
T 2
⇒λ= (x − c)2 + t −
2
290 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
2 1/2
T 1/2 T t − T2
2
1+x dt = n ⇒ 1+ 2 dt = n
0 0 λ2 − t − T2
T
t − T2
⇒ λ arcsin =n
λ
0
Appelons la solution optimale x∗ (t). Comme elle satisfait la contrainte, on a donc la
valeur optimale dépendant de n :
t1 t1
∗ ∗
Vn = F t, x∗ , x∗ dt = F t, x , x − λG t, x∗ , x∗ dt + λn
t0 t0
t1
La contrainte étant G(t, x, x ) dt = n.
t0
t1
dL∗ d(λn) dL∗
V (n) = L∗ dt + λn et V (n) = + = +λ
t0 dn dn dn
dL∗
Comme = 0, on a : V (n) = λ.
dn
Le multiplicateur de Lagrange L correspond donc à la valeur marginale du paramètre
n : c’est le taux de variation de l’optimum à la suite d’une variation de n.
où y = x + ah, y = x + ah
Méthodes mathématiques avancées 291
Puisque x(t) est la solution optimale, g(a) est maximum ou minimum lorsque a = 0
ou y = x, donc
t1
g (0) = 0 ⇒ g (0) = Fx h + Fx h dt = 0
t0
Dans la figure ci-dessus, on voit que (ds)2 = (dt)2 + (dx)2 . Cela donne :
2
(ds)2 dx 2
2
=1+ = 1 + x (t) ⇒ ds = 1 + x 2 dt2 = 1 + x 2 (t)dt.
dt dt
b
La distance à minimiser est ainsi : 1 + x 2 dt s.c. x(a) = A. Dans ce cas F (x ) =
a
1 + x 2 . L’intégrand F = F (x ) implique que la forme de la solution est donc ;
x(t) = c1 t + c2 .
D’où
x (b) = 0 = c1
x(a) = A = c1 a + c2 ⇒ c2 = A
Donc, x(t) = A pour a ≤ t ≤ b.
La ligne recherchée qui minimise la distance entre (a, A) et la verticale t = b est
la droite horizontale x = A. La condition de Legendre du minimum Fx x > 0 est
satisfaite, puisque
1 + x 2 − x Fx 1 + x 2
F x x = = >0 puisque Fx = 0
1 + x 2 1 + x 2
Les deux fonctions x∗ et x sont proches si à chaque point du domaine étendu, leurs
valeurs sont proches, leurs pentes sont similaires et si leurs points terminaux sont
proches. C’est ce qu’exprime la distance définie ci-dessus.
Définissons t1 +aδt1
g(a) = F t, x∗ + ah, x∗ + ah dt
t0
La fonction g atteind son optimum à a = 0, donc g (0) = 0 est nécessaire.
t1 +aδt1
∂F t, x∗ + ah, x∗ + ah
g (a) = dt
t0 ∂a
Pour a = 0, on a :
t1
g (0) = 0 = F t1 , x∗ (t1 ), x∗ (t1 ) δt1 + (Fx h + Fx h ) dt
t0
Intégrons le second terme par parties (rappel : h(t0 ) = 0). On obtient : g (0) = 0
t1
dFx
F t1 , x∗ (t1 ), x∗ (t1 ) δt1 +Fx t1 , x∗ (t1 ), x∗ (t1 ) ×h(t1 )+ Fx + h dt = 0
t0 dt
294 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
La différence des valeurs des deux fonctions x et x∗ à leurs points finals respectifs
est : δx1 ≡ x(t1 + δt1 ) − x∗ (t1 ).
On peut extrapoler pour déterminer x(t1 + δt1 ) en tirant une droite à partir du point
(t1 , x(t1 )) et ayant pour pente x∗ (t1 ) : l’équation de cette droite est donc :
Conditions nécessaires :
dFx
— L’équation d’Euler-Lagrange doit être vérifiée : Fx = pour t0 ≤ t ≤ t1 ;
dt
— La condition de Legendre de second ordre doit être vérifée :
• pour le maximum : Fx x ≤0 pour tout t, t0 ≤ t ≤ t1 ;
• pour le minimum : Fx x ≥0 pour tout t, t0 ≤ t ≤ t1 .
Conditions de transversalité :
— Si x(t1 ) est libre, alors on doit avoir : Fx = 0 à t1 ;
— Si t1 est libre, alors on doit avoir : F − x Fx = 0 à t1 ;
— Si x(t1 ) et t1 sont tous les deux libres, alors on doit avoir : Fx = 0 et F = 0
à t1 .
R est une fonction dérivable, x1 doit se situer sur la courbe de R(t). Si t1 varie de
δt1 , la valeur finale de x1 variera de R (t1 )δt1 :
δx1
R (t1 ) =
δt1
Nous avons établi dans la section précédente (11) que pour trouver l’optimum dans
le cas général, on doit avoir :
δx1
Fx (t1 )δx1 + (F − x Fx (t1 ) × δt1 = 0 ⇒ Fx (t1 ) + (F − x Fx )(t1 ) = 0
δt1
⇒ Fx (t1 ) × R (t1 ) + (F − x Fx )(t1 ) = 0
⇒ F (t1 ) + Fx (t1 ) R (t1 ) − x = 0
La condition de l’optimum dans ce cas précis, de point final sous contrainte d’égalité
est donc
F + Fx (R − x ) = 0 à t1
Condition à ajouter aux conditions d’Euler, de Legendre et de x(t0 ) = x0 .
Bibliographie
297
298 BIBLIOGRAPHIE
Abstract iii
Préface v
Prologue vii
Remerciements xvii
Dédicaces xxi
Sommaire xxv
299
300 TABLE DES MATIÈRES
Bibliographie 303
Contenu
Rappels d’algèbre linéaire
Systèmes d’équations linéaires et transformations de matrices
Calcul différentiel et intégral
Equations différentielles ordinaires Probabilités et statistique mathématique
Variables aléatoires
Eléments de théorie statistique asymptotique
Calcul des variations
Abstract
Linear algebra
Systems of Linear Equations and Matrix Transformation
Calculus
Ordinary Differential Equations
Probability and Mathematical Statistics
Random Variables
Elements of Asymptotic theory
Calculus of Variations