Video 2 PDF

Méthodes mathématiques avancées
Pour l’analyse économique
Lahcen OULHAJ
Professeur de sciences économiques

Méthodes mathématiques avancées pour l’analyse économique
Copyright © 2017 par OCP Policy Center. Tous droits réservés. Aucun élément de cet ouvrage
ne peut être reproduit, sous quelque forme que ce soit, sans l’autorisation expresse des éditeurs
et propriétaires.
Les vues exprimées ici sont celles des auteurs et ne doivent pas être attribuées à OCP Policy
Center.
Contact :
OCP Policy Center
Ryad Business Center – Aile Sud, 4ème etage
Mahaj Erryad - Rabat, Maroc
Tél : +212 537 27 08 08
Email : contact@ocppc.ma
Website : www.ocppc.ma
ISBN : 978-9954-9636-7-8
Dépôt Légal : 2017MO2006
ii
A propos d’OCP Policy Center
OCP Policy Center est un think tank marocain « policy oriented », qui a pour mission de contribuer
à approfondir les connaissances et à enrichir la réflexion autour de questions économiques et de
relations internationales revêtant un enjeu majeur pour le développement économique et social
du Maroc, et plus largement pour celui du continent africain. Porteur d’une « perspective du Sud
», sur les grands débats internationaux ainsi que sur les défis stratégiques auxquels font face les
pays émergents et en développement, OCP Policy Center apporte une contribution sur quatre
champs thématiques majeurs : agriculture, environnement et sécurité alimentaire; développement
économique et social ; économie des matières premières ; et géopolitique et relations internationales.
Sur cette base, OCP Policy Center est activement engagé dans l’analyse des politiques publiques
et dans la promotion de la coopération internationale favorisant le développement des pays du
Sud, via ses travaux de recherche, ses conférences et séminaires et son réseau de jeunes leaders.
Conscient que la réalisation de ces objectifs passe essentiellement par le développement du Capital
humain, le think tank a pour vocation de participer au renforcement des capacités nationales et
continentales en matière d’analyse économique et de gestion à travers sa Policy School récemment
créée.
www.ocppc.ma
A propos de l’auteur
Lahcen Oulhaj est depuis le 22 février 2011, Membre du Conseil Economique, Social et
Environnemental (CESE). Il est également président de la commission de l’analyse de la
conjoncture au sein du même conseil. En parallèle, Oulhaj est professeur de sciences économiques,
poste qu’il occupe depuis 1990, à l’université Mohamed V de Rabat-Agdal. Il enseigne aujourd’hui
la philosophie en licence de science politique, l’économétrie et l’économétrie des données de
panel ainsi que l’optimisation dynamique en master de sciences économiques, les méthodes
quantitatives en master de science politique, et la politique économique en master des échanges
euro-méditerranéens. Il a enseigné à la Faculté de Droit de Casablanca avant de rejoindre celle
de Rabat.
Il a été Doyen de la Faculté des sciences juridiques, économiques et sociales de l’université
Mohamed V de Rabat-Agdal de janvier 2005 à septembre 2013. Il a été Chef du département
de sciences économiques dans le même établissement entre 2000 et 2002. Il a aussi été membre
de la Commission de la révision constitutionnelle mars-juin 2011. Nommé par le Roi au conseil
d’administration de l’Institut royal de la culture amazighe (IRCAM) en juin 2002, il reste membre
de ce conseil d’administration jusqu’en juin 2010.
Lahcen Oulhaj, titulaire du Doctorat d’état en sciences économiques en janvier 1995 et responsable
du Laboratoire d’Economie Appliquée à la faculté de Droit de Rabat, a réalisé et encadré plusieurs
projets de recherche pour FEMISE, depuis 1999 (membre du Streering Committee), plusieurs
articles publiés dans différentes revues, et a encadré un grand nombre de thèses. Chercheur sur les
questions politiques, linguistiques et anthropologiques, il a publié un manuel d’économie en 1985,
un livre de grammaire amazighe en 2000, et Vocabulaire de l’amazigh moderne, en 2013.
Abstract
Linear algebra
Systems of linear equations and matrix transformation
Calculus
Ordinary differential equations
Probability and mathematical statistics
Random variables
Asymptotic theory
Variational calculus
Préface
Ce manuel est destiné aux étudiants des Masters de sciences sociales et, en par-
ticulier, de sciences économiques. Il peut être utile aux étudiants de licence voulant
approfondir ce qu’ils ont appris dans ce cycle, en vue de se préparer au cycle sui-
vant. Il peut également servir aux enseignants d’économie voulant réviser des notions
oubliées, faute d’utilisation, ou, carrément, découvrir des chapitres mathématiques
nouveaux, comme les systèmes linéaires d’équations ou le calcul des variations, qu’ils
n’ont jamais rencontrés durant leurs études.
Le présent livre commence par rappeler les notions d’algèbre matricielle, norma-
lement, programmée en licence de sciences économiques.
Le chapitre 2 constitue un prolongement naturel du premier, en algèbre linéaire. Il
propose l’étude des systèmes linéaires d’équations et les transformations de matrices,
pour traiter de la décomposition des matrices, devenue un outil couramment utilisé
en économétrie des séries chronologiques et des données de panel.
Le chapitre 3 reprend le calcul différentiel et intégral de licence et l’approfondit
pour déboucher sur le calcul fractionnaire, resté longtemps à la marge des études
mêmes de mathématiques. Ces notions de dérivées ou intégrales, en fait différinté-
grales, d’ordres fractionnaires, en fait réels, sont de plus en plus utilisées en économie,
notamment par les économistes de la London School of Economics, qui ont développé
le modèle ARFIMA, F pour fractionnaire. Ces notions sont particulièrement utiles
en économétrie financière.
Le chapitre 4 traite des équations différentielles ordinaires, lesquelles sont deve-
nues indispensables dans l’étude des systèmes dynamiques en économie. On sait que
la macroéconomie servant de cadre aux politiques économiques (conjoncturelles) est
devenue dynamique, depuis les travaux des économistes du cycle réel des affaires
(Finn E. Kydland et Edward C. Prescott, entre autres) au début des années 1980.
Ce modèle du cycle réel (RBC model), après avoir intégré des apports keynésiens et
monétaristes, est devenu le modèle DSGE (Dynamic and Stochastic General Equi-
librium), qui constitue l’outil privilégié de la conduite de la politique monétaire, à
travers le monde, au moins jusqu’en 2008.
Le chapitre 5 rappelle et approfondit les cours de licence sur les statistiques et
probabilités. Il présente toutes les lois discrètes usuelles.
Le chapitre 6 prolonge le chapitre précédent en approfondissant l’étude des lois
v
usuelles et variables continues uni et multidimensionnelles. Il présente également la
fonction génératrice des moments, ainsi que les fonctions d’une variable aléatoire
continue.
Le chapitre 7 présente des éléments de la théorie statistique asymptotique, les
moments empiriques et les distributions empirique et théorique. Il traite également
des notions, très utiles à l’économiste statisticien, de convergence et les théorèmes
fondamentaux de statistique.
Le dernier chapitre 8 introduit l’optimisation dynamique qui est au cœur de
l’analyse économique et s’attarde quelque peu sur le calcul des variations, resté depuis
Newton, Euler et Lagrange, le seul outil de résolution des problèmes d’optimisation
dynamique, jusqu’aux années 1950 qui ont vu l’élaboration du principe du maximum
du russe Pontryaguine et de la programmation dynamique de l’américain Richard
Bellman.
L.O., Rabat, octobre 2016
vi
Prologue
La question de l’utilisation des mathématiques en économie a longuement divisé

les économistes, entre partisans de la mathématisation et défenseurs d’un discours
exclusivement littéraire. Au milieu du 20ème siècle, la question semblait avoir été
tranchée en faveur des premiers. C’est ainsi que selon G. Stigler et al. 1 , les articles
de revue n’utilisant ni graphiques ni formules mathématiques ne représentent que
5.3 % de l’ensemble des articles en 1990, contre 95 % en 1892 ! C’est-à-dire que le
vingtième siècle a été celui de la mathématisation triomphante de l’économie, en
grande partie grâce aux succès remportés par l’économétrie.
A vrai dire, le principal clivage, au 19ème siècle, était entre partisans du déducti-
visme et ceux de l’inductivisme empirique. Adam Smith, Thomas Robert Malthus,
comme David Ricardo étaient tous partisans de la déduction et donc de la logique.
Les deux premiers basaient leur logique sur les faits empiriques et étaient donc aussi
empiristes, comme l’était Aristote, dont l’empirisme et la logique dominaient les
sciences morales comme les sciences naturelles, depuis sa redécouverte et consécra-
tion, dans la doctrine catholique, par Saint Thomas d’Aquin (1224-1274). Celui-ci,
après Aristote, considère que la connaissance est d’abord sensible, par les sens. Ce
qui est à l’opposé de la doctrine de Platon qui considère que la réalité est en-dehors
de l’être humain et que les sens de celui-ci ne lui donnent pas accès à la réalité in-
telligible des formes (ou des idées) se situant dans un monde à part. On sait que
c’est Platon qui a largement inspiré la première doctrine catholique qui a régné mille
ans durant, à travers l’évêque philosophe Saint Augustin, né à Tagaste (Souk Hrass,
Algérie actuelle) en 354 et mort à Hippone (Annaba aujourd’hui) en 430.
David Ricardo ne basait pas sa logique sur des faits empiriques, mais sur des
hypothèses. Sa méthode représente bien ce qu’on appelle le modèle hypothético-
déductif largement dominant tout au long du 19ème siècle.
Les trois grands économistes cités ci-dessus n’utilisaient point de mathématiques.
Mais, Ricardo avait tendance à raisonner sur des modèles théoriques qu’il pensait
utiles à la conduite de la politique économique, alors que Malthus s’opposait à la sur-
simplification et généralisation auxquelles il impute toutes les erreurs et différences
d’analyses entre économistes.
1. Stigler, G., Stigler, S., Friedland, C. The Journals of Economics, Journal of Political Economy,
105(2), 1995, pp. 331–59.
vii
Malthus considère que la réalité économique est complexe et changeante et que
les modèles théoriques et les cadres conceptuels généraux ne peuvent pas en rendre
compte. Ricardo, par contre, considère que des modèles simples peuvent représenter
des phénomènes complexes différents.
Cette dispute entre Ricardo et Malthus a été suivie d’une autre controverse entre
Walras et Edgeworth, en 1891, et elle sera ressuscitée dès le début du 20ème siècle
pour en dominer la première moitié.
La controverse qui a opposé Léon Walras (1834-1910) et Francis Ysidro Edge-
worth (1845-1926) porte sur le degré d’utilisation des mathématiques en économie.
Walras considère que les mathématiques sont l’expression naturelle du raisonnement
économique. Edgeworth et Alfred Marshall (1842-1924), en revanche, considèrent que
le raisonnement déductif est essentiel, mais il ne constitue pas le mode de raisonne-
ment de l’économiste.
Plus tard, Vilfredo Pareto (1848-1923), va adopter la position de Alfred Mar-
shall et d’Edgeworth et va critiquer cette utilisation des mathématiques en économie
en considérant qu’elle donne une apparente rigueur au raisonnement, alors que les
prémisses peuvent être douteuses.
Il y a eu aussi la dispute entre les deux grands économistes britanniques Francis
Ysidro Edgeworth et Alfred Marshall, eux-mêmes. Le principal ouvrage du premier en
économie est “Mathematical Psychics : An Essay on the Application of Mathematics
to the Moral Sciences ”, publié en 1881. William Stanley Jevons (1835-1882) et son
élève, Alfred Marshall, saluent la publication, même si ce dernier estime que l’ouvrage
nécessitait encore du travail dur pour le rendre plus simple à la lecture.
La position très critique de Marshall à l’égard de l’utilisation des mathématiques
en économie est résumée par un célèbre paragraphe de sa lettre à Arthur Bowley, en
1906, où il dit : “ But I know I had a growing feeling in the later years of my work
at the subject that a good mathematical theorem dealing with economic hypotheses
was very unlikely to be good economics : and I went more and more on the rules—
(1) Use mathematics as a short-hand language, rather than as an engine of inquiry.
(2) Keep to them till you have done. (3) Translate into English. (4) Then illustrate
by examples that are important in real life. (5) Burn the mathematics. (6) If you
can’t succeed in 4, burn 3. This last I did often.” Il ajoute, dans la même lettre, la
terrible phrase qui suit : “ And I think you should do all you can to prevent people
from using Mathematics in cases in which the English language is as short as the
Mathematical.”
John Maynard Keynes (1883-1946) a eu comme professeur, Alfred Marshall, qui
a beaucoup fait pour qu’il devienne économiste. Keynes ne va pas tarder à adopter
la position de son maître à l’égard de l’utilisation des mathématiques en économie,
alors que sa thèse, publiée en 1921, a porté sur la théorie des probabilités.
Déjà dans sa Théorie générale (1936), il écrit que l’utilisation des mathématiques
en économie empêche l’économiste de voir la complexité et les interdépendances du
monde réel dans des symboles prétentieux et d’aucun secours. En 1938, il écrit à
Roy Harrod que la conversion d’un modèle économique en formule détruit son utilité
comme instrument de pensée.
Lorsque la “Société d’économétrie, société internationale pour l’avancement de
viii
la théorie économique dans sa relation avec les statistiques et les mathématiques
”, a été créée en 1930, en Amérique, par les jeunes économistes rassemblés par le
norvégien Ragnar Frisch qui pensait, comme le nom de la Société l’indique, que
les mathématiques et les statistiques étaient essentielles pour procurer rigueur et
capacité de prédiction à l’économiste, Keynes réagit vigoureusement en ciblant le
jeune économiste hollandais Jan Tinbergen (1903-1994). Ce dernier venait de publier,
en 1939, un traité majeur sur la mise à l’épreuve statistique des théories du cycle des
affaires, dans le cadre des travaux du National Bureau of Economic Research.
La critique détaillée adressée par Keynes, en 1939, à Tinbergen, visait son ap-
proche économétrique. La première critique considère que toutes les variables explica-
tives ne peuvent être prises en compte. Il y a donc omission de variables et mauvaise
spécification du modèle, chez Tinbergen. Keynes considère que la régression ne peut
être ainsi que partielle et biaisée. La deuxième critique de Keynes visait la linéarité
et la normalité supposée par Tinbergen. Keynes critique aussi le choix du nombre de
retards dans le modèle. Il considère que quand bien même le modèle est bien spéci-
fié, les hypothèses a priori diffèrent d’un statisticien à un autre et conduisent à des
conclusions différentes, et qu’il n’y a donc pas moyen d’obtenir la vérité objective et
non ambigüe. Keynes compare l’économétrie à l’alchimie.
Tinbergen répond à Keynes par un plaidoyer pour l’utilisation des mathématiques
en économie. Il adopte une position empiriste en considérant que la preuve peut
guider la recherche de la vérité.
La position de Keynes est calquée sur celle d’Alfred Marshall qui considère que
“les faits, en eux-mêmes, ne parlent pas” et qu’ils nécessitent toujours des hypothèses
a priori. Leur opposition aux mathématiques ne provient pas de l’empirisme qu’ils
rejettent. Pour eux, le raisonnement est essentiel et il doit être verbal et non mathé-
matique. C’est ce que pensaient aussi Smith, Ricardo, John Stuart Mill, Schumpeter
et Friedrich von Hayek (et l’école de Vienne, presque dans son ensemble).
Les arguments de Keynes sont forts. Ils ont d’ailleurs été pris en compte dans le
développement des techniques économétriques au cours des années 1940 et 1950. Ce-
pendant, l’instabilité des relations économiques évoquée par Keynes dans sa critique
de l’économétrie n’est pas recevable, du moins en macroéconomie, car la variabilité
des comportements individuels n’influence que marginalement les comportements
moyens des populations. C’est que le comportement de l’ensemble est plus que la
somme des comportements individuels, il y a comme une sorte d’émergence, dans
le passage de la microéconomie à la macroéconomie. C’est là l’origine du problème
d’agrégation posé par Edmond Malinvaud (1923-2015) 2 et ignoré par Keynes. Ce
dernier prétend faire de la macroéconomie, d’où le titre de son ouvrage en 1936,
mais son traitement des fonctions d’investissement et surtout de consommation est
microéconomique. Et, en microéconomie, domaine de Marchall aussi, l’instabilité est
perceptible. Nous reviendrons plus tard à cette question importante.
Durant la seconde moitié du 20ème siècle, l’économétrie et l’économie mathéma-
tique vont dominer, comme l’on a vu, dans l’enseignement économique des grandes
universités internationales, comme dans la recherche économique.
2. Edmond Malinvaud, Théorie macroéconomique, 2 tomes, Editions Dunod, 1981–1982. Malin-
vaud a posé ce problème d’agrégation dans les modèles input-output, dès 1954.
ix
Dans le domaine des sciences physiques, la découverte de la double nature de
la lumière et du rayonnement donna lieu à des disputes violentes entre les tenants
de la physique classique déterministe, Einstein, Podolsky et Rosen et les défenseurs
de l’esprit de l’école de Copenhague, Bohr, Planck, de Broglie, Pauli, Heisenberg,
Schrödinger, Dirac . . . Les premiers refusaient l’incertitude de Heisenberg, l’action à
distance et considéraient que le chat de Schrödinger ne pouvait être que soit bien
mort, soit bien vivant. On connaît la formule célèbre d’Albert Einstein, selon laquelle
“ Dieu ne joue pas aux dès ”. Mais l’on connaît aussi la réponse de Bohr : “ ce n’est
pas à toi, Einstein, de dire à Dieu ce qu’il doit faire ” !
Le test de Bell semble avoir tranché en faveur de Bohr, et la physique quantique
a continué triomphalement son chemin, depuis.
Aujourd’hui, les sciences sociales, représentées par l’économie, et les sciences phy-
siques semblent avoir convergé vers le même paradigme épistémologique 3 . Pour une
fois, l’économie a quelque peu précédé la physique dans la modélisation stochastique.
Il est vrai que la physique classique déterministe utilise les mathématiques depuis
Galilée et Newton. Il est vrai que les succès indéniables de la mathématisation de la
physique ont exercé une fascination sur les économistes. Il y a eu ce qu’on pouvait
appeler une envie de physique en économie. Plusieurs économistes ont cédé à cette
envie et ont développé l’économie mathématique. Mais, les lois économiques n’étant
pas déterministes, la mathématisation ne pouvait pas emporter le consensus et l’on a
vu l’opposition à ce mouvement par de grands économistes. Maintenant que la phy-
sique, elle-même, est devenue probabiliste, la mathématisation de fait de l’économie
semble être acceptée partout.
Ce paradigme épistémologique vers lequel ont convergé les sciences physiques et
l’économie, au 20ème siècle ne peut pas être le paradigme aristotélicien. Nous avons
vu que la philosophie de la connaissance d’Aristote correspond à l’empirisme, c’est-à-
dire à la connaissance sensible : Nous accédons à la réalité par le moyen de nos sens.
On sait aussi que Aristote a rejeté la distinction platonicienne entre l’âme et le corps,
en considérant que la première est faite pour le second et que les deux ne font qu’une
seule substance, c’est-à-dire que l’âme ne survit pas à la dissolution du corps. Mais, il
reconnaît tout de même l’existence de la plus noble partie de l’âme, immortelle qu’il
appelle l’intellect-agent qui est unique pour tous les hommes. Aristote a également
rejeté la théorie platonicienne des formes ou des idées. Si bien que, pour lui, toute
connaissance dérive, en définitive, de la sensation.
Cet empirisme aristotélicien ne pouvait convenir qu’aux sciences naturelles d’an-
tan, lesquelles excluaient les mathématiques qui menaient leur vie séparément. Les
mathématiques existaient-elles en dehors de nos esprits ? Etaient-elles découvertes
ou inventées ? Les mathématiciens étaient divisés là-dessus.
Aujourd’hui, la physique et les mathématiques ont largement fusionné. La réalité
physique se confond avec ce qu’en disent les mathématiques. L’empirisme n’est plus
de mise. Le retour à Platon est inévitable. Pour lui, la connaissance c’est l’accès
aux formes et la connaissance sensible n’est pas une vraie connaissance. Les sens
ne permettent d’accéder qu’à l’apparence des choses. En effet, nos sens sont très
3. Collectif sous la direction de Michel Bitbol, Théorie quantique et sciences humaines, CNRS
Editions, Paris, 2009.
x
imparfaits : on ne voit avec nos yeux qu’une partie négligeable de la réalité, on
n’entend qu’une infime partie des vibrations existantes . . . La réalité accessible par
les sens est changeante et chaotique. C’est avec notre esprit que nous ordonnons,
nous classons et surtout nous réduisons les objets à l’essentiel pour les grouper,
en faisant abstraction des différences entre les individus. C’est avec notre esprit
que nous accédons aux formes, c’est-à-dire aux classes immuables, c’est-à-dire aux
mathématiques qui constituent la véritable connaissance, la réalité intelligible.
On sait que pour Platon, la vraie connaissance est la connaissance intellectuelle.
Elle consiste à voir dans les objets particuliers, ce qu’il y a de général. Ces idées
ou ces formes, existent- elleshors de l’esprit ? Platon répond par l’affirmative. Elles
sont éternelles et immuables, et l’âme immortelle, avant son union au corps, se trou-
vait dans le monde intelligible des idées. L’esprit en conserve des images et l’âme
contemple donc les idées par l’intermédiaire des sens. Donc, pour atteindre le réel, il
faut commencer par sacrifier ce qui nous semble être réel, s’arracher à l’emprise de
l’apparence, à la recherche de la vérité scientifique et du bonheur.
S’il est difficile de suivre Platon sur cette théorie de la réminiscence, il est aisé de
le faire pour ce qui est de l’existence d’un monde des mathématiques séparé de notre
monde mental et du monde physique. C’est ce que fait le grand savant contemporain
Roger Penrose 4 . Ce dernier présente, dans son livre, une démonstration convaincante
de l’existence séparée et indépendante de ce monde des mathématiques, en disant
que “ la précision, la fiabilité et la cohérence nécessaires à nos théories scientifiques,
exigent quelque chose qui aille au-delà de n’importe lequel de nos esprits individuels
”, lesquels “ sont imprécis, peu fiables et incohérents dans leurs jugements”. Penrose
pose la question de comment savoir que quelqu’un raisonne ou déraisonne si l’on n’a
pas une norme extérieure, un monde objectif et transcendant nos subjectivités.
Le grand philosophe Immanuel Kant (1724-1804) a pratiquement repris la théorie
platonicienne de la connaissance en considérant que la connaissance sensible est im-
possible, en ce sens que les objets en soi nous sont totalement inaccessibles. Il reprend
la distinction entre objet et forme. La forme accessible par les sens est l’espace et celle
accessible par la conscience est le temps. Il adopte une position intermédiaire entre
l’empirisme de Hume et l’innéisme de Descartes. Toutefois, la physique moderne,
tant la relativité générale d’Einstein que la physique quantique mettent à mal cette
théorie des formes de Kant. Platon demeure la référence en matière de philosophie de
la connaissance. C’est sous son paradigme épistémologique que s’unifient les sciences
naturelles et les sciences sociales. La mathématisation de l’économie en constitue un
corollaire. Et le consensus semblait acquis autour de cela depuis le milieu du siècle
dernier.
Cependant, en novembre 2008, la Reine Elisabeth II rend visite à la London
School of Economics et interroge les professeurs d’économie de la prestigieuse insti-
tution sur la raison pour laquelle les économistes n’ont pas prédit la crise financière
et économique mondiale qui venait de se déclencher en Amérique et qui avait touché
l’Europe et l’ensemble de la planète. La question royale relance la controverse autour
de l’utilisation des mathématiques en économie.
En juin suivant, une conférence fut organisée par l’Académie britannique, autour
4. Roger Penrose, à la découverte des lois de l’univers, éditions Odile Jacob, Paris, 2007.
xi
de la question de la Reine. Une lettre, en guise de résumé de la réponse apportée par
la conférence, lui a été envoyée, le 22 juillet 2009, par les professeurs Tim Besley et
Peter Hennessy de cette Académie.
La lettre affirme que plusieurs personnes ont prédit la crise. Mais, les prédictions
ne précisent ni la forme, ni le moment, ni la gravité de la crise. Elle considère que
la prédiction du moment de la crise est essentielle pour l’action politique préventive.
Il y a eu des avertissements sur les déséquilibres dans les marchés financiers et dans
l’économie mondiale. La réponse des professeurs rappelle les avertissements de la
BRI et de la Banque d’Angleterre. Mais, les risques systémiques ne pouvaient pas
être vus.
Elle rappelle qu’avant la crise, il y a eu une période de croissance mondiale sans
précédent, laquelle croissance a enregistré une amélioration des niveaux de vie de
millions de personnes dans les pays pauvres et, particulièrement, en Chine et en
Inde. Mais, cette prospérité a provoqué un excès d’épargne globale. Ceci a conduit
à des rendements bas pour les investissements sûrs de long terme. Cette situation a
amené les investisseurs à chercher une rentabilité plus grande au prix de plus grands
risques. Les Etats-Unis, comme le Royaume Uni ont bénéficié de cette montée de la
Chine qui a abaissé les coûts de beaucoup de biens que ces pays achètent et profité
de l’accès au capital dans le système financier. Il est ainsi devenu facile pour les
ménages et entreprises d’emprunter. Mais, cela a conduit à une hausse des prix des
logements. Et plusieurs ont lancé des avertissements à ce sujet. Toutefois, contre les
avertissements, les gens font confiance aux banques et considèrent qu’elles savent ce
qu’elles font. Il existait aussi une croyance ferme que les marchés financiers avaient
changé et les politiques étaient fascinés par ces marchés. Ces vues ont été renforcées
par les modèles économiques et financiers dont les prédictions des petits risques à
court terme étaient bonnes. Personne n’acceptait cependant qu’il pût se tromper. Il
y avait un sentiment général que tout allait bien, une sorte de déni et d’illusion. On
pensait qu’on pouvait toujours traiter les conséquences de l’éclatement d’une bulle,
comme celle des dot.com au tout début du siècle présent. En plus, l’inflation était si
basse qu’on ne pouvait pas saisir que l’économie était surchauffée. On pensait que
les autorités monétaires ne devaient s’occuper que de prévenir l’inflation et qu’elles
ne devaient pas s’occuper de contrôler les déséquilibres de l’économie.
La lettre met le doigt sur ce qui n’allait pas : chacun pensait agir correctement et
l’échec était collectif, au niveau duquel aucune autorité n’était en charge. Les petits
risques individuels étaient vus, mais les grands risques systémiques ne l’étaient pas.
En résumé, la réponse à la question royale affirme que l’incapacité de prédire le
timing, la gravité et l’étendue de la crise et de la juguler est l’échec de l’imagination
collective à comprendre les risques du système dans son ensemble.
Par ailleurs, pour expliquer la crise financière et économique de 2008, certains
analystes ont accusé la nature des modèles mathématiques utilisés dans les marchés
financiers. Mais, personne n’a remis en question la mathématisation elle-même, de
l’économie et de la finance.
En revanche, dans nos universités marocaines, cette controverse autour de l’uti-
lisation des mathématiques en économie n’a jamais cessé. C’est que l’enseignement
de l’économie au Maroc, comme dans beaucoup d’universités françaises, est resté en
xii
dehors du courant mondial dominant. La plupart des professeurs, étant eux-mêmes
formés dans une économie marxisante, faisant davantage du matérialisme historique
que de l’analyse économique positive, ont entretenu un enseignement de discours plu-
tôt littéraire dans nos universités. Et, à chaque fois que des professeurs formés dans
des universités anglo-saxonnes, pour la plupart, tentaient soit de sortir de la forma-
tion idéologique partisane ou d’introduire un formalisme plus ou moins mathématisé,
on assistait à une levée de boucliers.
Dans ce prologue, nous essayons de montrer l’utilité et la nécessité d’un enseigne-
ment, de bon niveau, des mathématiques aux étudiants de sciences économiques. Il
s’agit, pour nous, de légitimer le contenu du présent ouvrage destiné aux étudiants
de Master en sciences économiques.
Cette légitimation nous semble nécessaire dans la mesure où certains étudiants
nous posent ouvertement ces questions d’utilité et de nécessité des mathématiques
pour les sciences économiques. Il faut dire que même certains enseignants d’économie
sont opposés, sinon à l’enseignement des mathématiques, du moins à l’enseignement
de ce qu’ils appellent les mathématiques pures. Ils demandent à ce que seules les
mathématiques “appliquées”, genre mathématiques financières, soient enseignées en
licence de sciences économiques.
Pour défendre l’utilisation des mathématiques en économie et légitimer le contenu
du présent ouvrage, nous présentons ci-après une argumentation plutôt pragmatique,
en donnant la parole à deux professeurs, Gregory Mankiw (né en 1958) et le grand
économiste néoclassique Irving Fisher.
Un étudiant de Bachelor en économie à l’université de Michigan, pose, le 15 sep-
tembre 2006, au professeur Gregory N. Mankiw de l’université de Harvard, sur son
blog (Greg Mankiw’s blog, Random Observations for Students of Economics), la ques-
tion suivante : “les économistes, utilisent-ils réellement toutes ces mathématiques ?” “
Les économistes du FMI et de la Banque mondiale, utilisent-ils les mathématiques ?
” Evidemment, à non pas douter, la question qui est derrière est “pourquoi vous nous
enseignez autant de mathématiques”.
La réponse de Mankiw (auteur du célèbre manuel de Macroéconomie) à la ques-
tion est de savoir pourquoi nous, universitaires, voulons que les étudiants en écono-
mie, aient un bon niveau en mathématiques. Il avance 5 raisons à cela.
i- Tout économiste a besoin d’une formation solide en théorie économique et en
économétrie et, pour cela, il a besoin de comprendre le langage mathématique
utilisé par cette théorie économique et par l’économétrie ;
ii- Dans la vie professionnelle, pour lire la littérature économique académique
relative à la politique économique, on a besoin de mathématiques utilisées
abondamment par cette littérature ;
ii- Les mathématiques sont un bon entrainement pour l’esprit. Cela fait de vous
un penseur rigoureux ;
iV- Pour mesurer le degré d’intelligence (IQ), les mathématiques sont privilégiées ;
v- Les programmes de sciences économiques cherchent à former les étudiants
davantage pour la recherche scientifique que pour l’activité professionnelle.
Nous, enseignants, enseignons donc ce que nous savons pour ce que nous
xiii
faisons. Nous ne sommes pas nécessairement versés dans ce que font les pra-
ticiens. Ces derniers, n’ont-ils pas besoin d’autant de mathématiques ? Cela
est possible. Mais, si un étudiant veut faire un doctorat et donc aller vers
l’enseignement et la recherche, il a intérêt à avoir une formation solide en
mathématiques.
Avec les mathématiques, on apprend donc la précision et on évite les contra-
dictions et l’incohérence dans le raisonnement. Rien que pour cela, il ne faut pas
hésiter à apprendre les mathématiques. Mais, si l’on veut être économiste et com-
prendre ce qu’écrivent les pairs dans les revues, on ne pourra pas faire l’économie
d’une formation solide en mathématiques.
Irving Fisher (1867-1947), considéré par Joseph Schumpeter, James Tobin et
Milton Friedman, comme le plus grand économiste américain de tous les temps, a
été formé par le physicien théoricien Willard Gibbs (1839-1903) et par le sociologue
Graham Sumner, qui ont codirigé sa thèse de doctorat. Il a fait des contributions
majeures aux théories néoclassiques de l’utilité et de l’équilibre général. Sa thèse,
soutenue à Yale, en 1892, a porté sur les “recherches mathématiques sur la théorie
de la valeur et des prix”.
Irving Fisher a été président de l’association américaine d’économie en 1918. Il a
participé à la fondation de l’association d’économétrie en 1930 et a été son premier
président. En 1929, il a été choisi par l’association américaine de mathématiques
pour donner la 17ème conférence Josiah Willard Gibbs.
Dans sa conférence, donnée le 31 décembre 1929, Fisher commence par exprimer
sa vénération pour J. Willard Gibbs, dont il était élève quarante ans auparavant.
Il explique que c’était par accident qu’il est passé de la physique théorique et des
mathématiques à l’“application des mathématiques aux sciences sociales ”, sujet choisi
pour sa conférence. Il précise tout de même que son enthousiasme pour la conférence
ne lui vient pas uniquement de sa vénération pour Gibbs, que Lord Kelvin et d’autres
considèrent comme le Sire Isaac Newton de l’Amérique. D’autres savants placent le
thermodynamicien Gibbs au rang de Newton, Lagrange et Hamilton.
Pour donner des éléments d’explication de tant de vénération pour Gibbs, I. Fi-
sher affirme que son maître essaie toujours de placer son raisonnement à un niveau
général et d’obtenir le maximum de résultats à partir d’un minimum d’hypothèses.
Gibbs a toujours considéré que “le tout est plus simple que ses parties”, ajoute Fi-
sher. Il considère que nous devons toujours commencer par essayer de résoudre le
cas général. Les cas particuliers en découleront. Il n’y a donc pas besoin de faire des
expériences. Il faut se contenter de faire des déductions à partir d’anciens résultats
généraux. Gibbs élabora ainsi l’analyse vectorielle en simplifiant le système des qua-
ternions de Hamilton, en s’inspirant de Grassmann. Fisher précise que Gibbs était
mathématicien, mais ne s’intéressait pas tant aux mathématiques en tant que telles,
mais à leurs applications ; non pas tant à la forme, mais à la substance.
Fisher a été formé en mathématiques, ou, plus exactement, en applications des
mathématiques, en méthodes géométriques et en analyse vectorielle, par Gibbs, et
initié aux sciences sociales par le sociologue Sumner. Il applique ces méthodes dans
sa thèse. Il déplore le fait qu’il y ait peu de monde formé dans les deux champs,
comme lui et le norvégien Ragnar Frisch qui ne pouvait plus se passer de l’analyse
xiv
vectorielle. Fisher souhaite que l’utilisation de cette analyse se développe en sciences
sociales, au moins comme support et vecteur de la pensée.
Fisher affirme que le calcul différentiel et intégral était utilisé par les économistes
mathématiciens et statisticiens. Mais, les mathématiques ainsi utilisées demeurent
élémentaires, à ses yeux, car, dit-il, il existe un proverbe cité par Gibbs qui dit que
“le cerveau humain n’a jamais pu inventer une machine à rendement de travail aussi
élevé que celui de l’algèbre”.
Dans sa conférence, Fisher cite les quatre domaines de science sociale auxquels
les mathématiques ont été, ou ont pu être, appliquées. Il s’agit de :
i- L’économie pure ;
ii- Le lissage des séries ou l’ajustement de courbes (régression) ;
iii- La corrélation ;
iv- Les probabilités.
Il passe en revue les principaux travaux effectués dans ces champs, y compris les
siens. Il évoque les contributions majeures de Cournot, d’Edgeworth, de Marshall et
de Jevons, sans oublier Walras et Pareto, Pantaleoni et Baroni ainsi que Wicksell. Il
évoque également ses contemporains, d’abord américains, comme Henry Moore, J.
H. Rogers, C. F. Roos, C. Evans, H. Schultz, H. Hotelling et, ensuite, non-américains,
comme J.M. Keynes, Pigou et plusieurs autres économistes de France, d’Allemagne,
de Scandinavie et d’ailleurs. Il parle de petite bande d’utilisateurs de mathématiques
qui continuent tout de même à décrier cette utilisation.
Fisher loue les mathématiques pour la précision et la concision qu’elles apportent
au raisonnement économique et pour les grands services qu’elles rendent à l’investi-
gation dans le domaine social. Les mathématiques permettent d’éviter des confusions
et les doubles emplois ou comptages.
Fisher insiste sur le fait que le “monde économique est un monde à n dimensions”,
dans la mesure où les variables économiques, comme le prix d’un bien ou l’utilité
marginale, sont des fonctions, non d’une seule variable, mais de plusieurs.
Il ajoute aux quatre domaines ci-dessus, celui des indices. Il évoque la distinction
entre flux et stock. Il fait allusion à la régression, à la science actuarielle . . . Il affirme
que “tôt ou tard, toute véritable science tend à devenir mathématique”. Et l’économie
est simplement en léger retard (en 1929) pour atteindre le niveau de l’astronomie, la
physique et la chimie, alors que la biologie est plus en retard.
En conclusion, Fisher affirme avec force que la méthode scientifique est une,
qu’elle soit appliquée à un domaine ou un autre. Il reprend Gibbs selon qui les
mathématiques sont un langage plus précis et plus complet que le langage ordinaire.
Et il prévoit un avenir radieux pour un développement sain des mathématiques en
sciences sociales.
En définitive, pour le grand économiste Fisher, l’utilisation des mathématiques
en économie est naturelle, utile et nécessaire. Elle est efficace et son avenir ne fait
aucun doute. Fisher ne cherche pas à défendre l’utilisation des mathématiques en
économie. Il pratique. Il applique les mathématiques aux sciences sociales sans se
poser de question. Pour lui, il n’y a qu’une seule méthode scientifique et la seule
xv
voie, pour les sciences sociales de devenir de véritables sciences, est d’utiliser les
mathématiques.
J’aurais pu procéder comme Fisher, au lieu de chercher à justifier une formation
solide en mathématiques, pour les économistes. J’aurais pu me contenter de pratiquer
naturellement, moi, qui suis devenu économiste un peu par hasard, étant originaire
des sciences de l’ingénieur. Mais, conscient de la responsabilité que j’ai prise dans la
réforme des études économiques, en 2002-3, puis en 2008, et dans la mise en place
du Master de sciences économiques, d’orientation quantitative, ce prologue se veut
comme une sorte de plaidoyer en faveur de la direction prise, laquelle n’a pas toujours
été accueillie favorablement.
Toutefois, a-t-on encore besoin, en 2016, de continuer à défendre l’utilisation des
mathématiques en économie, alors que l’économie est presque totalement mathéma-
tisée de fait ? En effet, il n’y a pas que la traditionnelle économie mathématique qui
soit mathématique, comme son nom l’indique. La théorie économique pure est, elle-
même, mathématisée à un niveau de loin supérieur à celui de Léon Walras, ou même
de son successeur à Lausanne, Pareto. Puis, toute la recherche empirique, largement
dominée par les méthodes économétriques, recourt à des méthodes mathématiques de
plus en plus sophistiquées, aidées en cela par le développement de l’outil informatique
et le big data que ce dernier, combiné à Internet et à toutes sortes de technologies
nouvelles, a permis.
Le résultat est que les revues économiques sont peuplées, presque exclusivement,
d’équations et de formules mathématiques. Aujourd’hui, un économiste exclusive-
ment littéraire est incapable de comprendre les articles de revues et de contribuer à
la recherche académique en économie.
Evidemment, l’économie mathématique est ancienne. Elle remonte à William
Petty (1623-1687), à Giovanni Ceva (1647-1734) et, surtout, à Antoine Augustin
Cournot (1801-1877). Parmi ces fondateurs, il faut aussi citer Alfred Marshall (1842-
1924) et Irving Fisher dont il a été longuement question.
On peut dire que cette mathématisation est devenue dominante dans la théorie
économique de l’équilibre général, au 20ème siècle, avec des économistes mathémati-
ciens comme Kenneth Arrow (né en 1921) et Gérard Debreu (1921-2004). Une autre
théorie s’est développée comme économie mathématique dès son origine. C’est la
théorie du cycle des affaires élaborée par Wesley Clair Mitchell (1874-1948) et ses
disciples dans le cadre du National Bureau of Economic Research, à partir de 1913.
Un autre domaine largement mathématisé, dès ses débuts, a été appelé “ phy-
sique sociale” par son fondateur Adolphe Quételet (1796-1874). Ce domaine concerne
la statistique et la démographie. Il est construit autour de l’important concept de
l’homme moyen que cet auteur a forgé.
La discipline née en 1930 et qui va s’imposer comme “the main stream” en éco-
nomie, à partir des années 1950-1960, est l’économétrie, voulue, dès l’origine, par
son principal créateur, Ragnar Frisch (1895-1973), comme application des mathé-
matiques à l’économie, à l’image des sciences physiques. Elle va cependant intégrer,
pratiquement dès ses débuts, en 1944, les probabilités et l’ancienne théorie des erreurs
élaborée par Gauss, dans les cadres de l’astronomie et de la géodésie, et se distin-
guer de l’économie mathématique du cycle des affaires ou de la théorie de l’équilibre
xvi
économique général.
L’économétrie a beaucoup évolué depuis sa fondation institutionnelle en 1930.
Scientifiquement, elle est née comme activité de construction de grands modèles
macroéconomiques composés de plusieurs équations linéaires mettant en relation des
variables macroéconomiques. Ces modèles ont d’abord été l’œuvre de Tinbergen,
dans le cadre de la Société des Nations, créée après la première guerre mondiale et
dont le siège a été établi à Genève, en Suisse.
Aujourd’hui, on ne peut guère échapper à ces différents domaines mathématisés
de l’économie. Ne pas étudier les mathématiques, c’est vouloir rester en dehors de
ces domaines, c’est-à-dire en dehors de l’essentiel en économie.
L.O., Rabat, octobre 2016
xvii
xviii
Remerciements
Mes vifs remerciements vont à l’OCP-Policy Center, et plus particulièrement à son

directeur, Dr Karim El Aynaoui, qui a bien voulu assurer la présente publication.
Mes sincères remerciements à Mme la professeure Amal Lahlou, enseignante de ma-
thématiques aux étudiants de sciences économiques, qui a soigneusement assuré la
saisie du manuscrit avec Latex. Merci à elle pour ses encouragements.
Un grand merci à toutes les générations d’étudiants que j’ai eus en mathématiques,
en statistiques et en économétrie, aux universités de Casablanca et de Rabat, depuis
1984.
xix
xx
À la mémoire de ma mère, à mon épouse et à mes enfants, Sophia, Youssef et Norah
xxi
xxii
Sommaire
Abstract iii
Préface v
Prologue vii
Remerciements xvii
Dédicaces xxi
Sommaire xxv
1 Rappels d’algèbre linéaire 1

1.1 Espaces vectoriels, base et dimension . . . . . . . . . . . . . . . . . . 1
1.2 Espaces Euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Applications linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Matrice associée à une application linéaire . . . . . . . . . . . . . . . 4
1.5 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Matrices particulières . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.8 Matrices partagées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9 Déterminant d’une matrice carrée . . . . . . . . . . . . . . . . . . . . 10
1.10 Inverse d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . 12
1.11 Dépendance linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.12 Valeurs et vecteurs propres d’une matrice . . . . . . . . . . . . . . . 13
1.13 Décomposition d’une matrice à valeurs propres distinctes . . . . . . . 14
1.14 Autres propriétés des valeurs propres . . . . . . . . . . . . . . . . . . 16
1.15 Matrices semblables . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.16 Séries géométriques de matrices . . . . . . . . . . . . . . . . . . . . . 17
1.17 Produit de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.18 Matrices définies positives . . . . . . . . . . . . . . . . . . . . . . . . 19
1.19 Transposées conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.20 Dérivation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
xxiii
2 Systèmes linéaires d’équations et transformations de matrices 23
2.1 Système consistant d’équations linéaires . . . . . . . . . . . . . . . . 24
2.2 L’inverse généralisée d’une matrice . . . . . . . . . . . . . . . . . . . 27
2.3 Espace nul d’une matrice et espace de ses colonnes . . . . . . . . . . 28
2.4 Pseudo-inverse d’une matrice . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Factorisation des matrices . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Résolution des systèmes linéaires d’équations . . . . . . . . . . . . . 44
3 Calcul différentiel et intégral 61

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Dérivées et règles de dérivation . . . . . . . . . . . . . . . . . . . . . 62
3.3 Règle de dérivation de fonctions composées (Chain rule) . . . . . . . 68
3.4 Intégrale et intégration . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.5 Méthodes d’intégration . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.6 Application des dérivées et des intégrales en économie . . . . . . . . 79
3.7 Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.8 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.9 Calcul différentiel et intégral fractionnaire : une introduction . . . . . 89
4 Équations différentielles ordinaires 101

4.1 Équations différentielles linéaires du premier ordre . . . . . . . . . . 103
4.2 Équations spéciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.3 Solutions graphiques des équations différentielles du premier ordre . 110
4.4 Existence et unicité d’une solution d’une équation du premier ordre . 113
5 Probabilités et statistique mathématique 135

5.1 Événement aléatoire et probabilité d’un événement . . . . . . . . . . 135
5.2 Somme et produit des probabilités . . . . . . . . . . . . . . . . . . . 138
5.3 Probabilités des causes, formule de Bayes . . . . . . . . . . . . . . . 142
5.4 Variable aléatoire discrète et sa loi de distribution . . . . . . . . . . . 144
5.5 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6 Variables aléatoires continues 165

6.1 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . 165
6.2 Lois usuelles continues . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.3 Fonction génératrice des moments d’une loi continue et sa fonction
caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.4 Fonctions d’une variable aléatoire continue et leurs distributions . . . 189
6.5 Variables aléatoires bi et multidimensionnelles . . . . . . . . . . . . . 191
7 Éléments de théorie statistique asymptotique 217

7.1 Moments empiriques et distributions empirique et théorique . . . . . 217
7.2 Notions de convergence et théorèmes fondamentaux de statistique . . 236
xxiv
8 Introduction à l’optimisation dynamique : Calcul variationnel 259
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
8.2 Introduction au calcul variationnel . . . . . . . . . . . . . . . . . . . 261
8.3 Exemples de problèmes d’optimisation dynamique pouvant être traités
par le calcul variationnel . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.4 Résolution de l’exemple 3.1 . . . . . . . . . . . . . . . . . . . . . . . 267
8.5 L’équation d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.6 Applications de l’équation d’Euler . . . . . . . . . . . . . . . . . . . 272
8.7 Résolution de l’équation d’Euler dans des cas particuliers . . . . . . . 278
8.8 Conditions de second ordre . . . . . . . . . . . . . . . . . . . . . . . 285
8.9 Problème isopérimétrique . . . . . . . . . . . . . . . . . . . . . . . . 286
8.10 Cas où le point final n’est pas spécifié . . . . . . . . . . . . . . . . . 290
8.11 Cas où l’horizon est libre . . . . . . . . . . . . . . . . . . . . . . . . . 292
8.12 Cas de point final sous contrainte . . . . . . . . . . . . . . . . . . . . 295
Bibliographie 303
Table des matières 303
xxv
xxvi
Chapitre 1
Rappels d’algèbre linéaire
1.1 Espaces vectoriels, base et dimension

Un espace vectoriel défini sur R est un ensemble E muni d’une opération additive
(+) et de la multiplication par un scalaire (appelée aussi homothétie) notée (·),
possédant les propriétés suivantes :
- E muni de l’addition est un groupe commutatif (+ loi de composition interne,
associative, commutative, 0 est son élément neutre et tout élément de E a un
élément opposé dans E) ;
- (·) loi de composition externe : ∀x ∈ E, ∀λ ∈ R : λ.x ∈ E ;
- (·) est associative ;
- 1 est l’élément neutre de (·) ;
- (·) est distributive par rapport à l’addition dans E.
Les éléments de E sont dans ce cas appelés vecteurs.
Un sous-espace vectoriel de E est toute partie F non vide de E telle que :
∀x, y ∈ F et ∀λ, µ ∈ R : λ·x+µ·y ∈F
On peut aussi vérifier que F est un espace vectoriel, mais c’est plus long que de vérifier
la propriété ci-dessus qui se contente de vérifier la stabilité de F pour (+) et pour (·).
Si tout élément x de E s’écrit sous forme de combinaison linéaire de p vecteurs

xi de E :
p
∀x ∈ E : x = α i xi , αi ∈ R
i=1
on appelle (x1 , x2 , · · · , xi , · · · , xp ) un système générateur de E.
Les n vecteurs y1 , y2 , · · · , yn de E sont linéairement indépendants si

n

αi yi =0 =⇒ α1 = α2 = · · · = αn = 0.
i=1
1
2 Chapitre 1. Rappels d’algèbre linéaire
Ces vecteurs yi forment une famille libre ou un système libre.

n
S’il existe un seul αi non nul avec αi yi =0, ces vecteurs sont linéairement
i=1
dépendants. Ils forment une famille ou un système lié.
Toute famille B de vecteurs de E, libre et génératrice de E, est une base de
E. Dans ce cas, tout vecteur de E s’exprime de façon unique comme combinaison
linéaire des vecteurs de B.
La dimension de E, notée dim(E) est le nombre des éléments de E qui forment
une base de E. Notons que dim(Rn ) = n.
La base canonique de Rn est : (e1 , e2 , · · · , en ) avec :
     
1 0 0
0 1  0
     
e1 =  ...  en =  ... 
     
e2 = 0 ···
   ..   
0 .  0
0 0 1
Un espace vectoriel E est somme directe des k sous-espaces vectoriels E1 , E2 , · · · ,

Ek si tout vecteur de E s’écrit de façon unique sous la forme de la somme de k
éléments chacun appartenant à l’un des sous-espaces vectoriels considérés de E :
∀x ∈ E : x = x1 + x 2 + · · · + xk avec xi ∈ Ei
k

On écrit alors : E = E1 ⊕ E2 ⊕ · · · ⊕ Ek . On a dans ce cas : dim(E) = dim(Ei ).
i=1
Si E = A ⊕ B, A et B sont dits supplémentaires. Ainsi pour le plan, l’axe des
x et l’axe des y sont supplémentaires, dans la mesure où tout vecteur du plan peut
s’écrire sous la forme d’une somme d’un vecteur de l’axe des abscisses et d’un vecteur
de l’axe des ordonnées.
1.2 Espaces Euclidiens

Un espace vectoriel E sur R, de dimension finie n, et muni d’un produit scalaire
(x, y) → x, y, c’est-à-dire d’une forme bilinéaire sur E × E, symétrique et définie
positive, est appelé espace Euclidien.
Le produit scalaire est symétrique : ∀x, y ∈ E, x, y = y, x.
Il est une forme bilinéaire :
∀λ, µ ∈ R, ∀x, y, z ∈ E, x, λy + µz = λx, y + µx, z
Il est une forme définie positive : ∀x ∈ E, x, x ≥ 0 et x, x = 0 ⇔ x = 0.

n
L’espace Rn muni du produit scalaire canonique x, y = xi yi est un espace
i=1
Euclidien. Le produit scalaire s’écrit sous la forme matricielle : x y = y x = x, y.
Méthodes mathématiques avancées 3

L’application de E dans R : x → x = x, x est une norme, appelée
norme euclidienne associée au produit scalaire. La norme euclidienne a les propriétés
suivantes :
- ∀λ ∈ R, ∀u ∈ E, λu = |λ| u ;
- ∀u, v ∈ E, u + v ≤ u + v ;
- ∀u ∈ E, u = 0 ⇒ u = 0E .
Pour tout espace Euclidien, on a l’inégalité de Cauchy-Schwarz :
∀u, v ∈ E : |u, v| ≤ u v.
Deux vecteurs x et y d’un espace Euclidien E sont orthogonaux si x, y = 0. On

note x⊥y.
À toute partie K de E, correspond la partie notée K ⊥ sous-espace vectoriel de
E formé de vecteurs orthogonaux aux vecteurs de K. Une famille de vecteurs de E
est orthogonale si tous ses vecteurs sont orthogonaux deux à deux.
Une famille de vecteurs de E est orthonormée (ou orthonormale), si elle est
orthogonale et si chacun de ses vecteurs est de norme égale à l’unité.
1.3 Applications linéaires

E et F deux espaces vectoriels sur R. Une application linéaire (ou homomor-
phisme) de E dans F est toute application f de E dans F telle que :
∀x, y ∈ E : f (x + y) = f (x) + f (y)

∀x ∈ E, ∀α ∈ R : f (αx) = αf (x)
On peut combiner ces deux propriétés de linéarité en une seule :
∀x, y ∈ E, ∀α, β ∈ R f (αx + βy) = αf (x) + βf (y)
Si E = F , l’application linéaire f est appelée endomorphisme de E ou opérateur

linéaire. Si f est bijective, f est un isomorphisme lorsque E = F . Elle est automor-
phisme lorsque E = F .
• f : x → 7x est un automorphisme de R
• g : x → 5x + 4 n’est pas une application linéaire de R dans R car :
f (αx + βy) = 5(αx + βy) + 4 = 5αx + 5βy + 4

αf (x) + βf (y) = α(5x + 4) + β(5y + 4) = 5αx + 5βy + 4α + 4β
Soit f une application linéaire de E dans F . f −1 (0), sous-espace vectoriel de E,

est appelé noyau de f noté ker(f ). C’est l’ensemble des éléments de E ayant pour
image, par f , 0 dans F :
ker(f ) = {x ∈ E : f (x) = 0F }.
f (E) est un sous-espace vectoriel de F . Il est appelé ensemble image de f .
Im(f ) = {y ∈ F : y = f (x) où x ∈ E}.

Le rang de f est la dimension de l’image de f , c’est-à-dire la dimension de f (E).

On le note rg(f ) :
rg(f ) = dim[f (E)].
Le rang de f a les propriétés suivantes :
rg(f ) = dim(E) − dim[ker(f )]

rg(f ) ≤ inf {dim(E), dim(F )}
rg(f + g) ≤ rg(f ) + rg(g)
rg(f ◦ g) ≤ inf {rg(f ), rg(g)}
L’ensemble des applications linéaires de E dans F , noté L(E, F ), muni de l’addition

et de la multiplication par un scalaire ainsi définies :
∀x ∈ E : (f + g)(x) = f (x) + g(x)

∀x ∈ E, ∀λ ∈ R : (λf )(x) = λ[f (x)]
est un espace vectoriel défini sur R.

L’élément neutre pour l’addition de cet espace vectoriel est l’application linéaire
de E dans F qui fait correspondre à tout élément x de E le zéro de F . L’élément
symétrique de chaque application linéaire f de E dans F est l’application linéaire
qui fait correspondre à x de E, −f (x) dans F , c’est-à-dire, l’opposé de f (x) dans F .
Toute application linéaire de l’espace vectoriel E sur R dans R est appelée forme
linéaire définie sur E.
L’ensemble L(E, R) des formes linéaires définies sur E, qui est un espace vectoriel
sur R, est appelé espace dual de E et est noté E ∗ . Le dual du dual, bidual E ∗∗
est isomorphe à E.
Soient E et F deux espaces vectoriels sur R, E ∗ et F ∗ leurs duaux respectifs. Soit
f une application linéaire de E dans F appartenant donc à E ∗ . L’application t f de
F ∗ dans E ∗ est appelée application transposée de f si pour tout x de E et pour tout
y ∗ de F ∗ on a : [t f (y ∗ )](x) = y ∗ [f (x)]. Cette transposée est une application linéaire.
Notons que :
t f (y ∗ ) = x∗ ∈ E ∗ donc t f (y ∗ )(x) = x∗ (x) ∈ R
f (x) ∈ F et y ∗ ∈ F ∗ donc y ∗ [f (x)] ∈ R
1.4 Matrice associée à une application linéaire

Considérons un espace vectoriel E de dimension p muni de la base
BE = {a1 , a2 , · · · , ap }, un espace vectoriel F de dimension n muni de la base BF =
{b1 , b2 , · · · , bn } et f une application linéaire de E dans F . Tout élément x de E
peut donc s’écrire sous forme de combinaison linéaire des éléments de la base de E :
p
x= αj aj et tout élément y de F peut s’écrire sous forme de combinaison linéaire
j=1
n

des éléments de la base de F : y = β i bi .
i=1
Si y est l’image de x par f , on a :

 
p p

y = f (x) = f  α j aj  = αj f (aj )
j=1 j=1
n

f (aj ) est un élément de F ⇒ f (aj ) = γij bi . D’où :
i=1
 
p
p
n
n
p
y= αj f (aj ) = αj γij bi =  αj γij  bi .
j=1 j=1 i=1 i=1 j=1
p

On en déduit βi = αj γij qui peut s’écrire sous cette forme :
j=1
    
β1 γ11 γ12 · · · γ1p α1
 β2   γ21 γ22 · · · γ2p  α2 
    
 .. = .. .. ..  .. 
 .   . . ··· .  . 
βn γn1 γn2 · · · γnp αp
βi est donné par le produit de la ligne correspondante dans le tableau des γ par
la colonne des α en faisant la somme des produits de chaque élément de la ligne
concernée par l’élément correspondant de la colonne des α. Le tableau ci-dessus
exprime y écrit dans la base de F en fonction de x écrit dans la base de E.
y = Γx y = (β1 , β2 , · · · , βn ) ; x = (α1 , α2 , · · · , αp ) ; Γ(n, p) = [γij ]
Ce tableau Γ est la matrice associée à l’application linéaire f de E dans F .
Exemple : Soit l’application linéaire

f : R2 → R4 , R2 et R4 étant munis de leurs bases canoniques.
f : (α1 , α2 ) → (β1 , β2 , β3 , β4 ) avec
β1 = 2α1 − α2 ; β2 = α1 − 2α2 ; β3 = −α1 + α2 ; β4 = 3α2 .
Il est évident que la matrice associée à l’application linéaire f est :

   
β1 2 −1
 β2   1 −2 
    α1
 β3  =  −1 1  α2
β4 0 3
Les éléments de chaque ligne de la matrice associée sont données par les coefficients
des α dans l’expression du β de la ligne considérée. Le nombre de lignes correspond à
la dimension de l’espace d’arrivée et le nombre de colonnes correspond à la dimension
de l’espace de départ.
1.5 Calcul matriciel

Soit A une matrice de n lignes et de p colonnes et d’élément général aij de la
ligne i et de la colonne j.
 
a11 a12 · · · a1p
 a21 a22 · · · a2p 
 
A(n×p) =  .. .. .. 
 . . ··· . 
an1 an2 · · · anp
Lorsque n = 1, A est un vecteur ligne ; lorsque p = 1, A est un vecteur colonne ;

lorsque n = p = 1, A est un scalaire, un simple nombre.
Lorsque n = p, la matrice A est dite carrée. Et dans ce cas, la diagonale com-
prenant les éléments (a11 , a22 , · · · , ann ) est appelée diagonale principale. Lorsque
tous les éléments en dehors de la diagonale principale sont nuls, la matrice est dite
diagonale.
La matrice A ci-dessus peut être notée A = [aij ].
1.5.1 Addition des matrices

Deux matrices A et B ne peuvent s’additionner que si elles ont le même nombre
de lignes et le même nombre de colonnes. Et dans ce cas, la somme S = A + B est
obtenue en additionnant les éléments des deux matrices A et B deux à deux : un
élément de la ligne i et de la colonne j de A est additionné à l’élément de la même
ligne i et de la même colonne j de B :
   
a11 a12 · · · a1p b11 b12 · · · b1p
 a21 a22 · · · a2p   b21 b22 · · · b2p 
   
 .. .. .. + .. .. .. =
 . . ··· .   . . ··· . 
an1 an2 · · · anp bn1 bn2 · · · bnp
 
a11 + b11 a12 + b12 ··· a1p + b1p
 a21 + b21 a22 + b22 ··· a2p + b2p 
 
 .. .. .. 
 . .··· . 
an1 + bn1 an2 + bn2 · · · anp + bnp
Et de manière abrégée :
[aij ](n×p) + [bij ](n×p) = [aij + bij ](n×p)
On voit bien que l’addition des matrices est commutative et qu’elle est associative,
cela découle directement de la commutativité et de l’associativité de l’addition des
réels, éléments des matrices :
A+B =B+A et A + B + C = (A + B) + C = A + (B + C).

1.5.2 Multiplication des matrices

La multiplication de deux matrices A et B n’est possible que si le nombre de
colonnes de A est égal au nombre de lignes de B. Ainsi, si on a A(n, p) et B(p, m),
le produit P = A · B est de dimensions (n, m). P est obtenu en multipliant les lignes
de A par les colonnes de B. La ligne de A détermine la ligne de P et la colonne de B
détermine la colonne de P , autrement dit le produit de la ligne i de A par la colonne
j de B donne l’élément pij de P :
p

pij = aik bkj .
k=1
Pour multiplier une matrice X par un scalaire, il faut multiplier chacun des éléments
de X par ce scalaire :
X = [aij ], αX = [αaij ].
On voit que la multiplication des matrices n’est pas commutative : A · B = B · A. Le
produit B · A peut ne pas exister quand A · B existe. Et même quand B · A existe,
il est très souvent différent de A · B. La multiplication des matrices est par contre
associative : A · B · C = (A · B) · C = A · (B · C).
1.6 Formes quadratiques

Une forme quadratique en deux variables x et y est une expression de la forme :
q(x, y) = ax2 + 2cxy + by 2 . Cette expression peut s’écrire matriciellement : q(x, y) =
u Au avec
a c
A(2,2) = et u = (x, y)
c b
Une forme quadratique en 2 ou plusieurs variables est une expression de la forme
(avec A(n,n) symétrique et x(n,1) ) : q = x Ax.
Exemple :
q(x, y, z) = 5x2 + 10y 2 + 2x2 + 4xy + 2xz − 6yz = u Au
avec,  
5 2 1
A(3,3) =  2 10 −3  et u = (x, y, z)
1 −3 2
1.7 Matrices particulières

1.7.1 Matrice identité
La matrice identité est la matrice carrée d’ordre n, notée In (n lignes et n co-
lonnes) ayant des 1 tout au long de la diagonale principale est des 0 en dehors de
celle-ci.  
1 0 ··· ··· 0
 ..  ..

 0 1 . 
 .
 .. . . .. ..  ..
In = 
 . . . . 
 .
 .. .. .. 
 . . . 0 
0 ··· ··· 0 1

iij = 1 si i = j
In = [iij ] et
iij = 0 si i = j
Pour toute matrice A dont la multiplication par In est possible, on a : A · In =
In · A = A, car
n

A · In = [aij ][iij ] = aik ikj = [0 + · · · + 0 + (aij × 1) + 0 + · · · + 0] = [aij ] = A
k=1
La multiplication d’une matrice par elle-même n’est possible que si cette matrice est
carrée. Dans ce cas, on a :
A · A = A2 ; A multiplié par A k fois = Ak ; A0 = In .
1.7.2 Matrice transposée

Si A = [aij ], alors la transposée de A notée A est A [aji ].
Cela veut dire que les lignes de A deviennent les colonnes de A et les colonnes
de A deviennent les lignes de A . Donc on a :
(A ) = A; (A + B) = A + B ; (AB) = B A
Montrons cela dans le cas de matrices carrées d’ordre 2 :

a11 a12 b11 b12 a11 + b11 a12 + b12
+ =
a21 a22 b21 b22 a21 + b21 a22 + b22

a11 + b11 a21 + b21
=
a12 + b12 a22 + b22

a11 a12 b11 b12 a11 a21 b11 b21
+ = +
a21 a22 b21 b22 a12 a22 b12 b22

a11 + b11 a21 + b21
=
a12 + b12 a22 + b22

a11 a12 b11 b12 a11 b11 + a12 b21 a11 b12 + a12 b22
· =
a21 a22 b21 b22 a21 b11 + a22 b21 a21 b12 + a22 b22

a11 b11 + a12 b21 a21 b11 + a22 b21
=
a11 b12 + a12 b22 a21 b12 + a22 b22

b11 b12 a11 a12 b11 b21 a11 a21
· = ·
b21 b22 a21 a22 b12 b22 a12 a22

b11 a11 + b21 a12 b11 a21 + b21 a22
=
b12 a11 + b22 a12 b12 a21 + b22 a22
1.7.3 Matrices symétriques

Une matrice carrée A = [aij ] est symétrique si aij = aji . Dans ce cas, on a :
A = A
La trace d’une matrice carrée notée tr(A) est la somme des éléments de sa dia-
gonale principale :
tr(A) = a11 + a22 + · · · + ann
Il est facile de vérifier les résultats suivants :
tr(A + B) = tr(A) + tr(B)
tr(AB) = tr(BA)
tr(λA) = λtr(A)
1.8 Matrices partagées

Une matrice partagée est une matrice dont les éléments sont eux-mêmes des
matrices. Soit la matrice (3, 4) suivante :
 
a11 a12 a13 a14
A =  a21 a22 a23 a24 
a31 a32 a33 a34

Cette matrice peut être partagée de différentes façons, par exemple : A = A1 A2
sous forme de vecteur ligne de deux éléments, dont :
   
a11 a12 a13 a14
A1 =  a21 a22  et A2 =  a23 a24 
a31 a32 a33 a34
Les matrices partagées sont additionnées comme si leurs éléments étaient des sca-
laires. Par exemple :

A 1 A2 B 1 B2 A1 + B1 A2 + B2
+ =
A3 A 4 B3 B4 A3 + B 3 A 4 + B 4
à condition bien sûr que chaque élément de A ait les mêmes dimensions (mêmes
nombres de lignes et de colonnes) que l’élément correspondant de B.
Les matrices partagées sont multipliées comme si leurs éléments étaient des sca-
laires, lorsque cette multiplication est possible, c’est-à-dire lorsque le nombre de
colonnes dans la première matrice partagée est égal au nombre de lignes dans la
seconde matrice partagée et lorsque tous les produits des différents éléments de A
avec les différents éléments de B sont possibles.

A1(n1 ,p1 ) A2(n1 ,p2 ) B1(p1 ,k1 ) B2(p1 ,k2 )
· =
A3(n2 ,p1 ) A4(n2 ,p2 ) B3(p2 ,k1 ) B4(p2 ,k2 )

(A1 B1 + A2 B3 )(n1 ,k1 ) (A1 B2 + A2 B4 )(n1 ,k2 )
(A3 B1 + A4 B3 )(n2 ,k1 ) (A3 B2 + A4 B4 )(n2 ,k2 )
1.9 Déterminant d’une matrice carrée

Une matrice carrée A = [aij ] d’ordre 2 a pour déterminant noté |A| :

a a
|A| = 11 12 = a11 a22 − a21 a12

a21 a22
Pour une matrice carrée A d’ordre n quelconque, le déterminant peut être ainsi défini
de manière récursive :
n
|A| = (−1)j+1 a1j |A1j |
j=1
où A1j est la sous-matrice de A obtenue en supprimant la ligne 1 et la colonne j.

Pour la matrice A d’ordre 3, on a :

a11 a12 a13

a21 a22 a23 = a11 a22 a23 − a12 a21 a23 + a13 a21 a22
a32 a33 a31 a33 a31 a32
a31 a32 a33
Là, pour obtenir le déterminant, nous avons développé par rapport à la première
ligne. On peut vérifier qu’on obtient le même résultat en développant par rapport à
n’importe quelle ligne ou par rapport à n’importe quelle colonne. Pour une matrice
triangulaire inférieure,
 
a11 0 · · · ··· 0
 a21 a22 0 0 
 
 .. . .. a . .. .. 
A= . 33 . 

 .. . .. . .. 
 . 0 
an1 an2 · · · a(n−1)n ann
On peut vérifier que |A| = a11 a22 · · · ann . De ceci, on tire immédiatement que |In | =
1 × 1 × · · · × 1 = 1n = 1. De même que : |αIn | = α × α × · · · × α = αn .
Ainsi pour une matrice carrée A d’ordre n, on a : |αA| = αn |A|.
Par contre, si seuls les éléments d’une ligne ou d’une colonne sont multipliés par
un scalaire, le déterminant de cette matrice est multiplié par ce scalaire. Mais, si l’on
ajoute aux éléments d’une ligne (ou d’une colonne) une autre ligne (ou une autre
colonne) multipliée par un scalaire, le déterminant de la matrice reste inchangé. Mon-

trons ces résultats dans le cas d’une matrice carrée d’ordre 2.

a11 a12 αa11 αa12 αa11 αa12
|αA| = α = =
a21 a22 αa21 αa22 αa21 αa22
= αa11 αa22 − αa21 αa12 = α2 (a11 a22 − a21 a12 )

a11 a12
= α2
a21 a22

= α2 |A|

a11 a12 + αa11
= a11 (a22 + αa21 ) − a21 (a12 + αa11 )
a21 a22 + αa21
= a11 a22 + αa11 a21 − a21 a12 − αa21 a11
= a11 a22 − a21 a12
= |A|
Le déterminant du produit de deux matrices A et B est le produit des détermi-
nants respectifs des deux matrices. Montrons le dans le cas simple de deux matrices
carrées d’ordre 2 :

a a b11 b12 a11 b11 + a12 b21 a11 b12 + a12 b22
|AB| = 11 12 · =
a21 b11 + a22 b21 a21 b12 + a22 b22

a21 a22 b21 b22
= (a11 b11 + a12 b21 )(a21 b12 + a22 b22 ) − (a11 b12 + a12 b22 )(a21 b11 + a22 b21 )
= a11 b11 a21 b12 + a11 b11 a22 b22 + a12 b21 a21 b12 + a12 b21 a22 b22
−a11 b12 a21 b11 − a11 b12 a22 b21 − a12 b22 a21 b11 − a12 b22 a22 b21
= a11 a22 (b11 b22 − b21 b12 ) + a12 a21 (b21 b12 − b11 b22 )
= a11 a22 |B| − a21 a12 |B|
= (a11 a22 − a21 a12 )|B|
= |A| |B|
Si le déterminant de B est égal à 1, c’est-à-dire si B est triangulaire avec des
1 uniquement sur la diagonale principale ou si B est une matrice identité, on a :
|AB| = |A||B| = |A|.
Si l’on permute deux lignes ou deux colonnes dans une matrice, son déterminant
change de signe :

a12 a11 a12 a11
=
a22 a21 a22 a21 = a12 a21 − a22 a11
= −(a 11 a22 − a21
a12 )
a11 a12
= −
a21 a22
Si une matrice contient uniquement des zéros sur une ligne ou sur une colonne, son
déterminant est nul. Cela découle même de la définition ci-dessus du déterminant,
en développant justement par rapport à la ligne ou à la colonne dont les éléments
sont tous nuls. On peut également montrer que |A| = |A |.
Matrice adjointe d’une matrice

Soit A(n,n) une matrice carrée d’ordre n et soit Aij la sous-matrice de A obtenue
en supprimant la ligne i et la colonne j. La matrice adjointe de A est la matrice carrée
d’ordre n obtenue en remplaçant, dans A, chaque élément aij par (−1)i+j |Aji |.
1.10 Inverse d’une matrice carrée

L’inverse de la matrice carrée d’ordre n, A, est la matrice carrée d’ordre n obtenue
en divisant la matrice adjointe de A par le déterminant de A. Cela suppose que ce
déterminant n’est pas nul, que la matrice A n’est pas singulière. On note :
1
A−1 = (−1)i+j |Aji | .
|A|
Dans le cas d’une matrice carrée d’ordre 2, on obtient :
−1
a11 a12 1 a22 −a12
A−1 = =
a21 a22 a11 a22 − a12 a21 −a21 a11
Pour une matrice A d’ordre n, l’inverse de A est A−1 telle que :
A−1 A = AA−1 = In
On peut ainsi vérifier que le déterminant de A est l’inverse du déterminant de l’inverse

1
de A : |A−1 | = .
|A|

AA−1 = In ⇒ AA−1 = I n = In et AA−1 = A−1 A = In
Ce résultat
signifie
que l’inverse de la transposée de A est la transposée de l’inverse
de A : A−1 = (A )−1 .
On peut également vérifier les résultats suivants :
(αA)−1 = α−1 A−1

(AB)−1 = B −1 A−1
(ABC)−1 = C −1 B −1 A−1
1.11 Dépendance linéaire

k vecteurs x1 , x2 , · · · , xk sont linéairement dépendants s’il existe k scalaires non
tous nuls (α1 , α2 , · · · , αk ) avec
α1 x1 + α2 x2 + · · · + αk xk = 0.
Si ces scalaires non tous nuls n’existent pas, les k vecteurs x sont dits linéairement
indépendants.
Une matrice dont les vecteurs-lignes ou les vecteurs-colonnes sont linéairement
dépendants, a son déterminant nul. La réciproque est vraie.
Exemple : soit la matrice A suivante

 
1 3 5
A= 2 1 5 
2 2 6
On voit que la troisième colonne est la somme du double de la première et de la

deuxième. Autrement dit : x3 = 2x1 + x2 . D’où : 2x1 + x2 − x3 = 0. Cela signifie
que les trois vecteurs colonnes de la matrice sont linéairement dépendants. On peut
ainsi vérifier que |A| = 0.
1.12 Valeurs et vecteurs propres d’une matrice

Soit A une matrice carrée d’ordre n. Si pour un vecteur x(n,1) non nul et λ un
scalaire, on a la relation suivante : Ax = λx, on appelle x vecteur propre de A associé
à sa valeur propre λ. D’où :
Ax = λx ⇒ Ax − λIn x = 0 ⇒ (A − λIn )x = 0
Lorsque x est différent de zéro, cette égalité exige que le déterminant de la parenthèse
soit nul. Les solutions λ qui annulent ce déterminant sont appelées valeurs propres
de la matrice A. |A − λIn | = 0 correspond à l’équation caractéristique en λ de A
et |A − λIn | correspond à son polynôme caractéristique en λ. Les valeurs propres
de A sont les racines de son polynôme caractéristique, les solutions de son équation
caractéristique. Les valeurs propres d’une matrice peuvent être réelles ou complexes.
Exemple :

5 3 5−λ 3
A= et A − λI2 =
2 3 2 3−λ
|A − λI2 | = (5 − λ)(3 − λ) − 6 = 0 ⇒ 15 − 5λ − 3λ + λ2 − 6 = 0
⇒ λ2 − 8λ +√9 = 0 √
⇒ λ1 = 4 + 7 et λ2 = 4 − 7
   
3 3
√ √
⇒ v1 =  −1 + 7  et v2 =  −1 − 7 
1 1
1.12.1 Valeurs propres de matrices triangulaires

Il a été précisé ci-dessus que le déterminant d’une matrice triangulaire (supérieure
ou inférieure) est le produit des éléments de sa diagonale principale. Or si A est
triangulaire, A − λIn est également triangulaire et son déterminant est : (a11 −
λ)(a22 − λ) · · · (ann − λ) qui correspond au polynôme caractéristique en λ de A. Il

est évident que les racines de ce polynôme sont tout simplement les éléments de la
diagonale principale de A. Cela signifie que les éléments de la diagonale d’une matrice
triangulaire sont les valeurs propres de cette matrice.
1.12.2 Indépendance linéaire de vecteurs propres

Si toutes les valeurs propres d’une matrice sont distinctes, les vecteurs propres
associés sont linéairement indépendants. On peut démontrer ce résultat dans le cas
d’une matrice carrée A d’ordre 2.
v1 et v2 vecteurs propres de A associés aux valeurs propres distinctes λ1 et λ2 .
Si on a :
α 1 v1 + α2 v2 = 0 ⇒ α1 Av1 + α2 Av2 = α1 λ1 v1 + α2 λ2 v2 = 0

α1 λ 1 v 1 + α 2 λ 1 v 2 = 0
α 1 v1 + α2 v2 = 0 ⇒
⇒ α1 λ 2 v 1 + α 2 λ 2 v 2 = 0

α 1 λ 1 v 1 + α 2 λ2 v 2 = 0
⇒ α2 (λ2 − λ1 )v2 = 0 ⇒ α2 = 0
α1 λ1 v 1 + α 2 λ1 v 2 = 0
car λ2 = λ1 et v2 = 0

α 1 λ1 v 1 + α 2 λ2 v 2 = 0
⇒ α1 (λ2 − λ1 )v1 = 0 ⇒ α1 = 0
α1 λ2 v 1 + α 2 λ2 v 2 = 0
car λ2 = λ1 et v1 = 0
1.13 Décomposition d’une matrice à valeurs propres dis-

tinctes
Soit une matrice carrée A d’ordre n ayant n valeurs propres distinctes, λ1 , λ2 ,
· · · , λn . Les vecteurs propres x associés à ces valeurs propres sont donc linéairement
indépendants.
Appelons Λ la matrice diagonale dont les éléments de la diagonale sont les valeurs
propres de A et V la matrice dont les colonnes sont constituées des vecteurs propres
de A :  
λ1 0 · · · 0
 . 
 0 λ2 . . . .. 
Λ=  .. . . .
 et V = x1 x2 · · · xn

 . . .. 0 
0 · · · 0 λn
Le produit de la matrice Λ avec la matrice partagée V est :

AV = Ax1 Ax2 · · · Axn
La matrice partagée AV est une matrice carrée d’ordre n. Ses éléments Ax sont
égaux (par définition) aux produits A λ. On a donc :

AV = Ax1 Ax2 · · · Axn = λ1 x1 λ2 x2 · · · λn xn = V Λ
D’où : AV = V Λ ⇒ A = V ΛV −1 (|V | =
0 puisque les xi sont linéairement indépen-
dants).
A = V ΛV −1 ⇒ Λ = V −1 AV
Exemple :
 
1 2 0 1−λ 2 0

A= 0 3 0  ⇒ |A − λI3 | = 0 3−λ 0

2 −4 2 2 −4 2 − λ
|A − λI3 | = (2 − λ)(1 − λ)(3 − λ) = 0 ⇒ λ1 = 3, λ2 = 2, λ3 = 1

Ainsi,
     
1 0 1 3 0 0 0 1 0
P =  1 0 0 , Λ =  0 2 0 , P −1 = 2 0 1 
−2 1 −2 0 0 1 1 −1 0
En effet,
     
1 2 0 1 0 1 3 0 0 0 1 0
A =  0 3 0  =  1 0 0  0 2 0  2 0 1 
2 −4 2 −2 1 −2 0 0 1 1 −1 0
Cette décomposition est utile, au moins pour calculer les puissances de A :
An = P ΛP −1 P ΛP −1 · · · P ΛP −1 = P Λn P −1
Or la puissance nième de Λ qui est une matrice diagonale s’obtient en élevant à la

puissance n les éléments de sa diagonale principale, c’est-à-dire les valeurs propres
de A.
Décomposition de Jordan
Soit une matrice A dont les n valeurs propres ne sont pas distinctes et dont les
n vecteurs propres ne sont pas linéairement indépendants. Considérons que cette
matrice a p < n valeurs propres distinctes et donc p vecteurs propres linéairement
indépendants. Cette matrice peut aussi être décomposée de la manière suivante :
Pour A, il existe une matrice non singulière M telle que : A = M JM −1 avec J
une matrice en blocs de Jordan Ji
 
J1 0 · · · 0
 . 
 0 J2 . . . .. 
J = .. . . ..


 . . . 0 
0 · · · 0 Jp
Les blocs de Jordan correspondent aux valeurs propres. Lorsque la valeur propre en
question est simple, non multiple, ou de multiplicité 1, son bloc de Jordan correspond
au scalaire 1. Lorsque la valeur propre considérée est multiple de degré k, le bloc de
Jordan lui correspondant est une matrice carrée d’ordre k qui a la même valeur propre
sur sa diagonale principale et des 1 sur la diagonale au-dessus (la super-diagonale).
 
λ1 0 · · · 0
 . 
 0 λ2 . . . .. 

Ji =  . . 
 .. .. ... 0  
0 · · · 0 λi
Exemple :
   
5 4 2 1 4 1 0 0
 0 1 −1 −1   0 4 0 0 
A=
 −1 −1 3

 J =

0 0 0 2 0 
1 1 −1 2 0 0 0 1

λ= 4 4 2 1
   
−1 0 1 −1 −1 −1 0 0
 0 0 −1 1   −1 −1 −1 0 
P =
 1 −1 0
 P −1 = 
0   0 0 1 1 
−1 1 1 0 0 1 1 1
A = P JP −1
1.14 Autres propriétés des valeurs propres

Toute valeur propre de A(n,n) est aussi valeur propre de M AM −1 pour n’importe
quelle M(n,n) non singulière. En effet :
Av = λv ⇒ (A − λIn )v = 0
⇒ M (A − λIn )(M −1 M )v = 0
⇒ M AM −1 M v − λM M −1 M v = 0
⇒ −1
M AM −1(M v) −λ(M v) = 0
⇒ M AM − λIn (M v) = 0
Cela veut donc dire que le vecteur propre associé à la même valeur propre est M v
pour la matrice M AM −1 .
Dans la décomposition de Jordan ci-dessus A = M JM −1 : on a :
1
|A| = |M JM −1 | = |M | × |J| × |M −1 | = |J| car |M −1 | =
|M |
Comme J est triangulaire (supérieure), son déterminant est le produit des éléments
de sa diagonale principale. Or, sa diagonale principale est composée des valeurs
propres de A. Donc le déterminant de n’importe quelle matrice A est le produit de

ses valeurs propres. De même qu’on a :

A = M JM −1 ⇒ tr(A) = tr M JM −1 = tr(JM −1 M ) = tr(J)
Donc, la trace de A est égale à la trace de J, laquelle est la somme des valeurs propres
de A. Donc, pour toute matrice diagonalisable M , la somme des valeurs propres est
égale à la trace de M .
1.15 Matrices semblables

Deux matrices carrées A et B, d’ordre n, sont semblables s’il existe une troisième
matrice P inversible telle que :
B = P −1 AP ⇐⇒ A = P BP −1 ⇐⇒ A = Q−1 BQ avec Q = P −1
La similarité est une relation d’équivalence (réflexive, symétrique et transitive). Deux

matrices semblables ont même rang. Elles ont le même polynôme caractéristique, les
mêmes valeurs propres et les mêmes vecteurs propres associés. En effet pour A et B
semblables, on a :
B = P −1 AP =⇒ |B − λIn | = |P −1 AP − λIn | = |P −1 AP − λP −1 In P |
= |P −1 (A − λIn )P | = |A − λIn |
1
car |P −1 | = .
|P |
1.16 Séries géométriques de matrices

Sn = In + A + A2 + · · · + An =⇒
ASn = A + A2 + A3 · · · + An + An+1
Sn − ASn = Sn (In − A) = In − An+1 =⇒

Sn = (In − An+1 )(In − A)−1
avec |In − A| = 0, si det(In − A) = 0 ⇒ det(A − In ) = 0 ⇒ |A − 1In | = 0.

Cela signifie que 1 est valeur propre de A. |In −A| = 0 ⇔ aucune valeur propre de
−1
A n’est égale à l’unité. Si toute λ de A est < 1, alors : An+1
n→∞ → 0 ⇒ Sn = (In −A)
lorsque n tend vers l’infini.
1.17 Produit de Kronecker

Le produit de Kronecker de deux matrices A(m,n) et B(p,q) est la matrice (mp, nq)
obtenue en multipliant tous les éléments de A par B :
 
a11 B a12 B · · · a1n B
 a21 B a22 B · · · a2n B 
 
A⊗B = . .. .. .. 
 .. . . . 
am1 B am2 B · · · amn B
Exemple simple :

a11 a12 b11 b12 a11 B a12 B
A= B= A⊗B =
a21 a22 b21 b22 a21 B a22 B
 
  a11 b11 a11 b12 a12 b11 a12 b12
b11 b12 b11 b12
 
 a11 a12
b21 b22   a11 b21 a11 b22 a12 b21 a12 b22
b21 b22 
   


A⊗B =   =  
 b11 b12 b11 b12   a21 b11 a21 b12 a22 b11 a22 b12 
a21 a22  
b21 b22 b21 b22 a21 b21 a21 b22 a22 b21 a22 b22
On peut facilement vérifier ces propriétés du produit de Kronecker pour toutes

matrices A, B, C et D aux dimensions permettant à chaque fois la multiplication ou
l’addition matricielles usuelles :
(A ⊗ B) = A ⊗ B
(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C)
(A + B) ⊗ C = (A ⊗ C) + (B ⊗ C)
C ⊗ (A + B) = (C ⊗ A) + (C ⊗ B)
(A ⊗ B) · (C ⊗ D) = (AC) ⊗ (BD)
(A ⊗ B) · (A−1 ⊗ B −1 ) = (AA−1 ) ⊗ (BB −1 ) = Im ⊗ Ip = Imp
(A ⊗ B)−1 = A−1 ⊗ B −1
Valeurs propres d’un produit de Kronecker

Considérons deux matrices A(n,n) et B(p,p) ayant respectivement n et p valeurs
propres λ et µ (non nécessairement toutes distinctes). Ces deux matrices peuvent
être décomposées comme suit :
A = MA JA MA−1 et B = MB JB MB−1
JA et JB étant les matrices triangulaires (supérieures) de Jordan comprenant res-

pectivement les valeurs propres de A et de B sur la diagonale principale et des 1 sur
la diagonale au-dessus.
On vient de voir juste au-dessus que :
(A ⊗ B)(C ⊗ D) = AC ⊗ BD
Donc :

(MA−1 ⊗ MB−1 )(A ⊗ B)(MA ⊗ MB ) = MA−1 A ⊗ MB−1 B (MA ⊗ MB )

= MA−1 AMA ⊗ MB−1 BMB
= JA ⊗ JB
On vient de voir aussi que l’inverse d’un produit de Kronecker est le produit de
Kronecker des inverses :
(MA−1 ⊗ MB−1 ) = (MA ⊗ MB )−1
D’où :
(MA ⊗ MB )−1 (A ⊗ B)(MA ⊗ MB ) = JA ⊗ JB
⇒ (A ⊗ B) = (MA ⊗ MB )(JA ⊗ JB )(MA ⊗ MB )−1
On a là une décomposition de Jordan du produit de Kronecker de A par B, obtenue

à partir des décompositions de Jordan de A et B. Le produit de Kronecker de A par
B est pré-multiplié par un produit de Kronecker et post-multiplié par l’inverse de ce
produit de Kronecker. On vient de voir que le produit obtenu a les mêmes valeurs
propres que la matrice de départ, laquelle est dans ce cas (A ⊗ B).
Les deux matrices J sont triangulaires supérieures. Leur produit de Kronecker
est également une matrice triangulaire supérieure dont les éléments sont les produits
des éléments de A par les éléments de B. JA et JB comprennent les valeurs propres
de A et B sur leur diagonale principale. Donc JA⊗B = JA ⊗ JB est une matrice
triangulaire supérieure comprenant sur sa diagonale supérieure les produits λµ.
Conclusion : le produit de Kronecker de A(n,n) et B(p,p) a pour np valeurs propres
les np produits usuels des n valeurs propres λ de A et µ de B.
1.18 Matrices définies positives

A(n,n) matrice réelle symétrique est dite semi-définie positive si pour tout vecteur
réel x(n,1) , on a : x Ax ≥ 0. Elle est définie positive si pour tout vecteur réel non nul
x(n,1) , on a : x Ax > 0.
Donc, toute matrice définie positive est également semi-définie positive. Si x est
vecteur propre de A associé à la valeur propre λ, on a : Ax = λx ⇒ x Ax = λx x.
Comme x n’est pas nul, le produit x x est positif. Comme A est définie positive,
x Ax est positif, donc λ > 0. Ainsi une matrice définie positive a nécessairement

des valeurs propres strictement positives. Comme le déterminant de A est égal au

produit de ses valeurs propres et comme ces dernières sont positives, on a : |A| > 0.
Considérons une matrice A(n,n) définie positive et une matrice B(n,n) non singu-
lière.
A définie positive =⇒ ∀x, x = 0 : x Ax > 0
Bx = v ⇒ v = x B v = 0 car v = 0 ⇒ 0 valeur propre de B
v Av > 0, car A est définie positive. v Av = (x B )A(Bx) = x (B AB)x
v Ax > 0 ⇔ x (B AB)x > 0 ⇔ B AB est une matrice définie positive,
ses valeurs propres sont supérieures à 0.
Résultat : si A est définie positive, B AB est définie positive pour toute matrice B
non singulière.
1.19 Transposées conjuguées

Soit A une matrice (n, p) à éléments complexes aij + bij i. La matrice transposée
conjuguée de A notée AH est obtenue en transposant A et en remplaçant chaque
élément par son conjugué aij −bij i. Si A est réelle, sa transposée conjuguée se confond
avec sa transposée A .
Notons qu’un vecteur complexe x pré-multiplié par son transposé conjugué donne
un scalaire réel non-négatif :
x = (a1 + b1 i, a2 + b2 i, · · · , an + bn i) → xH = (a1 − b1 i, a2 − b2 i, · · · , an − bn i)
n

xH x = (a21 + b21 ) + (a22 + b22 ) + · · · + (a2n + b2n ) = (a2i + b2i ) ≥ 0
i=1
On peut vérifier les résultats suivants :
— Pour toute matrice complexe B et pour tout vecteur x complexe, on a :
(Bx)H = xH B H ;
— Si A est semi-définie positive : xH Ax = xH B Bx = v H v avec Bx = v ;
— xH Ax est donc un scalaire réel non-négatif.
1.20 Dérivation matricielle

La dérivée d’une matrice A(n,p) d’éléments aij par rapport à une variable x est
daij
la matrice (n, p) d’éléments . Donc :
dx

dA daij
= B(n,p) = .
dx dx
La matrice A peut être un vecteur (n, 1) ou (1, p).
Soit u une fonction des variables éléments d’une matrice A(n,p) . La dérivée de u
par rapport à la matrice A est la matrice (n, p) dont les éléments sont les dérivées
de u par rapport à chaque élément de A :

du ∂u
u = f (a11 , a12 , · · · , anp ) =⇒ =
dA ∂aij
En application des deux définitions ci-dessus, il est facile de vérifier les dérivées
matricielles suivantes :
dyx dx y dx M y dx M y

Avec x(n,1) , y(n,1) et M(n,p) : = = y; = xy ; = yx
dx dx dM dM
d(x M x)
Avec x(n,1) , y(n,1) et M(n,n) : = M x + M x
dx
d(x M x)
Si M est symétrique : M x = M x ⇒ = 2M x = 2M x
dx
dM N dN dM
Avec M(n,p) , N(p,q) et x(1,1) : =M +N
dx dx dx
dM −1 dM −1
Avec M(n,n) et x(1,1) : = M −1 M
dx dx
dx M −1 x
Avec M(n,n) et x(n,1) : = − M −1 xx M −1
dM
Chapitre 2
Systèmes linéaires d’équations et
transformations de matrices
Introduction
Parmi les applications les plus importantes de l’algèbre matricielle, on trouve la

représentation de la résolution de systèmes linéaires d’équations. Un système de n
équations linéaires à m inconnues s’écrit : Ax = b
avec A une matrice n × m (n lignes et m colonnes), x un vecteur de m compo-
santes en colonne et b un vecteur (n × 1)
     
a11 a12 · · · a1j ··· a1m x1 b1
 a21 a22 · · · a2j ··· a2m   x2   b2 
     
 ..   ..   .. 
 .   .   . 
A=

 x=  b= 
 ai1 ai2 ··· aij ··· aim 


 xi 


 bi 

 ..   ..   .. 
 .   .   . 
an1 an2 · · · anj · · · anm xm bm
 m 

 a1j xj 
 j=1 
 
 .. 
 
 m . 
 
 aij xj 
A(n×m) × x(m×1) = 
 j=1 
 

 .. 

 m . 
 
 anj xj 
j=1
24 Chapitre 2. Systèmes linéaires d’équations et transformations de matrices
     
a11 x1 a1j xj a1m xm
 ..   ..   .. 
 .   .   . 
     
A(n×m) × x(m×1) =   
 ai1 x1  + . . . +  aij xj
 + . . . +  aim xm 
  
 ..   ..   .. 
 .   .   . 
an1 x1 anj xj anm xm
= a 1 x1 + · · · + aj xj + · · · + am xm
Ax est donc un vecteur colonne de n composantes. Chaque composante i de ce

vecteur est une combinaison linéaire des composantes de la ligne i de la matrice A.
Si on note la colonne j de A aj , on peut aussi considérer que Ax est la somme de
m vecteurs-colonnes :
m
Ax = aj xj
j=1
Ax est donc une combinaison linéaire des colonnes de A, les coefficients sont x1 , x2 ,
. . . , xm .
Lorsque b = 0, le système est dit homogène : Ax = 0.

Dans ce cas, soit x = 0, soit les colonnes de A sont linéairement dépendantes (car,
m
avec des xj non tous nuls, on a : aj xj = 0).
j=1
Lorsque A est carrée, n = m, et non singulière, det(A) = 0, la solution de Ax = b
est évidemment x = A−1 b.
Lorsque A est non carrée, ou lorsqu’elle est singulière, le système Ax = b peut ne
pas avoir de solution ou avoir plus d’une solution.
2.1 Système consistant d’équations linéaires

Un système d’équations est consistant lorsqu’il existe, au moins, un ensemble de
valeurs des inconnues vérifiant chacune des équations du système. Lorsqu’il n’y en a
pas, le système est non consistant ou inconsistant. Un système linéaire Ax = b est
consistant si et seulement si le rang de la matrice en deux blocs, A et b à sa droite,
[A|b] est égal au rang de A. Cela est équivalent à :
[A|b] y = 0 ⇔ Ay = 0
Exemple 1 : Soit le système :

x+y+z = 5
x + y + 3z = 9
Si l’on pose z = 2, la 1ère équation donne x + y + 2 = 5 ⇒ x + y = 3. La seconde

équation donne, avec z = 2, x + y + 6 = 9 ⇒ x + y = 3. Dans les deux cas, on a,
avec z = 2, x + y = 3, une équation à 2 inconnues (x et y), une infinité de solutions,

(x = 1, y = 2, par exemple).
Le système ci-dessus de 2 équations à 3 inconnues est ainsi consistant. Il est également
sous-déterminé, dans la mesure où il comprend moins d’équations que d’inconnues
(2 équations < 3 inconnues).
Matriciellement, le système est :
 
x
1 1 1   5
y = =⇒ A×x=b
1 1 3 9
z
La matrice A a 2 lignes, n = 2, et 3 colonnes m = 3, le système est sous-déterminé.

x+y+z = 7
x + y + z = 11
Ce système n’a pas de solution, car il est impossible d’avoir 7 = 11 ou 4 = 0, en
retranchant la 1ère de la seconde équation. Le système est donc non consistant. Il est
aussi sous-déterminé : il comporte moins d’équations que d’inconnues.
Matriciellement, le système s’écrit :
 
x
1 1 1   7
y = =⇒ A×x=b
1 1 1 11
z
n = 2, m = 3, A n’est pas carrée et on est dans le cas où il n’y a pas de solution.

x+y = 3
x + 3y = 5
La 1ère équation donne x = 3−y. En remplaçant x par 3−y dans la seconde équation,
on obtient : 3 − y + 3y = 5 ⇒ y = 1 et y = 1 ⇒ x = 3 − y = 2.
Le système a donc une seule solution (x = 2, y = 1). Le système est ainsi consistant.
Il a autant d’équations (2) que d’inconnues (2) : il est exactement déterminé.
Matriciellement

1 1 x 3
= =⇒ A×x=b
1 3 y 5
A est carrée, |A| = 2 = 0, A n’est pas singulière. D’où : x = A−1 b

1 3 −1 1 3 −1 3 2
A−1 = A−1 b = =
2 −1 1 2 −1 1 5 1

1 1 3
rg(A) = 2 = rg[A|b] avec [A|b] =
1 3 5
Les 3 colonnes de [A|b] sont linéairement dépendantes, car 2 × la 1ère + la 2ème =

la 3ème ou 2 × a1 + 1 × a2 − 1 × a3 = 0. En supprimant la 3ème colonne, on a A dont
le rang est 2 (|A| = 0). D’où rg[A|b] = 2.

x+y = 7
2x + 2y = 12
Ce système est non consistant : il n’a pas de solution. En effet si l’on divise par 2 la
seconde équation, on obtient : x + y = 6. La 1ère équation est x + y = 7. Il n’existe
pas de couple (x, y) vérifiant les 2 équations : x + y = 6 = 7! Pourtant ce système
comporte autant d’équations que d’inconnues, 2.
Matriciellement, on a

1 1 x 7
= =⇒ A×x=b
2 2 y 12
On voit bien que A est singulière. Dans ce cas, il n’y a pas de solution.


 x+y = 4
x + 3y = 10

2x + 5y = 17
Si l’on retranche la 1ère équation de la 2ème , on obtient 2y = 6 ⇒ y = 3. Avec y = 3,

la 1ère équation donne : x + 3 = 4 ⇒ x = 1. Le couple (x = 1, y = 3) vérifie bien
chacune des 3 équations dont la 3ème 2 × 1 + 5 × 3 = 17.
Ce système a donc une seule solution : (x = 1, y = 3). Il est consistant. Ce système
comporte 3 équations et 2 inconnues : il est surdéterminé.
Matriciellement, il s’écrit :
   
1 1 4
 1 3  x
=  10  =⇒ A×x=b
y
2 5 17
A n’est pas carrée. Le système est consistant puisque rg(A) = rg[A|b] = 2. En effet,

1 1 4

1 3 10 = 0.

2 5 17


 x+y = 4
x + 3y = 10

2x + 5y = 15
Ce système n’est pas consistant, car les deux 1ères équations donnent, comme on
vient de voir x = 1 et y = 3. Ce couple (1, 3) vérifie les 2 premières équations, mais
non la 3ème : 2 × 1 + 5 × 3 = 17 or la 3ème dit que 2 × 1 + 5 × 3 = 15 : impossible. Il
n’y a donc pas de solution pour le système. Ce système comporte 3 équations pour
2 inconnues : il est surdéterminé.
Matriciellement, on a :
   
1 1 4
 1 3  x
=  10  =⇒ A×x=b
y
2 5 15
 
1 1 4
[A|b] =  1 3 10 
2 5 15
Le rang de [A|b] est 3, le rang de A est 2, d’où
rg[A|b] = rg(A) ⇒ Le système est inconsistant.
rg[A|b] = 3, en effet det[A|b] = 0.
Notons que :
— Un système est sous déterminé si rg(A) < m (nombre de colonnes de A)
— Un système est surdéterminé si n > m et rg([A|b]) > rg(A)
— Un système est exactement déterminé si n = m et rg(A) = n = m.
2.2 L’inverse généralisée d’une matrice

Une matrice G, telle que AGA = A, est appelée inverse généralisée de A et est
notée A− : AA− A = A.
Si A est n × m, alors A− est nécessairement m × n, pour que le produit AA− A soit
possible et pour avoir n × m pour AA− A.
Si A n’est pas singulière (carrée de plein rang : |A| = 0), alors :
A−1 AA− A = A−1 A ⇒ A− A = A−1 A ⇒ A− AA−1 = A−1 AA−1
⇒ A− = A−1
L’inverse généralisée de A n’est pas unique, s’il n’y a pas de restriction sur A. On
obtiendra donc un type d’inverse généralisée selon les restrictions introduites sur A.
Mais pour toute inverse généralisée, on a les propriétés suivantes :

• AA− A = A ⇒ (AA− A) = A ⇒ A A− A = A (A : transposée de A). D’où,

si A− est l’inverse généralisée de A, alors A− est l’inverse généralisé de A
• AA− A = A ⇒ A− AA− A = A− A. D’où A− A est une matrice (m×m) idempotente.
• AA− A = A ⇒ rg(A− A) = rg(A) (car rg((AA− )A) ≤ rg(A))
• AA− A = A ⇒ A − AA− A = 0 ⇒ A(Im − A− A) = 0 ⇒ A− A = Im
• A− A − A − A = 0
= A− A − A− AA− A (A− A . . . A− A = A− A)
= (I − A− A)(A− A)
= 0
• I − A − A = I − A − A − A− A + A− A
= I − A− A − A− A + A− AA− A
= (I − A− A)(I − A− A)
D’où I − A− A est idempotente.
• (A− A)(A− A) = A− A ⇒ rg(I − A− A) = rg(I) − rg(A− A) = m − rg(A)
Supposons que le système Ax = b soit consistant, A− est l’inverse généralisée de A

(AA− A = A), alors :
Ax = b ⇒ A− Ax = A− b ⇒ AA− Ax = AA− b ⇒ Ax = AA− b = b
⇒ x = A− b et AA− b = b
A− b est une solution du système.
Si Gb est une solution du système, on a :
A(Gb) = b ⇒ AG(AA− b) = b

A(GAA− b) = b ⇒ GAA− b est une autre solution
⇒
(AGA)A− b = b ⇒ AGA = A ⇒ G = A−
Si Ax = b est consistant, A− b est une solution du système et pour tout z, A− b +
(I − A− A)z est également une solution, puisque :

A A− b + (I − A− A)z = AA− b + (A − AA− A)z = b + (A − A)z = b
Toute solution du système peut donc être mise sous cette forme :
A− b + (I − A− A)z
Le nombre des solutions du système linéairement indépendantes est égal au rang de

I − A− A, lequel est m − rg(A).
2.3 Espace nul d’une matrice et espace de ses colonnes

L’espace nul d’une matrice A de taille n × m, noté N (A) est l’ensemble de toutes
les solutions de l’équation homogène Ax = 0.
N (A) = {x\ x ∈ Rm et Ax = 0}
Pour un système non homogène consistant, Ax = b, nous venons de voir que A− b

est une solution et que A− b + (I − A− A)z, pour tout z, constitue l’ensemble des
solutions (engendrées par z). Ces solutions sont formées de A− b solution de Ax = b
et de (I − A− A)z solutions de Ax = 0, puisque
A((I − A− A)z) = (A − AA− A)z = (A − A)z = 0

D’où (I − A− A)z est l’espace nul (engendré par z) de A :
N (A) = {(I − A− A)z, z ∈ Rm }
A définit une application linéaire de Rm dans Rn , Ax est l’image de x par A, x ∈ Rm ,

Ax ∈ Rn , Ax = 0 signifie que l’image x dans Rn est 0. L’ensemble des éléments
de l’espace de départ, Rm , dont l’image par A est 0 de Rn est appelé noyau de
l’application linéaire.
Le noyau de T correspond à l’espace nul de A. Il comprend nécessairement le 0 de

l’espace de départ.
Lorsque l’espace nul de A, N (A) n’est pas “nul”, c’est-à-dire lorsqu’il comprend
d’autres éléments que le zéro, il est un espace vectoriel, dont la dimension est appelée
nullité de A :
dim (N (A)) = rg(I − A− A) = m − rg(A) (rg(A− A) = rg(A))
(car les éléments de N (A) sont de la forme (I − A− A)z). b, élément quelconque de

Rn , est image par TA , si x ∈ Rm existe, tel que b = Ax. Dans ce cas, b est l’ensemble
des images par TA des éléments de Rm , x = A− b.
Nous avons vu, dans l’introduction de ce chapitre, que Ax est une combinaison
linéaire des colonnes de A. D’où le résultat que l’image de T dans Rn est l’espace des
colonnes de A = {b ∈ Rm \ b = Ax pour tout x ∈ Rm }. N (A) est un sous espace
du domaine Rm . Il est défini implicitement par Ax = 0. Pour en trouver les éléments,
il faut effectuer des opérations sur la matrice en blocs, ou la matrice augmentée [A|0].
Il n’y a pas de relations évidentes entre N (A) et les éléments de A. Il est toutefois
facile de vérifier si un vecteur x donné appartient ou non à N (A).
N (A) = 0 si et seulement si Ax = 0 n’admet que la solution triviale x = 0. Dans ce
cas, l’application linéaire TA est injective.
L’espace des colonnes de A C(A), est sous-espace de Rn . Il est défini explicitement.
On obtient donc ses éléments facilement. Les colonnes de A appartiennent à cet
espace et on obtient d’autres en combinant linéairement ces colonnes. Il y a donc une

relation évidente entre cet espace et les éléments de A. Vérifier qu’un vecteur b donné
appartient à cet espace fait intervenir la matrice augmentée [A|b]. C(A) = Rn si et
seulement si l’équation Ax = b admet une solution pour tout b ∈ Rn , c’est-à-dire si
TA est surjective.
Si A est carrée, n = m, on a :
N (A) ⊂ N (A2 ) ⊂ N (A3 ) ⊂ . . . ⊂ N (Ap )
et
C(A) ⊃ C(A2 ) ⊃ C(A3 ) . . .
Si A est de la forme (n, m), alors A est de la forme (m, n), C(A ) est un sous-espace
de Rm , comme l’est N (A).
Exemple : Soit f : R2 −→ R2 , ainsi définie :

x1 x1 + x 2 1 1 x1
f = =
x2 0 0 0 x2

1 1
f est une application linéaire dont la matrice associée est :
0 0
L’image de
f est l’ensemble des vecteurs de R 2 dont la 2ème composante est nulle,

y 1 1
=y . D’où C(A) est l’espace vectoriel engendré par le vecteur , base
0 0 0
de C(A). Cet espace correspond dans le plan à l’axe
horizontal des x1 .
x1
Le noyau de f est l’ensemble des vecteurs dont l’image par f est zéro :
x2

x1 0 x1 + x2 = 0
f = ⇒
x2 0 0 = 0
C’est donc l’espace des vecteurs de R2 dont la somme des composantes est nulle :
x1 + x2 = 0 ⇒ x2 = −x1 . Dans le plan, cet espace correspond à la bissectrice du
quadrant sud-est qui se prolonge dans la bissectrice du quadrant nord-ouest.
La droite
x2= −x1 correspond ainsi à N (A), noyau de f . C’est
l’ensemble
des vec-
a 1
teurs , a ∈ R. Cet espace vectoriel est engendré par .
−a −1
Considérons maintenant l’application linéaire g de R2 dans R2 :

x1 x1 1 0 x1
g = =
x2 x1 1 0 x2

1 0
La matrice associée à g est A = .
1 0
L’image de g, C(A ), est l’espace des

vecteurs
de R2 dont les deux composantes sont
x 1
égales . Il est engendré par .
x 1
Le noyau de g, N (A ), est l’espace des vecteurs de R2 dont l’image par g est zéro :

x1 x1 0
g = =
x2 x1 0

0
C’est l’ensemble des vecteurs dont la 1ère composante est nulle, de forme =
x

0 0
x . C’est l’espace engendré par le vecteur . L’espace N (A ) correspond à
1 1
l’axe vertical des x2 , dans le plan.
On remarque que l’image de g, C(A ) correspond à la droite x2 = x1 , la droite
perpendiculaire à x2 = −x1 (correspondant au noyau de f ). D’où : N (A) ⊥ C(A ).
De même que le noyau de g, N (A ), l’axe vertical est perpendiculaire à C(A), l’image
de f correspondant à l’axe horizontal dans le plan : N (A ) ⊥ C(A).
On remarque aussi que la dimension de R2 de départ est 2, égale à la somme de
la dimension de C(A) = 1 et de la dimension de Ker(f ), N (A) = 1. Ce résultat,
dim(E) = dim(Imf ) + dim(Kerf ) est général comme l’est N (A) ⊥ C(A ). En effet,
A(n, m) de terme général (aij ), i = 1, . . . , n et j = 1, . . . , m. Donc A (m, n) de terme
général (aji ).
m
Un vecteur x ∈ N (A) est tel que Ax = 0 ⇒ aij xj = 0. Un vecteur y ∈ C(A ) est
j=1
tel que y = A z pour tout z de Rn
n

⇒ yj = aij zi
i=1
m

Le produit scalaire de x par y est x j yj
j=1
m m
n
m
n n m

x j yj = xj aij zi = xj aij zi = zi aij xj = 0
j=1 j=1 i=1 j=1 i=1 i=1 j=1
Donc les deux vecteurs x et y sont orthogonaux, d’où N (A) ⊥ C(A )

2.4 Pseudo-inverse d’une matrice

Nous avons défini l’inverse généralisée d’une matrice (A− telle que AA− A = A)
dans 2.2 et nous avions précisé que cet inverse généralisée n’était pas unique. L’inverse
généralisée de A, A− , détermine un ensemble de solutions linéairement indépendantes
x d’un système linéaire d’équations Ax = b. On peut imposer des restrictions à A−
pour obtenir une matrice unique procurant une solution présentant des propriétés
souhaitables.
Cette unique matrice est notée A+ . Elle donne une solution A+ b présentant la
moindre distance à Ax = b. La matrice inverse généralisée générale satisfait la seule
condition g1 : AA− A = A.
Les inverses généralisées spéciales ou particulières satisfont d’autres conditions g2 ,
g3 et g4 .
La pseudoinverse, ou inverse de Moore-Penrose ou p-inverse, notée A+ est une ma-
trice A vérifiant les 4 conditions ou propriétés suivantes :
g1 : AA+ A = A, inverse généralisée A− , on l’appelle aussi g1 -inverse ou pseudo-
inverse interne ou encore inverse conditionnelle.
g2 : A+ AA+ = A+ , cela veut dire que A est l’inverse généralisée de A+ , (A+ )− =
A. On appelle A+ dans ce cas pseudo-inverse externe. On la note A∗ et on
l’appelle aussi g2 -inverse.
g3 : A+ A est symétrique (matrice telle que aij = aji ).
g4 : AA+ est symétrique.
L’inverse de Moore-Penrose est aussi appelée l’inverse généralisée normalisée. Cette
pseudoinverse provient des travaux de Eliakin H. Moore (1862-1932) en 1920 et
de Roger Penrose (né en 1931) en 1955. Les travaux de ces deux mathématiciens
(US et anglais, respectivement) ont abouti à prouver l’existence et l’unicité de la
pseudoinverse.
2.4.1 Existence de l’inverse de Moore-Penrose

Par construction, A+ de Moore-Penrose existe pour toute matrice A.
- Si A = 0, alors A+ = 0, 000 = 0
- Si A = 0, elle a une factorisation de plein rang A = LR, A(n, m), L(n, r) et
R(r, m), r étant le rang de A. D’où L AR = L LRR , car L est de plein rang colonne
et R est de rang colonne-ligne. L L et RR sont toutes les deux de plein rang, donc
L LRR est de plein rang. L AR (= L LRR ) est donc de plein rang. D’où (L AR )−1
existe. Si l’on pose A+ = R (L AR )−1 L et l’on vérifie les 4 propriétés ci-dessus :
g1 : AR (L AR )−1 L A = LRR (L AR )−1 L LR

= LRR (L LRR )−1 L LR
= LRR (RR )−1 (LL )−1 L LR
= LR
= A
g2 : A+ AA+ = R (L AR )−1 L AR (L AR )−1 L

= R (L LRR )−1 L LRR (L LRR )−1 L
= R (RR )−1 (L L)−1 L LRR (RR )−1 (L L)−1 L
= R (RR )−1 (L L)−1 L
= R (L LRR )−1 L
= R (L AR )−1 L
= A+
g3 : A A = R (L AR )−1 L A
+
= R (L LRR )−1 L LR

On voit bien qu’il s’agit de produits X X ou XX qui sont des matrices symétriques.
Même chose pour
g4 : AA+ = LRR (L LRR )−1 L
2.4.2 Unicité de la pseudo-inverse

Pour A = 0, A+ = 0 est unique
Pour A = 0, A+ = R (L AR )−1 L
Supposons qu’on a une autre pseudo-inverse G de A, dans ce cas :
G = GAG = (GA) G (puisque GA est symétrique : GA = (GA) )

= AGG
= (AA+ A) G G (car AA+ A = A)

= (A+ A) A G G (car (AB) = B A )
= A+ AA G G (car A+ A est symt́rique)
+
= A A(GA) G
= A+ AGAG (car GA est symétrique =(GA)’))

= A+ AG (car GAG = G : g2 )
= A+ AA+ AG (car AA+ A = A)
= A+ (AA+ ) (AG) (car AA+ et AG symt́riques)

= A + A+ A G A

= A+ A+ (AGA)

= A + A + A (car AGA = A)
= A (AA+ )
+
= A+ AA+ (car AA+ : est symétrique : g4 )

= A + (g2 )
Donc, G = A+ . A+ est donc unique.
Évidemment, si A est régulière, on a A+ = A−1 , car A+ est une inverse généralisée
(spéciale).
A+ b est une solution du système linéaire Ax = b. Cette solution unique est optimale.
On a, en plus, la propriété suivante : (I − A+ A)A+ = A+ − A+ AA+ = 0.
2.5 Factorisation des matrices

On parle aussi de décomposition des matrices. Il s’agit de mettre une matrice sous
forme de produit de matrices. Il existe plusieurs types de factorisation de matrices.
Évidemment, la décomposition de matrices qui nous intéresse ici est celle en relation
avec la résolution de systèmes d’équations linéaires Ax = b, car la décomposition ba-
sée sur les valeurs propres, la décomposition spectrale, a déjà été vue dans le chapitre
1er . Nous avons aussi vu, dans le même chapitre 1er , la décomposition de Jordan.
Mais, nous n’avons pas vu toutes les sortes de décomposition spectrale (décompo-
sition de Schur, décomposition QZ, décomposition de Takagi et décomposition en
valeurs singulières).
Il existe d’autres types de factorisation de matrices, décomposition polaire, décom-
position polaire algébrique, décomposition sectorale, . . .
Nous nous contenterons, dans le présent chapitre, de compléter la décomposition
spectrale commencée dans le chapitre précédent, avant de traiter des décompositions
en relation avec la résolution des systèmes d’équations linéaires.
2.5.1 Décomposition spectrale : compléments

Nous avons vu que, pour une matrice carrée A ayant des vecteurs propres dis-
tincts associés à des valeurs propres non nécessairement distinctes, A = V DV −1 , D
matrice diagonale comportant les valeurs propres de A sur sa diagonale principale et
V matrice dont les colonnes correspondent aux vecteurs propres de A. C’est cela la
décomposition spectrale de A. Cette décomposition est utile pour la résolution des
systèmes d’équations différentielles ordinaires linéaires.
Nous avons également vu la décomposition de Jordan, c’est la généralisation de
la décomposition spectrale au cas où les racines latentes (valeurs propres) sont de
multiplicité supérieure à 1 et où la matrice n’est pas diagonalisable (inexistence d’une
base des vecteurs propres).
Décomposition de Schur
Cette décomposition, s’appliquant aux matrices carrées, est due au mathémati-
cien allemand d’origine russe, Issai Schur (1875-1941). Elle s’appelle aussi triangula-
risation de Schur. Il en existe deux sortes : la décomposition complexe des matrices
complexes ou des matrices réelles à valeurs propres complexes, et la décomposition
réelle des matrices réelles à valeurs propres réelles.
Décomposition complexe : Soit A(n, n), une matrice complexe ou réelle à va-
leurs propres complexes. La décomposition de Schur consiste à transformer A en
U T U ∗ , où T est une matrice triangulaire supérieure ayant sur sa diagonale les valeurs
propres de A, U est une matrice complexe unitaire (c’est-à-dire que U ∗ U = U U ∗ = I
où U ∗ est la matrice adjointe de U et I la matrice identité), U ∗ est la matrice adjointe
ou transconjuguée (transposée de la matrice conjuguée, le conjuguée de a + ib est
a − ib, (a + ib)(a − ib) = a2 − i2 b2 = a2 + b2 ).
Décomposition réelle : Soit A(n, n), une matrice réelle à valeurs propres réelles.
Sa décomposition de Schur est A = V SV où toutes ces matrices sont réelles, V est
orthogonale (V −1 = V ), V est sa transposée (donc son inverse), S est une matrice
triangulaire supérieure (forme de Schur).
Pour une matrice complexe carrée normale (A∗ A = AA∗ , A∗ matrice adjointe de A),
T est une matrice diagonale et U contient les vecteurs propres de A. Si A est définie
positive, la décomposition de Schur de A se confond avec sa décomposition spectrale
vue ci-dessus et se confond avec la décomposition en valeurs singulières (voir ci-après).
Exemple : Soit A, la matrice réelle carrée suivante :

5 7
A=
−2 −4
Cherchons la matrice V orthogonale et la matrice S triangulaire supérieure de ma-
nière à avoir : V AV = S. Pour cela, trouvons les valeurs propres de A, c’est-à-dire
les racines de det(A − λI).

5−λ 7
det(A − λI) = 0 ⇒ = (5 − λ)(−4 − λ) + 14 = 0
−2 −4 − λ
⇒ λ1 = −2 et λ2 = 3
Ensuite trouvons les vecteurs propres associés :
Ax = λx ⇒ (A − λI)x = 0
Pour λ1 = −2, on trouve : v1 = (1, −1) (à un scalaire près).
Pour λ2 = 3, on trouve : v2 = (7, −2) (à un scalaire près).
Ces deux vecteurs propres sont linéairement indépendants, mais non orthogonaux.
Pour obtenir un ensemble orthonormé de vecteurs propres, utilisons l’orthogonalisa-
tion de Gram-Schmidt :
Posons
w1 = v1 = (1, −1)

w1 · v 2 9 5 5
w 2 = v2 − w 1 = (7, −2) − (1, −1) = ,
w1 2 2 2 2
L’ensemble orthonormé est alors

w1 w2 1 1 1 1
, = √ , −√ , √ , √
w1 w2 2 2 2 2
puisque
2 √
√ 5 2 5 5 2
w1 = 12 + (−1)2 = 2 et w2 = + =
2 2 2
D’où,
1 1 1 −2 9
V =√ et S = V AV =
2 −1 1 0 3
Évidemment, cette décomposition n’est pas unique. Elle différera selon les valeurs
des vecteurs propres (on obtient en fait une famille de vecteurs propres pour chaque
valeur propre) et selon le vecteur qu’on choisit pour l’orthogonalisation de Gram-
Schmidt.
La décomposition de Schur est obtenue avec Matlab en tapant, après la saisie de la
matrice A, la commande schur(A) : on obtient directement S.
Décomposition QZ
Pour 2 matrices carrées A et B, c’est la décomposition de Schur généralisée. Sa
version réelle est A = QSZ et B = QT Z , toutes des matrices réelles.
Elle s’applique aux matrices carrées. Q et Z sont orthogonales, S et T sont triangu-
laires supérieures.
Décomposition de Takagi
Il s’agit d’une décomposition applicable aux matrices complexes carrées symé-
triques. Elle correspond à A = V DV où V est une matrice unitaire, V sa transposée
et D est une matrice réelle diagonale non négative. Les éléments de sa diagonale sont
les racines carrées non négatives des valeurs propres de AA .
Cette décomposition n’est pas basée sur les valeurs propres. Elle est due au travail
de 1925 du mathématicien Japonais Teijï Takagi (1875-1960).
Décomposition en valeurs singulières (SVD)

La SVD (Singular Value Decomposition) est un procédé de factorisation de ma-
trices rectangulaires réelles ou complexes. Elle est utilisée, entre autres, en statis-
tiques. La décomposition en valeurs singulières est une généralisation du théorème
spectral à des matrices quelconques, non nécessairement carrées. La SDV provient des
travaux des mathématiciens E. Beltrami (français, 1835-1900), C. Jordan (français,
1838-1922), J.J. Sylvester (anglais, 1814-1897), E. Schmidt (allemand, 1876-1959) et
d’autres.
Soit une matrice réelle A(n, p) où p ≤ n. A peut être décomposée de manière
suivante : A = U ΛV où :
i U est (n, p), matrice à colonnes orthonormées, U U = I, contenant les vecteurs
propres de la matrice symétrique AA ;
ii Λ est (p, p), matrice diagonale contenant les valeurs singulières de la matrice A
(toute racine carrée d’une valeur propre de A A : Av = σu et A u = σv, σ est
valeur singulière de A). Le nombre d’éléments diagonaux non nuls correspond
au rang de A ;
iii V est (p, p), matrice à lignes orthonormées, V V = I, contenant les vecteurs
propres de la matrice symétrique A A.
Montrons qu’une décomposition SVD existe pour une matrice A(n, p) de rang égal
à r, r ≤ p ≤ n.
rg(A) = r, A(n, p) ⇒ AA et A A sont de rang r et de dimensions (n, n) et (p, p)
respectivement.
Comme AA est réelle symétrique, elle accepte la décomposition spectrale AA =
QDQ où Q et D sont respectivement matrices de vecteurs et de valeurs propres de
AA .
De même pour A A réelle et symétrique, elle se décompose en A A = RM R où R
est la matrice des vecteurs propres et M est la matrice diagonale des valeurs propres
de A A.
Comme AA et A A ont le même rang r, seules r de leurs valeurs propres sont
positives et les autres étant nulles. Nous pouvons ainsi écrire

Dr 0 Mr 0
D= et M = (D et M matrices partagées)
0 0 0 0
Comme AA et A A ont les mêmes valeurs propres, on a Dr = Mr Partageons les

matrices Q et R de manière à avoir Qr (n, r) et Rr (p, r) correspondant respectivement
aux valeurs propres non nulles de AA et A A : Q = [Qr , Q∗ ] et R = [Rr , R∗ ].
1/2
Posons U = Qr et V = Rr et Λ = Dr
1/2
Posons S = Qr Dr Rr

S S = Qr Dr1/2 Rr Qr Dr1/2 Rr
= Rr Dr1/2 Qr Qr Dr1/2 Rr
= Rr Dr Rr
= RM R
= A A
On montre de la même manière que SS = AA
S S = A A ⇒ S = P1 A P1 une matrice orthogonale quelconque (P1 P1 = I)

SS = AA ⇒ S = AP2 P2 une matrice orthogonale donnée
D’où
AA = SS = P1 A(P1 A) = P1 AA P1
⇒ P 1 = In et P2 = Ip
A A = S S = (AP2 ) AP2 = P2 A AP2
Ainsi,
A = S = Qr Dr1/2 Rr = U ΛV
Exemple de SVD : Soit la matrice

3 1 1
A(2, 3) =
−1 3 1
On veut la décomposer de la manière suivante :
A = U ΛV
Trouvons donc U , Λ et V successivement. Pour trouver U , calculons AA

11 1
AA =
1 11
Pour les valeurs propres et les vecteurs propres associés de AA , on trouve
λ1 = 12
1
et λ2 = 10 (mêmes valeurs propres de A) Pour λ1 = 12 on trouve u1 = . Pour
1

1
λ2 = 10 on trouve u2 = .
−1
u1 u2

1 1
La matrice ayant en colonne les vecteurs propres de AA est
.
1 −1
Il faut orthonormer ces vecteurs par la méthode, vue ci-dessus, de Gram-Schmidt,
sauf qu’ici, u1 · u2 = 0,donc u1 ⊥
u2 . Dans ce cas, on divise par sa norme u1 =
√ 1 1 √
2. On obtient u1 = √ , √ normé. Pour u2 , on a u2 = 2. D’où u2 =
2 2  
1 1
√ √
1 1  2 2 
√ , − √ . Et finalement, U =  
.

2 2 1 1
√ −√
2 2
Le calcul de V se fait de la même manière avec A A.
 
10 0 2
A A =  0 10

4 
2 4 2
On trouve évidemment les mêmes valeurs propres non nulles λ1 = 12, λ2 = 10 et
λ3 = 0, et les vecteurs propres
     
1 2 1
v1 =  2  , v2 =  −1  , v3 =  2 
1 0 −5
√ √ √
On les normalise par la même méthode, v1 = 6, v2 = 5, v3 = 30. On
trouve donc
   
1 2 1 1 2 1
√ √ √ √ √ √
 6 5 30   6 6 6 
   
 2 1 2   2 1 
V =  √ − √ √  d’où 
V = √ − √ 0 
6 5 30  5 5 
   
 1 5   1 2 5 
√ 0 −√ √ √ −√
6 30 30 30 30
√
12 √0 0
Quant à Λ = , Λ est (2, 3).
0 10 0
On peut vérifier que A = U ΛV . √ √
Avec Matlab, la commande svd(A) donne λ1 et λ2 , λ1 et λ2 valeurs propres non
nulles de A A et de AA . La commande [U, S, V ] = svd(A) donne

−0.7071 −0.7071 3.4641 0 0
U= et Λ=S=
−0.7071 0.7071 0 3.1623 0
et V à 4 décimales correspondant à −V trouvé ci-dessus.
2.5.2 Décomposition de matrices pour la résolution de SLE

Nous allons voir successivement, dans cette section :
— La décomposition LU
— La décomposition QR
— La décomposition de Cholesky
Décomposition LU de matrices
L : lower triangular : triangulaire inférieure
U : upper triangular : triangulaire supérieure
La décomposition LU est donc la transformation d’une matrice A en LU :
A = LU
La matrice A peut être carrée ou rectangulaire. Lorsque la matrice A est rectangulaire

ou n’est pas de plein rang, L ou/et U prend la forme trapézoïdale.
La factorisation LU existe et est unique pour les matrices définies non négatives.
Pour une matrice quelconque, la factorisation LU peut ne pas exister et les conditions
d’existence sont difficiles à établir.
La décomposition LU est effectuée en faisant une suite d’éliminations Gaussiennes de
manière à obtenir des zéros dans une colonne en-dessous de la principale diagonale. Il
s’agit de multiplier A par une matrice L régulière dont le déterminant est l’unité, puis
de multiplier le produit obtenu par une autre matrice L de la sorte . . . jusqu’à ce qu’on
obtienne U . Ainsi U = (Ln−1 Ln−2 · · · L1 )A, U matrice triangulaire supérieure. Le
produit (Ln−1 Ln−2 · · · L1 ) est une matrice régulière triangulaire inférieure (avec des
1 sur la diagonale). L’inverse de ce produit est également triangulaire inférieure.
Appelons cet inverse L
L = (Ln−1 Ln−2 · · · L1 )−1
D’où : A = LU
LU peut être écrit sous forme de LDU , D diagonale, en remplaçant dans U les
éléments de la diagonale par des 1, ces éléments sont placés dans D : LU −→ LDU ,
avec L et U triangulaires ayant des 1 sur la diagonale principale.
Cette décomposition LU est due à Lagrange qui a établi l’algorithme appelé élimi-
nations gaussiennes (en 1759) et à A.M. Turing (1912-1954) qui a introduit, en 1948,
la décomposition LU pour résoudre un système d’équations linéaires.
n3
Les méthodes utilisées (Doolittle ou Crout) nécessitent multiplications et addi-
3
tions, n étant le nombre de lignes de A.
Une matrice singulière A peut avoir la décomposition LU . Une matrice régulière peut
0 1 1
ne pas en avoir. Mais si elle en a, la décomposition est unique. A = est
0 0 0
une matrice singulière. Elle peut être ainsi décomposée :

1 0 0 1 1
A= × (U = A, L = I)
0 1 0 0 0
L U

0 1
De même, la matrice A = est non singulière. Pourtant, elle n’a pas de
1 0
décomposition LU .
La décomposition A = LU est utilisée pour la résolution de systèmes d’équations
linéaires simultanées. Le déterminant de A est égal au déterminant de LU lequel est
det(L) × det(U ), soit le produit des deux produits des éléments des deux diagonales
de L et de U .
La décomposition LU peut s’effectuer avec Matlab. Pour décomposer A , les com-

mandes sont :
Y = lu(A) donne L triangulaire inférieure strictement
[L, U ] = lu(A) donne L et U telles que A = LU
Exemple : soit la matrice

 
1 0 2 4
A= 0 5 0 7 
3 1 2 0
La commande [L, U ] = lu(A) de Matlab donne :
   
0.3333 −0.0667 1 3 1 2 0
L= 0 1 0  et U = 0 5 0 7 
1 0 0 0 0 1.333 4.4667
Notons que A ci-dessus est rectangulaire.

Pour M carrée,  
1 2 3
M = 2 5 1 
2 4 1
La commande [L, U ] = lu(M ) de Matlab donne :
   
0.5 0.5 1 2 5 1
L= 1 0 0  et U =  0 −1 0 
1 1 0 0 0 2.5
Dans les deux cas, U est bien triangulaire supérieure, mais L retournée n’est pas
triangulaire inférieure. En fait L retournée par Matlab est le produit d’une matrice
triangulaire inférieure et de matrices de permutation P . Pour obtenir P , il faut
utiliser la commande [L, U, P ] = lu(A).
Appliquée
 à M , cette
 commande nous donne la même U triangulaire supérieure,
1 0 0
L= 1 1 0  maintenant devenue triangulaire inférieure avec des 1 sur la
0.5 0.5 1
 
0 1 0
diagonale et P =  0 0 1 . Notons que ce L est le produit de P et de L de la
1 0 0
commande [L, U ] = lu(X). Bref, la commande à 3 arguments [L, U, P ] nous donne
L et U recherchés et on peut ignorer P .
Factorisation QR
Il s’agit d’une factorisation utile constituant à transformer A(n, p) en un produit
de Q, une matrice orthogonale (QQ = Q Q = I) et R, une matrice triangulaire ou
trapézoïdale.
A = QR, Q(n, p)
Cette décomposition est due à J.P. Gram (1850-1916) et E. Schmidt (1876-1959). Le

travail de Gram là-dessus remonte à 1883 et celui de Schmidt à 1907.
Si A est constituée de colonnes linéairement indépendantes, Q(n, p) est une matrice
dont les colonnes forment une base orthonormée pour l’espace des colonnes de A,
C(A) et R est une matrice triangulaire supérieure régulière.
Trois méthodes différentes, selon la nature de A, peuvent être utilisées pour obtenir
la factorisation QR : le processus de Gram-Schmidt, les transformations de Givens
ou celles de Householder.
Cette décomposition est utilisée pour trouver les valeurs propres d’une matrice, pour
résoudre des systèmes linéaires ou pour trouver des approximations des moindres
carrés.
Dans la méthode des moindres carrés, on a :
b = (X X)−1 X Y ⇒ (X X)b = X Y
En décomposant X = QR, on obtient :

(X X)b = (QR) QR b

= R Q QRb
= R Rb
= X Y
= (QR) Y
= R Q Y
⇒ R Rb = R Q Y ⇔ R−1 R Rb = R−1 R Q Y ⇔ Rb = Q Y = Z
Dans Matlab,
R = qr(A) : donne la matrice R de la décomposition A = QR de A
[Q, R] = qr(A) donne R triangulaire supérieure et Q unitaire, A = QR
Exemple :
 
1 2 4
A= 4 3 1 
2 5 0
La commande [Q, R] = qr(A) donne :

   
−0.2182 0.2636 −0.9396 −4.5826 −5.2372 −1.7457
Q =  −0.8729 −0.4833 0.0671  et R =  0 3.2514 0.5712 
−0.4364 0.8348 0.3356 0 0 −3.6914
On peut vérifier que Q Q = I et constater que R est triangulaire supérieure. On

peut vérifier que R−1 existe (que R est régulière) et que A = QR (avec la commande
Matlab is always A == Q ∗ R).
Décomposition de Choleskey
Cette méthode est due au mathématicien soldat français André-Louis Cholesky
(1875-1918), mort de ses blessures durant la première guerre mondiale (31/8/1918).
Elle s’applique aux matrices réelles symétriques définies positives, auquel cas la dé-
composition A = LL est unique, L une matrice triangulaire inférieure avec des
éléments diagonaux positifs.
On peut montrer que dans ce cas de matrice A réelle symétrique définie positive, il
existe une décomposition A = LL unique en utilisant la décomposition A = LU .
Cette décomposition est également utilisée pour résoudre un système d’équations
linéaires Ax = b où A est réelle symétrique définie positive. Elle est utilisée en ré-
gression (lorsque X X est définie positive). Elle est utilisée en analyse en composantes
principales (ACP).
Avec Matlab, la commande [L, p] = chol(A, lower ) pour une matrice A définie po-
sitive, donne L triangulaire inférieure telle que A = LL et p = 0. La commande
L = chol(A) fait aussi l’affaire.
Exemple : soit la matrice définie positive symétrique (faite à partir des coefficients
du binôme) suivante
 
1 1 1 1 1
 1 2 3 4 5 
 
A=  1 3 6 10 15 

 1 4 10 20 35 
1 5 15 35 70
La commande R = chol(A) donne :
 
1 1 1 1 1
 0 1 2 3 4 
 
R=
 0 0 1 3 6 

 0 0 0 1 4 
0 0 0 0 1
R, matrice triangulaire supérieure ayant des 1 sur sa diagonale. On vérifie que R R =

A.
Factorisation d’une matrice gramienne X X

X X est formée par les sommes des carrés des éléments de X et par les sommes
des produits croisés des éléments de X. Elle est une matrice intéressante par ses
propriétés. X X est symétrique et accepte donc la factorisation canonique :
X X = V CV
X X est définie négative. Elle accepte donc la décomposition LU :
X X = LU
Elle accepte également la décomposition de Cholesky :
X X = T T avec T triangulaire supérieure
Avec L = T et U = T , on a les mêmes factorisations ici (LU et Cholesky). X peut

être factorisée ainsi : X = QR. Ceci implique X X = (QR) QR = R R, R est le
facteur de Cholesky T , car la décomposition de Cholesky est unique.
X peut être factorisée par : X = U DV (décomposition SVD). D’où : X X =
(U DV ) U DV = U D2 V correspondant à la factorisation canonique : les valeurs
propres de X X sont les carrés des valeurs singulières de X et le conditionnement
(condition number, cf 2.6 ci-dessous) de X X est le carré du conditionnement de X.
Récapitulatif des factorisations
Dans ce qui précède, nous avons vu quelques factorisations parmi les nombreuses
méthodes de décomposition de matrices. Toutes les factorisations ne s’appliquent pas
à toutes les matrices de quelque nature que ce soit. Les factorisations possibles d’une
matrice donnée dépendent de la nature de cette matrice. C’est pour cela que nous
avons choisi de récapituler les différentes méthodes et de préciser à quelle sorte de
matrice elles s’appliquent :
1. La factorisation de plein rang, matrice générale ;
2. La factorisation canonique équivalente, idem ;
3. La factorisation canonique similaire ou diagonalisation, pour les matrices car-

rées ;
4. la factorisation canonique orthogonalement similaire pour les matrices symé-

triques et diagonalisables ;
5. La racine carrée d’une matrice définie non négative symétrique ;
6. La factorisation en valeurs singulières pour une matrice générale ;
7. La décomposition LU et LDU pour une matrice générale ;
8. La décomposition QR idem ;
9. La décomposition de Cholesky pour les matrices définies non-négatives ;
10. La factorisation de Jordan (vu dans le chapitre 1er ).
Voici, pour résumer et visualiser un diagramme de ces décompositions présentées par

le Professeur Kumar, du département de statistiques de l’Université Begum Rokeya
2.6 Résolution des systèmes linéaires d’équations

Avant d’étudier les différentes méthodes de résolution d’un système linéaire d’équa-
tions, il convient de justifier les décompositions de matrices dont il a été longuement
question, dans la section 2.5 précédente, et de voir comment on peut mesurer la sen-
sibilité de la solution x d’un système linéaire Ax = b par rapport à des perturbations
des données A et b du problème.
2.6.1 Systèmes linéaires à solutions évidentes

Les systèmes linéaires rapidement résolus sont les systèmes Ax = b où A est soit
diagonale, soit triangulaire.
A diagonale
Lorsque, dans Ax = b, A est une matrice diagonale (n, n),
 
a11 0 ... 0

 0 ... .. . 
 . ..  
A= . .  aii = 0 ∀i
 .. .. aii 0 
 
..
0 ... 0 .
Ax se réduit à un vecteur colonne de composante générale aii xi et les n équations

bi
du système deviennent aii xi = bi dont la solution est bien xi = .
aii
Matriciellement, le vecteur x = A−1 b et

 
1
0 ... 0
 a11 
 . .. 
 0
 .. ... . 

A−1 =  . .. 1 
 .. . 0 
 
 a ii 
..
0 ... 0 .
C’est que l’inverse d’une matrice A diagonale est A−1 dont les éléments diagonaux
sont les inverses des éléments diagonaux de A. Le déterminant de A dans ce cas, est
égal à l’inverse de celui de A−1 , égal au produit des éléments diagonaux :
n

det(A) = aii
i=1
A triangulaire
A triangulaire inférieure : Lorsque, dans Ax = b, la matrice A(n, n) est trian-
gulaire inférieure,  
a11 0 . . . . . . . . . 0
 a21 a22 0  0
 
 .. .. ..  ..
 . . .  .
A=


 ai1 . . . . . . aii 0 0 
 .. .. 
 . . 0 
an1 . . . . . . . . . . . . ann
b1
La 1ère équation du système est a11 x1 = b1 ⇒ x1 = .
a11
b1
Dans la 2ème équation, a21 x1 + a22 x2 = b2 , on remplace x1 par et on obtient :
a11

b1 1 b1
a21 + a22 x2 = b2 ⇒ x2 = b2 − a21
a11 a22 a11
Dans la 3ème équation, on remplace x1 et x2 par leurs valeurs respectives et on obtient

x3 et ainsi de suite jusqu’à la résolution totale du système, jusqu’à obtenir la valeur
de xn .
Ainsi pour obtenir xi quelconque 1 < i < n, on remplace tous les xj (j < i) d’avant
i
par leur valeur dans la ième équation : aij xi = bi pour obtenir
j=1
 
i−1

1  bj 
xi = bi − aij
aii ajj
j=1
On trouve donc les xi par substitution, de i à i+1 jusqu’à n (substitution croissante).

A triangulaire supérieure Lorsque, dans Ax = b, la matrice A est triangulaire

supérieure
 
a11 a12 . . . a1i . . . a1n

 0 a22 .. 

 . a2n 
 . .
. . .. .. 
 0 0 . 
A=  .. .


 . .. a ain 
 ii 
 .. .. 
 0 0 . . 
0 ... ... ... 0 ann
On voit bien que la dernière équation est
bn
ann xn = bn ⇒ xn =
ann
On remonte vers l’équation n − 1 :
a(n−1)n xn + a(n−1)(n−1) xn−1 = bn−1
bn
On y remplace xn par et on obtient :
ann
bn
a(n−1)n + a(n−1)(n−1) xn−1 = bn−1
ann
On en déduit xn−1 . On remonte à la (n − 2)ème équation et ainsi de suite jusqu’à la

1ère équation.
On résoud ainsi un tel système par substitution décroissante, de xn à xn−1 jusqu’à
x1 .
La résolution d’un tel système Ax = b, où A est triangulaire, est facilitée par les
propriétés des matrices triangulaires, relatives à A et A−1 , car Ax = b ⇒ x = A−1 b.
C’est qu’une matrice triangulaire A a pour inverse A−1 une matrice triangulaire. Si
la 1ère est triangulaire supérieure (inférieure), l’autre est supérieure (inférieure). Son
déterminant est le produit de ses éléments diagonaux et son inverse a sa diagonale
constituée des éléments diagonaux. De même, le produit de 2 matrices triangulaires
est une matrice triangulaire.
On comprend ainsi, pourquoi on factorise la matrice A, dans un système linéaire Ax =
b. C’est pour l’écrire sous forme de produit de matrices diagonales ou triangulaires
et faciliter la résolution de systèmes linéaires.
2.6.2 Conditionnement d’une matrice

Lorsque les données du problème, A et/ou b, sont sujettes à des erreurs, cela
peut détériorer la précision de la solution obtenue x∗ . En effet, il existe des systèmes
linéaires, Ax = b, tels qu’une petite variation de b ou de A donne une variation
énorme de x∗ , solution du problème.
Considérons ce problème, Ax = b dont les données sont :

   
7 1 11 10 29
 2 6 5 2   15 
A=  8 11 3 8 
 et b=  30


6 9 3 6 24


1
 1 
Sa résolution donne x∗ = A−1 b =   1 

1
(Sous Matlab, calculer A−1 , ensuite A−1 b) :   
0.1 29.1
 −0.1   14.9 
Faisons varier b en lui additionnant   
 0.1  pour obtenir b1 =  30.1 

−0.1 23.9
 
6.2222
 0.1333 
Résolvons à nouveau le système Ax = b1 . Cela donne x∗1 =  1.6333 .

−3.2556
On voit bien qu’une faible variation de b, ses composantes n’ayant varié que de 0.1,
dans l’absolu, soit 0.3 % pour 30, a donné une forte variation de la solution x, sa
première composante ayant été multipliée par 6.2.
Prenons un autre exemple de système linéaire Ax = b où

1 0.5 1.5
A= et b=
0.667 0.333 1

1
La solution évidente est x∗ =
1

1.5
Remplaçons b ci-dessus par b1 = Ce qui revient à faire varier sa seule
0.999
seconde composante de 1 pour mille.

0
La solution du nouveau système est x∗1 = .
3
Avec une variation infime sur la seule seconde composante de b, on a obtenu une très
forte variation de x.
Comment mesurer la sensibilité de la solution aux perturbations des données A et b
d’un système linéaire Ax = b ? C’est Turing qui a apporté une réponse à ce problème.
La mesure de cette sensibilité s’appelle le conditionnement, condition number, qui
dépend de la norme matricielle retenue. Turing avait retenu la norme de Frobenius.
Si l’on note la norme d’une matrice A, A, alors le conditionnement de A est
cond(A) = A A−1
C’est le produit de la norme de A par la norme de son inverse A−1 . √

Norme d’une matrice : C’est une extension de la norme d’un vecteur X ( X X).
La norme d’une matrice A(n, p), notée A est telle que :
A ≥ 0 ;
A = 0 ⇒ A = 0 ;
α A = |α| · A α scalaire ;
A + B ≤ A + B.
La norme sous-multiplicative d’une matrice carrée satisfait, en plus, la propriété :
A B ≤ A B.
Il existe plusieurs types de normes : euclidienne, spectrale, induite, norme de Frobe-

nius, norme nucléaire, norme de Schatten, . . .
La norme de Forbenius d’une matrice réelle A est

AF = tr (A A) = tr (AA ).
C’est la norme euclidienne standard de la matrice considérée comme une collection

de np scalaires.
Sous Matlab, la commande pour obtenir la norme de Forbenius de la matrice X est :
n = norm(X, f ro ).
Ax
La p-norme d’une matrice X notée Xp est sup .
x=0 xp
La 2-norme d’une matrice X est sa plus grande valeur singulière. On l’obtient sous
Matlab avec la commande : n = norm(X).
Notons que l’on a toujours cond(A) ≥ 1 pour une norme matricielle subordonnée
√
et condF (A) ≥ n. On a aussi les propriétés suivantes :
cond(A) = cond(A−1 ) ;
cond(α A) = cond(A) α scalaire non nul ;
µn
cond2 (A) = où µn est la plus grande valeur singulière de A et µ1 la plus
µ1
petite.
Si A est une matrice normale, on a :
max |λi |
cond2 (A) = , λi valeur propre de A
min |λi |
Si A est une matrice unitaire ou orthogonale, cond2 (A) = 1
Plus le conditionnement d’une matrice A est grand, plus la solution du système
linéaire Ax = b est sensible aux perturbations des données.
En effet, dans le 1er exemple
 considéré ci-dessus, avec A et b de départ,
 on a calculé

1 0.1
 1   −0.1 
la solution x∗ =    
 1 , puis on a fait varier b en additionnant e =  0.1 . Le
1 −0.1
nouveau b1 = b + e et avec ce b1 , on a cherché la nouvelle solution x∗1 = x∗ + δx en
résolvant le système Ax = (b + e).
Le nouveau système implique que
x∗1 = A−1 (b + e) = A−1 b + A−1 e = x∗ + A−1 e

D’où à la suite de la variation e de b, la solution a varié de A−1 e. Donc, la variation

A−1 e e
relative de la solution est et la variation relative de b est .
A−1 b b
Le ratio de la 1ère variation (effet) sur la 2de variation (cause) est

A−1 e e A−1 e b
−1
= ×
A b b e A−1 b
Pour une norme sous-multiplicative, on a A−1 b ≤ A−1 b. Ainsi, en prenant le

A−1 e
maximum de A−1 b, on simplifie pour obtenir .
A−1 e
C’est l’expression qui a conduit à la définition du conditionnement.
En conclusion, la sensibilité de la solution d’un système linéaire Ax = b aux pertur-
bations des donnés (A et b) dépend de A.
Pour le 1er exemple considéré ci-dessus
 
7 1 11 10
 2 6 5 2 
A=  8 11 3 8 

6 9 3 6
Le conditionnement de cette matrice est

cond(A) = norm(A) · norm A−1 = 25.3097 × 56.3005 = 1425
Dans notre second exemple

1 0.5
A=
0.667 0.333

cond(A) = norm(A) · norm A−1 = 1.34 × 2687.6 = 3611.6
On constate que le conditionnement est beaucoup plus grand dans le second cas.
Sous Matlab, en lançant MuPad, il est possible d’obtenir directement le condition-
nement avec la commande :
linalg :: cond(A, option)
L’option est pour le choix de la norme : 2 pour 2-norme, spectral, infinity ou Frobe-
nius.
Et pour saisir la matrice carrée d’ordre 2 ci-dessus sur MuPad, on saisit :
A := matrix (2, 2, [[1, 0.5], [0.667, 0.333]])
Puis la commande du conditionnement

linalg :: cond(A, F robenius) = 3611.556 = linalg :: cond(A, 2)
linalg :: cond(A) = linalg :: cond(A, inf inity) = 5001.0
Lorsque cond(A) est élevé, on dit que le problème est mal conditionné.
2.6.3 Méthodes directes de résolution des systèmes linéaires

Pour résoudre un système linéaire consistant, on dispose de méthodes directes
auxquelles nous consacrons la présente section et les méthodes indirectes qui seront
traitées dans la section suivante.
La méthode directe la plus utilisée est l’élimination de Gauss-Jordan. Cette méthode
s’appelle aussi méthode du pivot de Gauss. Il s’agit d’un algorithme de calcul de la
solution d’un système linéaire, du rang d’une matrice ou de son inverse.
L’élimination de Gauss appliquée à une matrice donne sa forme échelonnée réduite.
Une matrice est échelonnée en lignes si le nombre de zéros précédant la 1ère valeur non
nulle d’une ligne augmente ligne par ligne jusqu’à ce qu’il ne reste plus que des zéros.
Exemple :
 
5 3 −2 3 4

 2 1 5 1
0 
 
 0 0 0 -4 3 
 
 0 0 0 0 7 
0 0 0 0 0
Les éléments non nuls encerclés sont les pivots.
Une matrice échelonnée est dite matrice échelonnée réduite ou matrice canonique en
lignes si les pivots valent 1 et si les autres coefficients dans les colonnes des pivots
sont nuls.
Exemple :
 
1 0 −2 0 0
 0 1 1 0 0 
 
 0 0 0 1 0 
 
 0 0 0 0 1 
0 0 0 0 0
Toute matrice peut être transformée en une matrice échelonnée réduite au moyen
d’opérations élémentaires sur les lignes :
— Permuter 2 lignes ;
— Multiplier une ligne par un scalaire non nul ;
— Ajouter à une ligne le multiple d’une autre ligne.
La matrice échelonnée réduite est unique. Le nombre de lignes possédant un pivot
non nul correspond au rang de la matrice initiale.
Rappelons que nous cherchons à résoudre le système linéaire Ax = b. Pour transfor-
mer A en matrice échelonnée réduite, on effectue des opérations sur A, mais pour
obtenir un système équivalent, il faut effectuer ces opérations élémentaires sur b aussi.
Lorsqu’on obtient, à la place de A, une matrice échelonnée réduite, c’est-à-dire en fait
une matrice triangulaire supérieure, U , on obtient un nouveau système équivalent au
système de départ de la forme :
U x = L−1 b
Ce système est évidemment facile à résoudre comme l’on a vu, puisque U est trian-
gulaire supérieure : x = U −1 L−1 b = (LU )−1 b
La méthode correspond ainsi à une décomposition LU de A.

Sous MuPad de Matlab, pour effectuer l’élimination de Gauss sur A (en la ré-
duisant en une matrice échelonnée en lignes semblables), on tape la commande :
linalg :: gaussElim(A)
Exemple : pour
 
1 2 3
A= 2 1 5 
8 7 1
La commande linalg :: gaussElim(A) donne la matrice échelonnée suivante :
 
1 2 3
A =  0 −3 −1 
0 0 −20
A et E sont semblables, veut dire que E = X −1 AX où X est une matrice carrée

régulière.
E = X −1 AX ⇒ A = XEX −1
Les 2 matrices A et E ont même rang, même déterminant et mêmes valeurs propres.
E ci-dessus correspond en fait à U de la décomposition LU de A d’où :
A = LE = LU ⇒ L = AU −1
Matlab nous donne  

1 0 0
L= 2 1 0 
8 3 1
 
0.15
−1 −1 −1
Ax = b ⇔ (LU )x = b ⇒ x=U L b=A b ⇒ x =  0.45 
0.65
On voit bien que la méthode ci-dessus, d’élimination de Gauss, utilise la décompo-
sition LU . En fait, toutes les méthodes directes de résolution des systèmes linéaires
d’équations utilisent des factorisations de A et la factorisation la plus utilisée est LU .
Pour les matrices creuses (sparse), c’est-à-dire les matrices comprenant beaucoup de
zéros, les méthodes indirectes sont plus indiquées.
2.6.4 Méthodes itératives de résolution des systèmes consistants

Les méthodes itératives, des procédés algorithmiques, débutent par le choix d’un
point initial, considéré comme une première ébauche de solution. La méthode procède
par itérations, au bout desquelles, elle détermine des itérés qui sont des solutions
approximatives qui se rapprochent graduellement de la solution exacte.
Ces méthodes sont utilisées, au lieu des méthodes directes qui consistent à calculer
A−1 ou les inverses de ses facteurs (LU , LDU , . . . ), lorsque ces méthodes directes
ne sont pas applicables (A singulière, A creuse, . . . ) ou lorsque le problème est
mal conditionné (conditionnement élevé = trop forte sensibilité de la solution aux

erreurs ou perturbations dans les données du système), ou encore lorsque le problème
comprend un grand nombre de variables.
Évidemment, la meilleure méthode itérative est celle qui a la plus grande vitesse de
convergence vers la solution exacte, c’est-à-dire qui converge en peu d’itérations.
Trois méthodes itératives différentes sont souvent utilisées pour la résolution des
systèmes linéaires d’équations : méthode de Gauss-Seidel, méthode de Jacobi et mé-
thode SOR (Successive Over Relaxation : sur-relaxation successive). Présentons-les
successivement.
Méthode de Gauss-Seidel
Cette méthode est due aux mathématiciens allemands, C.F. Gauss (1777-1855)
et P.L. Von Seidel (1821-1896).
Elle est appliquée pour résoudre des systèmes linéaires de dimension finie, de la forme
Ax = b. Elle est itérative, en ce sens qu’elle génère une suite qui converge vers une
solution, lorsqu’une telle solution existe et lorsque les conditions de convergence sont
satisfaites (il y a nécessairement convergence lorsque A est symétrique définie posi-
tive). L’algorithme suppose que les éléments diagonaux de A sont non nuls.
L’algorithme :
On veut résoudre Ax = b, c’est-à-dire qu’on cherche x tel que Ax soit égal à b :
   
a11 a12 · · · a1p b1
 a21   b2 
   
A= .  et b= . 
 ..   .. 
an1 · · · · · · anp bp
À l’instant 0, on obtient un vecteur x0 et on procède à une 1ère itération pour obtenir

l’itéré x1 , puis à la 2ème itération pour obtenir l’itéré x2 et ainsi de suite jusqu’à la
k ème itération, après quoi, on obtient l’itéré xk et on interrompt le calcul si l’on juge
que xk est suffisamment proche d’une solution, c’est-à-dire, par exemple, si le résidu
Axk − b est suffisamment petit.
Voici le passage de l’itéré xk à l’itéré xk+1 , n = p : A carrée, c’est-à-dire la (k + 1)ème
itération, en n étapes (n composantes de x à calculer). On suppose les aii = 0.
Après la k ème itération, on a calculé xk = (xk1 , xk2 , . . . , xkn )
Étape 1 : La 1ère équation du système est

 
n

1 
a11 x1 + a12 x2 + . . . + a1n xn = b1 ⇒ x1 = b1 − a1j xj 
a11
j=2
Dans cette expression, on remplace les xj par leurs valeurs xkj et on obtient
xk+1
1
Étape 2 : On passe à la 2ème équation :

 
n

1 
a21 x1 + a22 x2 + . . . + a2n xn = b2 ⇒ x2 = b2 − a21 x1 − a2j xj 
a22
j=3
Dans cette expression, on remplace x1 par la valeur trouvée xk+1

1 dans la 1ère
étape et les autres xj par les xkj pour obtenir xk+1
2
..
.
Étape n : on passe à la nème équation, sachant qu’après les n − 1 étapes précé-
n

dentes, on a obtenu les (n − 1) xk+1
j . Dans la dernière équation : anj xj =
j=1
bn on remplace les (n − 1) xj par leurs nouvelles valeurs xk+1
j pour obtenir
 
n−1

1  k+1 
xk+1
n = bn − anj xj
ann
j=1
On aura ainsi obtenu le (k + 1)ème itéré
Mise en œuvre de l’algorithme à travers un exemple :

Soit le système linéaire Ax = b où
   
12 3 −5 1
A= 1 5 3  et b =  28 
3 7 13 76
Ici, on a A(3, 3), donc 3 inconnues [x1 , x2 , x3 ] donc 3 étapes dans chaque itération.
On choisit de partir de [x1 , x2 , x3 ] = [1, 1, 1]
1ère itération : on a x01 = x02 = x03 = 1.

1ère étape : la 1ère équation, donnée par la 1ère ligne de A est :
1 1
[12, 3, −5] · [x1 , x2 , x3 ] = 1 ⇒ x1 = (1 − 3x2 + 5x3 ) = (1 − 3 + 5)
12 12
= 0.25 = x11
2ème étape : la 2ème équation est :
1 1
[1, 5, 3]·[x1 , x2 , x3 ] = 28 ⇒ x2 = (28−x1 −3x3 ) = (28−1×0.25−3)
5 5
= 4.95 = x12
3ème étape : la 3ème équation est :

1
[3, 7, 13] · [x1 , x2 , x3 ] = 76 ⇒ x3 = (76 − 3x1 − 7x2 )
13
1
= (76 − 3 × 0.25 − 7 × 4.95) = 3.1231 = x13
13
2ème itération : À la fin de la 1ère itération, on a obtenu : x1 = (0.25, 0.95, 3.1231)
1ère étape :
1 1
x1 = (1 − 3x2 + 5x3 ) = (1 − 3 × 4.95 + 5 × 3.1231) = 0.1471 = x21
12 12
2ème étape :
1 1
x2 = (28 − x1 − 3x3 ) = (28 − 1 × 0.1471 − 3 × 3.1231) = 3.6967 = x22
5 5
3ème étape :
1 1
x3 = (76 − 3x1 − 7x2 ) = (76 − 3 × 0.1471 − 7 × 3.6967) = 3.8217 = x23
13 13
3ème itération : À la fin de la 2ème itération, on a obtenu :

x2 = (0.1471, 3.6967, 3.8217)
1ère étape :
1 1
x1 = (1 − 3x2 + 5x3 ) = (1 − 3 × 3.6967 + 5 × 3.8217) = 0.7515 = x31
12 12
2ème étape :
1 1
x2 = (28 − x1 − 3x3 ) = (28 − 1 × 0.7515 − 3 × 3.8217) = 3.1567 = x32
5 5
3ème étape :
1 1
x3 = (76 − 3x1 − 7x2 ) = (76 − 3 × 0.7515 − 7 × 3.1567) = 3.9730 = x33
13 13
Après la 3ème itération, on a obtenu : x3 = (0.7515, 3.1567, 3.9730)

De la 2ème itération à la 3ème , x1 est passé de 0.1471 à 0.7515, x2 de 3.6967 à 3.1567,
x3 de 3.8217 à 3.9730. On voit bien que x1 s’approche de 1, x2 de 3 et x3 de 4.
[1, 3, 4] est en effet la solution exacte A−1 b.
On peut calculer le taux de variation de xi , de l’itération k à l’itération k+1, et
constater que ce taux baisse au fil des itérations, c’est-à-dire que la solution converge
vers la solution exacte. On peut interrompre l’algorithme lorsqu’on juge que le taux
de variation maximum, pour tous les xi , est suffisamment faible.
Ainsi pour x2 ,
— on est passé, au départ de x02 = 1, à x12 = 4.95, soit un taux de variation de
4.95 − 1
× 100 = 79.7980 %
4.95
— de l’itération 1 à 2, x2 est passé de 4.95 à 3.6967, soit un taux de variation de
3.6967 − 4.95
× 100 = −33.9032 %
3.6967
— de l’itération 2 à 3, x2 est passé de 3.6967 à 3.1567, soit un taux de variation
de
3.1567 − 3.6967
× 100 = −17.1065 %
3.1567
Cette baisse est bien évidente : 79.80 %, 33.90 %, 17.11 %, . . .
Expression matricielle de l’algorithme

L’algorithme suppose que la matrice A se décompose en A = L + D + U où D
est la partie diagonale (les aii , L est sa partie triangulaire inférieure stricte (éléments
diagonaux nuls) et U sa partie triangulaire supérieure stricte.
Ax = (L + D + U )x = b ⇒ Lx + Dx + U x = b
⇒ (L + D)x = b − U x
⇒ x = (L + D)−1 (b − U x)
⇒ xk+1 = (L + D)−1 b − (L + D)−1 U xk
C’est pour cela que les propriétés de convergence de la méthode dépendent du spectre
de la matrice (L + D)−1 U .
Méthode de Jacobi
Cette méthode, très proche de la méthode de Gauss-Seidel, est due au mathéma-
ticien allemand, Carl G.J. Jacobi (1804-1851).
Comme la méthode précédente, la méthode de Jacobi est itérative. Elle est utilisée
pour résoudre des systèmes linéaires d’équations de la forme Ax = b.
La différence entre ces deux algorithmes est que, pour la méthode de Jacobi, à l’itéra-
tion k, on calcule les xki à partir des xk−1
i , alors que, comme on a vu, dans l’algorithme
de Gauss-Seidel, à l’itération k, pour calculer les xki , on utilise tous les xki qu’on vient
de trouver et les xk−1
i , pour les xi qui n’ont pas encore été calculés.
Exemple : Soit le système suivant :

     
 5x − y + 2z = 12 5 −1 2 x 12
3x + 8y − 2z = −25 ⇔  3 8 −2   y  =  −25 

x + y + 4z = 6 1 1 4 z 6
12 + y − 2z
De la 1ère équation, on tire : x = ,
5
−25 − 3x + 2z
de la 2ème équation, on tire : y = ,
8
6−x−y
de la 3ème équation, on tire : z = .
4
On part de (x0 , y 0 , z 0 ) = (0, 0, 0)
1ère itération :
12 + 0 − 2 × 0
x = = 2.4 = x1
5
−25 − 0 + 0
y = = −3.125 = y 1
8
6−0−0
z = = 1.5 = z1
4
2ème itération :
12 − 3.125 − 2 × 1.5
x = = 0.815 = x2
5
−25 − 3 × 2.4 + 2 × 1.5
y = = −3.65 = y2
8
6 − 2.4 + 3.125
z = = 1.68125 = z 2
4
3ème itération :
12 − 3.65 − 2 × 1.68125
x = = 0.9975 = x3
5
−25 − 3 × 0.815 + 2 × 1.68125
y = = −3.0103 = y 3
8
6 − 0.815 + 3.65
z = = 2.2088 = z3
4
On voit bien que l’algorithme est en  train de s’approcher de la solution exacte
1
[x, y, z] = [1, −3, 2]. En effet, A−1 b =  −3 
2
Cette méthode semble converger moins vite que la méthode précédente. Matricielle-
ment, la méthode de Jacobi consiste à décomposer la matrice A de la façon suivante :
A = D − L − U , où D est la matrice diagonale qui reprend la diagonale de A, L est
triangulaire inférieure stricte et U triangulaire supérieure stricte.
Dans l’exemple ci-dessus, on a :
 
5 −1 2
A =  3 8 −2  = D − L − U
1 1 4
     
5 0 0 0 0 0 0 1 −2
→ D =  0 8 0 , L =  −3 0 0  , U = 0 0 2 
0 0 4 −1 −1 0 0 0 0
L’itéré à k + 1, xk+1 est fonction de l’itéré précédent, xk :
xk+1 = D−1 b + D−1 (L + U )xk
On peut vérifier cet algorithme matriciel pour le passage de x2 à x3 :

x2 = [0.815, −3.65, 1.68125] et x3 = [0.9975, −3.0103, 2.2088]
x3 = D−1 b + D−1 (L + U )x2
On peut ainsi calculer
x4 = D−1 b + D−1 (L + U )x3 = [0.9144, −2.947, 2.0034]
Méthode de sur-relaxation successive (SOR)

Cette méthode est une variante de celle de Gauss-Seidel pour résoudre un système
d’équations linéaires. Sa convergence est plus rapide. Elle a été découverte simul-
tanément par les américains David M. Young Jr. (1923-2008) et Stanley P. Frankel
(1919-1978) pour résoudre automatiquement des systèmes linéaires avec l’ordinateur.
L’algorithme consiste à décomposer A en A = D + L + U où D, L et U sont de
mêmes natures que précédemment.
La formule de détermination de X k+1 à partir de X k est ici :
(D + ωL)X k+1 = ωb − [ωU + (ω − 1)D]X k
ω > 0. Il s’appelle facteur de relaxation. Pour ω = 1, on tombe sur la méthode de

Gauss-Seidel. On montre que pour une matrice A définie positive, l’algorithme est
convergent pour tout ω ∈]0, 2[.
2.6.5 Systèmes linéaires surdéterminés, les moindres carrés

Les systèmes linéaires sont utilisés comme modèles de relations entre une variable
observable, expliquée ou “réponse” et un groupe de variables observables, explicatives
ou de “prédicteurs”. Le modèle est ajusté aux variables observées, réponse et prédic-
teurs. Le modèle n’ajuste pas exactement les observations, car d’autres prédicteurs
que ceux considérés interviennent pour expliquer les réponses, car des erreurs de me-
sure sont fréquentes. En plus, la relation entre les variables peut être non linéaire,
. . . C’est pour cela que le nombre d’observations considérées est plus grand que le
nombre de variables inconnues du système. Le système comporte ainsi beaucoup
plus d’équations que de variables. Il s’agit de systèmes surdéterminés pouvant être
écrits (en statistique) :
Xb ≈ y
où X est une matrice n × m et rg[X|y] > m. Le système est ainsi non consistant. Le
problème ici est de déterminer b qui rapproche l’approximation (de y par Xb). C’est
un problème d’ajustement du système. Et le système est désigné par “modèle”.
Lorsqu’il s’agit d’ajuster une équation à des données, on a affaire à des systèmes sur-
déterminés. La régression linéaire est un système surdéterminé. L’ajustement d’équa-
tions aux données est une partie importante de l’inférence statistique.
Dans le système Xb ≈ y, la ligne i correspond à la relation :
yi ≈ b1 x1i + . . . + bm xmi
On peut vouloir introduire une constante et avoir :
yi ≈ b0 + b1 x1i + . . . + bm xmi
Pour ce faire, on peut ajouter à X une colonne des 1. La matrice X devient (n ×

(m + 1)). Si l’on considère que y = 0 correspond à x = 0 exactement, c’est que le
modèle ne comporte pas de constante.
Souvent, on suppose que la relation est exacte entre la moyenne de y, ȳ, et la moyenne
de x, x̄. Cette supposition est d’ailleurs une conséquence du choix de la méthode des
moindres carrés ordinaires.
Nous avons dit , ci-dessus, que le modèle d’ajustement statistique est un système
linéaire surdéterminé. Il s’agit de faire d’un système (de plusieurs équations) une
seule équation :
Xb = y − r
où r est le vecteur (n × 1) des résidus ou erreurs.
La solution b des moindres carrés du système Xb ≈√y est telle que la norme eucli-
dienne du vecteur des résidus soit minimisée r = r r.
b est la solution du problème min y − Xb2
b
Le carré de la norme r est r r = (y − Xb) (y − Xb).
Pour minimiser la norme ou son carré, il faut annuler la dérivée par rapport à b
r r = (y − Xb) (y − Xb)
= (y − b X )(y − Xb)
= y y − y Xb − b X y + b X Xb
= y y − 2y Xb + b X Xb (y Xb = b X y : scalaire)
dr r dr r
=0 ⇒ = 0 − 2X y + 2X Xb = 0
db db
⇒ X y = X Xb

⇒ b = (X X)−1 X y
X Xb = X y : ce système est appelé système des équations normales. X X est la
matrice de Gram. La qualité de la solution dépend du conditionnement de la matrice
X X, lequel est le carré de celui de X. Toute information fournie par X X peut être
fournie par X. On peut donc travailler directement avec X.
Cette solution des moindres carrés a des propriétés utiles :
Le vecteur des résidus (y − Xb) est orthogonal à chaque colonne de X :
X (y − Xb) = X y − X Xb = 0
(les produits scalaires de colonnes de X par le vecteur des résidus sont nuls).
Lorsqu’on introduit, dans X, la colonne des 1, pour avoir une constante, le produit
scalaire du vecteur des résidus par la colonne des 1 est nul et donc la somme des
résidus est nulle.
Une autre conséquence pour les modèles à constante est que la solution des moindres
carrés donne ajustement exact pour les moyennes de y et des x (moyenne nulle des
résidus).
Dans ce qui précède, pour déterminer la solution des moindres carrés, les éléments de
X et y ont été traités sur un pied d’égalité. Il peut en être autrement et considérer que
les yi et les lignes Xi ne doivent pas compter de la même manière dans l’ajustement.
Dans ce cas, on a des poids ωi , soit un vecteur de poids ω, affectés aux différentes
lignes de X et aux différents yi . Il s’agit là de moindres carrés pondérés. On cherche
là à minimiser la somme des carrés des résidus pondérés : (y − Xb) W (y − Xb) où
W est définie positive. C’est une version du problème presque similaire.
On peut imaginer qu’il n’y a pas que la méthode des moindres carrés pour résoudre
un système linéaire surdéterminé comme celui des statisticiens de l’ajustement.
Au lieu, par exemple, de considérer la norme euclidienne des résidus à minimiser, on
peut choisir d’autres normes : la somme des valeurs absolues des résidus, la norme
L∞ du vecteur des résidus, Lp , . . .
On peut aussi choisir de minimiser les distances orthogonales.
Chapitre 3
Calcul différentiel et intégral
3.1 Introduction
Le calcul infinitésimal, appelé calculus tout simplement en anglais, également
appelé calcul différentiel et intégral en français, a été inventé par les deux mathéma-
ticiens Isaac Newton (né en 1642 et décédé en 1726 en Angleterre) et Gottfried
Wilhelm Leibniz (1646 – 1716 en Allemagne).
Les historiens des mathématiques remontent, pour les premières notions en la
matière, à Archimède de Syracuse (grec ancien, 287 – 212 av. J .C., Sicile) pour sa
méthode d’exhaustion permettant de calculer l’aire sous un arc de parabole avec la
somme d’une série infinie. Ils remontent aussi à l’école de Kerala, en Inde, au 14ème
siècle pour son développement en série entière des fonctions trigonométriques. Cette
école n’a cependant pas développé des méthodes d’intégration et de différentiation
(ou de dérivation).
C’est en Europe, au 17ème siècle, que le traitement de deux problèmes, celui de
la tangente et celui de la quadrature, vont mobiliser les mathématiciens.
Le premier problème qui consiste à trouver les différentes tangentes à une courbe
donnée aboutit à la notion de dérivée. Le second problème qui consiste à calculer
l’aire engendrée par une courbe, aboutit à la notion d’intégrale. Plusieurs mathéma-
ticiens ont donc travaillé sur ces problèmes et ont apporté leur contribution à leurs
résolutions. C’était d’abord des Italiens avec Cavalieru, Torricelli, Mengoli
et Angeli ; puis les anglais Gregory, Wallis, Barrow et Newton. Il y a eu
aussi des français, Pascal, Descartes, Roberval et surtout Pierre de Fermat
(1601 – 1665). Ce dernier, pour donner l’équation de la tangente à une courbe, dé-
veloppe en 1636 une méthode qui n’est autre que la limite et la dérivation dont les
noms ne seront forgés que postérieurement (il faudra attendre Lagrange pour le
terme “dérivée”). C’est le mathématicien hollandais Christiaan Huygens (1629 –
1695) qui a le mieux expliqué cette méthode nouvelle et incomprise de Fermat, à
l’Académie française des sciences en 1667. C’est Huygens qui, dans sa communi-
cation à l’Académie des Sciences, a parlé pour la première fois de l’infiniment petit
(infinitésimal). Huygens rencontre Leibniz à Paris en 1672 et l’initie au problème
de la tangente qu’il traite alors en philosophie. Leibniz comprend vite que la dérivée
62 Chapitre 3. Calcul différentiel et intégral
correspond au coefficient directeur de la tangente et qu’elle est l’inverse de l’inté-

grale, somme d’infiniment petits. Il crée ainsi une véritable algèbre des infiniment
petits, mais aussi sa philosophie consistant à considérer que l’univers est constitué
de composants infiniment petits.
Quant à Isaac Newton, c’est de Walis et Barrow qu’il s’inspire pour traiter
les problèmes de la tangente et de la quadrature. Il lie assez vite ces deux problèmes.
Mais il utilise un vocabulaire de fluentes et de fluscions ainsi que des notations
qui n’ont pas été retenus en mathématiques. C’est en physicien qu’il a abordé ces
questions et c’est en termes de vitesse, de temps et de distance qu’il les a traitées.
Les notions dégagées aussi bien par Newton que par Leibniz n’étaient pas
encore précises et les raisonnements menés par eux n’étaient pas encore rigoureux.
Ils font l’objet de critiques et de disputes. Descartes critique Fermat et Newton
accuse Leibniz de plagiat.
Il a fallu attendre Cauchy, Augustin-Louis (1789 – 1857) en France et Karl
Weierstrass (1815 – 1897) en Allemagne, pour avoir une conception précise des
notions de limite et de continuité nécessaires pour que l’analyse classique (calculus)
démarre sur des bases solides.
3.2 Dérivées et règles de dérivation
Soit f une fonction réelle à valeurs réelles définie sur un ensemble d’intervalles de
R dont la réunion est le domaine de définition Df . Soit x0 ∈ Df . Pour tout h ∈ R∗
tel que [x0 , x0 + h] ⊂ Df , on appelle taux d’accroissement de f en x0 et avec un pas
de h la quantité :
f (x0 + h) − f (x0 )
tx0 (h) =
h
Exemple : f définie par f (x) = x2 , Df = R. Soit x0 = 1. Si h = 0.1, on a le taux

d’accroissement de f en x0 = 1 avec un pas de h = 0.1 :
f (1 + 0.1) − f (1) (1.1)2 − 12 1.21 − 1 0.21

t1 (0.1) = = = = = 2.1
0.1 0.1 0.1 0.1
En général pour f (x) = x on a :
(x0 + h)2 − x20 x2 + 2hx0 + h2 − x20

tx0 (h) = = 0 = 2x0 + h
h h
On peut voir que ce taux d’accroissement de f est le coefficient directeur de la droite

reliant les deux points sur la courbe de f d’abscisses x0 et x0 + h (leurs ordonnées
sont f (x0 ) et f (x0 + h) respectivement).
On voit que la tangente de α,
sinα f (x0 + h) − f (x0 ) BC

tgα = = =
cosα h AC
On voit aussi que si h diminue, le point B va se rapprocher du point A . Autrement
dit, lorsque h tend vers 0, le point B va tendre à coïncider avec A et la droite ∆ va
correspondre à la tangente de la courbe de f en A.
On a vu que la droite ∆ a pour coefficient directeur, le taux d’accroissement de
f en A. Ainsi, lorsque h tend vers 0, ce taux d’accroissement tend à coïncider avec
le coefficient directeur de la tangente en A à la courbe de f . Dans ce cas, on dit que
f est dérivable en x0 et que le nombre dérivé de f en x0 est égal à la limite finie
de ce taux d’accroissement correspondant au coefficient directeur de la tangente en
A (x0 , f (x0 )) à la courbe de f . Ce nombre dérivé est noté f (x0 ). D’où
f (x0 + h) − f (x0 )
f (x0 ) = lim tx0 (h) = lim
h→0 h→0 h
Pour f (x) = x2 , le nombre dérivé en x0 = 1 est lim (2x0 + h) = 2x0 = 2.

h→0
Nous venons de voir la dérivée d’une fonction en un point (x0 ), ou le nombre
dérivé, et la dérivabilité d’une fonction en un point, la dérivabilité locale. Si une
fonction est dérivable en tout point d’un intervalle, on peut définir sa fonction dérivée
sur cet intervalle. C’est la fonction qui prend en tout point de Df la valeur du nombre
dérivé de f en ce point. C’est :
f (x + h) − f (x)
f (x) = lim
h→0 h
Cette notation f (a) (f prime) vient de Lagrange. La notation de Leibniz est

df (a) df
ou .
dx dx x=a
La notation de Newton, retenue en physique, est f˙(a) pour une fonction du temps
t. La notation d’Euler est Dx f (a).
Ainsi,
— pour f (x) = x,
f (x + h) − f (x) x+h−x
f (x) = lim = lim =1
h→0 h h→0 h
— pour f (x) = kx, k constante,
f (x + h) − f (x) k(x + h) − kx
f (x) = lim = lim =k
h→0 h h→0 h
— pour f (x) = cte,
c−c
f (x) = lim =0
h→0 h
— pour f (x) = x2 , f (x) = 2x vu là haut
— pour f (x) = x3 ,
(x + h)3 − x3 x3 + 3x2 h + 3xh2 + h3 − x3

f (x) = lim = lim
h→0 h h→0 h
2 2
2
= lim 3x + 3xh + h = 3x
h→0

On vient de voir que (x) = 1 = 1.x1−1 ; x2 = 2.x2−1 = 2x ; x3 = 3.x3−1 = 3x2 .
On montre ainsi que (voir ci-dessous) :
(xn ) = nxn−1 .
Cherchons maintenant la dérivée de la somme de deux fonctions : f (x) = g(x) + k(x)

La dérivée de f (x) :
f (x + h) − f (x)
f (x) = lim
h→0 h
[g(x + h) + k(x + h)] − [ g(x) + k(x) ]
= lim
h→0 h
[g(x + h) − g(x)] + [ k(x + h) − k(x) ]
= lim
h→0 h
g(x + h) − g(x) k(x + h) − k(x)
= lim + lim
h→0 h h→0 h
= g (x) + k (x)
D’où la dérivée de la somme de deux fonctions est la somme de leurs dérivées :

[g(x) + k(x)] = g (x) + k (x)
La dérivée d’un produit de deux fonctions f (x) = u(x) · v(x) :

f (x + h) − f (x)
f (x) = lim
h→0 h
[u(x + h) · v(x + h) − u(x) · v(x)]
= lim
h→0 h
u(x + h) · v(x + h) − u(x) · v(x) + u(x + h) · v(x) − u(x + h) · v(x)
= lim
h→0 h
u(x + h) [v(x + h) − v(x)] + v(x) [u(x + h) − u(x)]
= lim
h→0 h
u(x + h) [v(x + h) − v(x)] v(x) [u(x + h) − u(x)]
= lim + lim
h→0 h h→0 h
v(x + h) − v(x) u(x + h) − u(x)
= lim u(x + h) · lim + lim v(x) · lim
h→0 h→0 h h→0 h→0 h
= u(x) · v (x) + v(x) · u (x)
Ainsi :
(uv) = u v + uv

Nous pouvons reprendre la dérivée de xn . Nous avons vu que x3 = 3 · x2
Dérivée de x4 = x3 · x : (x4 ) = (x3 · x) = 3x2 · x + x3 · (x ) = 4x3

Dérivée de x5 = x4 · x : (x5 ) = (x4 · x) = 4x3 · x + x4 · 1 = 5x4
On montre avec un raisonnement par récurrence que
(xn ) = n · xn−1

en posant xn−1 = (n − 1) · xn−2 . Dans ce cas

xn = xn−1 · x, xn−1 · x = (n − 1).xn−2 · x + xn−1 · 1 = n · xn−1 .
u(x)
Dérivée du rapport de deux fonctions f (x) =
v(x)
f (x + h) − f (x)
f (x) = lim
h→0 h
u(x + h) u(x)
−
v(x + h) v(x)
= lim
h→0 h
v(x) · u(x + h) − u(x) · v(x + h)
v(x + h) · v(x)
= lim
h→0 h
v(x) · u(x + h) − u(x) · v(x + h)
= lim
h→0 h · v(x) · v(x + h)
1 v(x) · u(x + h) − u(x) · v(x + h)

f (x) = lim ·
h→0 v(x + h) · v(x) h
1 u(x + h) · v(x) − u(x) · v(x) + u(x) · v(x) − u(x) · v(x + h)

= lim ·
h→0 v(x + h) · v(x) h
1 v(x) · [u(x + h) − u(x)] − u(x) · [v(x + h) − v(x)]
= lim ·
v(x + h) · v(x)
h→0 h

1 v(x) · [u(x + h) − u(x)] u(x) · [v(x + h) − v(x)]
= lim lim − lim
h→0 v(x + h) · v(x) hto0 h hto0 h

1 1 u(x + h) − u(x) v(x + h) − v(x)
= v(x) · lim − u(x) · lim
v(x) lim v(x + h) h→0 h h→0 h
h→0
1
= 2 · v(x) · u (x) − u(x) · v (x)
v (x)
D’où :
u u v − uv
=
v v2
Dérivée de la puissance d’une fonction : g(x) = f 2 (x) = f (x).f (x)
g (x) = f (x).f (x) + f (x).f (x) = 2.f (x).f (x)

D’où : u2 = 2u.u

f 3 (x) = f 2 (x).f (x) −→ f 3 (x) = f 2 (x) .f (x) + f 2 (x).f (x) =

2.f (x).f (x) f (x) + f 2 (x).f (x) = 3f 2 (x).f (x)
On déduit ainsi que :

(un ) = n.un−1 u
Dérivée d’une fonction multipliée par une constante k :

[k.f (x)] = k .f (x) + k.f (x) = 0.f (x) + k.f (x)
Ainsi
(ku) = ku
Pour calculer la dérivée de fonctions logarithmitiques, il faut se rappeler les propriétés

des logarithmes ainsi que celles des fonctions exponentielles et se rappeler que y =
ln(x) ⇐⇒ x = ey . Pour rappeler l’essentiel de ces propriétés :
y = ln(1) ⇐⇒ 1 = ey =⇒ y = 0 ; D’où ln(1) = 0

On sait que : e(n1 +n2 ) = en1 .en2 . Donc, pour a et b réels positifs :
y = ln(a.b) =⇒ ab = ey = e(y1 +y2 ) = ey1 .ey2 avec y = y1 + y2
=⇒ a = ey1 et b = ey2
=⇒ y1 = ln(a) et y2 = ln(b)
=⇒ y = ln(a.b) = y1 + y2 = ln(a) + ln(b)
D’où :
ln(a.b) = ln(a) + ln(b)
On sait aussi que : (en1 )n2 = en1. n2 . Donc, pour x réel positif :
y = ln (xn ) =⇒ xn = ey
y
=⇒ (x1 )n = (e n )n
y
=⇒ x = e n
y
=⇒ = ln(x)
n
=⇒ y = n ln(x)
D’où
ln (xn ) = n · ln(x)

On en déduit que : ln x−1 = − ln(x). Et donc :
a
ln = ln(a) − ln(b)
b
Utilisons ces propriétés pour calculer la dérivée de ln(x) :

x+h
ln
ln(x + h) − ln(x) x 1 h
(ln(x)) = lim = lim = lim ln 1 +
h→0 h h→0 h h→0 h x
1 h 1
= lim · =
h→0 h x x
En effet : lim ln(1 + h) = h
h→0
Dérivée de f (x) = ex :

ex+h − ex ex eh − ex ex e h − 1
f (x) = (ex ) = lim = lim = lim
h→0 h h→0 h h→0 h
eh − 1
= ex lim = ex
h→0 h
Donc
(ex ) = ex
3.3 Règle de dérivation de fonctions composées (Chain

rule)
Il s’agit de dériver f (u(x)), f est une fonction de u laquelle u est une fonction
de x.
En adoptant les notations de Leibniz et son algèbre des infiniment petits, cela
devient un jeu d’enfant :
df (u(x)) df du
= · = f (u) · u (x)
dx du dx
Ainsi si f (u(x)) = ln(y) avec y = x2 (c’est-à-dire f (x) = ln(x2 ))
df dy 1 2x 2
ln(x2 ) = · = · (2x) = 2 =
dy dx y x x
1
On sait aussi que ln(x2 ) = 2 ln(x) et que (ln(x)) = , d’où : (ln(x2 )) = 2(ln(x)) =
x
1 2
2 = . Donc :
x x
1 dy y
[ln(y(x)] = · = .
y dx y
Il est facile de reprendre les démonstrations précédentes concernant le produit et le
rapport de fonctions, en utilisant ce théorème de dérivée de fonctions composées.
Calculons la dérivée de z(x) pour z = f (y) = y 2 + y avec y = g(x) = 2x + 1. On
vient de voir que :
dz dz dy
= .
dx dy dx

 dz
2  = 2y + 1
z =y +y dy
⇒
y = 2x + 1  dy = 2

dx
dz dz dy
⇒ = . = (2y + 1)2 = 2 [2(2x + 1) + 1] = 8x + 6
dx dy dx
⇒ z (x) = 8x + 6
z = y2 + y
⇒ z(x) = (2x + 1)2 + (2x + 1) = 4x2 + 6x + 2
y = 2x + 1
⇒ z (x) = 8x + 6
Calculons la dérivée de √
x+1
z(x) = √
( x + 1 + 1)2
On peut le faire en appliquant la règle de la dérivée d’un rapport de deux fonctions
u(x)
et pour calculer v (x), on appliquera la règle de la dérivée d’une puissance de
v(x)
fonction un (x).
Appliquons toutefois le théorème de la règle d’enchaînement concernant les fonc-

√ y
tions composées en posant par exemple y(x) = x + 1. Dans ce cas z(x) = .
(y + 1)2
dz dy
On sait que z (x) = .
 √ dy dx

 y = x + 1


y

 z(y) =

 (y + 1)2


 dy 1 1 1

 = (x + 1)− 2 = √

 dx 2 2 x+1



 2
 dz 1. (y + 1) − 2.(y + 1).y y 2 + 2y + 1 − 2y 2 − 2
=⇒ = 4
=
 dy (y + 1) (y + 1)4





 −y 2 + 1 1−y

 = =

 (y + 1) 4 (y + 1)3
√
dz dy 1−y 1 1− x+1
=⇒ z (x) = . = . √ = √ √
dy dx (y + 1)3 2 x + 1 ( x + 1 + 1)2 .2 x + 1
3.4 Intégrale et intégration

Soit une fonction f définie dans un intervalle [a, b] . Supposons que la courbe de
f (x) se présente ainsi (dans cet intervalle) :
Quelle est l’aire comprise entre l’axe des x, la courbe de y = f (x) et les droites
verticales y = a et y = b ?
Nous pouvons calculer approximativement cette aire en la décomposant en une

“infinité”de rectangles de largeur dx (avec a ≤ x ≤ b) et de hauteur f (x) (ou f (x) +
f (x + h) : avec h infiniment petit). Il s’agira ensuite de faire la somme des aires de
ces rectangles, lesquelles aires sont égales aux produits de dx par f (x), soit f (x).dx.
L’aire en question est donc égale à la somme de ces produits de f (x) par des
variations infiniment petites de x, de x = a jusqu’à x = b. Ces produits sont à un
nombre infini. On écrit ainsi que cette aire est :
b
I= f (x).dx, intégrale def (x) de x = a à x = b
a
Définition : une fonction F est appelée primitive (ou anti-dérivée) de f dans l’in-
tervalle [a, b] si l’on a F (x) = f (x) pour tout x, a < x < b.
1 1
Exemple : F (x) = x3 est une primitive de f (x) = x2 . Mais, G(x) = x3 + 22 est
3 3
1
également une primitive de f (x). En fait, toute fonction x3 +c, avec c une constante
3
quelconque, est une primitive de f (x) = x2 .
Théorème fondamental du calcul infinitésimal (TFCI)

b
Si f est une fonction dont l’intégrale f (x)dx existe et si F est une primitive
a
de f dans l’intervalle [a, b], alors :
b
f (x)dx = F (b) − F (a)
a
On écrit aussi
b
F (b) − F (a) = [F (x)]bx=a = [F (x)]ba = F (x)a
Ce théorème peut être scindé en deux parties :
1ère partie du TFCI :

f une fonction continue sur [a, b] et g une fonction définie sur [a, b] par g(x) :=
x
f . Alors g est dérivable sur [a, b] et pour tout x ∈ (a, b) , on a : g (x) = f (x). La
a
dérivée de g à droite de a est f (a) et la dérivée de g à gauche de b est f (b).
Démonstration : Les 3 propriétés suivantes de l’intégrale sont utilisées :

b
1. Si f est continue sur [a, b], alors f existe (évidente) ;
a
c b b
2. Si f est continue sur [a, b] et a ≤ c ≤ b alors f+ f= f (l’aire entre a
a c a
et b est la somme des deux aires entre a et c et entre c et b) ;
b
3. Si m ≤ f ≤ M sur [a, b], alors (b − a)m ≤ f ≤ (b − a)M (en prenant
a
b
m = f (a) et M = f (b), il est évident que l’aire hachurée f est comprise
a
entre le rectangle minimal de hauteur m = f (a) et de largeur (b − a) et le
rectangle maximal de hauteur M = f (b) et de même largeur (b − a). L’aire
hachurée a la même largeur (b − a), mais sa hauteur est variable, croissant
dans notre cas de m à M ).
Preuve de la 1ère partie : Soit x un point dans l’intervalle [a, b]. Par définition,
g(x + h) − g(x)
g (x) = lim
h
h→0
 
x
La propriété 2 ci-dessus donne g(x) := f  :
a

x+h x
x+h
x+h
g(x + h) − g(x) 1
g(x + h) − g(x) = f− f= f =⇒ = f
h h
a a x x
La limite de l’aire située entre x et x + h et divisée par h lorsque h tend vers zéro
n’est autre que f (x), donc g (x) = f (x).
Partie 2 du TFCI :
f , fonction continue sur [a, b]. Supposons que F est continue sur [a, b] et que
F = f sur (a, b). Alors
b
f = F (b) − F (a)
a
 
x
Preuve : Considérons g de la première partie g (x) = f (x) g(x) = f . F et g
a
sont dérivables et on sait que F (x) = f (x) = g (x) dans l’intervalle (a, b). F et g
diffèrent alors par une constante c. D’où
b a b
F (b) − F (a) = [g(b) + c] − [g(a) + c] = g(b) − g(a) = f− f= f
a a a
Donc
b
f = F (b) − F (a)
a
puisque F est une primitive de f .

Le théorème fondamental du calcul dit que pour calculer l’intégrale d’une fonction
f sur un intervalle [a, b], il faut d’abord trouver une primitive F de f . En pratique,
le problème de détermination d’une intégrale est celui de trouver une primitive :
b
f (x)dx = F (b) − F (a)
a
On note ainsi la primitive pour simplifier le calcul de l’intégrale :

F (x) = f (x)dx
Ainsi
1 1
.dx = ln(x), ex .dx = ex , x2 .dx = x3 , ...
x 3
L’intégrale ici n’est pas une intégrale entre a et b. Il s’agit d’une intégrale indéfinie.
b
f (x).dx est une fonction de x, alors que l’intégrale définie. f (x).dx est un
a
nombre, une aire. En réalité :

f (x).dx = F (x) + c (si F est une primitive de f ).
Propriétés des intégrales :

1. La dérivée de la somme de deux fonctions est la somme des dérivées de ces
deux fonctions :

(f (x) + g(x)).dx = f (x).dx + g(x).dx
2. La dérivée a cette propriété

c.f (x).dx = c. f (x).dx
3. pour a < c < b

c b b
f (x).dx + f (x).dx = f (x).dx
a c a
car F (b) − F (a) = (F (c) − F (a)) + (F (b) − F (c))

x x
4. Soit g(x) = f (t).dt. On sait que f (t).dt = F (x) − F (a) (TFC )
a a
x
d d
g (x) = f (t).dt = [F (x) − F (a)] = F (x)
dx dx
a
(F (x) primitive de f (x))
Méthode de Monte Carlo de calcul d’une intégrale La méthode de Monte
Carlo s’appuie sur les probabilités et recourt à l’ordinateur. Elle est ainsi appelée
car elle utilise le hasard, comme dans les casinos de la cité-Etat de Monaco ou de
Monte-Carlo.
Cette méthode a été proposée par S. Ulam et N. Metropolis dans un papier
intitulé “the Monte Carlo Method”publié en septembre 1949 par le “Journal of the
American Statistical Association”, Vol. 44, N˚, 247.
b
Pour le calcul de l’intégrale f (x).dx, la méthode consiste à prendre au hasard
a
un point c dans l’intervalle [a, b] et à calculer (b − a)f (c), comme si la fonction f (x)
était constante entre a et b et égale à f (c). On répète un grand nombre de fois cette
expérience et on calcule la moyenne des intégrales ainsi calculées avec les différents
points situés dans l’intervalle et puis au hasard. Cette moyenne tendra d’autant plus
vers l’intégrale recherchée que le nombre de points pris est élevé.
3.5 Méthodes d’intégration

En dehors de la méthode immédiate qui s’applique aux cas où, soit la fonction à
intégrer se trouve dans le tableau des primitives usuelles, soit elle se ramène, moyen-
nant une manipulation simple, au tableau des primitives usuelles, comme

x+2 1
dx = 1dx + dx = x + ln(x + 1) + cte,
x+1 x+1
en dehors de cette méthode immédiate, il existe deux méthodes d’intégration : in-

tégration par parties et intégration par changement de variable. Commençons par
cette dernière.
3.5.1 Méthode de changement de variable (ou de substitution)

Elle consiste à appliquer la formule de dérivation des fonctions composées
df (u(x)) df (u) du(x)

= · = f (u) · u (x)
dx du dx
D’où
df (u(x)) = f (u) · u (x).dx =⇒ f (u(x)) = f (u) · u (x) · dx
Donc pour intégrer une fonction, f (x), on peut la mettre sous la forme f (u) · u (x)
en posant u = h(x), passant ainsi d’une fonction de x à une fonction de u. C’est cela
le changement de variable.
Exemples de substitution linéaire u = ax +

b
On veut intégrer (x + 4)5 , on cherche donc (x + 4)5 · dx. Posons
du
u=x+4 =⇒ u = 1 =
=⇒ du = dx.
dx

En substituant u à x, le problème revient à chercher u5 · du. Il est évident que

u6 1
u5 · du = + cte = (x + 4)6 + cte
6 6

Calculons cos(5x + 2) · dx. Posons alors u = 5x + 2 donc
1
u = 5 =⇒ du = 5 · ·dx =⇒ dx = · du
5

1
Substituons u à x dans l’intégrale. Elle devient cos(u) · · du. Il s’agit donc de
5
1
calculer cos(u) · du. On sait que (sin(u)) = cos(u) et donc qu’une primitive de
5
cos(u) est sin(u) + cte. D’où :

1 1 1
cos(u) · du = sin(u) + cte = sin(5x + 2) + cte
5 5 5
On peut généraliser ce résultat, obtenant

1
cos(ax + b) · dx = · sin(ax + b) + cte
a
et donc, que
1
sin(ax + b) · dx = − · cos(ax + b) + cte,
a
(puisque : (cos(x) = − sin(x) =⇒ −(cos(x) = sin(x)).
1 1
Calculons · dx. Posons u = 1 + 3x donc, u = 3 =⇒ dx = du.
1 + 3x 3
Substituons pour obtenir

1 1 1 1 du 1 1
· dx = · · du = = ln |u| + cte = ln |1 + 3x| + cte
1 + 3x u 3 3 u 3 3
On peut aussi généraliser ce résultat :

1 1
· dx = · ln |ax + b| + cte
ax + b a
Calcul d’une intégrale définie par substitution :

2
Soit (7x + 2)3 · dx. Posons u = 7x + 2 donc u = 7 =⇒ dx = 1
7 · du et lorsque x
1
varie de 1 à 2, u varie de 9 à 16. En substituant u à x, on obtient
16 16
1 3 1 1 u4 16 1 1
u du = u3 du = · = · · (164 − 94 )
7 7 7 4 9 7 4
9 9
16
1 3 1 1 2 1
u du = (65536 − 6561) = 2106.25 = (7x + 2)4 1 = (164 − 94 )
7 28 28 28
9
Exemples de substitution non linéaire

On veut calculer f (g(x)) · g (x)) · dx en substituant u = g(x). Calculons 3x2 ·

1 + x3 · dx. En posant
u = x3 + 1, on a u (x) =
3x .
2
du
Substituons u à x = 3x2 =⇒ du = 3x2 · dx
dx

√
3x2 · 1 + x3 · dx = 1 + x3 · 3x2 · dx = u · du
On sait que
3
3 3 3 1 3√ 2 3 √
u2 = u 2 −1 = · u 2 = u ⇐⇒ · u 2 = u
2 2 2 3
D’où
√
2 3 2 3
udu = u 2 + cte = · (x3 + 1) 2 + cte
3 3

Ainsi, si on veut calculer f (g(x)) · g (x) · dx , on substitue u = g(x) et on aura à

calculer f (u)· du (car du = g (x) · dx)
2x
Calculons √ · dx. On voit que si on pose u(x) = x2 + 1, on obtient
x2 + 1
u (x) = 2x, d’où l’intégrale ci dessus est ramenée à la forme f (g(x)) · g (x) · dx .
Dans ce cas, on a à calculer

1 √
√ · du = 2 u + cte = 2 x2 + 1 + cte
u
3.5.2 Intégration par parties

Cette méthode consiste à appliquer la règle de dérivation d’un produit de fonction

(uv) = u v + uv =⇒ (uv) = u v + uv = uv =⇒ u v = (uv) − uv

du d(uv) dv
·v = − u =⇒ v · du = u · v − u · dv
dx dx dx
Exemples :

1. Calculons ln(x) dx ou intégrons par parties ln(x). Pour ce faire, posons
v = ln(x) et du = dx, donc u = x. On obtient :

1
v du = ln(x) dx = uv − u dv = x ln(x) − x · dx
x

dv 1
car dv = dx = dx
dx x

=⇒ ln(x) dx = x ln(x) − dx = x ln(x) − x + cte
Donc
ln(x) dx = x(ln(x) − 1) + cte

x4
2. Calculons x3 ln(x) dx. Posons u = ln(x) et dv = x3 dx =⇒ v = et
4
dx
du = .
x
3
x ln(x) dx = u dv = uv − v du

x4 x4 1
= ln(x) − dx
4 4 x

x4 x3
= ln(x) − dx
4 4
x4 x4
= ln(x) − + cte
4 16
3. Parfois, il faut répéter l’intégration par parties pour arriver à intégrer une
fonction : considérons x2 sin(x) dx. Posons u = x2 =⇒ du = 2x dx et
dv = sin(x) dx =⇒ v = − cos(x). D’où

x2 sin(x) dx = u dv

= −x2 cos(x) − − cos(x) 2x dx

= −x2 cos(x) + 2 x cos(x) dx
Posons à nouveau u = x =⇒ du = dx et dv = cos(x) dx =⇒ v = sin(x).

D’où

x cos(x) dx = u dv

= uv − v du

= x sin(x) − sin(x) dx
= x sin(x) + cos(x) + c
En définitive

x2 sin(x) dx = −x2 cos(x) + 2x sin(x) + 2 cos(x) + c
Récapitulatif sur la dérivée

Règles de dérivation : soit c une constante quelconque
[c.y(x)] = c.y (x) [f (x) ± g(x)] = f (x) ± g (x)
(xn ) = nxn−1 (c) = 0
u u v − uv
(uv) = u v + uv =
v v2
df df dg
[f (g(x))] = f (g(x)) · g (x) =⇒ = ·
dx dg dx
u (x)
eu(x) = u (x) · eu(x) [ln(u(x))] =
u(x)
Dérivées usuelles
d(c) d(x) d(cx) d(xn ) d(cxn )

= 0; = 1; = c; = n.xn−1 ; = n.c.xn−1 ;
dx dx dx dx dx
1
(sin(x)) = cos(x) ; (cos(x)) = − sin(x) ; (tg(x)) = ;
cos2 (x)
sin(x) cos2 (x) + sin2 (x) 1
tg(x) = et donc (tg(x)) = =
cos(x) cos2 (x) cos2 (x)

1 hypothénuse
secante(x) = sec(x) = et donc (tg(x)) = sec2 (x) ;
cos(x) coté adjacent
0 × cos(x) − (− sin(x)) × 1 sin(x) 1
(sec(x)) = 2
= = tg(x) · sec(x);
cos (x) cos(x) cos(x)

1 − sec2 (x) 1
(cotg(x)) = = 2 (x)
=− 2 = − csc2 (x)
tg(x) tg sin (x)
1
cosécante(x) =
sin(x)

1 − cos(x) cos(x) 1
(csc(x)) = − csc(x) · cotg(x) = = =− ·
sin(x) sin2 (x) sin(x) sin(x)
(ax ) = ax ln(a) (y = ax ⇐⇒ y = ex ln(a) =⇒ y = ln(a)ex ln(a) = ln(a)y)
1 1
(ex ) = ex ; (ln(x)) = pour x > 0 ⇐⇒ lnx = pour x = 0
x x
Récapitulatif sur l’intégrale

Règles d’intégration : Soit c une constante quelconque

c f (x) dx = c f (x) dx [f (x) ± g(x)] dx = f (x) dx ± g(x) dx
b
b
f (x) dx = F (x)a = F (b) − F (a) où F (x) = f (x) dx
a
b b b b b
c f (x) dx = c f (x) dx [f (x) ± g(x)] dx = f (x) dx ± g(x) dx
a a a a a
a b a
f (x) dx = 0 f (x) dx = − f (x) dx
a a b
b c b b
f (x) dx = f (x) dx + f (x) dx c dx = c(b − a)
a a c a
b
si f (x) ≥ 0 sur a ≤ x ≤ b, alors f (x) dx ≥ 0
a
b b
si f (x) ≥ g(x) sur a ≤ x ≤ b, alors f (x) dx ≥ g(x) dx
a a
Intégrations usuelles

1
dx = x + c ; k dx = kx + c ; xn dx = xn+1 + c ; (n = −1)
n + 1
1 1
dx = lnx + c ; x−1 dx = lnx + c ; x−n dx = x−n+1 + c (n = 1)
x −n +1
1 1 a 1 a
dx = ln |ax + b| + c ; x b dx = a x b +1 + c ; cos(x) dx = sin(x) + c
ax + b a + 1
b
ax
sin(x) dx = − cos(x) + c ; ex dx = ex + c ; ax dx = + c;
ln(a)
1
ln(x) dx = x ln(x) − x + c, x ex dx = (x − 1) ex + c ; dx = lnln(x) + c
x ln(x)

eax
eax sin(bx) dx = (a sin(bx) − b cos(bx)) + c
a2 + b2
Techniques d’intégration :
— Changement de variable
b g(b)

f (g(x)) · g (x) dx = f (u) du
a g(a)
si on pose u = g(x)
— Intégration par parties
(uv) = u v + uv =⇒
d(uv) = v du
+ u dv
=⇒ d(uv) = v du + u dv

=⇒ uv = v du − u dv

=⇒ u dv = u v − v du
On choisit dans l’intégrale à calculer ce qui correspond à u et ce qui correspond à dv

puis on calcule du et on intègre dv pour trouver v.
3.6 Application des dérivées et des intégrales en écono-

mie
Le calcul infinitésimal a été développé pour résoudre des problèmes qui se posaient
soit en mathématiques (tangente, aire, . . .) soit en physique (vitesse, accélération,
distance parcourue en une durée de temps, . . .).
Il a fallu attendre le dernier tiers du 19e siècle pour que les économistes s’in-
téressent à la dérivée. Mais, depuis, la dérivation est un exercice très pratiqué en
économie. Quant à l’intégration, qui en est l’opposé, elle est utilisée en économie
surtout pour additionner.
3.6.1 Applications de la dérivée en économie

La première application de la dérivée en économie est dans le raisonnement à
la marge, ancien dans “l’économie agricole”avec la loi des rendements décroissants,
systématisée par la révolution marginaliste des années 1870.
La révolution marginaliste attire l’attention, non sur la fonction de revenu ou de
coût considérée, mais sur sa dérivée pour le rôle qu’elle peut jouer dans la déter-
mination de variables économiques d’intérêt, comme le prix du blé ou le salaire du
travailleur par exemple.
La deuxième utilisation de la dérivée en économie est ce que certains ont appelé
“l’astrologie des dérivées”qui consiste à s’intéresser au signe de la dérivée. La fonction
y = f (x), croît-elle ou décroît-elle lorsque x augmente ? l’on sait que y croît lorsque
x croît si dérivée y > 0 et que y diminue lorsque x augmente lorsque le signe de la

dérivée y est moins.
L’un des postulats centraux concernant le comportement du consommateur est
que son utilité marginale (dérivée de l’utilité que retire un consommateur de sa
consommation d’un bien par exemple) est décroissante. Cela veut dire que la dérivée
seconde de l’utilité est négative.
La troisième application de la dérivée en économie est liée à l’optimisation des
fonctions. L’on sait que le consommateur, comme le producteur cherchent toujours à
optimiser, à maximiser l’utilité, le profit . . . ou à minimiser les coûts, les pertes, . . ..
On sait que le maximum d’une fonction est atteint lorsque sa dérivée s’annule après
avoir été positive pour devenir négative ; et qu’elle atteint son minimum lorsque la
dérivée s’annule après avoir été négative pour devenir positive. Nous reviendrons plus
tard sur ces questions.
3.6.2 Applications de l’intégrale en économie

En pratique, la dérivée et la dérivation sont plus utilisées en économie que le
calcul intégral. Mais, comme l’intégration n’est autre que l’opération “inverse”de la
dérivation, chaque raisonnement économique qui nous mène de la fonction à sa déri-
vée pourra être inversé pour nous mener de la dérivée à la primitive ou à l’intégrale.
On peut ainsi déterminer le coût total à partir du coût marginal par intégration,
comme on pourra déterminer la recette totale à partir de la recette marginale par
intégration de la fonction de recette marginale . . .
Exemple 1 : si le coût marginal c (q) = 3q 2 (pour le coût variable en fonction de q,

quantité produite, supposons que l’entreprise supporte en plus un coût fixe de 30).
Déterminons le coût total variable c :

c = 3q 2 dq = q 3 + cte
comme c(0) = 0 pour le coût variable. Mais pour le coût total global c(0) = 30 =⇒
cte = 30. D’où la fonction de coût total global cg = q 3 + 30.
Exemple 2 : sur un marché, on a la fonction de demande p = 12 − q. Si le prix du

marché est 7, quel est le surplus du consommateur ? La réponse est :
5 5 5
1 1 5 1
(12−q) dq− 7 dq = 12q − q 2 − 7q = 5q − q 2 = 52 − 52 = 25−12.5 = 12.5
2 0 2 0 2
0 0
On trouve le même résultat en intégrant par rapport à p :
12 12
1
(12 − p) dp = 12p − p2 = 144 − 72 − 84 + 24.5 = 12.5
2 7
7
3.7 Dérivées partielles

Jusqu’à présent, il n’a été question que des fonctions à une seule variable, y =
f (x). En économie, on rencontre souvent des variables qui dépendent de plusieurs
variables, des variables qui sont des fonctions de plusieurs variables. On a ainsi l’ha-
bitude de considérer la quantité produite Ps dans une unité de production ou au
niveau macroéconomique, comme fonction des quantités des facteurs de production,
capital, travail, . . . soit :
P = f (K, L, . . .)
Pour simplifier, on retient les deux facteurs de production K et L et on obtient
une fonction de production de ces deux variables P = f (K, L). P est la variable
dépendante et K et L sont des variables indépendantes. Notons P par z, K par x et
L par y : z = f (x, y)
Lorsqu’une fonction f a deux variables x et y, on peut maintenir y constant et
faire varier x et dans ce cas, on est ramené à une fonction d’une seule variable x avec
un paramètre y. On peut, à l’inverse, maintenir x constant et faire varier y pour être
ramené à la fonction d’une seule variable y avec le paramètre x constant. Dans les
deux cas, on a affaire à une fonction d’une seule variable à laquelle s’appliquent toutes
les règles de dérivation et d’intégration vues jusqu’à présent. Seulement, comme on
sait que l’autre variable maintenue constante, peut aussi varier et faire varier f (x, y)
par conséquent, on n’a pas affaire à une dérivée “normale”d’une fonction d’une seule
variable, mais à une dérivée “relative”dite en fait partielle et la variation infinitésimale
de z et de la variable x ou y n’est plus notée dz, dx mais ∂z , ∂x . . .
D’où, la dérivée partielle par rapport à x de f (x, y) est :
f (x + h, y) − f (x, y) ∂z
lim . Elle est notée fx (x, y), fx (x, y) =
h→0 h ∂x
∂z f (x, y + h) − f (x, y)
fy (x, y) = = lim
∂y h→0 h
Calculons les dérivées partielles fx et fy de z = f (x, y) = x2 ln(y)

∂z ∂z x2
= 2x ln(y) ; =
∂x ∂y y
Calculons les dérivées partielles de z = xy 2 + x2 y + 5x
∂z ∂z
= y 2 + 2xy + 5 ; = 2xy + x2 + 0
∂x ∂y
On définit, d’une manière analogue, les dérivées partielles d’une fonction d’un nombre
quelconque de variables. Exemple u = f (x, y, z, t)
∂u f (x + h, y, z, t) − f (x, y, z, t)
= lim
∂x h→0 h
∂u f (x, y + h, z, t) − f (x, y, z, t)
= lim
∂y h→0 h
...
Exemple : u = x2 + y 2 + 3xtz 2
ux = 2x + 3tz 2 , uy = 2y, uz = 6xtz, ut = 3xz 2 .
Les dérivées partielles correspondent aux taux de variation de la fonction par rapport
à la variation d’une seule variable, les autres variables étant maintenues constantes.
Comment varie la fonction u lorsque toutes les variables x, y, z et t varient en même
temps ? C’est la question de la variation totale de u et non plus de sa variation
partielle suite à la variation d’une seule variable.
Cette variation totale sera :
∆u = f (x + h1 , y + h2 , z + h3 , t + h4 ) − f (x, y, z, t)
alors que la variation partielle par rapport à x est :
∆u = f (x + h, y, z, t) − f (x, y, z, t).
Pour la fonction z de deux variables x et y : la variation partielle de z par rapport à

x est : ∆z = f (x + h, y) − f (x, y) et la variation totale de z est : ∆z = f (x + h, y +
k) − f (x, y) Avec h = ∆x et k = ∆y.
On peut aussi écrire :
∆z = f (x + ∆x, y + ∆y) − f (x, y)

∆z = f (x + ∆x, y + ∆y) − f (x, y + ∆y) + f (x, y + ∆y) − f (x, y)
Le second crochet correspond au numérateur de la dérivée partielle de z par rapport
ày:
∂z f (x, y + ∆y) − f (x, y)
= lim
∂y ∆y→0 ∆y
Le théorème de Lagrange nous apprend que ce numérateur est égal à la dérivée
partielle par rapport à y, au point (x, ȳ) avec ȳ compris entre y et y + ∆y, multipliée
par ∆y. Autrement dit :
∂f (x, ȳ)
f (x, y + ∆y) − f (x, y) = ∆y
∂y
D’où :
∂f (x, ȳ)
∆z = f (x + ∆x, y + ∆y) − f (x, y + ∆y) + ∆y
∂y
De même, le premier crochet n’est autre que le numérirateur de la dérivée partielle
par rapport à x, au point (x, y + ∆y). Ce crochet est, toujours selon le théorème de
Lagrange :
∂f (x̄, y + ∆y)
∆x
∂x
D’où
∂f (x̄, y + ∆y) ∂f (x, ȳ)
∆z = ∆x. + ∆y
∂x ∂y
∂f (x,y) ∂f (x,y)
Ces deux dérivées partielles tendent respectivement vers et lorsque
∂x ∂y
∆x et ∆y tendent vers 0. On obtient :
∂f (x,y) ∂f (x,y)
∆z = ∆x + ∆y
∂x ∂y
On peut ainsi écrire la différentielle totale dz de la manière suivante :
∂f ∂f
dz = dx + dy
∂x ∂y
Calculons la différentielle totale et l’accroissement total de la fonction z = xy au
point (2, 3) lorsque ∆x = 0.1 et ∆y = 0.2.
Solution :
∆z = (x + ∆x).(y + ∆y) − xy
= xy + x∆y + y∆x + ∆x∆y − xy
= x∆y + y∆x + ∆x∆y
= 2 × 0.2 + 3 × 0.1 + 0.1 × 0.2
= 0.72
∂f ∂f
dz = dx + dy = y dx + x dy = 3 × 0.1 + 2 × 0.2 = 0.7
∂x ∂y
La différence entre l’accroissement total (0.72) et la différentielle totale (0.7) est
minime ( 100
2
). Elle est égale à ∆x∆y = 0.1 × 0.2.
Le raisonnement précédent peut être étendu au cas d’une fonction d’un nombre
quelconque de variables indépendantes :
∂f ∂f ∂f ∂f
du = dx + dy + dz + dt + . . .
∂x ∂y ∂z ∂t
L’exemple précédent nous apprend que ∆z dz
∂f ∂f
∆z = f (x + ∆x, y + ∆y) − f (x, y) et dz = ∆x + ∆y
∂x ∂y
=⇒ f (x + ∆x, y + ∆y) f (x, y) + dz

C’est là un résultat pouvant être utilisé pour les calculs approchés et pour évaluer
l’erreur commise dans les calculs numériques.
3.7.1 Dérivée totale d’une fonction composée

Soit z une fonction de u et v, z = F (u, v), lesquelles u et v sont des fonctions de
deux variables x et y :
u = f (x, y) et v = h(x, y).
∂z ∂z
Donc, z = F (f (x, y), h(x, y)), fonction composée de x et y. Calculons et à
∂x ∂y
partir de z = F (u, v) et des expressions de u et v en fonction de x et y, sans passer
par l’expression de z en fonction de x et y.
Lorsque x augmente de ∆x, y maintenu constant, u et v varient respectivement

de ∆x u et ∆x v. De même, la fonction z = F (u, v) varie de ∆z avec :
∂F ∂F
∆z = ∆x u + ∆x v + α 1 ∆x u + α2 ∆x v
∂u ∂v
(voir plus haut).
En divisant tous les termes par ∆x, on obtient :
∆z ∂F ∆x u ∂F ∆x v ∆x u ∆x v
= + + α1 + α2
∆x ∂u ∆x ∂v ∆x ∆x ∆x
Lorsque ∆x → 0, ∆x u et ∆x v → 0 (continuité supposée de u et v), α1 et α2 → 0.
On a aussi :
∆z ∂z ∆x u ∂u ∆x v ∂v
lim = ; lim = ; lim =
∆x→0 ∆x ∂x ∆x→0 ∆x ∂x ∆x→0 ∆x ∂x
D’où :
∂z ∂F ∂u ∂F ∂v
= + +0
∂x ∂u ∂x ∂v ∂x
De la même manière, on obtiendra :
∂z ∂F ∂u ∂F ∂v
= +
∂y ∂u ∂y ∂v ∂y
Exemple :
2
z = F (u, v) = ln(u2 + v), u = f (x, y) = ex+y et v = h(x, y) = x2 + y.
∂z ∂z
Calculons et .
∂x ∂y
∂z 2u ∂z 1 ∂u 2 ∂u 2 ∂v ∂v
= , = 2 , = ex+y , = 2y ex+y , = 2x, =1
∂u u2 + v ∂v u +v ∂x ∂y ∂x ∂y
∂z ∂F ∂u ∂F ∂v 2u 2 1 2 2
= + = ex+y + 2 2x = 2 (u ex+y + x)
∂x ∂u ∂x ∂v ∂x u2 + v u +v u +v
∂z ∂F ∂u ∂F ∂v 2u 2 1 1 2
= + = 2 2yex+y + 2 1= 2 (2u 2y ex+y + 1)
∂y ∂u ∂y ∂v ∂y u +v u +v u +v
Ces formules des dérivées partielles de z par rapport à x et y peuvent être étendues
aux cas de plus de deux variables.
Si une fonction z est fonction de plusieurs variables, lesquelles sont toutes fonc-
tions d’une seule variable x : z = f (u, v, w, s) et u = f1 (x), v = f2 (x), w = f3 (x),
dz
s = f4 (x), on peut alors calculer la dérivée d’après la première formule ci-dessus :
dx
dz ∂z ∂u ∂z ∂v ∂z ∂w ∂z ∂s
= + + +
dx ∂u ∂x ∂v ∂x ∂w ∂x ∂s ∂x
dz
est la dérivée totale de z (elle n’est pas partielle). Comme u, v, w et s ne dé-
dx
pendent que d’une seule variable x.
Exemple :
√
z =u+ v avec u = x2 et v = sin(x)
∂z ∂z 1 du dv
= 1, = √ , = 2x, = cos(x)
∂u ∂v 2 v dx dx
et
dz 1 1
= 1 × 2x + √ cos(x) = 2x + cos(x)
dx 2 v 2 sin(x)
On peut vérifier en remplaçant u et v par leurs valeurs en fonction de x :
√ 1 1
z =u+ v = x2 + sin(x) =⇒ z (x) = 2x + (sin(x))− 2 cos(x)
2
3.7.2 Dérivation des fonctions implicites

Considérons une fonction y implicite, d’une seule variable x, définie par l’équation
F (x, y) = 0.
La différentielle totale
∂F
∂F ∂F dy
dF = dx + dy = 0 =⇒ = − ∂x
∂x ∂y dx ∂F
∂y
Exemples :
— F (x, y) = x2 + y 2 − 1 = 0 définit implicitement y en fonction de x :
∂F ∂F dy 2x x
= 2x, = 2y et =− =− .
∂x ∂y dx 2y y
— F (x, y) = ey − ex + xy = 0
∂F ∂F dy −ex + y ex − y
= −ex + y, = ey + x et =− y = y .
∂x ∂y dx e +x e +x
3.7.3 Dérivées (partielles) de différents ordres

La dérivée dont il a été question jusque là est la dérivée première. La dérivée de
la dérivée première est la dérivée seconde ou la dérivée de second ordre ou d’ordre
deux. La dérivée de la dérivée seconde est la dérivée du troisième ordre ou d’ordre
trois, . . .
dy
y = , y = (y ) = f (x), f (x) = f (3) (x) = (f (x)) , ...,
dx

f (n) (x) = f (n−1) (x) .
Exemple :

y = 7x6 , y = 42x5 , y = 210x4 , y = y (3) = 840x3 , . . . , y (n) (x) = y (n−1) (x)
On note aussi
dy d2 y d3 y dn y
y = , y = , y = , . . . , y (n)
= .
dx dx2 dx3 dxn
Pour une fonction de deux (ou plus de deux) variables z = f (x, y), les dérivées
∂z ∂z
partielles = fx (x, y) et = fy (x, y) sont en général des fonctions de x et y dont
∂x ∂y
on peut calculer les dérivées partielles. Ces dernières sont les dérivées partielles du
second ordre de la fonction z. Ces dérivées partielles du second ordre d’une fonction
z de deux variables sont au nombre de quatre, puisqu’il y a deux variables. C’est
qu’à chaque fois, on peut dériver soit par rapport à x, soit par rapport à y.

∂z ∂z
∂ 2 ∂
∂z ∂x ∂ z ∂x ∂2z
Ainsi donne = 2 et =
∂x ∂x ∂x ∂y ∂x∂y
et
∂z ∂2z ∂2z
donne et .
∂y ∂x∂y ∂y 2
Ces quatre dérivées partielles de second ordre peuvent être notées fxx
(x, y), f (x, y),
xy
fyx (x, y), fyy (x, y). Chacune de ces 4 dérivées partielles d’ordre 2, donnera deux

dérivées partielles d’ordre 3 et on aura donc 8 dérivées partielles d’ordre 3 :
∂3z ∂3z ∂3z ∂3z ∂3z ∂3z ∂3z ∂3z

, , , , , , , .
∂x3 ∂x2 ∂y ∂x∂y∂x ∂x∂y 2 ∂y∂x2 ∂y∂x∂y ∂y 2 ∂x ∂y 3
Exemple : f (x, y) = x2 y + y 3
∂f ∂f ∂2f ∂2f ∂2f

= 2xy, = x2 + 3y 2 , = 2y, = 2x, = 2x,
∂x ∂y ∂x2 ∂x∂y ∂y∂x
∂2f ∂3f ∂3f ∂3f ∂3f
= 6y, = 0, = 2, = 2, = 0,
∂y 2 ∂x3 ∂x∂y∂x ∂x2 ∂y ∂x∂y 2
∂3f ∂3f ∂3f ∂3f
= 2, = 0, = 0, = 6.
∂y∂x2 ∂y 2 ∂x ∂y∂x∂y ∂y 3
3.7.4 Formule de Taylor

Commençons par la formule de Taylor dans le cas d’une fonction d’une seule
variable, y = f (x). Supposons que les dérivées de y existent jusqu’à l’ordre n + 1,
dans un certain voisinage du point x = a. La formule de Taylor est :
x−a (x − a)2 (x − a)n (n)

f (x) = f (a) + f (a) + f (a) + ... + f (a) + Rn (x)
1! 2! n!
Rn (x) correspond au reste :
(x − a)n+1
Rn (x) = Q(x) avec Q(x) une fonction à déterminer.
(n + 1)!
On montre que
(x − a)n+1 (n+1)
Rn (x) = f [a + θ(x − a)] avec 0 < θ < 1.
(n + 1)!
La formule de Taylor devient ainsi pour a = 0
x x2 xn xn+1
f (x) = f (0)+ f (0)+ f (0)+. . .+ f (n) (0)+ .f (n+1) (θx) 0<θ<1
1! 2! n! (n + 1)!
Cela correspond à la formule de Maclaurin.
Exemple : f (x) = ex
f (x) = f (x) = f (x) = · · · = f (n+1) (x) = ex
=⇒ f (0) = f (0) = f (0) = · · · = f (n) (0) = 1 = f (0)
La formule de Maclaurin donne (au voisinage de x = 0)
x x2 x3 xn xn+1 θx
ex = 1 + + + + ... + + e 0<θ<1
1! 2! 3! n! (n + 1)!
On voit que le reste tend vers 0 lorsque x tend vers 0, comme il tend vers 0 lorsque
n → +∞.
Considérons maintenant une fonction de deux variables z = f (x, y) . On peut
appliquer la formule de Taylor ci-dessus à z en maintenant l’une des deux variables
constantes. On l’applique tour à tour pour trouver la formule appliquée à une fonction
de deux variables au voisinage de M (a, b). On trouve ainsi pour n = 2 :
f (x, y) = f (a, b) + ∆xfx (a, b) + ∆yfy (a, b)+
1 2

∆x fxx (a, b) + 2∆x∆yfxy (a, b) + ∆y 2 fyy (a, b) + α0 ∆ρ3 .
2!
3.8 Intégrales multiples

Nous avons vu que l’intégration est l’opération inverse de la dérivation. La pri-
mitive est d’ailleurs appelée l’anti-dérivée en anglais (anti-derivative). Nous avons
également vu que l’on peut dériver une fonction pour trouver sa (première) dérivée
et que l’on peut à nouveau dériver cette dérivée (dérivée de la dérivée) pour trouver
la dérivée seconde ou la dérivée d’ordre 2 de la fonction de départ, comme on peut
dériver la dérivée d’ordre 2 pour trouver la dérivée d’ordre 3 de cette fonction et ainsi
de suite.
À l’inverse, on peut intégrer une fonction pour obtenir son intégrale générale (ou
sa primitive) et qu’on peut, là aussi, intégrer l’intégrale de la fonction de départ :

f (x) dx dx.
C’est aussi ce qu’on appelle une double intégrale. En généralisant pour calculer l’in-
tégrale de l’intégrale de l’intégrale de f (x), on obtient la triple intégrale de f (x) :

f (x) dx dx dx
Comme on calcule la dérivée d’ordre n d’une fonction, on peut définir l’intégrale

multiple n fois d’une fonction.
Dans le cas des fonctions de plusieurs variables, nous avons défini des dérivées par-
tielles par rapport à chacune des variables en maintenant toutes les autres variables
constantes. Nous pouvons inversement concevoir les notions d’intégrale double, par
rapport à deux variables x et y. On intègre d’abord par rapport à l’une, puis on
intègre par rapport à l’autre. On pourra généraliser ce raisonnement au cas d’une
fonction de plusieurs variables et parler ainsi d’une intégrale multiple par rapport à
plusieurs variables. Considérons, à titre d’exemple, l’intégrale de forme générale

f (x, y) dx dy.
Pour calculer cette intégrale, il faut définir le domaine d’intégration D.

Avec une fonction de deux variables, l’intégrale ne correspond pas à une aire mais
plutôt à un volume. Ce volume n’est plus délimité par des courbes dans R2 , mais
par des surfaces et des plans. Les limites du volume sont définies par le domaine
d’intégration D.
Exemple : Calculons l’intégrale double :
1 x2
(x2 + y 2 ) dy dx.
0 0
On calcule d’abord l’intégrale par rapport à y, x étant considéré constant. Ensuite,

on intègre la fonction de x obtenue par rapport à y.
x2 x2
y3 (x2 )3 x6
(x2 + y 2 ) dy = x2 y + = x2 .x2 + − 0 = x4 + .
3 0 3 3
0
1 5 1
x6 x x7 1 1 26
(x4 + ) dx = + = + −0= .
3 5 21 0 5 21 105
0
Le domaine d’intégration D est le domaine limité par les courbes x = 0, y = 0,
y = x2 , x = 1.
On vient de voir que le calcul d’une intégrale double revient à calculer successi-
vement deux intégrales simples par rapport à une seule variable, d’abord l’une, puis
l’autre. Les propriétés des intégrales (simples) déjà vues demeurent donc valables,
dans chacune des deux étapes par rapport à la variable considérée.
Attention : Dans le calcul précédent, on a d’abord calculé l’intégrale simple par

rapport à y avec des bornes de y en fonction de x et on a calculé ensuite l’intégrale
par rapport à la variable indépendante x avec des bornes x = 0 et x = 1. On a donc
y = f (x) dans le calcul. Il n’est pas indifférent de faire l’intégration dans l’ordre y,
x ou dans l’ordre x, y.
Nous passons maintenant à une question qui est souvent oubliée dans les manuels
classiques de mathématiques, alors qu’elle commence à jouer un rôle de plus en plus
important en économétrie, surtout en économétrie des séries temporelles, mais pas
seulement. Il s’agit du calcul fractionnaire, c’est-à-dire du calcul des dérivées et in-
tégrales d’ordres non entiers, plutôt réels que fractionnaires.
Il s’agit d’une question assez complexe et qui n’a pas toujours reçu l’attention qu’elle
mérite dans les manuels de mathématiques destinés aux étudiants de sciences écono-
miques. Toutefois, nous nous contenterons, dans ce qui suit, d’une simple introduc-
tion.
3.9 Calcul différentiel et intégral fractionnaire : une in-

troduction
Nous savons calculer les dérivées d’ordres 0 (c’est la fonction elle-même), 1 (la
dérivée), 2 (dérivée de la dérivée), 3 (dérivée de la dérivée de la dérivée), 4, . . .,
n. Nous savons également calculer l’intégrale, l’intégrale de l’intégrale, l’intégrale
d’ordre 3, . . ., l’intégrale d’ordre n d’une fonction.
L’ordre de la dérivée ou de l’intégrale que nous connaissons est un nombre entier
naturel n ∈ N.
Peut-on calculer la dérivée d’ordre 12 , 34 , 56 , . . ., la dérivée d’un ordre non entier,
fractionnaire (fractional en anglais) ? La question est ancienne. Elle a été posée par
le mathématicien français Guillaume de l’Hôpital (1661 – 1704) à Gottfried
Leibniz (1646 – 1716) en 1695. La réponse de ce dernier a été que cela conduisait à un
paradoxe dont on tirera un jour des conséquences utiles. Leibniz commença le travail
sur la question. Mais, il faudra attendre Euler, Lagrange, Laplace, Riemann,
Fourrier, Liouville et d’autres mathématiciens pour que cette nouvelle branche
de la mathématique, généralisant l’ordre n dans le calcul différentiel et intégral (y
compris les équations différentielles) à l’ordre réel et même complexe, se développe
et, surtout, trouve des applications d’abord en sciences physiques et de l’ingénieur,
puis en économie et finance.

Considérons la fonction f (x) = xm (m entier naturel, m > n)
f (0) (x) = xm = f (x)
df (x)
f (1) (x) = m.xm−1 =
dx
d2 f (x)
f (2) (x) = m.(m − 1).xm−2 =
dx2
d3 f (x)
f (3) (x) = m.(m − 1).(m − 2).xm−3 =
dx3
..
.
dn f (x) m!
f (n) (x) = m.(m − 1).(m − 2)...(m − n + 1)xm−n = = xm−n
dxn (m − n)!
Il apparaît ainsi clair que pour étendre l’ordre de la dérivée f (n) à des nombres non
entiers, il faut étendre la notion factorielle à r (r non entier ou r ∈ R et non seulement
r ∈ Q , et au-delà r ∈ C). L’extension, de la factorielle à des nombres non entiers a
été faite par Euler après avoir été envisagée par Daniel Bernoulli et Christian–
Goldbach vers 1720. Euler a proposé d’abord (1729) l’expression de n! sous forme
de produit infini :
1 n
∞
1+
K
n! = n
k=1 1+
k
pour présenter ensuite en 1730 (moins de quatre mois après, d’octobre à janvier) la
forme intégrale de n! :
1
n! = (− log(s))n ds.
0
En posant
t = − log(s) =⇒ log(s) = −t =⇒ s = e−t =⇒ ds = −e−t dt
on obtient la représentation usuelle :
0 ∞

n! = tn −e−t dt = −tn e−t dt = tn e−t dt
∞ 0
Si l’on pose, par définition :(gamma de z)

∞
Γ (z) = tz−1 e−t dt
0
On peut calculer
∞ ∞
∞
Γ (1) = t1−1 e−t dt = e−t dt = −e−t 0 = −e−∞ − (−e0 ) = 0 − 1 = 1
0 0
∞ ∞
n+1−1 −t
Γ (n + 1) = t e dt = tn e−t dt
0 0
Cette intégrale peut être calculée par parties en répétant l’opération n fois pour
obtenir tn−n en dérivant tn−n+1 . Posons donc u = tn et dv = e−t dt. D’où ; du =
n tn−1 dt et v = −e−t
∞ ∞ ∞
∞
u dv = uv − v du = −tn e−t 0 − −e−t n tn−1 dt
0 0 0
∞ ∞ ∞

−t ∞ −t n−1 −tn
= n
−t e 0
+n e t dt = +n e−t tn−1 dt
et 0
0 0
∞ ∞
−tn −0n −tn
= lim − +n e−t tn−1 dt = lim − 0 + n e−t tn−1 dt
t→∞ et e0 t→∞ et
0 0
−∞
Pour calculer la limite ci-dessus qui est de la forme on peut appliquer la règle ∞ ,
de L’Hôpital en dérivant le numérateur et le dénominateur n fois pour trouver
−tn −n! tn−n −n!

lim t
= lim = lim t = 0
t→∞ e t→∞ et t→∞ e
D’où :
∞
Γ (n + 1) = n e−t tn−1 dt = n.Γ (n)
0
Nous avons déjà établi que Γ (1) = 1, d’où :
Γ (2) = Γ (1 + 1) = 1Γ (1) = 1! = 1
Γ (3) = Γ (2 + 1) = 2Γ (2) = 2 × 1! = 2! = 2
Γ (4) = Γ (3 + 1) = 3Γ (3) = 3 × 2! = 3! = 6
..
.
Γ (n + 1) = n Γ (n) = n (n − 1)! = n!
Donc
Γ (n + 1) = n!
En effet, on a vu ci-dessus que
∞ ∞
n −t
Γ (n + 1) = t e dt = n tn−1 e−t dt
0 0
De cette égalité, on peut tirer (en remplaçant n par n − 1) :

∞ ∞ ∞
n −t n−1 −t
t e dt = n t e dt = n(n − 1) tn−2 e−t dt
0 0 0
On peut poursuivre cela pour obtenir :

∞ ∞
Γ (n + 1) = tn e−t dt = n(n − 1)(n − 2) · · · (n − n + 1) t0 e−t dt
0 0
puisque
∞
∞ 1 ∞ 1 1
e−t dt = −e−t 0 = − t = − ∞ −− 0 =1
e 0 e e
0
Cette fonction gamma définie pour n’importe quel nombre (n > 0) généralise donc
la factorielle n! à n’importe quel n complexe (à partie réelle positive).
Euler a également établi, pour la fonction gamma, la formule de réflexion sui-
vante :
π
Γ (1 − Z)Γ (Z) =
sin(πZ)
et la formule de duplication suivante :

1 √
Γ (Z)Γ Z + = 21−2Z π Γ (2Z)
2
Cette formule de duplication est un cas particulier (pour m = 2) du théorème plus

général de multiplication :

1 2 m−1 m−1 1
Γ (Z)Γ Z + Γ Z+ ···Γ Z + = (2π) 2 m 2 −mZ Γ (mZ)
m m m
En remplaçant dans la formule de réflexion, Z par 12 , on obtient

π
1 1 π
Γ Γ = π = π car sin =1
2 2 sin 2 2
D’où,
1 √
Γ = π
2
Pour Z = 23 , la formule de duplication nous donne

3 4 6 √ 6
Γ Γ = 21− 2 πΓ
2 2 2
3 √
Γ Γ (2) = 21−3 π Γ (3)
2 √
3 √ π
Γ = 2−2 π × 2 =
2 2
En utilisant ces deux formules, on peut ainsi obtenir les résultats suivants (y compris
pour des nombres négatifs) :
√
3 4 π 1 √
Γ − = , Γ − = −2 π, Γ (1) = 0! = 1,
2 3 2
√ √
5 3 π 7 15 π
Γ = , Γ = , ...
2 4 2 8
En effet, pour z = n, la formule de duplication nous donne :

1 √
Γ (n)Γ n + = 21−2n π Γ (2n)
2
√
1 21−2n π (2n − 1)! (2n − 1)! √
⇒Γ n+ = = 2n−1 π
2 (n − 1)! 2 (n − 1)!
Rappelons que
m! Ak (2n − 1)! (2n − 1)!

k
Cm = = m . D’où, C2n−1
n−1
= =
k! (m − k)! k! (n − 1)! (2n − 1 − n + 1)! (n − 1)! n!

1 (2n − 1)! √ (2n − 1)! n! √ n−1 n! √
Γ n+ = 2n−1 π= 2n−1
π = C2n−1 2n−1
π
2 2 (n − 1)! (n − 1)! n! 2 2
De même √
1 π
Γ −n + =
2 −1
Cn 2 n!
Gauss a introduit la fonction pi : Π(Z) = Γ (Z + 1) = ZΓ (Z) et donc Π(Z) = n!
Avec cette fonction pi de Gauss, la formule de réflexion ci-dessus devient
πZ
Π(Z) × Π(−Z) =
sin(π Z)
La fonction Beta a été définie par rapport à la fonction gamma, de la manière sui-
vante :
Γ (x) Γ (y)
B(x, y) =
Γ (x + y)
Γ (n + 1) = n! = n(n − 1)(n − 2) · · · 2 × 1
Si l’on prend le logarithme de Γ (n + 1) on trouve :
n

ln Γ (n + 1) = ln(n!) = ln(n) = ln 1 + ln 2 + ln 3 + · · · + ln(n)
n=1
D’où : [ln Γ (n + 1)] est la fonction digamma.

La fonction de Riemann Zéta ζ(Z) a également été ainsi définie :
∞
uZ−1
ζ(Z) × Γ (Z) = du
eu − 1
0
Retournons maintenant à la dérivée et à l’intégrale fractionnaires. Considérons la

fonction simple f (x) = eax . f (x) = D1 f (x) = aeax , f (x) = D2 f (x) = D1 D1 f (x) =
a2 eax . On en déduit que Dn f (x) = an eax , pour n entier naturel. (D0 eax = eax ).
1 1
Peut-on remplacer n par une fraction, 12 par exemple et écrire D 2 eax = a 2 eax ?
ou plus généralement : Dα eax = aα eax ?
On sait que
:D [f (x) + g(x)] = Df (x)+Dg(x) et que pour p et k entiers naturels :
Dp Dk f (x) = Dp+k f (x).
Comme D0 f (x) = f (x), on a donc D1 D−1 f (x) = f (x).
Comme la dérivée (première) de D f (x) est f (x), on a :
−1

D−1 f (x) = f (x) dx (intégrale générale)
D’où pour les nombres entiers négatifs (Z), l’ordre négatif de la dérivée est l’ordre
opposé (positif) de l’intégrale de f (x) :

D−2 f (x) = f (x) dx2 , D−3 f (x) = f (x) dx3 , · · ·
Aucun problème donc pour la dérivée d’ordre −n. Il s’agit d’une intégrale multiple
d’ordre n. La réciproque est vraie : l’intégrale d’ordre −n de f (x) est la dérivée
d’ordre n de f (x). Revenons maintenant à l’ordre fractionnaire. Pour α fractionnaire,
pour que Dα f (x) soit valable, il faut vérifier les relations suivantes :
Dα [f (x) + g(x)] = Dα f (x) + Dα g(x)
Dα Dβ f (x) = Dα+β f (x)
D−α f (x) est l’intégrale d’ordre α de f (x)
Autrement dit, pour f (x) = eax , on doit avoir
Dα [c1 ea1 x + c2 ea2 x ] = c1 Dα ea1 x + c2 Dα ea2 x
Dα Dβ eax = Dα+β eax

D−1 eax = eax dx, D−2 eax = eax dxdx ···
Pour Dα eax , on peut provisoirement considérer que c’est aα eax . Cherchons une ex-
pression générale d’une dérivée fractionnaire Dα . Prenons la fonction sin x et cos x.
D0 sin x = sin x, D1 sin x = cos x, D2 sin x = − sin x,
D3 sin x = − cos x, D4 sin x = sin x

et on reprend, sin x, cos x, − sin x, − cos x, . . .

Ainsi prendre la dérivée de sin x, c’est additionner π2 à x et prendre sin x + π2 .

C’est que (sin x) = sin x + π2 d’où sin x + π2 2 et donc
= sin x + 2π
nπ
Dn sin x = sin x +
2
Peut on remplacer n par α fractionnaire et écrire :
απ
Dα sin x = sin x + ?
2
De même pour la fonction cos x, on a D cos = − sin x, la dérivation est une rotation
de π2 , d’où : απ
Dα cos x = cos x + ?
2
Ainsi si l’on considère l’expression d’Euler eix = cos x + i sin x, en utilisant Dα eax =
aα eax , on obtient : Dα eix = iα eix .
La formule d’Euler est eiπ + 1 = 0. Elle implique que eiπ = −1 = i2
α α iπα
eiπ = i2 ⇒ eiπ 2 = i2 2 ⇒ iα = e 2
D’où
iπα π
Dα eix = iα eix = e 2 eix = ei(x+ 2 α)
et en reprenant l’expression d’Euler ci-dessus, on obtient :
π
π π
Dα eix = ei(x+ 2 α) = cos x + α + i sin x + α
2 2
Cette dérivée d’ordre α de eax supposée correspond donc à la dérivée d’ordre α des
fonctions circulaires sin x et cos x ci-dessus. Retournons aux dérivées de f (x) = xm
déjà vues. Nous avons établi que pour n naturel
m!
D n xm = xm−n
(m − n)!
On a vu que : m! = Γ (m + 1) et (m − n)! = Γ (m − n + 1) D’où :
Γ (m + 1)
D n xm = xm−n
Γ (m − n + 1)
Nous avons vu que la fonction Γ généralisé la factorielle n! à des nombres fraction-
naires α. D’où :
Γ (m + 1)
D α xm = xm−α
Γ (m − α + 1)
Nous étendons ainsi la dérivée de xm à tout ordre fractionnaire α. Non seulement,
on vient d’étendre l’ordre de dérivation de f (x) = xm à α arbitraire, mais à toute
∞
fonction pouvant être développée en série de Taylor de x : f (x) = an xn de la
n=0
manière suivante :
∞
∞ ∞
Γ (n + 1)
Dα f (x) = Dα an xn = an D α xn = an xn−α
Γ (n − α + 1)
n=0 n=0 n=0
Voilà une expression possible de dérivée d’ordre α de toutes sortes de fonctions

pouvant être développées en série de Taylor de x!.
Cette expression conduit toutefois à des contradictions.
En effet : Dn ex = ex et si on utilise la dérivée d’ordre α ci-dessus de e1x (a = 1) :
D e1x = 1α ex = ex .
α
On sait par ailleurs que le développement en série de Taylor de ex est ex =

∞
1
xn . On vient de voir que
n!
n=0
∞
∞ ∞
1 n 1 α n 1 n!
α x α
D e =D x = D x = xn−α
n! n! n! Γ (n − α + 1)
n=0 n=0 n=0
Ceci n’est égal à exque lorsque (n − α) est entier. C’est-à-dire lorsque α est entier.
Lorsque α est fractionnaire, les deux dérivées d’ordre α obtenues (en utilisant les deux
expressions de Dα , celle de eax et celle de xn ) ne sont pas égales ! La dérivée fraction-
naire est ainsi problèmatique. La dérivée fractionnaire d’une fonction élémentaire ne
devrait pas être élémentaire pour pouvoir vérifier différentes expressions.
À la recherche d’une expression transcendantale de la dérivée fractionnaire, re-
venons à l’intégrale
ou à la dérivée d’ordre relatif négatif (Z− ). Nous avons vu que :
D f (x) = f (x) dx. Seulement la partie droite de cette égalité est indéfinie. Pour
−1
la définir, on pourra écrire :

x
D−1 f (x) = f (t) dt
0
De même pour la double dérivée

x t2
D−2 f (x) = f (t1 ) dt1 dt2
0 0
On intègre f (t1 ) par rapport à t1 , de 0 à t2 , puis on intègre la fonction de t2 obtenue

par rapport à t2 , de 0 à x.
Si l’on permute en inversant l’ordre d’intégration : on intégrera d’abord la fonction
f (t1 ) par rapport à t2 de 0 à x. Comme f (t1 ) ne dépend pas de t2 , elle est une
constante pouvant être sortie de l’intégrale :
x x x x
−2
D f (x) = f (t1 ) dt2 dt1 = f (t1 ) dt2 dt1
0 t1 0 t1
L’intégrale générale de la constante C par rapport à t2 est Ct2 . Pour C = f (t1 ),

c’est f (t1 )t2 . L’intégrale définie est [f (t1 )t2 ]x0 , soit f (t1 )(x − t1 ). On intègre ensuite
par rapport à t1 de 0 à x :
x x
D−2 f (x) = f (t1 ) (x − t1 )dt1 = f (t) (x − t) dt.
0 0
Avec la même procédure, on obtient

1 x 1 x
D−3 f (x) = f (t) (x − t)2 dt et D−4 f (x) = f (t) (x − t)3 dt
2 0 2×3 0
En général : x
1
D−n f (x) = f (t) (x − t)n−1 dt
(n − 1)! 0
Si l’on remplace −n par un α fractionnaire, on obtient :
x
1 f (t)
Dα f (x) = dt
Γ (−α) 0 (x − t)1+α
(−n = α ⇒ (n − 1)! = (−α − 1)! = Γ (−α), 1 − n = 1 + α)

Nous tenons là une expression générale de la dérivée fractionnaire. Toutefois, cette
expression pose problème pour beaucoup de valeurs de α.
— Si α est négatif, l’intégrale ne pose pas de problème. Exemple :
x
α = −1 f (t) dt,
0
pas de problème.
x
α = −2 (x − t) f (t) dt,
0
pas de problème non plus : une intégrale d’ordre 2.
x
f (t)
— Si α = 0, l’intégrale devient : dt, il y a problème du moment qu’on
0 (x − t)
a au dénominateur (x − t) et que la borne supérieure de t est x. À cette borne,
le dénorminateur sera nul et l’intégrale deviendra indéterminée.
— Si α ≥ 0, on a le même problème d’indétermination de l’intégrale.
— Il reste à étudier le cas intéressant
x de −1 < α < 0.
f (t)
Nous avons vu que l’intégrale α+1
dt est l’intégrale de f (t) et que
0 (x − t)
lorsque α = 0, il y a problème d’indétermination.
Pour −1 < α < 0, l’intégrale
x x x
f (t) −1−α
α+1
dt = (x − t) f (t) dt = (x − t)β f (t) dt; −1 < β < 0
0 (x − t) 0 0
x
Nous avons précédemment vu que D−1 f (x) = f (t) dt et qu’en général,
0
x x
1 1
D−n f (x) = f (t) (x−t)n−1 dt ou Dα f (x) = (x−t)−1−α f (t) dt
(n − 1)! 0 Γ (−α) 0
Donc pour −1 < α < 0, la dérivée d’ordre α donne une intégrale d’ordre α dans son
expression x
1
Dα f (x) = (x − t)−1−α f (t) dt
Γ (−α) 0
Pour fixer les idées, prenons α = −0.5. Cela donne :
x
1 1
D− 2 f (x) = (x − t)−0.5 f (t) dt
Γ ( 12 ) 0
Pour α = −1.5 on a :
x
1
D−1.5 f (x) = D−1 D−0.5 f (x) = (x − t)−0.5 f (t) dt
Γ (1.5) 0

D−2.5 f (x) = D−2 D−0.5 f (x) D−2 Correspond à une intégrale et D−0.5 à une
dérivée ou intégrale d’ordre fractionnaire −0.5.
x
1
Dα f (x) pour −1 < α < 0 correspond à (x − t)−1−α f (t) dt. On a α =
Γ (−α) 0
α + n − n donc,
x
1
Dα f (x) = Dα+n−n f (x) = (x−t)−1−α f (t) dt = Dα−n [Dn f (x)] = Dα−n g(x)
Γ (−α) 0
x
1
Dα−n g(x) = (x − t)−1−α+n g(t) dt avec g(x) = Dn f (x)
Γ (n − α) 0
D’où, x
α−n n 1 dn f (t)
D [D f (x)] = (x − t)n−1−α dt
Γ (n − α) 0 dtn
C’est là l’expression de Caputo pour la dérivée fractionnaire.
Reprenons
Dα f (x) = Dα+n−n f (x) = Dn Dα−n f (x)
x
1
Dα−n f (x) = (x − t)n−α−1 f (t) dt
Γ (n − α) 0
D’où
Dα f (x) = Dn [Dα−n f (x)]
x
dn 1 n−α−1
= (x − t) f (t) dt
dxn Γ (n − α) 0
x
1 dn
= (x − t)n−α−1 f (t) dt
Γ (n − α) dxn 0
C’est là l’expression de Riemann-Liouville de la dérivée fractionnaire.
Il existe plusieurs expressions de la dérivée fractionnaire. Nous allons y revenir
lorsque nous aurons résolu un problème de bornes d’intégration que nous avons laissé
en suspens.
En réalité, la borne inférieure de l’intégrale a été arbitrairement fixée à zéro. Elle
aurait pu être à b. C’est pour cela que l’on écrit souvent :
x
α 1 f (t)
b Dx f (x) = dt
Γ (−α) b (x − t)α+1
Pour signifier que l’on intègre de b à x.

Rappelons que le problème que nous cherchions à résoudre nous a été posé par
n α n Γ (n + 1) n−α
la dérivée fractionnaire de x D x = x
Γ (n − α + 1)
La question à poser est donc quelle borne inférieure b choisir pour avoir :
α Γ (n + 1)
b Dx f (x) = xn−α
Γ (n − α + 1)
La contradiction à laquelle nous avons abouti précédemment vient de ce que nous
avons voulu calculer une dérivée fractionnaire sans tenir compte du fait qu’elle doit
faire intervenir des bornes, puisque les intégrales se calculent dans des bornes et
que les dérivées fractionnaires correspondent à des intégrales fractionnaires. Une
intégrale se fait dans des bornes, donc une dérivée fractionnaire doit se calculer dans
des bornes. On ne pouvait donc pas généraliser :
D0 f (x) = f (x) = xn , D1 f (x) = nxn−1 , Dn f (x) = n!xn−n
à Dα f (x) = α!xn−α ou D α e x = ex à partir de D n e x = ex

Sans tenir compte de ce résultat relatif aux bornes.
Dα pour fractionnaire positif conduit à une intégrale d’ordre −α et l’intégrale
implique des bornes.
Nous avons établi que D−1 f (x) = f (x) dx. Pour f (x) = eax , D−1 eax =

1
eax dx = eax
a
x x
−1 ax 1 ax 1 1 1
b Dx e = eax dx = e = eax − eab ⇒ eab = 0 ⇒ b = −∞
b a b a a a
Donc, on peut écrire −∞ Dx−1 eax = aα eax (dérivée fractionnaire de weyl).

Pour f (x) = xp , on a
x p+1 x
−1 p x xp+1 bp+1
b Dx x = xp dx = = − ⇒ bp+1 = 0 ⇒ b = 0
b p+1 b p+1 p+1
D’où
α p Γ (p + 1)
0 Dx x = xp−α
Γ (p − α + 1)
Le résultat est que la dérivée fractionnaire de eax se calcule entre −∞ et x et la
dérivée fractionnaire de xp se calcule entre 0 et x. C’est pour cette raison que l’on
est tombé dans la contradiction ci-haut ou dans deux expressions non égales de la
dérivée fractionnaire : nous avons emprunté deux chemins non équivalents. Pour eax
et pour le développement en série de eax en xp . Dans le premier cas, les bornes sont
−∞ et x et dans le second, les bornes sont 0 et x !
Maintenant que la contradiction est résolue, terminons cette section introductive
au calcul fractionnaire par la présentation des différentes définitions de la dérivée ou
intégrale fractionnaire (c’est pour cela que l’on parle souvent de différintégrale).
Dérivée de Caputo
x
α 1 dn f (t)
0 Dx (f (x)) = (x − t)n−α−1 dt −1<α<0
Γ (n − α) 0 dtn
Dérivée de Riemann-Liouville
x
1 dn
Dxα (f (x)) = (x − t)n−α−1 f (t) dt
Γ (n − α) dxn 0
Expression de Guy Jumarie

x
1 dn
Dxα (f (x)) = (x − t)n−α−1 (f (t) − f (0)) dt
Γ (n − α) dxn 0
Dérivée de Weyl
∞
1 dn
Dxα (f (x)) = (x − t)n−α−1 f (t) dt
Γ (n − α) dxn x
Dérivée de Erdelyi-Kober

1 d n σ(n+η) n−α
α
D0,σ,η (f (x)) = x−nσ x I0,σ,η+σ (f (x)) σ>0
σxσ−1 dx
Dérivée de Hadamard

1 d n x x n−α−1 dt
D0α (f (x)) = x log f (t)
Γ (n − α) dx 0 t t
Dérivée de Riesz
1
Dxα (f (x)) =
2 cos α π2
m x ∞
1 d m−α−1 m−α−1
× (x − t) f (t) dt + (t − x) f (t) dt
Γ (α) dx −∞ x
Dérivée de Davison et Essex

x
dn+1−k (x − t)−α dk f (t)
D0α (f (x)) = dt
dxn+1−k 0 Γ (1 − α)dtk
Dérivée de Coimbra (2003)

x
1 df (t) [f (0+ ) − f (0− )] x−α(x)
D0α (f (x)) = (x − t)−α(t) dt +
Γ (1 − α(x)) 0 dt Γ (1 − α(x))
Appliquée aux fonctions simples xβ et eax , la définition de Riemann-Liouville

nous donne les dérivées fractionnaires suivantes :
— Pour xβ , β > −1 :
x−α+β Γ (1 + β)
D α xβ =
Γ (1 − α + β)
— Pour eax , a ∈ R :
aα [(ax)−α + eax (Γ (1 − α) − Γ (1 − α, ax))]
Dα (eax ) =
Γ (1 − α)
Chapitre 4
Équations différentielles ordinaires
Une équation différentielle est une équation étabilssant une relation entre la va-
riable indépendante x, la fonction inconnue de x, y = f (x) et ses dérivées y , y , . . .
Symboliquement, une équation différentielle est :

F x, y, y , y , · · · , y (n) = 0.
Lorsque y est fonction d’une seule variable x, l’équation différentielle est qualifiée
d’ordinaire. Dans ce qui suit, il ne sera question que d’équations différentielles or-
dinaires. Les équations différentielles concernant des fonctions de plusieurs variables,
sont des équations différentielles aux dérivées partielles.
L’ordre d’une équation différentielle correspond à l’ordre le plus élevé des déri-
vées contenues dans l’équation.
Exemples :
x2 y + y + 27 est une équation du premier ordre.
ln(x) − y + 5y + 3y est une équation du second ordre.
7y (3) + 2y + ex est une équation du troisième ordre.
La solution ou l’intégrale d’une équation différentielle est toute fonction y = f (x)
vérifiant identiquement cette équation.
Exemple : y − y = 0 ⇒ y = y. On pense à la solution y = ex . En effet (ex ) =

ex ⇒ y (n) = ex . En réalité, on a une infinité de solutions à cette équation différentielle
ordinaire du second ordre : y = cex , c est n’importe quelle constante.
y = cex est la solution générale de l’équation considérée. y = 5ex et y = 27ex
sont deux solutions particulières (ou singulière) de l’équation.
Une équation différentielle d’ordrte n est dite linéaire si y et ses dérivées sont
du premier degré de la forme :
a0 y (n) + a1 y (n−1) + . . . + an y = f (x)
avec a0 , a1 , . . . , an et f (x) sont des fonctions de x ou des constantes.

102 Chapitre 4. Équations différentielles ordinaires
Si f (x) = 0, l’équation est dite homogène (sans second membre). Et inversement

si f (x) = 0, elle est non homogène.
En économie dynamique, la variable indépendante est le temps t. On considère
ainsi les équations différentielles de la forme :

F t, y, y , . . . = 0 avec y = f (t) inconnue.
Une équation différentielle peut être résolue par la méthode de séparation des
variables si dans cette équation, on peut séparer deux termes l’un dépendant de y
seule et l’autre dépendant de x seule.
À titre d’exemple : g(y) · y = f (x) où g(y) ne dépend que de y et f (x) ne dépend
que de x, peut être écrite sous la forme :
dy
g(y) · y = f (x) ⇒ g(y) · = f (x) ⇒ g(y) · dy = f (x) · dx.
dx
Dans cette dérnière écriture, les deux variables y et x sont séparées. La solution est :

g(y) · dy = f (x) · dx + cte.
Exemple 1 :

dy x3
y = x2 ⇒ = x2 ⇒ dy = x2 dx ⇒ dy = x2 dx ⇒ y = + c.
dx 3
Exemple 2 :
dy dy
y = 5xy ⇒ = 5xy ⇒ = 5xdx
dx y

dy 5 5 2 5 2
⇒ = 5xdx ⇒ ln(y) = x2 + c ⇒ y = e 2 x +c = cte e 2 x
y 2
Une équation différentielle de la forme f (x, y) + g(x, y) · y = 0 ou de la forme
équivalente : f (x, y)dx + g(x, y)dy = 0 est dite exacte s’il existe une fonction u(x, y)
telle que :
du = ux dx + uy dy = f (x, y)dx + g(x, y)dy
Cette équation différentielle est donc exacte si elle est la différentielle totale de
quelque fonction, d’où du = 0. Sa solution est u = cte.
Exemple :
x3 y + 3x2 y = 0 ⇒ x3 dy + 3x2 ydx = 0
On peut vérifier que u(x, y) = x3 y. Ainsi ux = 3x2 y et uy = x3 ; d’où u(x, y) =
c
x3 y = cte ⇒ y = 3 .
x
Autre exemple : (1+2xy)y +y 2 = 0 peut être écrite ainsi : (1+2xy)dy +y 2 dx = 0.
En intégrant par rapport à y la fonction (1 + 2xy), on obtient y + xy 2 + cte et en
intégrant par rapport à x la fonction y 2 , on obtient xy 2 + cte. On constate que si on
prend u(x, y) = y + xy 2 , ux = y 2 et uy = 1 + 2xy. Ainsi, l’équation considérée est

exacte et sa solution est u(x, y) = y + xy 2 + c = 0. Il s’agit d’une équation de second
degrée en y avec 2 paramètres x et c. Ses racines sont donc fonctions de x. √
1 −1 ± 1 − 4cx
Le discriminant est ∆ = 1−4cx et les racines, pour x ≤ , sont y1 , y2 = .
4c 2x
4.1 Équations différentielles linéaires du premier ordre

Etre linéaire et du premier ordre veut dire que l’équation ne contient que x, y
et y (et pas de y ou y ) et que y et y sont du premier degré. Cependant, les
coefficients de y et y peuvent être constants, comme ils peuvent être des fonctions
de x. Commençons par les équations à coefficients constants.
4.1.1 Équations à coefficients constants

La forme est ainsi : y + P y = Q ; P et Q sont des constantes. Rappelons que
(uv) = u v + uv et que donc :

eλx y(x) = λeλx y + eλx y = eλx y + λy .
En remplaçant λ par P , on trouve la partie gauche de l’équation différentielle ci-

dessus dans le crochet. Ainsi, si l’on multiplie les deux parties de l’équation par eP x ,
on obtient :

eP x [y + P y] = QeP x = eP x y ⇒ QeP x dx= d eP x y
Q
⇒ eP x y = QeP x dx = eP x + c
P
Q
⇒ eP x y = eP x + c
P
Q c
⇒ y = + Px
P e
Q
⇒ y = + ce−P x
P
C’est là la solution générale de l’équation différentielle considérée. Pour déterminer
c, il faut avoir la valeur de y pour une valeur de x. Si, par exemple, on a y(0) = y0 ,
alors,
Q Q Q Q
y(0) = + ce−P ×0 = + c ⇒ y0 = + c ⇒ c = y0 −
P P P P
Ainsi, la solution de notre équation différentielle devient :

Q Q −P x Q
y(x) = + y0 − e = y0 e−P x + 1 − e−P x .
P P P
e−P x est le facteur intégrant. C’est ce facteur qui nous a permis d’intégrer l’équa-
tion différentielle considérée. Le point (y(0) = y0 ) utilisé pour calculer la constante
c est appelé condition initiale.
Exemple : résolvons l’équation différentielle y + 5y = 10. Il s’agit d’une équation

linéaire du premier ordre à coefficients constants de la forme y +P y = Q. La solution
générale est
Q 10
y(x) = + ce−P x = + ce−5x = 2 + ce−5x
P 5

Si l’on a y(0) = 0, alors c = −2 et donc y(x) = 2 1 − 5e−5x .
4.1.2 Équations à partie droite Q variable

Si l’on considère des équations avec P constant et Q variable selon x, la démarche
d’intégration ne change pas :
y + P y = f (x).
En multipliant par le facteur intégrant eP x on obtient :
P x
y eP x + P yeP x = f (x)eP x ⇒ ye
= f (x)e
Px
⇒ d yeP x = f (x)eP x dx
⇒ yeP x = f (x)eP x dx

1
⇒ y= f (x)eP x dx = e−P x f (x)eP x dx
eP x
La résolution de l’équation différentielle considérée revient à intégrer f (x)eP x et avec

la condition initiale, on déterminera la constante d’intégration.
Cas où f (x) = aebx :
Dans ce cas la solution est

y = e−P x aebx eP x dx

= e−P x ae(b+P )x dx

−P x
= ae e(b+P )x dx

1 (b+P )x
= ae−P x e +c
b+P
a bx
= e + cae−P x
b+P
4.1.3 Équations à coefficients variables

Les équations différentielles linéaires du 1er ordre à coefficients variables ont la
forme générale :
y + u(x) · y = v(x).
l’inconnue à trouver étant y(x).
Le facteur intégrant dans ce cas est e u(x)dx .
Rappelons que
d u(x)dx
= u(x)
dx
En effet,

d u(x)dx
= u(x) ⇒ d u(x)dx = u(x)dx ⇒ u(x)dx = u(x)dx.
dx
Rappelons aussi que :
[f (x) · g(x)] = f (x) · g(x) + f (x) · g (x).
Appliquons cette règle à

y(x)e u(x)dx = y e u(x)dx + yu(x)e u(x)dx = e u(x)dx y + yu(x)
On reconnait dans le crochet la partie gauche de l’équation différentielle à résoudre.

Si l’on multiplie donc les deux parties de l’équation par e u(x)dx , on obtient :

y + u(x)y e u(x)dx = v(x)e u(x)dx

⇒ ye u(x)dx = v(x)e u(x)dx

⇒ ye u(x)dx = v(x)e u(x)dx dx + c

⇒ y = e− u(x)dx v(x)e u(x)dx dx + c

⇒ y = e− u(x)dx v(x)e u(x)dx dx + ce− u(x)dx
c étant la constante d’intégration.

e− u(x)dx v(x)e u(x)dx dx + ce− u(x)dx est ainsi la solution générale de l’équa-
tion. Une solution particulière sera obtenue en spécifiant la valeur de c.
a
Exemple : u(x) = , v(x) = cte, posons v = b.
x
a
L’équation à résoudre est donc y + y = b.
a
x
a
Le facteur intégrant est alors e x dx . On sait que dx = a ln(x). Donc
x
a
dx
e x = ea ln(x) = xa .
Multiplions les deux parties de l’équation par ce facteur. On obtient :
a
xa y + y = bxa = (yxa ) (dérivée d’un produit)
x
⇒ (yxa ) =
bx
a
⇒ yxa = bxa dx + c

⇒ y = x−a bxa dx + cx−a
1 a+1
⇒ y = x−a b x + cx−a (a = −1)
a+1
b
⇒ y= x + cx−a (a = −1)
a+1
Si a = −1, il faut résoudre l’équation : (yxa ) = bxa qui devient

y b
y b
= ⇒ = dx + c
x x x x
y
⇒ = b ln(x) + c
x
⇒ y = bx ln(x) + cx
Si v(x) = 0 dans l’équation, on a : y +u(x)y = 0. Cette équation est dite homogène.

Autrement, elle est non-homogène.
Nous avons vu que la solution générale de l’équation y + u(x)y = v(x) est

e− u(x)dx v(x)e u(x)dx dx + ce− u(x)dx .

Lorsque v(x) = 0, la solution générale est ce− u(x)dx . Donc, lorsque v(x) = 0, la
solution générale de l’équation est la somme de la solution générale de l’équation
homogène correspondante (en posant v(x) = 0) et d’une solution particulière de
l’équation complète (avec v(x)).
a
Ainsi dans l’exemple précédent, lorsque a = −1, la solution générale de y + y = b
x
b a
est y = x+cx−a . On remarque que cx−a est la solution générale de y + y = 0.
a+1 x
En effet,
−a a a
cx + y = −acx−a−1 + cx−a = −acx−a−1 + acx−a−1 = 0.
x x
bx a
et est une solution particulière de l’équation y + y = b lorsque c = 0.
a+1 x
En optimisation dynamique, on s’intéresse au comportement de y(t), la variable
indépendante x = t, lorsque t → +∞. Si y(t) a une limite, elle est appelée état
stationnaire ou équilibre. C’est la valeur de y(t), lorsque y (t) = 0 (variation
nulle).
Résolvons l’équation
a
y (t) + y(t) = bt2
t
a
Le facteur intégrant est e t dt . Multiplions donc les deux parties de l’équation par
ce facteur. On obtient :
a a a a a
e t dt y + y = bt2 e t dt ⇒ ye t dt = bt2 e t dt
t a a
⇒ ye t dt = bt2 e t dt dt + c

⇒ yt = bt2 ta dt + c
a

⇒ yt = bta+2 dt + c
a
b a+3
⇒ yta = t + c, (a = −3)
a+3
b 3
⇒ y= t + ct−a , (a = −3)
a+3
Pour a = −3, on a :

yt−3 = bt−1 dt + c = b ln(t) + c ⇒ y = bt3 ln(t) + ct3 .
4.2 Équations spéciales

Il s’agit de présenter ici quelques équations différentielles du 1er ordre qui ont été
dégagées par des mathématiciens traitant de problèmes de physique.
4.2.1 Équation de BERNOULLI

Il s’agit d’une équation différentielle du 1er ordre non-linéaire, découverte et ré-
solue par Jacques Bernoulli (1759 – 1789). Elle est de la forme :
y + p(x)y = q(x)y n
où p(x) et q(x) sont des fonctions continues de x (ou constantes) et n = 0 et n = +1.

Car si n = 0 ou n = +1, on a des équations linéaires. Cependant, lorsque n = 0 et
n = +1, on a une équation non-linéaire qui se ramène tout de même à une équation
linéaire de la manière suivante :
Divisons tous les termes par y n . On obtient :
y y −n + p(x)yy −n = q(x) ⇔ y −n y + p(x)y −n+1 = q(x) (4.1)
Faisons le changement de variable suivant : z = y −n+1 . D’où

dz dy 1 dz
zx = = (−n + 1)y −n+1−1 ⇒ y −n y =
dx dx −n + 1 dx
Substituons z à y dans l’équation (4.1) pour obtenir :
1
z + p(x)z = q(x) ⇒ z + (−n + 1)p(x)z = (−n + 1)q(x).
−n + 1
On a bien là une équation du 1er ordre linéaire. Cette équation a été résolue par
Bernoulli par séparation des variables.
Exemple : Résolvons y + xy = x3 y 3 . On a bien là une équation de Bernoulli où

p(x) = x, q(x) = x3 et n = 3.
Pour la ramener à une équation linéaire, divisons par y 3 pour obtenir
y −3 y + xy −2 = x3
1
Posons z = y −2 . Cela donne z = −2y −3 y ⇒ y −3 y = − z . Remplaçons y par z
2
dans l’équation ci-dessus. On obtient l’équation linéaire suivante :
1
− z + xz = x3 ⇔ z − 2xz = −2x3 (4.2)
2

On peut utiliser le facteur intégrant e −2xdx comme on a vu lorsque u(x) et v(x)
sont variables dans une équation linéaire du premier ordre.
2 +cte 2
−2xdx
e = e−x = ce−x
Multiplions tous les termes dans l’équation (4.2) par ce facteur. On obtient :
2 2 2 2 2 2
z ce−x − 2xce−x z = −2x3 ce−x ⇒ z e−x − 2xe−x z = −2x3 e−x (4.3)
La partie gauche est :
2 2
z e−x + z e−x = u v + uv
2
en posant u= z et v = e−x . On sait que u v + uv = (uv) . Donc, la partie gauche
2
est égale à ze−x . Ainsi le (4.3) est :

2 2 2 2
ze−x = −2x3 e−x ⇒ ze−x = −2x3 e−x dx + cte.
Intégrons par parties le 1er terme de la partie droite de l’équation ci-dessus :

2 2
2

−2x3 e−x = (−2x)x2 e−x = x2 −2xe−x .
2
2
2
Cette dernière parenthèse est la dérivée de e−x . D’où x2 −2xe−x = x2 e−x .
2 2
En Posant u = x2 et e−x dx = dv ⇒ v = e−x et du = 2xdx, on obtient
2
2 2 2 2
−2x3 e−x dx = udv = uv− vdu = x2 e−x − e−x 2xdx = x2 e−x +e−x +cte
D’où :
2 2 2 2 1
ze−x = x2 e−x + e−x + cC ⇒ z = x2 + 1 + cex comme z = y −2 , on a y = z − 2
1
⇒y= √
x2 + 1 + ce2
4.2.2 Équation de CLAIRAUT

Cette équation a été découverte par le mathématicien français Alexis Claude
Clairaut (1713 – 1765). Elle est de la forme :
y = xy + ϕ(y )
où ϕ est une fonction continûment dérivable.
Si l’on dérive cette équation, on obtient :
y = (xy ) + (ϕ(y ))
= xy + y + ϕ (y )y
= y + xy + ϕ (y )y
⇒ 0 = [x + ϕ (y )] y
Donc l’équation admet deux solutions : y = 0 ou [x + ϕ (y )] = 0.
∗ y = 0 implique y = cte. D’où y = xc + ϕ(c). Les y(x) sont donc des droites
de pente c, solutions générales de l’équation en résolvant l’équation de Clai-
raut ;
∗ x + ϕ (y ) = 0 cela donne une solution singulière en résolvant l’équation impli-
cite f (x, y ) = 0 pour trouver y puis y.
4.2.3 Équations de LAGRANGE

Découvertes par le mathématicien Joseph louis Lagrange (1736 – 1813), ces
équations sont une reformulation de la mécanique classique. Elles sont de la forme :
y = xf (y ) + g(y )
où f et g sont des fonctions données de y . Ces équations sont linéaires par rapport
à x et y.
L’équation de Clairaut ci-dessus est un cas particulier de l’équation de Lagrange,
lorsque f (y ) = y .
On peut intégrer l’équation de Lagrange en introduisant p = y . Elle devient alors :
y = xf (p) + g(p)
Si l’on dérive, on trouve :

y = p = f (p) + xf (p)p + g (p)p ⇒ p − f (p) = xf (p) + g (p) p
∗ Si p = cte, donc p = 0, alors p − f (p) = 0 ⇒ p = f (p). L’équation devient :

y = xf (c) + g(c) : famille de droites. Cette solution n’est pas une solution
particulière dans la mesure où elle n’a pas été déduite de la solution générale
en spécifiant la constante. Elle est donc une solution singulière. Trouvons
alors la solution générale de l’équation de Lagrange.
∗ Dans le cas général de p, on a
dp p − f (p)
p − f (p) = xf (p) + g (p) p ⇒ p = =
dx xf (p) + g (p)
dx f (p) g (p)
⇒ =x +
dp p − f (p) p − f (p)
L’équation qu’on vient d’obtenir est une équation linéaire du 1er ordre en
x(p). Elle admet une solution générale pour x fonction de p et c, x = ω(p, c).
On en tire p = y ; puis en intégrant, on trouvera y(x) la solution générale
recherchée.
Exemple : Résoudre y = xy 2 + y 2 . Posons y = p :
2 2
y = xy + y ⇒ y = p2 + 2xp p + 2pp = p ⇒ p − p2 = [2xp + 2p] p .
∗ Si p = cte, p = 0, donc p − p2 = y − p2 = 0.
⇒ y = p2 ⇒ y = p2 x + cte (solution singulière)

∗ Dans le cas général de p, On a

dp dx 2p 2p
p − p2 = (2xp + 2p) ⇒ =x + ⇔ x = xA + B
dx dp p − p2 p − p2
Intégrons cette équation linéaire du 1er ordre (simplifions les coefficients)

2 2 2 2
x = x + ⇒ x − x= .
1−p 1−p 1−p 1−p
Utilisons le facteur inégrant :
−2
2
dp
e 1−p = e2 ln |1−p|+c = ec eln |1−p| = cte(1 − p)2
Le facteur intégrant est ainsi c(1 − p)2

2 2
c(1−p)2 x + c(p−1)2 x = c(p−1)2 ⇒ (p−1)2 x +2(p−1)x = −2(p−1).
p−1 −(p − 1)
La partie gauche de l’équation est de la forme uv + u v si l’on pose v = x, donc

v = x et u = (p − 1)2 donc u = 2(p − 1). La partie gauche est donc égale à (uv) ,
d’où

x(p − 1)2 = −2(p − 1) ⇒ x(p − 1)2 = −2(p − 1)dp + c1
⇒ x(p − 1)2 = −(p − 1)2 + c
c
⇒ x = −1 +
(p − 1)2
cte
⇒ x+1=
(p − 1)2
cte
⇒ p−1= √
x+1
cte
⇒ p= √ +1
x+1
Remplaçons p par cette valeur dans l’équation y = xp2 + p2 , on obtient
2 2
c c
y=x √ +1 + √ + 1 C = 0 ⇒ y = x + 1 solution particulière.
x+1 x+1
4.3 Solutions graphiques des équations différentielles du

premier ordre
Rappelons que l’on appelle solution générale d’une équation du 1er ordre une
fonction y = f (x, c) dépendant d’une constante quelconque c et satisfaisant aux
conditions :
i- y = f (x, c) vérifie l’équation différentielle y = ϕ(x, y) quelle que soit la valeur
de c ;
ii- pour toute condition initiale y0 = f (x0 , c), on peut trouver c0 tel que y =
f (x, c0 ) vérifie la condition initiale.
Lorsqu’on cherche la solution générale d’une équation, on est souvent conduit à

un résultat de la forme ψ(x, y, c) = 0. C’est en résolvant cette équation par rapport
à y qu’on obtient la solution générale. Cela n’est pas toujours possible pour les fonc-
tions élémentaires. Dans ce cas, on peut converger vers la solution générale sous sa
forme implicite ψ(x, y, c) = 0. Cette solution générale implicite s’appelle l’intégrale
générale de l’équation différentielle (une fonction nulle de x, y et c).
Une solution particulière, c’est toute fonction y = f (x, c0 ) déduite de la solution
générale y = f (x, c) en posant c = c0 . L’intégrale générale où c = c0 devient une
intégrale particulière, ψ(x, y, c0 ) = 0.
De point de vue géométrique, l’intégrale générale ψ(x, y, c) = 0 représente une
famille de courbes planes dépendant du paramètre c. Ces courbes sont appelées
courbes intégrales de l’équation différentielle considérée. Une intégrale particu-
lière est représentée par une courbe appartenant à cette famille et passant par un
point donné du plan.
Exemple : l’équation du 1er ordre y = − xy a pour solution générale y = c

x
y y 1 c
y = − ⇒ = − ⇒ ln(y) = − ln(x) + c = ln(x−1 ) + C ⇒ y = x−1 ek = .
x y x x
c
Si les conditions initiales sont y(2) = 1, on a 1 = ⇒ c0 = 2. Une solution
2
2
particulière est donc y = . La solution générale correspond à la famille d’hyperboles
x
c 2
y = et l’intégrale particulière y = appartient à cette famille et elle passe par le
x x
point (2, 1) du plan (x, y).
Ainsi, lorsqu’on parle de solution d’une équation différentielle, on peut signifier
aussi la famille de courbes pour l’intégrale générale ou une courbe donnée pour l’in-
tégrale particulière considérée. On parlera ainsi d’une solution (particulière) passant
par un point donné.
Résoudre une équation différentielle, c’est donc chercher sa solution générale ou
son intégrale générale, ou chercher la solution particulière satisfaisant aux conditions
initiales, le cas échéant.
Géométriquement, il s’agit de déterminer la famille de courbes intégrales dans le
plan (x, y) dépendant de c et de déterminer des courbes particulières passant par des
points donnés.
On sait que la valeur de la dérivée y à un point donné d’une courbe intégrale
correspond à la pente de la tangente à la courbe en ce point.
L’équation différentielle y = ϕ(x, y) définit donc un ensemble de directions ou
un champ de directions dans le plan (x, y).
On appelle isocline de l’équation différentielle y = ϕ(x, y) le lieu géométrique
des points vérifiant y = cte. À chaque valeur de cte correspond une isocline. L’équa-
tion de l’isocline correspondant à c est évidemment y = ϕ(x, y) = c.
Il est évident que les courbes intégrales sont déterminées par les isoclines. Ces
dernières donnent l’allure des premières dans le plan.
Si l’équation différentielle est F (x, y, c) = 0 et si son intégrale générale est

φ(x, y, c) = 0. On appelle enveloppe L d’une famille de courbes à un paramètre
une courbe tangente en chacun de ses points à une courbe de la famille.
Les points de l’enveloppe appartiennent aux courbes intégrales, chacune pour une
valeur donnée de c, donc ces points vérifient : φ(x, y, c) = 0. En ces points de tangence
aux courbes intégrales, la pente de l’enveloppe est déterminée par φ (x, y, c) = 0.
Autrement, les valeurs x et y qui déterminent le point de l’enveloppe et de la courbe
concernée correspondent aux valeurs qui déterminent la pente de la tangente. Avec
ces deux équations φ(x, y, c) = 0 et φ c (x, y, c) = 0, on détermine ainsi l’équation de
l’enveloppe y = g(x) en éliminant c.
Si y = ϕ(x) représente le lieu géométrique des points de la famille φ(x, y, c) = 0
tels que φ x = 0 et φ y = 0, les coordonnées x, y de ces points vérifient aussi les
équations φ(x, y, c) = 0 et φ c (x, y, c) = 0. Ces points sont appelés points singuliers
de la famille.
Les deux équations φ(x, y, c) = 0 et φ c (x, y, c) = 0 définissent donc soit l’enve-
loppe, soit le lieu des points singuliers des courbes de la famille φ(x, y, c) = 0, soit
une combinaison des deux. Il faut faire l’étude des résultats pour décider.
Exemple 1 : Trouvons l’enveloppe de la famille de cercles dépendant du paramètre

c:
(x − c)2 + y 2 − R2 = 0
Dérivons l’équation de la famille φ(x, y, c) = 0 ci-dessus par rapport à c :
φ c (x, y, c) = −2(x − c) = 0 ⇒ x = c
φ(x, y, c) = 0 et x = c ⇒ y 2 − R2 = 0 ⇒ y = ±R
Le couple de droites y = +R et y = −R constituent bien l’enveloppe (les cercles de
la famille n’ont pas de points singuliers).
Exemple 2 : Trouvons l’enveloppe de la famille de paraboles semi-cubiques :
φ(x, y, c) = y 3 − (x − c)2 = 0
Calculons φ c :
φ c = +2(x − c) = 0 ⇒ x = c
y 3 − (c − c)2 = 0 ⇒ y = 0
l’axe des x, d’équation y = 0, est le lieu des points singuliers. Vérifions le :
φ x = −2(x − c) = 0
φ y = 3y 2 = 0
et comme ils sont des points de la famille, ils vérifient y 3 − (x − c)2 = 0. Les trois
équations φ = φ x = φ y = 0 nous donnent le point x = c, y = 0.
Exemple 3 : Trouvons l’enveloppe et les points singuliers de la famille :
2
φ(x, y, c) = (y − c)2 − (x − c)3 = 0
3
Calculons φ c :
φ c = −2(y − c) + 2(x − c)2 = 0 ⇒ −y + c + (x − c)2 = 0 ⇒ (y − c) = (x − c)2
Remplaçons dans φ, on obtient :

2 2
(x − c)4 − (x − c)3 = 0 ⇒ (x − c)3 (x − c) − =0
3 3
Cela donne deux solutions pour c : c = x et c = x − 2

3
∗ Lorsque c = x, on a c = y − x − (c −
φ = 0 ⇒ y = x. C’est la droite des
c)2
points singuliers, car sur cette droite φ x = φ y = 0 (φ x = −2(x − c)2 = 0,
puisque x = c ; φ y = 2(y − c) = 0 puisque y = x = c) ;
∗ Lorsque c = x − 32 , φ c = y − x + 23 − (x − x + 23 )2 ⇒ y = x − 29 . Cette droite
est bien l’enveloppe de la famille des courbes.
L’enveloppe d’une famille de courbes intégrales est, elle même, une courbe inté-
grale. Mais, l’enveloppe n’est pas en général une courbe de la famille des courbes
intégrales. L’enveloppe ne peut être déduite de l’intégrale en spécifiant c. Toute so-
lution de l’équation différentielle non déduite de l’intégrale générale en spécifiant c
est appelée solution singulière de cette équation et ayant pour graphe l’enveloppe
de la famille de courbes intégrales de la solution générale.
Toute solution singulière est constituée de points singuliers.
4.4 Existence et unicité d’une solution d’une équation du

premier ordre
Une équation différentielle du premier ordre est de la forme :
F (x, y, y ) = 0.
Lorsque cette équation est résoluble en y , on peut la mettre sous la forme :
y = f (x, y)
On dit dans ce cas que l’équation est résoluble par rapport à la dérivée. Pour ces
équations résolubles par rapport à la dérivée, y = f (x, y), la fonction f et sa dérivée
pa rapport à y, fy sont continues dans un domaine D du plan x, y, et si (x0 , y0 ) est
un point de D, il existe une solution unique y = ϕ(x) satisfaisant à y = y0 lorsque
x = x0 .
Géométriquement, cela signifie qu’il existe une fonction y = ϕ(x) et une seule
dont la courbe passe par le point (x0 , y0 ).
Cette condition y0 = ϕ(x0 ) s’appelle la condition initiale
4.4.1 Solution approchée des équations du 1er ordre

Il existe plusieurs méthodes d’analyse numérique pour déterminer une solution
approchée d’une équation différentielle du premier ordre : la méthode d’Adams ap-
plique la formule de Taylor ; la méthode de Runge-Kutta qui se prête facilement
à la programmation ; la méthode d’Euler . . .
Considérons cette dernière. Elle consiste en ce qui suit :
Nous cherchons une solution approchée (non exacte) de l’équation :
y = f (x, y)
vérifiant y(x0 ) = y0 , sur le segment [x0 , b].

Découpons le segment [x0 , b] en n parties égales :
b − x0
x1 − x0 = x2 − x1 = x3 − x2 = · · · = b − xn−1 = ∆x = h ⇒ h =
n
Soit y = ϕ(x) une certaine solution approchée de l’équation ci-dessus et y0 =
ϕ(x0 ), y1 = ϕ(x1 ), · · · , yn = ϕ(xn ). Posons ∆y0 = y1 −y0 , ∆y1 = y2 −y1 , · · · , ∆yn−1 =
yn − yn−1 . En chacun des points x0 , x1 , · · · , xn de l’équation, remplaçons y par le
rapport des différences finies
∆y
= f (x, y) ⇒ ∆y = ∆xf (x, y)
∆x
Ainsi pour x = x0 , on aura : y1 − y0 = f (x0 , y0 )h (x0 , y0 , h connus). De là, on tire
y1 = y0 + f (x0 , y0 )h.
De même :
y2 = y1 + f (x1 , y1 )h, . . . , yn = yn−1 + f (xn−1 , yn−1 )h
Nous avons ainsi trouvé les valeurs approchées de la solution aux points x0 , x1 , · · · , xn .
En joignant les points ainsi trouvés (xi , yi ), on obtient la ligne brisée d’Euler
qui est la représentation approchée de la courbe intégrale de l’équation considérée
y = f (x, y).
Exemple d’application de la méthode d’Euler :

Soit l’équation y = y + x ou y − y − x = 0 ; f (x, y) = y + x vérifiant la condition
initiale y0 = y(0) = 1. Trouvons une solution approchée y(x) à x = 1.
Divisons le segment [0, 1] en 10 parties 0, 0.1, 0.2, . . . , 0.9, 1, c’est-à-dire considé-

rons h = 0.1.
Calculons les valeurs de y0 , y1 , · · · , yn , yi = ϕ(xi ) à l’aide de la formule trouvée
ci-dessus :
yi = yi−1 + f (xi−1 , yi−1 )h.
Nous obtenons :
Pour x0 = 0, y0 = 1 (condition initiale)
x1 = 0.1, y1 = 1 + (0 + 1) × 0.1 = 1.1
x2 = 0.2, y2 = 1.1 + (0.1 + 1.1) × 0.1 = 1.22
x3 = 0.3, y3 = 1.22 + (0.2 + 1.22) × 0.1 = 1.362
x4 = 0.4, y4 = 1.362 + (0.4 + 1.362) × 0.1 = 1.524
x5 = 0.5, y5 = 1.524 + (0.5 + 1.524) × 0.1 = 1.7164
x6 = 0.6, y6 = 1.7164 + (0.6 + 1.7164) × 0.1 = 1.938
x7 = 0.7, y7 = 1.938 + (0.7 + 1.938) × 0.1 = 2.1918
x8 = 0.8, y8 = 2.1918 + (0.8 + 2.1918) × 0.1 = 2.481
x9 = 0.9, y9 = 2.481 + (0.9 + 2.481) × 0.1 = 2.8091
x10 = 1, y10 = 2.8091 + (1 + 2.8091) × 0.1 = 3.18
Nous avons ainsi trouvé la valeur approchée y10 = 3.18 pour x10 = 1. Nous pouvons
calculer la solution exacte en résolvant y − y − x = 0 (facteur intégrant e−x , puis
intégration par parties). La solution générale est y = ce+x −x−1. La condition initiale
(0, 1) nous donne la solution particulière à ce point : y = c − 0 − 1 = 1 ⇒ c = 2 :
y = 2ex − x − 1
Pour x = 1, on a y = 2e−1−1 = 2(e−1) = 3.4366. Lasolution approchée trouvée 3.18

3.4366 − 3.18
s’écarte de la solution exacte 3.4366 de moins de 8% = 0.075 8% .
3.4366
Pour augmenter la précision de la soltion approchée, il faut augmenter n et réduire
par conséquent h. L’ordinateur permet de le faire.
4.4.2 Équations différentielles linéaires du second ordre

La forme générale est :
y (x) + u(x)y (x) + v(x)y(x) = w(x) (4.4)
ou y + uy + vy = w. L’inconnue est y(x).

(4.4) est dite l’équation complète. y + uy + vy = 0 est dite l’équation réduite.
Cette dernière est homogène. L’équation complète est non-homogène.
Rappels utiles :

1. (ex ) = ex ; (ecx ) = cecx ; (ecx ) = c2 ecx ; (ecx ) = c3 ecx ; exu(x) =
u (x)exu(x) .
2. Deux fonctions y et z sont linéairement dépendantes s’il existe deux
constantes non toutes nulles, telles que :
c1 y(x) + c2 z(x) = 0
Ces deux fonctions sont linéairement indépendantes si :

c1 y(x) + c2 z(x) = 0 ⇒ c1 = c2 = 0
c1 y + c2 z est une combinaison linéaire de y et z.
La solution générale de l’équation complète est la somme de toute solution particu-
lière de l’équation complète et de la solution générale de l’équation réduite.
La solution générale de l’équation réduite peut être mise sous la forme d’une combi-
naison linéaire de deux solutions quelconques y1 et y2 linéairement indépendantes.
Supposons que y1 et y2 soient deux solutions linéairement indépendantes de
l’équation réduite, donc :
y1 + uy1 + vy1 = 0
y2 + uy2 + vy2 = 0
c 1 y1 + c 2 y 2 = 0 ⇒ c 1 = c 2 = 0
Donc, si c1 = 0 ou si c2 = 0, alors c1 y1 + c2 y2 = 0. Appelons cette combinaison
linéaire y : c1 y1 + c2 y2 = y
y = c1 y1 + c2 y2 ⇒ y = c1 y1 + c2 y2 ⇒ y = c1 y1 + c2 y2
Comme y1 et y2 sont des solutions de l’équation réduite, on a :
y1 + uy1 + vy1 = 0 et y2 + uy2 + vy2 = 0
d’où y1 + uy1 + vy1 + y2 + uy2 + vy2 = 0
⇒ (y1 + y2 ) + u(y1 + y2 ) + v(y1 + y2 ) = 0
⇒ c1 (y1 + uy1 + vy1 ) + c2 (y2 + uy2 + vy2 ) = 0
⇒ (c1 y1 + c2 y2 ) + u(c1 y1 + c2 y2 ) + v(c1 y1 + c2 y2 ) = 0
⇒ y + uy + vy = 0
Exemple : Considérons l’équation réduite y − 4y = 0. e2x est une solution particu-
lière de cette équation. En effet :
2x
e − 4 e2x = 4e2x − 4e2x = 0
De même, e−2x est une solution particulière de cette équation. En effet :
−2x
e ) − 4(e−2x = 4e−2x − 4e−2x = 0
y(x) = c1 e2x + c2 e−2x est la solution générale de l’équation. En effet,
2x
c1 e + c2 e−2x − 4 c1 e2x + c2 e−2x = 4 c1 e2x + c2 e−2x − 4 c1 e2x + c2 e−2x = 0
pour n’importe quelle valeurs des constantes c1 et c2 . Donc, c1 e2x + c2 e−2x est la
solution générale de l’équation. Elle est une combinaison linéaire des deux solutions
particulières linéairement indépendantes e2x et e−2x de la même équation réduite
considérée.
Remarque : Ce sont les propriétés intéressantes de la fonction exponentielle eux en

matière de dérivation qui en font un candidat privilégié à la résolution des équations
différentielles : (ex ) = ex .
Équations différentielles homogènes à coefficients constants

Considérons l’équations différentielle précédente avec u(x) = a, v(x) = b et sup-
posons que w(x) = 0, a et b des constantes. On a :
y + ay + by = 0
La solution pourrait être y = cerx avec c et r des constantes à déterminer.
y = crerx et y = cr2 erx
En substituant, on obtient :

cr2 erx + acrerx + bcerx = 0 ⇒ cerx r2 + ar + b = 0
c = 0 ⇔ y(x) = 0, solutions non satisfaisantes. D’où, la solution est : r2 + ar + b = 0,

une équation algébrique de second degré en r : ∆ = a2 − 4b. Trois cas à considérer
selon le signe du discriminant ∆ :
∆ > 0 équivaut à √
a2 > 4b ; dans ce cas, on a deux racines réelles distinctes
−a ± a2 − 4b
r1 , r2 = et la solution générale de notre équation réduite
2
est :
y(x) = c1 er1 x + c2 er2 x
où r1 et r2 sont les racines de l’équation caractéristique (r2 + ar + b = 0) et
c1 et c2 sont des constantes arbitraires.
∆ < 0 équivaut
√ à a2 < 4b, √ là les racines r1 et r2 sont complexes√: r1 , r2 =
2
−a ± i a − 4b −a a2 − 4b −a a2 − 4b
= ±i = p±iq en posant = p et =
2 2 2 2 2
q.
La solution générale de l’équation réduite devient :

y(x) = c1 e(p+iq)x + c2 e(p−iq)x = epx c1 eiqx + c2 e−iqx
Comme e±ix = cos(x) ± sin(x), la solution générale pourra être réécrite ainsi :
y(x) = epx (k1 cos(qx) + ik2 sin(qx))
où k1 = c1 + c2 et k2 = c1 − c2 . On voit bien que même dans ce cas, on peut

trouver des solutions réelles epx k1 cos(qx) et epx k2 sin(qx)
a
∆ = 0 équivaut à a2 = 4b. Dans ce cas, on a la racine double r1 = r2 = − ,
2
donc une seule solution :
a
y(x) = c1 e− 2 x .
Trouvons une seconde solution. Essayons y(x) = kxerx avec k et r à détermi-
ner : y = kxerx ⇒
y = kerx +kxrerx = kerx (1+rx) ⇒ y = krerx (1+rx)+krerx = krerx (2+rx)

En substituant dans l’équation considérée, on obtient :
y + ay + by = 0 ⇔ krerx(2 + rx) + akerx (1 + rx)+ bkxerx = 0

⇒ kerx 2r + r2 x + a + arx + bx = 0
⇒ kerx 2r + a + x(r2 + ar + b) = 0
Le crochet doit être nul et le coefficient de x doit être nul et si ce coefficient

a
est nul, le crochet l’est puisqu’on a r = − . Donc, r2 + ar + b = 0. Et comme
2
a
r = − , ce coefficient est nul, car ∆ = 0 = a2 − 4b. D’où y(x) = kxerx est
2
bien une solution de l’équation.
La solution générale de l’équation différentielle, dans le cas où ∆ = 0, est
donc :
a
y(x) = c1 erx + c2 xerx = erx (c1 + c2 x) avec r = − .
2
Exemples :
1. Résoudre l’équation différentielle y − 9y = 0. La solution est y(x) = cerx ,
d’où y (x) = crerx et y (x) = cr2 erx . Substituons dans l’équation :
cr2 erx − 9cerx = 0 ⇒ cerx (r2 − 9) = 0 ⇒ r2 = 9 ⇒ r1 , r2 = ±3.
La solution générale est donc y(x) = c1 e3x + c2 e−3x .

2. Résoudre l’équation différentielle y − 2y + 7y = 0. L’équation caractéristique
est :
√
2 24
r − 2r + 7 = 0 ⇒ ∆ = 4 − 4(7) = −24 ⇒ r1 , r2 = 1 ± i
2
et la solution générale est :
√
24
√
24
y(x) = ex c1 eix 2 + c2 e−ix 2
√ √
= ex k1 cos( 224 x) + k2 sin( 224 x)
√ √
= ex k1 cos( 6x) + k2 sin( 6x)
3. Résoudre l’équation différentielle y − 6y + 9y = 0. Son équation caractéris-

tique est r2 − 6r + 9 = (r − 3)2 = 0 ⇒ r1 = r2 = 3. La solution générale est
donc y(x) = e3x (c1 + c2 x).
Équations différentielles non-homogènes avec coefficients constants

C’est l’équation complète y + ay + by = w avec a, b et w des constantes.
w
Une solution particulière serait y = cte ⇒ y = y = 0 et donc by = w ⇒ y = .
b
Pour trouver une solution plus générale, fonction de x, on peut utiliser la forme
fonctionnelle de w(x) (c’est la méthode des coefficients indéterminés). Si w(x)
est un polynôme de degré n, on essaie un polynôme de degré n comme solution. Par
exemple, l’équation différentielle à résoudre est : y − 2y + 5y = 2x3 + 3x + 1. On
peut essayer le polynôme de degré 3 suivant : y(x) = ax3 + bx2 + cx + d. Dans ce

cas y (x) = 3ax2 + 2bx + c et y (x) = 6ax + 2b. En substituant dans l’équation
différentielle, on trouve :
(6ax + 2b) − 2(3ax2 + 2bx + c) + 5(ax3 + bx2 + cx + d) = 2x3 + 3x + 1

⇒ 6ax + 2b − 6ax2 − 4bx − 2c + 5ax3 + 5bx2 + 5cx + 5d = 2x3 + 3x + 1
⇒ 5ax3 + (−6a + 5b)x2 + (6a − 4b + 5c)x + (2b − 2c + 5d) = 2x3 + 3x + 1
⇒ 5a = 2; −6a + 5b = 0; 6a − 4b + 5c = 3; 2b − 2c + 5d = 1
2 12 63 131
⇒ a = ;b = ;c = ;d =
5 25 125 625
D’où
2 12 63 131
y(x) = x3 + x2 + x+
5 25 125 625
En effet,
6 2 24 63
y = x + x+
5 25 125
12 24
y = x+
5 25
d’où :

12 24 6 2 24 63 2 3 12 2 63 131
x+ −2 x + x+ +5 x + x + x+
5 25 5 25 125 5 25 125 625
= 2x3 + 0x2 + 3x + 1
Ce qui vérifie l’équation.
Donc, lorsque w(x) est un polynôme, la solution de l’équation différentielle est
un polynôme de même degré dont les coefficients sont déterminés de la manière
précédente.
Par contre, si w(x) contient des termes trigonométriques ou exponentiels, la so-
lution à essayer devrait contenir ces fonctions à additionner au polynôme.
Exemple : Soit à résoudre y − 2y = x + ex sin(x). La solution à essayer serait de
la forme :
y(x) = ax + ex (k1 sin(x) + k2 cos(x)) + b.
Cela donne
y = a + ex (k1 sin(x) + k2 cos(x)) + ex (k1 cos(x) − k2 sin(x))
En substituant, on a :
a + ex (k1 sin(x) + k2 cos(x)) + ex (k1 cos(x) − k2 sin(x)) − 2ax

−2bex (k1 sin(x) + k2 cos(x)) = x + ex sin(x)
1 1
⇒ −2a = 1 ; a − 2b = 0 ⇒ a = − ;b = −
2 4
ex (k1 sin(x) + k2 cos(x) + k1 cos(x) − k2 sin(x) − 2k1 sin(x) − 2k2 cos(x)) = ex sin(x)
⇒ k1 sin(x) + k2 cos(x) + k1 cos(x) − k2 sin(x) − 2k1 sin(x) − 2k2 cos(x)) = sin(x)
⇒ k1 − k2 − 2k1 = 1 et k2 + k1 − 2k2 = 0
1
⇒ k 1 = k2 = −
2
D’où la solution :
1 1 1 1
y(x) = − x − + ex (− sin(x) − cos(x))
2 4 2 2
Donc,

1 x 1 1 x 1 1
y (x) = − + e − sin(x) − cos(x) + e − cos(x) + sin(x)
2 2 2 2 2
1
y (x) = − + ex (−cos(x))
2
De là on vérifie l’équation différentielle : y − 2y = x + ex sin(x)
Méthode de la variation des paramètres ou des constantes

Cette méthode est applicable, que les coefficients dans l’équation différentielle
soient constants ou non.
Supposons que y1 (x) et y2 (x) sont des solutions linéairement indépendantes de l’équa-
tion de : y + uy + vy = 0.
Considérons la fonction y(x) = c1 (x)y1 (x) + c2 (x)y2 (x) où les fonctions c1 et c2
ont été choisies pour que y(x) soit une solution particulière de l’équation complète
y + uy + vy = w.
y (x) = c1 (x)y1 (x) + c1 (x)y1 (x) + c2 (x)y2 (x) + c2 (x)y2 (x)
Posons que c1 y1 + c2 y2 = 0. Cela donne :
y (x) = c1 y1 + c2 y2

y (x) = c1 y1 + c1 y1 + c2 y2 + c2 y2
Substituons dans l’équation différentielle complète pour obtenir
y + uy + vy = w ⇔ c1 y1 + c1 y1 + c2 y2 + c2 y2 + u(c1 y1 + c2 y2 ) + v(c1 y1 + c2 y2 ) = w
Comme on a supposé que y1 et y2 sont des solutions de l’équation réduite, les deux
parenthèses ci-dessus sont nulles et on obtient :
c1 y1 + c2 y2 = w
On a posé la restriction c 1 y1 + c 2 y2 = 0.
Nous avons là un système de deux équations linéaires dont les inconnues c1 et c2
peuvent être trouvées, et en les intégrant, on trouvera c1 et c2 .

c1 y1 + c2 y2 = w
c1 y1 + c2 y2 = 0
Une fois c1 et c2 trouvées, on obtient la solution générale de l’équation complète :
y(x) = k1 y1 (x) + k2 y2 (x) + c1 (x)y1 (x) + c2 (x)y2 (x)
où k1 et k2 sont des constantes arbitraires.
e3x
Exemple : Résoudre : y − 6y + 9y = .
x2
L’équation caractéristique de l’équation réduite homogène est r2 − 6r + 9 = 0
dont la double racine est r1 = r2 = 3. D’où y1 (x) = e3x et y2 (x) = xe3x sont deux
solutions linéairement indépendantes de l’équation réduite y − 6y + 9y = 0.
Une solution particulière de l’équation complète est :
y(x) = c1 (x)e3x + xc2 (x)e3x
où c1 et c2 satisfont les deux équations du système ci-haut pouvant être écrit comme
suit : 
 e3x
3c1 (x)e3x + c2 (x) e3x + 3xe3x = 2
 c (x)e3x + c (x)xe3x = 0 x
1 2
1 1 −1
Par substitution, on obtient c2 (x) = ⇒ c2 (x) = − et c1 (x) = ⇒ c1 (x) =
x2 x x
− ln |x|.
La solution particulière devient donc,
1
− ln |x|e3x − xe3x = y(x) ⇒ y(x) = − ln |x|e3x − e3x
x
La solution générale est alors
y(x) = k1 e3x + k2 xe3x − ln |x|e3x − e3x = e3x [k1 + k2 x − ln |x| − 1]
4.4.3 Équations différentielles linéaires d’ordre n

Équations homogènes
La forme générale de ces équations homogènes à coefficients constants est :
y (n) + p1 y (n−1) + p2 y (n−2) + . . . + pn y = 0
où p1 , p2 , · · · , pn sont des constantes.

Si y1 (x), y2 (x), . . ., yn (x) sont des solutions linéairement indépendantes de l’équa-
tion, sa solution générale est :
n

y(x) = ci yi (x)
i=1
À la suite de la résolution des équations

différentielles
linéaires d’ordre 1 et 2, on
peut essayer y = erx comme solution y (n) = rn erx . erx solution donne :

erx rn + p1 rn−1 + p2 rn−2 + . . . + pn−1 r + pn = 0
L’équation caractéristique entre parenthèses doit donc être nulle :
rn + p1 rn−1 + p2 rn−2 + . . . + pn−1 r + pn r0 = 0
Cette équation de degré n a donc n racines pouvant être multiples ou complexes.

— Pour les racines réelles non multiples : y(x) = erx ;
— Pour les racines réelles de multiplicité m, on a : yj (x) = xj−1 erx , j = 1, . . . , m ;
— Pour les racines complexes a ± bi, on a à chaque fois une paire : eax cos(bx)
et eax sin(bx) comme solution ;
— Et si les racines complexes sont multiples, on procède comme pour les réelles.
Exemple : résoudre
y (4) + 2y (3) + 5y (2) + 8y + 4y = 0
L’équation caractéristique est r4 + 2r3 + 5r2 + 8r + 4 = 0. Cette équation peut être

réécrite ainsi : (r2 + 4)(r2 + 2r + 1) = 0. Cette équation a deux facteurs : le premier
n’a pas de racines réelles et ses deux racines complexes sont 2i et −2i. Le second
facteur est une identité remarquable r2 + 2r + 1 = (r + 1)2 . Ses deux racines sont
r1 = r2 = −1. D’où la solution générale de notre équation est :
y(x) = e−x (c1 + c2 x) + c3 cos(2x) + c4 sin(2x)
Équations non-homogènes
La forme générale de ces équations non-homogènes est :
y (n) + p1 y (n−1) + p2 y (n−2) + . . . + pn y = w(x)

Si y ∗ (x) est une solution particulière de cette équation (complète) et ni=1 ci yi (x)
est la solution de l’équation homogène associée, alors y(x) = y (x) + ni=1 ci yi (x)
∗
est la solution générale de notre équation non-homogène.

Nous savons maintenant comment trouver la solution générale de l’équation ho-
mogène associée. Cherchons donc une solution particulière de l’équation complète.
Elle peut être trouvée en appliquant la méthode déjà vue des coefficients indétermi-
nés (polynôme de même degré que w(x)).
Exemple : résoudre
y (3) − y (2) + y = x2
Essayons donc
y(x) = ax2 + bx + c ⇒ y = 2ax + b ⇒ y = 2a ⇒ y = 0.
En substituant dans l’équation, on obtient :
0 − 2a + ax2 + bx + c = x2 ⇒ a = 1, b = 0, c = 2
d’où une solution particulière : y(x) = x2 + 2. Mais, pour l’équation différentielle

y (3) − y (2) = x2 ne comprenant pas les termes y et y , il faut essayer un polynôme
de degré 4 et non de degré de w(x). Car, c’est en dérivant deux fois pour obtenir y
qu’on peut avoir un polynôme de degré 2 de w(x). Dans ce cas, pour obtenir une
solution particulière, il faut essayer :
y(x) = ax4 + bx3 + cx2 + dx + e.
En dérivant 2 fois puis 3 fois et en substituant puis en égalisant les coefficients à ceux
du polynôme w(x) = x2 , on obtient :
1 4 1 3
y(x) = − x − x − x2
12 3
En effet,
1
y (x) = − x3 − x2 − 2x
3
y (x) = −x2 − 2x − 2
y (x) = −2x − 2
y (x) − y (x) = (−2x − 2) − (−x2 − 2x − 2) = x2
Une méthode générale pour trouver une solution particulière de l’équation complète
consiste à appliquer la méthode de la variation des constantes également déjà vue.
Avant de l’appliquer au cas général, d’ordre n, appliquons la méthode à l’équation
différentielle linéaire d’ordre 3. Il s’agit de résoudre :
y + a1 y + a2 y + a3 y = f (x)
Supposons que y1 , y2 et y3 sont solutions particulières de l’équation homogène asso-

ciée :
y1 + a1 y1 + a2 y1 + a3 y1 = y2 + a1 y2 + a2 y2 + a3 y2 = y3 + a1 y3 + a2 y3 + a3 y3 = 0
Donc, y = c1 y1 + c2 y2 + c3 y3 est la solution générale de l’équation homogène dont il

faut déterminer les coefficients.
Cherchons une solution particulière de l’équation complète de cette forme.
Dérivons y = c1 y1 + c2 y2 + c3 y3 , on trouve
y = c1 y1 + c1 y1 + c2 y2 + c2 y2 + c3 y3 + c3 y3
Posons c1 y1 + c2 y2 + c3 y3 = 0. Cela donne y = c1 y1 + c2 y2 + c3 y3 .

Dérivons pour trouver
y = c1 y1 + c1 y1 + c2 y2 + c2 y2 + c3 y3 + c3 y3
Posons c1 y1 + c2 y2 + c3 y3 = 0. Cela donne y = c1 y1 + c2 y2 + c3 y3 .
Dérivons pour trouver
y = c1 y1 + c1 y1 + c2 y2 + c2 y2 + c3 y3 + c3 y3
Remplaçons dans l’équation complète y, y , y et y par leurs valeurs, pour trouver :
(c1 y1 + c1 y1 + c2 y2 + c2 y2 + c3 y3 + c3 y3 )
+a1 (c1 y1 + c2 y2 + c3 y3 ) + a2 (c1 y1 + c2 y2 + c3 y3 ) + a3 (c1 y1 + c2 y2 + c3 y3 ) = f (x).
Cela donne
c1 (y1 + a1 y1 + a2 y1 + a3 y1 ) + c2 (y2 + a1 y2 + a2 y2 + a3 y2 )
+c3 (y3 + a1 y3 + a2 y3 + a3 y3 ) + c1 y1 + c2 y2 + c3 y3 = f (x).
Comme y1 , y2 et y3 sont des solutions particulières de l’équation homogène, les

3 parenthèses ci-dessus sont nulles. Cela nous donne :
c1 y1 + c2 y2 + c3 y3 = f (x).
Cette équation en ci plus les deux restrictions ci-dessus en ci nous donne un système
d’équations (en 3 équations) nous permettant de déterminer les ci (x). En les inté-
grant, on trouvera les ci (x) qui nous donnent donc la solution générale de l’équation
complète.
Considérons donc l’équation différentielle linéaire d’ordre n suivante :
y (n) + a1 y (n−1) + a2 y (n−2) + . . . + an y = f (x)
où les ai et f (x) sont des fonctions continues de x (ou des constantes). Suppososns
que l’on a déterminé la solution générale
n

ȳ = c i yi
i=1
de l’équation homogène associée à l’équation ci-dessus.

On sait que la solution générale y de l’équation complète est la somme d’une
solution particulière y ∗ de cette équation complète et de la solution générale ȳ de
l’équation homogène associée : y = ȳ + y ∗ .
Cherchons donc une solution particulière y ∗ de l’équation complète par la méthode
de la variation des constantes.
Supposons donc que les ci soient des fonctions de x.
Formons alors le système d’équations nécessaires pour trouver les ci . Pour ce
faire, on calcule les dérivées successives de ȳ ou y = ni=1 ci (x)yi (x). Et à chaque
(j)
fois, on pose ni=1 ci yi = 0. Donc, dans les dérivées successives de y, on n’aura pas
de dérivées de ci , car à chaque étape, on annule la somme des termes comportant les
ci , jusqu’à la dernière dérivée y (n) où on laisse les termes en ci . On remplace donc les
y (n) dans l’équation complète et si l’on veut que cette équation soit vérifée, il faudra
donc avoir :
n
(n−1)
ci yi = f (x)
i=1
On obtient ainsi le système de n équations nécessaires pour déterminer les ci (x).
Ce système est comme suit :


 c1 y1 + c2 y2 + . . . + cn yn = 0

 c y + c y + . . . + c y = 0

 n n
 1 1. 2 2
..

 (n−2) + c y (n−2) + . . . + c y (n−2) = 0

 c 1 y1

 2 2 n n
 c y (n−1) + c y (n−1) + . . . + c y (n−1) = f (x)
1 1 2 2 n n
Ce système d’équations avec pour inconnues les ci a une solution bien déterminée :
le déterminant des coefficients des ci est le déterminant des solutions particulières yi
de l’équation homogène. Ce déterminant est le déterminant de Wronski, qui n’est
pas nul puisque les yi sont linéairement indépendants.

Une fois les ci trouvées, on les intègre : ci = ci dx+c̄i . Les c̄i sont des constantes
d’intégration.
L’expression générale y ∗ = ni=1 ci yi comprenant des c̄i constitue ainsi la solution
générale de l’équation complète :
y (n) + a1 y (n−1) + a2 y (n−2) + . . . + an y = f (x)
Exemple :
y (4) − 10y (3) + 35y (2) − 50y + 24y = x2 + 1
L’équation homogène associée est y (4) −10y (3) +35y (2) −50y +24y = 0. Son équation
caractéristique est k 4 −10k 3 +35k 2 −50k+24 = 0. Une racine évidente est k1 = 1 d’où
(k − 1) peut être mis en facteur. Pour cela, il faut diviser le polynôme caractéristique
par (k − 1), on obtient :
k 4 − 10k 3 + 35k 2 − 50k + 24 = (k − 1)(k 3 − 9k 2 + 26k − 24)
On peut vérifier que k2 = 2 est une racine du second facteur. On pourra donc mettre
en facteur (k − 2) en divisant ce polynôme de 3ème degré par (k − 2). On trouve
k 3 − 9k 2 + 26k − 24 = (k − 2)(k 2 − 7k + 12).
Le second facteur est un polynôme de second degré : ∆ = 72 − 4(12) = 1 d’où

7+1 7−1
k3 = = 4 et k4 = = 3.
2 2
Les racines de l’équation caractéristique sont donc réelles :
k1 = 1, k2 = 2, k3 = 3 et k4 = 4.
Les solutions particulières de l’équation homogène sont donc :
y1 = ex , y2 = e2x , y3 = e3x et y4 = e4x .
La solution générale de l’équation homogène est donc de la forme :
y(x) = c1 ex + c2 e2x + c3 e3x + c4 e4x

Calculons y (x) en faisant varier les ci par rapport à x :

y = c1 ex + c1 ex + c2 e2x + 2c2 e2x + c3 e3x + 3c3 e3x + c4 e4x + 4c4 e4x
Posons que c1 ex +c2 e2x +c3 e3x +c4 e4x = 0 Donc : y = c1 ex +2c2 e2x +3c3 e3x +4c4 e4x .
Calculons :
y = c1 ex + c1 ex + 2c2 e2x + 4c2 e2x + 3c3 e3x + 9c3 e3x + 4c4 e4x + 16c4 e4x
Posons que c1 ex + 2c2 e2x + 3c3 e3x + 4c4 e4x = 0 Donc : y = c1 ex + 4c2 e2x + 9c3 e3x +
16c4 e4x .
Dérivons y :
y = c1 ex + c1 ex + 4c2 e2x + 8c2 e2x + 9c3 e3x + 27c3 e3x + 16c4 e4x + 64c4 e4x
Posons que : c1 ex + 4c2 e2x + 9c3 e3x + 16c4 e4x = 0 Donc : y = c1 ex + 8c2 e2x +
27c3 e3x + 64c4 e4x
Dérivons y (3) :
y (4) = c1 ex + c1 ex + 8c2 e2x + 16c2 e2x + 27c3 e3x + 81c3 e3x + 64c4 e4x + 256c4 e4x
Remplaçons dans l’équation complète y et ses dérivées successives par les résultats
ci-dessus :
(c1 ex + c1 ex + 8c2 e2x + 16c2 e2x + 27c3 e3x + 81c3 e3x + 64c4 e4x + 256c4 e4x )
−10(c1 ex + 8c2 e2x + 27c3 e3x + 64c4 e4x ) + 35(c1 ex + 4c2 e2x + 9c3 e3x + 16c4 e4x )
−50(c1 ex + 2c2 e2x + 3c3 e3x + 4c4 e4x ) + 24(c1 ex + c2 e2x + c3 e3x + c4 e4x )
= x2 + 1
⇒ c1 (ex − 10ex + 35ex − 50ex + 24ex )
+c2 16e2x − 8 × 10e2x + 35 × 4e2x − 50 × 2e2x + 24e2x
+c3 81e3x − 10 × 27e3x + 35 × 9e3x − 50 × 3e3x + 24e3x
+c4 256e4x − 10 × 64e4x + 35 × 16e4x − 50 × 4e4x + 24e4x
+c1 ex + 8c2 e2x + 27c3 e3x + 64c4 e4x
= x2 + 1
On voit bien que les parenthèses ci-dessus sont nulles puisque 1, 2, 3 et 4 sont les
racines de l’équation caractéristique. Il reste donc que l’on doit avoir :
c1 ex + 8c2 e2x + 27c3 e3x + 64c4 e4x = x2 + 1
Avec les 3 restrictions posées ci-dessus, on obtient le système d’équations en ci sui-
vant :  x 2x 3x + c e4x = 0
 c1 ex + c2 e 2x+ c3 e 3x

 4
c1 e + 2c2 e + 3c3 e + 4c4 e4x = 0
 c1 ex + 4c2 e2x + 9c3 e3x + 16c4 e4x = 0

 x
c1 e + 8c2 e2x + 27c3 e3x + 64c4 e4x = x2 + 1
Le déterminant principal du système, déterminant de Wronski, le wronskien est
ainsi : x
e 2x 3x e4x
x e 2x e 3x
e 2e 3e 4e4x
D = x
e 4e
2x 9e 3x 16e4x
ex 8e2x 27e3x 24e4x
Ce déterminant n’est pas nul puisque les 4 solutions particulières ex , e2x , e3x et e4x
sont linéairement indépendantes.
Calculons les déterminants de chacune des ci en remplaçant dans le déterminant
principal la colonne correspondante par la colonne :
 
0
 0 
 
 0 
2
x +1
Cela donne le produit de (x2 +1) par le déterminant obtenu en supprimant la dernière
ligne et la colonne correspondante en tenant compte du signe.
Pour avoir c1 , le déterminant D1 est :

0 e2x e3x e4x

0 2e2x 3e3x 4e4x
D1 =
0 4e2x 9e3x 16e4x
x2 + 1 8e2x 27e3x 24e4x
En développant par rapport à la première colonne, on obtient :

2x
e e3x e4x

D1 = −(x2 + 1) 2e2x 3e3x 4e4x
4e2x 9e3x 16e4x
Développons le déterminant d’ordre 3 ci-dessus par rapport à la première ligne pour

obtenir :
2x 4x
D1 = −(x2 + 1) e2x 3e3x 16e4x − 3x 4x 3x
9e 4e − e 2e 16e − 4e 4e
2x 4x
4x 2x 3x
+e 2e 9e − 4e 3e 2x 3x

= −(x2 + 1) 48e9x − 36e9x − 32e9x + 16e9x + 18e9x − 12e9x
D1 = −2(x2 + 1)e9x
D1
On trouve ainsi, c1 = . On intégrera c1 pour trouver c1 . Calculons d’abord D. On
D
peut développer par rapport à la première colonne. Ce qui nous donne une somme
algébrique de 4 déterminants d’ordre 3 tous multipliés par ex . Le résultat final est
D = 12e10x . D’où
−2(x2 + 1)e9x −2(x2 + 1) −x
c1 = = e
12e10x 12
En intégrant c1 , on obtient

−2(x2 + 1) −x
c1 (x) = e dx
12
2 2 x 1
= (x + 1)e−x + e−x + e−x
12 3 3

2 2 2 x 1
= e−x x + + + + c̄1
12 12 3 3
2 2 x 1
= e−x x + + + c̄1
12 3 2
On calculera c2 (x), c3 (x) et c4 (x) de la même manière.

Prenons un exemple plus simple : y (3) − y (2) = x2
L’équation caractéristique est : r3 − r2 = 0 = r2 (r − 1). Ses racines sont r1 = r2 = 0
et r3 = 1. D’où trois solutions linéairement indépendantes de l’équation homogène :
y1 (x) = e0x = 1, y2 (x) = xe0x = x et y3 (x) = ex
La solution à essayer pour l’èquation non-homogène (complète) est :
y(x) = c1 (x) × 1 + c2 (x) × x + c3 (x)ex
Et le système nous permettant de déterminer les coefficients ci est :
c1 × 1 + c2 × x + c3 ex = 0
c1 × 0 + c2 × 1 + c3 ex = 0
c1 × 0 + c2 × 0 + c3 ex = x2
Le wronskien est donc :

1 x ex
1 ex
D = 0 1 e = 1
x = ex = 0
0 0 ex 0 ex

0 x ex
x ex
D1 = 0 1 ex = x2 = x2 ex (x − 1) = 0
x2 0 ex 1 e
x
Donc :
D1 x2 ex (x − 1) x4 x3
c1 = = x
= x3 − x 2 ⇒ c 1 = − + c̄1
D2 e 4 3

1 0 ex
0 ex
D2 = 0 0 ex = 1 2 x = −x2 ex
0 x 2 ex x e
−x2 ex −x3
c2 = = −x2 ⇒ c2 (x) = + c̄2
ex 3

1 x 0
1 0
D3 = 0 1 0 = 1 = x2
0 2 0 x2
0 x
x2
c3 = = x2 e−x ⇒ c3 (x) = −e−x (x2 + 2x + 2) + c̄3
ex
D’où la solution générale de l’équation complète :
4 3
x x3 x
y(x) = − + c̄1 × 1 + − + c̄2 × x + −e−x (x2 + 2x + 2) + c̄3 × ex
4 3 3
x 4 x3
= − − − x2 + (c̄2 − 2)x − 2 + c̄1 + c̄3
12 3
À travers ces deux exemples, il apparaît clair que la résolution d’une équation diffé-
rentielle linéaire d’ordre n revient à résoudre un système d’équations différentielles
linéaires du premier ordre (dont le déterminant principal est le wronskien).
4.4.4 Système d’équations différentielles linéaires

Considérons d’abord une paire d’équations linéaires du premier ordre :

y = a1 y(x) + b1 z(x) + f (x)
(4.5)
z = a2 y(x) + b2 z(x) + g(x)
où a1 , a2 , b1 et b2 sont des constantes données et y(x) et z(x) sont les fonctions

inconnues à trouver.
Rappelons que pour une seule équation linéaire, la solution est la somme de la solution
générale de l’équation homogène associée et d’une solution particulière de l’équation
non-homogène.
Les équations homogènes associées aux deux équations de la paire ci-dessus sont
celles obtenues en annulant f (x) et g(x) :

y = a1 y + b1 z
(4.6)
z = a2 y + b2 z
Pour résoudre (4.6), on peut ramener le système ou la paire des deux équations du
premier ordre en une seule équation du second ordre, en différenciant la première, ce
qui donne y = a1 y + b1 z . Remplaçons ici z par sa valeur donnée par la seconde
équation. D’où
y = a1 y + b1 (a2 y + b2 z) = a1 y + b1 a2 y + b1 b2 z
“Èliminons” z ici en le remplaçant par sa valeur donnée par la première équation

1
z= (y − a1 y)
b1
1
y = a1 y + b1 a2 y + b1 b2
(y − a1 y)
b1

⇒ y = (a1 + b2 )y + (b1 a2 − a1 b2 )y
⇒ y − (a1 + b2 )y + (a1 b2 − b1 a2 )y = 0 (4.7)
Cette équation différentielle est simple. Son équation caractéristique est :
r2 − (a1 + b2 )r + (a1 b2 − b1 a2 ) = 0
Si les racines de cette solution sont réelles et distinctes (si (∆ > 0), alors le solution
générale de l’équation (4.7) est y(x) = c1 er1 x + c2 er2 x (r1 et r2 étant les racines de
l’équation caractéristique).
À partir de là, on peut calculer y (x). Et en remplaçant dans la première équation
de (4.6), on obtient z(x) :
y = r1 c1 er1 x + r2 c2 er2 x ⇒ z(x) = [(r1 c1 er1 x + r2 c2 er2 x ) − a1 (c1 er1 x + c2 er2 x )] b1

1
⇒ z(x) = [(r1 − a1 )c1 er1 x + (r2 − a1 )c2 er2 x ]
b1
Nous avons ainsi trouvé la solution générale de la paire (4.6).
Exemple : résolution d’un système de deux équations linéaires homogènes du pre-

mier ordre :
y = y+z
z = y − z
La première équation donne z = y − y et y = y + z = y + y − z
⇒ y = y + y − (y − y) = 2y
⇒ y − 2y = 0
⇒ r2 − 2√= 0 √
⇒ r1 = 2 et√r2 = − 2√
⇒ y(x) = c1 e 2x √+ c2 e− 2x √
√ √
⇒ y (x) = 2c1 e 2x − 2c2 e− 2x
√ √ √ √ √ √
⇒ z(x) = 2c1 e 2x − 2c2 e− 2x − c1 e 2x + c2 e− 2x
√ √ √ √
⇒ z(x) = ( 2 − 1)c1 e 2x − ( 2 + 1)c2 e− 2x
La résolution de la paire (4.6) d’équations homogènes suggère une autre méthode

qui consiste à retenir une solution particulière Aerx de l’unique équation du second
ordre ci-dessus
y − (a1 + b2 )y + (a1 b2 − a2 b1 )y = 0
y = Aerx nous donne
1
z= (y − a1 y) = Arerx − a1 Aerx = A(r − a1 )erx = Berx
b1
avec B = A(r − a1 )
y = Aerx ⇒ y = Arerx
z = Berx ⇒ z = Brerx
En remplaçant y, y , z et z dans, on obtient la nouvelle paire d’équations linéaires
homogènes (4.6) suivante :

Arerx = Aa1 erx + Bb1 erx Ar = a1 A + b1 B
⇒
Brerx = Aa2 erx + Bb2 erx Br = a2 A + b2 B
(a1 − r)A + b1 B = 0
⇒
a2 A + (b2 − r)B = 0
Écrit matriciellement, ce système devient :

a1 − r b1 A 0
=
a2 b2 − r B 0
En remplaçant la matrice des coefficients par M et le vecteur des inconnues A et B

par C, C = (A, B) et le vecteur des zéros par (0), on obtient M C = (0).
Si le déterminant de M est non nul, on pourra inverser M et on trouvera que
C = M −1 (0) = (0) ⇒ A = B = 0
Si le déterminant de M est nul, on a

|M | = (a1 − r)(b2 − r) − a2 b1 = r2 − r(a1 + b2 ) + a1 b2 − a2 b1 = 0.
Cette équation en r correspond exactement à l’équation caractéristique déjà vue de
l’équation différentielle du second ordre équivalente à la paire des équations du pre-
mier ordre.
En supposant qu’elle a deux racines réelles distinctes r1 et r2 , on obtient deux so-
lutions A1 et A2 pour A et donc deux solutions pour y. La solution générale de
la paire homogène y devient (la somme des deux solutions particulières : y(x) =
A1 erx + A2 xerx et de là, la solution générale pour
1
z(x) = (y − a1 y)
b1
1
= [(r − a1 )(A1 + A2 x) + A2 ] erx
b1
La solution générale du système homogène étant trouvée, pour trouver une solution
particulière du système non-homogène, on pourra appliquer la méthode déjà vue de
la variation des constantes. Il suffira de calculer les dérivées (premières) de y et z et
de calculer y, z, y et z par leurs valeurs obtenues dans le système non-homogène et
résoudre le système en posant y = z = 0. Le système à résoudre est alors :

a1 y + b1 z + f (x) = 0
a2 y + b2 z + g(x) = 0
Il est aisé de trouver ainsi y et z qui satisfont le système.
L’extension de la méthode décrite pour une paire aux systèmes de plus de deux
équations linéaires du premier ordre ne pose pas de problème particulier.
Le point ys et zs auquel y = z = 0 est appelé point d’équilibre ou état
stationnaire. Un équilibre est stable si lim y(x) = ys et lim z(x) = zs .
x→+∞ x→+∞
Lorsque dans le système (4.5), f (x) et g(x) sont des constantes, on a plusieurs
cas :
1. Racines réelles distinctes
1er Cas : les racines de l’équation caractéristique de l’équation du premier ordre
auquel le système est ramené, r1 et r2 sont réelles et distinctes et négatives :
r2 < r1 < 0. Dans ce cas, les conditions de Routh-Hurwitz :
γ = a1 b2 − a2 b1 > 0 et β = a1 + b2 < 0
sont vérifiées (l’équation caractéristique ci-haut est en fait r2 − βr + γ = 0,
or ∆ = β 2 − 4γ d’où
√ √
β+ ∆ β− ∆
r1 = et r2 = ,
2 2
√
comme γ > 0 : β 2 − 4γ < β 2 donc | ∆| < β implique et comme β < 0 on a
r2 < r1 < 0).
Dans ce cas,
lim [y(x) = c1 er1 x + c2 er2 x ] = c1 + c2
x→∞
À ce point, y (x) = 0 puisque y = cte. L’équilibre est donc stationnaire à ce

point. On parle de nœud stable.
2ème Cas : r1 > r2 > 0. Les deux racines sont positives. Dans ce cas, y(x) et
z(x) (solution du système) croîssent sans limite, lorsque x croît. L’équilibre
au point ys , zs est un mode instable : nœud instable.
3ème Cas : r1 > 0 > r2 . Une racine est positive et l’autre négative. Tout dépend
alors de A1 .
∗ Si A1 = 0, la racine positive domine, y et z croîtront sans limite,
∗ Si A1 = 0 et A2 = 0, Il y aura convergence vers l’équilibre (ys , zs ) lorsque
x croît. L’équilibre est appelé saddle point (point-selle).
4ème Cas : r1 = 0 et r2 < 0, d’un côté, on a : r1 r2 = a1 b2 − a2 b1 = 0, pas
d’équilibre.
de l’autre, on a : r1 + r2 = a1 + b2 . Dans ce cas, tout point a1 xs + b1 ys + f (x)
est un équilibre.
5ème Cas : r2 = 0 et r1 > 0. On est dans la même situation que dans le cas
précédent, sauf que la solution s’éloigne de l’équilibre, à moins que y(0) = ys
et z(0) = zs ).
2. Racines complexes r1 , r2 = a ± bi où
1 1
a = (a1 + b2 ), b = 4(a1 b2 − a2 b1 ) − (a1 + b2 )2 2
2
Dans ce cas :
y(x) = eax (k1 cos(bx) + k2 sin(bx)) + ys
z(x) = eax (c1 cos(bx) + c2 sin(bx)) + zs
1er Cas : a = 0 (partie réelle nulle). La solution y(x), z(x) oscille à l’intérieur
de deux bornes. Dans l’espace y, z, les trajectoires sont des ellipses atour de
ys , zs .
2ème Cas : a < 0 et b = 0. La solution oscille et tend vers ys , zs . L’equilibre est
un foyer stable.
3ème Cas : a > 0 et b = 0. La solution oscille et s’éloigne de ys , zs à moins qe
y(0) = ys , z(0) = zs . L’équilibre est un foyer instable.
3. Racines réelles et égales r1 = r2 = 0.
L’équilibre est stable si r < 0 et instable si r > 0.
Pour les systèmes non-linéaires, on les approche par des systèmes linéaires dans
le voisinage du point ys , zs et on les étudie comme des systèmes linéaires dans ce
voisinage.
Exemple : Résolvons le système de deux équations suivant :

y (x) = 2y + 2z
z (x) = y + 3z
1 1
y (x) = 2y + 2z ⇒ z = (y − 2y) = y − y
2 2
et
y (x) = 2y + 2z ⇒ y = 2y + 2z
⇒ y = 2y + 2(y + 3z)
1
⇒ y = 2y + 2y + 6( y − y)
2
⇒ y = 5y − 4y
⇒ y − 5y + 4y = 0
⇒ r2 − 5r + 4 = 0
(Remarquons que le déterminant du système initial ci-dessus −Ir est égal au poly-
nôme caractéristique ci-dessus :

2−r 2
= (2 − r)(3 − r) − 2 = r2 − 5r + 4
1 3−r
Les racines évidentes du polynôme caractéristique sont r1 = 1 et r2 = 4. D’où les

solutions suivantes : y1 = a1 ex et y2 = a2 e4x , z1 = a3 ex et z2 = a4 e4x
Pour r1 = 1, on a :
y = a1 ex et z = a3 ex , y = a1 ex et z = a3 ex . Donc :

y = 2y + 2z a1 ex = 2a1 ex + 2a3 ex
⇒ x x x
z = y + 3z a3 e = a1 e + 3a3 e
a1 = 2a1 + 2a3
⇒
3 = a1 + 3a3
a
a1 + 2a3 = 0
⇒
a1 + 2a3 = 0
1
⇒ a 3 = − a1
2
1
Si l’on pose a1 = 1 on trouve a3 = − . Une solution du système est donc
2
1
y1 = ex et z1 (x) = − ex
2
Pour r2 = 4, on a :
y = a2 e4x et z = a4 e4x , y = 4a2 e4x et z = 4a4 e4x Donc :

y = 2y + 2z 4a2 e4x = 2a2 e4x + 2a4 e4x
⇒ 4x = a e4x + 3a e4x
z = y + 3z 4a4 e 2 4
4a2 = 2a2 + 2a4
⇒
4a4 = a2 + 3a4
−2a2 + 2a4 = 0
⇒
a 2 − a4 = 0
⇒ a 2 = a4
Si a2 = 1 alors a4 = 1 et une solution du système est y2 = e4x et z2 = e4x . La

solution générale du système est alors
1
y = c1 ex + c2 e4x et z = − c1 ex + c2 e4x
2
Chapitre 5
Probabilités et statistique
mathématique
5.1 Événement aléatoire et probabilité d’un événement

Dans la vie de tous les jours, le déterminisme rigoureux n’est que l’affaire des
objets inertes, et encore. On n’est jamais sûr que la lampe s’allumera lorsqu’on
appuie sur le bouton. On n’est jamais sûr et certain que notre véhicule arrivera à
destination . . .
Lorsqu’il s’agit des êtres humains et de leur comportement, les expériences de tous
les jours sont toujours aléatoires : leurs résultats dépendent du “hasard”. Lorsqu’on
effectue une expérience ou une épreuve aléatoire, un résultat donné, un fait donné, un
événement peut se produire ou non. Il est aléatoire. Un service donné (ambulance,
taxi, aide aux femmes victimes de violences, . . . ) ne peut pas prévoir avec exactitude
le nombre d’appels qu’il recevra au cours des jours à venir. Le nombre d’appels
est un événement aléatoire. Si l’on veut contrôler un phénomène ou un processus
technologique, il ne suffit pas de constater le caractère aléatoire d’un événement. Il
faut apprendre à estimer quantitativement les événements aléatoires et à prévoir leur
déroulement. La théorie des probabilités et la statistique mathématique, toutes deux
branches des mathématiques, s’occupent précisément d’apporter des solutions aux
problèmes que si posent dans ce domaine. La notion qui se trouve au centre de ces
branches est celle d’événement aléatoire.
Lorsqu’on jette une pièce de monnaie, obtenir le côté face est un événement
aléatoire, car on n’est pas sûr d’obtenir face. C’est qu’on peut obtenir l’autre côté,
pile.
Si on jette une pièce de monnaie 20 fois et on obtient 12 fois “face” et 8 fois “pile”,
on dit que la fréquence relative p∗ de l’événement aléatoire “face” est 12
20 . On a jeté la
pièce 20 fois de manière identique. Le nombre d’épreuves identiques est donc 20. On
a obtenu “face” 12 fois. Le nombre de réalisations de l’événement “face” est donc 12.
Si, au lieu de 20 fois, on a jeté n∗ fois identiques la pièce de monnaie et qu’on
a obtenu m∗ fois “face”, m∗ ≤ n∗ , la fréquence relative de l’événement “face” sera
136 Chapitre 5. Probabilités et statistique mathématique
∗
p∗ = m n∗ .
Si dans une première série d’épreuves, on jette la pièce un grand nombre de fois
n∗ et si le nombre d’apparitions de face, le nombre de réalisations de l’événement
∗
“face”, A, est m∗ , la fréquence relative p∗ = mn∗ dans cette première série sera proche
de la fréquence relative p∗ d’une nouvelle série d’un grand nombre d’épreuves.
Et plus le nombre d’épreuves est grand, plus les p∗ sont très proches d’un nombre
constant p appelé probabilité de la réalisation de l’événement aléatoire A. Autrement
dit,
m∗
−−−−→ p : p∗ tend vers p lorsque n∗ tend vers l’infini
n∗ n∗ →∞
La fréquence relative p∗ s’approche de p lorsque le nombre d’épreuves augmente
indéfiniment. La probabilité est une caractéristique objective de l’éventualité de la
réalisation d’un événement donné. La détermination de la probabilité d’un événement
complexe d’après les probabilités des événements élémentaires le conditionnant et
l’étude des lois probabilistes régissant les événements aléatoires constituent l’objet
de la théorie des probabilités.
L’analyse de l’épreuve correspondante permet de calculer la probabilité de l’évé-
nement aléatoire élémentaire considéré. Pour le lancer d’une pièce de monnaie, il y a
deux faces : face et pile. Si la pièce est parfaite et qu’il n’y a donc aucune raison de
s’attendre plus à “face” qu’à “pile” pour un lancer, la probabilité d’obtenir face est
donc p = 12 . Pour un dé parfait, non pipé, il y a 6 faces correspondant aux numéros
1, 2, 3, 4, 5 et 6, la probabilité d’obtenir une face donnée des 6 faces est p = 16 . 6
est le nombre des résultats possibles, lorsqu’on jette un dé. L’ensemble des résultats
possibles de cette expérience qui consiste à jeter le dé et à lire le numéro obtenu est
Ω = {1, 2, 3, 4, 5, 6}. Un événement impossible sera d’obtenir 8 par exemple lorsqu’on
jette un dé de ce genre. La probabilité de réalisation de 8 est p(8) = 0.
Pour un jet, il est aussi impossible d’obtenir à la fois 4 et 6 par exemple. Ces
deux événements ne peuvent se réaliser simultanément. Ils sont incompatibles.
Lorsqu’on jette un dé, on est certain d’obtenir un numéro inférieur ou égal à 6. La
probabilité d’obtenir k ≤ 6 est donc 1, P (k ≤ 6) = 1. Il n’y a pas d’autre possibilité,
lorsqu’on jette un dé, que d’obtenir un nombre inférieur ou égal à 6. Chaque fois
qu’on lancera le dé, on obtiendra cet événement. Donc, si on lance le dé 30 fois, on
obtiendra 30 fois un nombre inférieur ou égal à 6, d’où P (k ≤ 6) = 30 n
30 = n = 1.
La probabilité d’un événement certain est 1.
La probabilité d’un événement impossible est 0.
On ne peut pas obtenir m∗ fois supérieur à n∗ lancers un événement donné A.
Autrement dit, la probabilité est comprise entre 0 et 1 :
0 ≤ P (A) ≤ 1 ∀A
Elle est égale à 0, lorsque l’événement est impossible. Elle est égale à 1, lorsqu’il est
certain. Lorsqu’il peut se réaliser comme il peut ne pas se réaliser, la probabilité est
comprise entre 0 et 1.
Le calcul de probabilités, dans les cas de dés, de pièces de monnaie ou de cartes
de jeu, dans ces cas simples, fait appel à l’analyse combinatoire qui permet de dé-
terminer le nombre de cas favorables m∗ et le nombre de cas possibles n∗ , dans la
mesure où la probabilité d’un événement est, comme on a vu, p = n.

m
Considérons
quelques exemples :
Exemple 1 : On tire 2 cartes dans un jeu de 36 cartes. Quelle est la probabilité

pour que ces cartes soient toutes les deux des cœurs ?
Solution : On peut tirer 2 cartes à partir de 36 cartes de C36

2 (nombre de combinai-
sons de 2 cartes parmi 36 cartes) façons. D’où le nombre de cas possibles est :
2 36! 36 × 35
n = C36 = = = 18 × 35 = 630
2!(36 − 2)! 2×1
Pour les cas favorables m, il y a 9 cartes cœurs dans le jeu de 36 cartes. Parmi les 9
cartes, il faut tirer 2. Il y a donc C92 façons de le faire :
9! 9×8 36
n = C92 = = = 36. D’où p = = 0, 05714286
2!(9 − 2)! 2 630
La probabilité d’obtenir 2 cartes “cœur” lorsqu’on tire au hasard 2 cartes dans un
jeu de 36 cartes est ainsi de 5,7 %.
Exemple 2 : On jette simultanément 3 pièces de monnaies, quelle est la probabilité

pour que 2 d’entre elles présentent “face” et l’autre “pile” ?
Solution : les 3 pièces jetées, quel est le nombre de situations possibles n ? Chacune
des 3 pièces a deux possibilités : pile et face. Pour chacune des 2 situations de la
1ère pièce, la deuxième a 2 situations possibles. Donc, pour les 2 premières pièces,
il y a 2 × 2 possibilités. Et pour chacune de ces 4 situations, la troisième pièce a 2
possibilités. Finalement, on a 8 situations possibles : PPP, PPF, PFF, PFP, FFF,
FFP, FPF, FPP.
Sur ces 8 situations possibles, on a 3 situations favorables de 2 “face” et 1 “pile” :
PFF, FFP, FPF. D’où p = 38 = 0.375, soit 37.5%.
Exemple 3 : On dispose de 2 urnes contenant chacune 10 boules. La première urne

contient 6 boules rouges et 4 boules noires. La seconde contient 9 boules rouges et
1 boule noire. On tire de chacune des urnes une boule. Quelle est la probabilité que
l’une au moins des boules retirées soit rouge ?
Solution : le nombre n de cas possibles est 10 × 10 = 100 (on peut tirer n’importe
quelle boule parmi les 10 boules de la 1ère urne. Pour chacune des 10 boules de la
1ère urne, il y a 10 possibilités du tirage de la seconde urne).
Le nombre m de cas favorables : on peut tirer une rouge de la 1ère urne : 6 possi-
bilités. Pour chacune des 6 rouges, on peut tirer de la seconde urne n’importe quelle
boule des 10. Donc on a 6 × 10 cas favorables avec la rouge tirée de la 1ère urne.
Ensuite, on a 9 possibilités de tirer une rouge de la seconde urne. Avec chacune des
9 boules rouges de la seconde urne, on peut tirer n’importe quelle boule noire de la
1ère urne et on aura 9 × 4 autres cas favorables. Le nombre de cas favorables est donc
36 + 60 = 96. D’où p = 100 96

= 0.96. La probabilité pour que l’une au moins des 2
boules sorties soit rouge.
Ce schéma d’urnes peut représenter toutes sortes de situations de calcul de probabi-
lité.
Exemple 4 : Sur un lot de 200 pièces, 5% des pièces sont défectueuses. On tire 6
pièces (au hasard) de ce lot. Quelle est la probabilité pour que les 6 pièces tirées
soient toutes sans défaut ?
Solution : Le nombre de cas possibles n de tirages est :
6 200! 200 × 199 × 198 × 197 × 196 × 195

n = C200 = =
6!(200 − 6)! 6×5×4×3×2
Le nombre m de cas favorables : il y a dans le lot de 200 pièces 10 pièces défectueuses

(5%), donc 190 pièces sans défaut. Les cas favorables sont les cas où l’on tire 6 pièces
quelconques de ces 190 pièces sans défaut. Leur nombre est donc :
190! 190 × 189 × 188 × 187 × 186 × 185

m= =
6!(190 − 6)! 6×5×4×3×2
D’où,
m 190! 6!(200 − 6)! 190! (200 − 6)!

p= = × = × 0.73
n 6!(190 − 6)! 200! (190 − 6)! 200!
5.2 Somme et produit des probabilités

Raisonnons sur l’exemple suivant pour introduire les notions de somme et de
produit des probabilités.
Soit un groupe de 10 individus numérotés de 1 à 10 avec pour chacun son poids
Y (en kg) et sa taille X (en mètre) :
N o de l’individu 1 2 3 4 5 6 7 8 9 10
Sa taille X 1.60 1.67 1.57 1.70 1.80 1.55 1.70 1.65 1.70 1.62
Son poids Y 58.5 67.5 49.5 72 76.5 81 94.5 72 58.5 67.5
Inscrivons chacun des 10 numéros sur un bout de papier et mettons les 10 bouts
de papier dans une urne. Si l’on tire au hasard un numéro de l’urne, il ne peut être
que l’un des 10 numéros et rien d’autre. L’ensemble des événements possibles, appelé
référentiel ou univers, noté U ou Ω est U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
L’univers des tailles possibles est : Ω1 = {1.55, 1.57, 1.60, 1.62, 1.65, 1.67, 1.70, 1.80}.
L’univers des poids possibles est Ω2 = {49.5, 58.5, 67.5, 72.5, 81, 94.5}
Tirons au hasard de l’urne un individu, un numéro. Quelle est la probabilité que
l’individu tiré ait une taille supérieure ou égale à 1.65 et qu’il ait un poids inférieur
ou égal à 58.5 ?
Pour répondre, on peut directement compter le nombre m d’individus ayant à

la fois x ≥ 1.65 et y ≤ 58.5. C’est le seul no 9 qui correspond à cela et donc la
probabilité recherchée est p = 10 1
= 0.1.
Procédons plus méthodiquement en raisonnant en termes d’ensembles. Appelons
E1 l’ensemble des individus ayant x ≥ 1.65, E1 = {2, 4, 5, 7, 8, 9}. Ces individus
sont au nombre de 6. La probabilité de tirer un individu dont la taille est ≥ 1.65 est
donc 106
= 0.6. Appelons E2 l’ensemble des individus ayant y ≤ 58.5, E2 = {1, 3, 9}.
Il y en a 3 individus. La probabilité de tirer un individu dont le poids est ≤ 58.5 est
donc 103
= 0.3.
Les individus ayant à la fois x ≥ 1.65 et y ≤ 58.5 sont les individus qui se trouvent
à la fois dans E1 et dans E2 , c’est-à-dire dans l’intersection de ces deux ensembles
E1 ∩ E2 . Un seul individu, le no 9, est à la fois dans E1 et dans E2 , E1 ∩ E2 = {9}.
D’où, la probabilité de tirer le no 9 parmi les 10 individus est 10 1
= 0.1. D’où :
P (E1 et E2 ) = P (E1 ∩ E2 )
C’est cela le théorème des probabilités composées ou théorème de multiplication.

Si l’intersection des deux événements est vide, la sortie d’un individu satisfaisant
les deux conditions est impossible et donc la probabilité de tirer un tel individu est
nulle.
On tire au hasard un individu de l’urne. Le poids de cet individu est y ≥ 67.5.
Quelle est la probabilité que cet individu mesure au plus 1.67, c’est-à-dire x ≤ 1.67 ?
L’individu tiré est l’un des individus de :
E1 = {y/ y ≥ 67.5} = {2, 4, 5, 6, 7, 8, 10}
C’est l’un des 7 individus de E1 .

L’ensemble des individus dont la taille x ≤ 167 est :
E2 = {y/ x ≤ 1.67} = {1, 2, 3, 6, 8, 10}
La question posée est, sous la condition que E1 est réalisé, quelle est la probabilité
de E2 . Cette probabilité est appelée probabilité conditionnelle de E2 étant donné E1 ,
P (E2 /E1 ).
Comme E1 est réalisé, il n’y a plus que 7 possibilités pour tomber sur un individu
de E2 . Et parmi les 7 individus de E1 , 4 appartiennent à E2 . Autrement E1 ∩ E2 =
{2, 6, 8, 10}. D’où
4
P (E2 /E1 ) = 0.57
7
nombre m1 d’éléments dans E1 ∩ E2 m1 m1 /n
P (E2 /E1 ) = = =
nombre m2 d’éléments dans E1 m2 m2 /n
D’où
P (E1 ∩ E2 )
P (E2 /E1 ) = ⇒ P (E1 ∩ E2 ) = P (E2 /E1 ) × P (E1 )
P (E1 )
Ce résultat est appelé théorème de multiplication.

Comme E1 ∩ E2 = E2 ∩ E1 , on a P (E2 ∩ E1 ) = P (E1 /E2 ) × P (E2 ). D’où
P (E1 ) × P (E2 /E1 ) = P (E2 ) × P (E1 /E2 )
Deux événements E1 et E2 sont dits indépendants si P (E2 /E1 ) = P (E2 ). Cela veut
dire que la réalisation de E1 ou non n’influence pas la réalisation de E2 . Dans ce cas :
P (E1 ∩ E2 ) = P (E1 ) × P (E2 )
Deux événements A et B sont dits dépendants si la probabilité de réalisation de A

dépend de ce que B est ou non réalisé :
P (A/B) = P (A/nonB) nonB = B
Pour les événements indépendants, on a :
P (E1 et E2 ) = P (E1 ∩ E2 ) = P (E1 ) × P (E2 )
Si l’on a un 3ème événement E3 indépendant des 2 autres E1 et E2 . On peut remplacer

E1 ∩ E2 par E et on aura :
P (E1 ∩ E2 ∩ E3 ) = P (E ∩ E3 ) = P (E) × P (E3 ) = P (E1 ) × P (E2 ) × P (E3 )
Exemple : Pour que le fonctionnement d’un appareil donné soit fiable, il faut que
3 éléments indépendants de cet appareil fonctionnent de manière fiable. Les proba-
bilités des fonctionnements fiables de 3 éléments sont respectivement 0.6, 0.7 et 0.9.
Quelle est la probabilité d’un fonctionnement fiable de l’appareil considéré ?
Réponse : p = 0.6 × 0.7 × 0.9 = 0.378
Exemple d’événements dépendants : une urne contient 7 boules blanches et 3

boule noires. On retire une 1ème boule de l’urne et sans la remettre, on en retire une
seconde. B est l’apparition d’une boule blanche au 1er tirage et A est l’apparition
d’une boule blanche au second tirage.
7
P (B) = = 0.7 (il y a 7 boules sur 10 au premier tirage)
10
La probabilité de A dépend de la réalisation ou non de B. Si c’est une boule blanche
qu’on a retirée au 1er tirage, il ne reste plus après ce tirage que 6 boules blanches et
3 boules noires dans l’urne. La probabilité d’en tirer au second tirage une blanche
est donc 69 0.67 = P (A/B).
Si c’est une noire qu’on a retirée au 1er tirage, il reste dans l’urne 7 boules blanches
et 2 boules noires et donc P (A/B̄) = 79 0.78.
La probabilité de A dépend donc de la réalisation ou non de B. Ces deux événe-
ments A et B sont dépendants : P (A/B) = P (A/B̄)
7 6
P (B) = , P (A/B) =
10 9
7 6
⇒ P (A et B) = P (A ∩ B) = P (B) × P (A/B) = × = 0.47
10 9
Si un événement A ne peut être réalisé que si l’un des événements B1 , B2 et B3

formant un système exhaustif d’événements mutuellement incompatibles :
P (B1 ) + P (B2 ) + P (B3 ) = 1 = P (B1 ou B2 ouB3 )

et
P (B1 et B2 ) = P (B1 et B3 ) = P (B2 et B3 ) = 0
est réalisé, alors la probabilité de A est donnée par :
P (A) = P (B1 ) × P (A/B1 ) + P (B2 ) × P (A/B2 ) + P (B3 ) × P (A/B3 )
Cette formule s’appelle formule des probabilités totales.
P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + P (A ∩ B3 )
Exemple : Trois coups sont successivement tirés sur une cible. Les probabilités
d’atteinte de la cible sont respectivement 0.3 pour le 1er coup, 0.5 pour le 2ème et 0.7
pour le 3ème (p1 = 0.3 ; p2 = 0.5 et p3 = 0.7).
La probabilité de destruction de la cible est λ1 = 0.4 lorsqu’elle est touchée une
seule fois, λ2 = 0.8 lorsqu’elle est touchée 2 fois, λ3 = 1 lorsqu’elle est touchée 3 fois.
Quelle est la probabilité de destruction de la cible après les 3 coups (A) ?
Solution : Concernant l’atteinte de la cible après les trois coups, il y a 4 événements

possibles :
B1 : 0 atteinte : aucun coup n’atteint la cible

B2 : 1 atteinte : un seul des coups a atteint la cible
B3 : 2 atteintes : 2 des 3 coups ont atteint la cible
B4 : 3 atteintes : les 3 coups ont tous atteint la cible
Déterminons la probabilité de chacun de ces événements mutuellement incompatibles
et formant un système exhaustif (il n’y a pas d’autre possibilité que ces 4).
P (B1 ) = (1 − p1 )(1 − p2 )(1 − p3 )

= (1 − 0.3)(1 − 0.5)(1 − 0.7)
= 0.105
C’est la situation où les 3 coups ratent la cible.
P (B4 ) = p1 × p2 × p3
= 0.3 × 0.5 × 0.7
= 0.105
C’est la situation où les 3 coups atteignent la cible.
P (B2 ) = p1 (1 − p2 )(1 − p3 ) + (1 − p1 )p2 (1 − p3 ) + (1 − p1 )(1 − p2 )p3

= 0.3 × (1 − 0.5) × (1 − 0.7) + (1 − 0.3) × 0.5 × (1 − 0.7)
+(1 − 0.3) × (1 − 0.5) × 0.7
= 0.3 × 0.5 × 0.3 + 0.7 × 0.5 × 0.3 + 0.7 × 0.5 × 0.7
= 0.045 + 0.105 + 0.245
= 0.395
C’est la situation où soit le 1er coup, soit le 2ème coup, soit le 3ème coup atteint la
cible et les 2 autres la ratent.
P (B3 ) = p1 p2 (1 − p3 ) + p1 (1 − p2 )p3 + (1 − p1 )p2 p3

= 0.3 × 0.5 × (1 − 0.7) + 0.3 × (1 − 0.5) × 0.7 + (1 − 0.3) × 0.5 × 0.7
= 0.3 × 0.5 × 0.3 + 0.3 × 0.5 × 0.7 + 0.7 × 0.5 × 0.7
= 0.045 + 0.105 + 0.245
= 0.395
C’est la situation où 2 des 3 coups tirés atteignent la cible, le 1er et le 2ème , le 1er et
le 3ème , le 2ème et le 3ème , l’autre la rate.
On peut vérifier que les 4 événements B1 , B2 , B3 et B4 forment un système exhaustif :
P (B1 ) + P (B2 ) + P (B3 ) + P (B4 ) = 0.105 + 0.395 + 0.395 + 0.105 = 1
La probabilité de destruction de la cible après les 3 coups lorsqu’elle est touchée

une seule fois, est P (A/B2 ) = λ1 = 0.4. Lorsqu’elle est touchée 2 fois, elle est
P (A/B3 ) = λ2 = 0.8. Lorsqu’elle est touchée 3 fois, elle est P (A/B4 ) = λ3 = 1.
Lorsqu’elle n’est pas touchée, elle est P (A/B1 ) = 0.
La probabilité de destruction de la cible :
P (A) = P (B1 ) × P (A/B1 ) + P (B2 ) × P (A/B2 ) + P (B3 ) × P (A/B3 )

+P (B4 ) × P (A/B4 )
= 0.105 × 0 + 0.395 × 0.4 + 0.395 × 0.8 + 0.105 × 1
= 0 + 0.158 + 0.316 + 0.105
= 0.579
D’où P (A) = 0.579.
5.3 Probabilités des causes, formule de Bayes

Si un événement A ne peut se réaliser que conjointement avec l’un des événements
B1 , B2 , B3 et B4 mutuellement indépendants et formant un système exhaustif, ces
événements Bi sont appelées causes (de A).
En vertu de ce qui précède,
P (A) = P (B1 )×P (A/B1 )+P (B2 )×P (A/B2 )+P (B3 )×P (A/B3 )+P (B4 )×P (A/B4 )
Si A est réalisé, les probabilités des causes P (B1 ), P (B2 ), . . . sont modifiées. Dé-
terminons les probabilités des causes sachant que A est réalisé P (Bi /A). On sait
que
P (A ∩ B1 ) = P (B1 ) × P (A/B1 ) = P (A) × P (B1 /A)
De cela, on tire que
P (B1 ) × P (A/B1 )
P (B1 /A) =
P (A)
Remplaçons P (A) par la somme ci-dessus pour obtenir :
P (B1 /A) =
P (B1 ) × P (A/B1 )
P (B1 ) × P (A/B1 ) + P (B2 ) × P (A/B2 ) + P (B3 ) × P (A/B3 ) + P (B4 ) × P (A/B4 )
La même démarche nous donne P (B2 /A), P (B3 /A) et P (B4 /A). En général, on a :
P (Bk ) × P (A/Bk )
P (Bk /A) = n

P (Bi ) × P (A/Bi )
i=1
(dans notre exemple, n = 4)
Cette formule est appelée formule de Bayes ou théorème des causes.
Exemple : reprenons l’exemple des 3 tirs successifs ci-dessus. Supposons que la cible
a été détruite. Quelle est la probabilité que cette destruction A ait été le résultat
de B1 , P (B1 /A), de B2 , P (B2 /A), de B3 , P (B3 /A) et de B4 , P (B4 /A). Nous avons
calculé P (Bk ) :
P (B1 ) = 0.105, P (B2 ) = 0.395, P (B3 ) = 0.395, et P (B4 ) = 0.105
Nous avons calculé P (A), P (A) = 0.579. Nous avons dans l’énoncé
P (A/B1 ) = 0, P (A/B2 ) = 0.4, P (A/B3 ) = 0.8, et P (A/B4 ) = 1
Nous pouvons donc utiliser la formule de Bayes pour calculer les probabilités des
causes B1 , B2 , B3 et B4 sachant que A esr réalisé, que la cible a été détruite :
P (B1 ) × P (A/B1 ) 0.105 × 0
P (B1 /A) = = = 0.
P (A) 0.579
Si la cible a été détruite c’est que les 3 tirs n’ont pas tous raté la cible. La probabilité
que la cible soit détruite sans être atteinte est nulle.
P (B2 ) × P (A/B2 ) 0.395 × 0.4
P (B2 /A) = = 0.27.
P (A) 0.579
La probabilité que la cible ait été détruite par un seul coup est 0.27.
P (B3 ) × P (A/B3 ) 0.395 × 0.8
P (B3 /A) = = 0.55.
P (A) 0.579
La probabilité que la cible ait été détruite par 2 des 3 coups tirés est 0.55.
P (B4 ) × P (A/B4 ) 0.105 × 1
P (B4 /A) = = 0.18.
P (A) 0.579
La probabilité que la cible ait été détruite par les 3 coups tirés est 0.18.
5.4 Variable aléatoire discrète et sa loi de distribution

Dans l’exemple de la section 5.2, la taille est une variable aléatoire et le poids
est également une variable aléatoire. À chacune des valeurs xi de la taille correspond
une probabilité, comme c’est le cas pour yi . X et Y sont des variables aléatoires
discrètes, dans la mesure où leurs valeurs sont dénombrables.
La relation fonctionnelle liant la probabilité pk à xk est appelée loi de distribution
des probabilités de la variable aléatoire discrète X.
xi , Valeur de la variable 1.55 1.57 1.60 1.62 1.65 1.67 1.70 1.80
aléatoire
pi , Probabilité de cette 0.1 0.1 0.1 0.1 0.1 0.1 0.3 0.1
valeur
Exemple : On lance 4 pièces de monnaie 25 fois. À chaque fois, on compte le nombre
de faces. Ce nombre peut être de 0, 1, 2, 3 ou 4 et rien d’autre. Le nombre de lancers
soldés par 0 face (les quatre pièces présentent pile) est 1. Le nombre de lancers
donnant 1 face est 7. Pour 10 lancers, 2 pièces présentent face. 3 pièces présentent
face dans 6 lancers et 4 pièces présentent face dans 1 seul lancer. Soit :
xk 0 1 2 3 4
fréquence 1 7 10 6 1
fréquence relative 1/25 = 7/25 = 10/25 = 6/25 = 1/25 =
pk 0.04 0.28 0.40 0.24 0.04
Théoriquement, si les lancers étaient parfaitement aléatoires et si les pièces de
monnaie étaient parfaites, c’est-à-dire si les deux faces de chaque pièce étaient équi-
probables et si les lancers étaient beaucoup plus nombreux, on s’approcherait de la
distribution de probabilité suivante
X 0 1 2 3 4
P (X) 0.0625 0.25 0.375 0.25 0.0625
Cette distribution théorique correspond à ce qu’on appelle la loi de distribution
binomiale. Nous y reviendrons.
La loi de distribution peut être représentée graphiquement par ce qu’on appelle
un polygone de distribution des probabilités des points (xk , pk ).
Comme la variable aléatoire ne peut prendre que les valeurs 0, 1, 2, 3, 4, la somme

des fréquences relatives de ces valeurs ou la somme des probabilités de ces valeurs
n

est égale à 1 : pi = 1 (ici n = 5, cinq valeurs possibles). Dans le cas d’une suite
i=1
∞

infinie de valeurs, on a pi = 1.
i=1
La valeur qui a la plus grande probabilité, ici la valeur 2, est appelé le mode.
Exemple 1 : Si l’on jette une fois un dé et que l’on appelle X le nombre de points
de la face supérieure du dé et si le dé est parfait, le tableau de distribution de X est :
X 1 2 3 4 5 6
p 1/6 1/6 1/6 1/6 1/6 1/6
Exemple 2 : On tire une suite infinie de coups indépendants ayant chacun la même
probabilité p d’atteindre une cible. Appelons X la variable aléatoire dont la valeur
xk est le numéro d’ordre du tir ayant atteint pour la 1ère fois la cible. Trouvons la
loi de distribution de X.
Si x = 1, cela veut dire que la cible a été atteinte au 1er tir. La probabilité est p.
Si x = 2, cela veut dire que la cible n’a pas été atteinte au 1er tir et qu’elle l’a été
au deuxième. La probabilité de cette situation est P (nonA et A).
P (A ∩ B) = P (A) × P (B/A) = P (A) × P (B) = (1 − p)p
puisque B est indépendant.

Si x = 3, cela veut dire que la cible n’a pas été atteinte au 1er , ni au 2ème tir et
qu’elle n’a été atteinte qu’au troisième. La probabilité de cette situation est p =
(1 − p)(1 − p)p = (1 − p)2 p.
Si x = k, cela veut dire que la cible n’a été atteinte pour la 1ère fois qu’au k ème tir.
La probabilité de cette situation est p = (1 − p)k−1 p.
Finalement le tableau de distribution des probabilités est :
x 1 2 3 ... k
pk p (1 − p)p (1 − p)2 p ... (1 − p)k−1 p
Notons que
∞
∞
∞
1 − (1 − p)∞
pk = (1 − p)k−1 p = p (1 − p)k−1 = p =1
1 − (1 − p)
k=1 k=1 k=1
Exemple 3 : On tire une suite de n coups indépendants et équiprobables quant à

l’atteinte de la cible, de probabilité p. Appelons X la variable aléatoire désignant le
nombre m de fois que la cible a été atteinte.
Déterminons la loi de distribution de X pour n = 3 et pour n quelconque.
Pour n = 3. Dans ce cas, 3 coups sont tirés. La cible peut être atteinte 0, 1, 2 ou 3
fois. Les valeurs prises par X sont donc 0, 1, 2 ou 3.
— La probabilité de x = 0 est (1 − p)(1 − p)(1 − p) = (1 − p)3

— La probabilité de x = 1. La cible peut être atteinte 1 fois de 3 manières, au
1er tir uniquement, au 2ème tir uniquement ou au 3ème tir uniquement. La
probabilité est donc
p(1 − p)(1 − p) + (p − 1)p(1 − p) + (p − 1)(p − 1)p = 3p(1 − p)2
— La probabilité de x = 2. Dans ce cas, la cible est ratée une seule fois. Cela
peut être au 1er tir, au 2ème ou au 3ème tir et donc la probabilité est
(1 − p)pp + p(1 − p)p + pp(1 − p) = 3p2 (1 − p)
— La probabilité de x = 3. Dans ce cas, la cible a été atteinte aux 3 tirs et la

probabilité est p3 .
Le tableau de distribution de X lorsque n = 3 est donc (q = 1 − p)
x 0 1 2 3
pk q3 3pq 2 3p2 q p3
On remarque que les probabilités pk sont les binômes du développement de :
(p + q)3 = p3 + 3p2 q + 3pq 2 + q 3 = q 3 + 3pq 2 + 3p2 q + p3

3 m m n−m = (p + 1 − p)3 = 13 = 1
= m=0 C3 p q
m est le nombre de fois qu’on a atteint la cible. Donc, la cible a été ratée n − m
fois. C3m est le nombre de combinaisons possibles de m coups parmi les 3 coups tirés.
C30 = 1, C31 = 3 façons d’atteindre la cible une seule fois ou 3 façons de la rater une
seule fois, C32 = 3 façons de l’atteindre 2 fois, c’est en fait la rater une seule fois.
C33 = 1 : une seule façon : l’atteindre à tous les coups.
Pour n quelconque : La probabilité d’atteindre la cible 0 fois, c’est celle de la rater

à tous les coups c’est p0 (1 − p)n = q n . La probabilité de l’atteindre à tous les coups
ou de ne jamais la rater est pn (1 − p)0 = pn .
La probabilité de l’atteindre m fois sur n : Il existe Cnm possibilités de l’atteindre
ainsi. Dans ce cas, on rate la cible (n − m) fois. La probabilité est donc
Cnm pm q n−m = P (x = m)
La loi de distribution des probabilités de x est donc
P (x = m) = Cnm pm q n−m
Elle est appelée loi binômiale. On comprend pourquoi. Evidemment :

n

(1 + q)n = Cnm pm q n−m = (p + 1 − p)n = 1n = 1
m=0
On peut aussi calculer la probabilité pour que x > k pour n tirs. Elle est égale à la
somme des probabilités de x = k + 1, de x = k + 2, . . . et de x = n. On obtient
n

P (x > k) = Cnm pm q n−m
m=k+1
Au lieu de tirer des coups de face sur une cible, on peut considérer le lancer d’une
pièce de monnaie et définir x par le nombre de fois où la pièce présente “face” lorsqu’on
la lance n fois. Dans ce cas, si la pièce est parfaite, la probabilité d’obtenir “face” à
un lancer est p = 0.5 et la probabilité de ne pas l’obtenir est q = 0.5. La probabilité
d’obtenir m fois “face” sur n lancers est donc
P (x = m) = Cnm pm q n−m
et comme p = q = 0.5, on a P (x = m) = Cnm pn = Cnm (0.5)n .

Si on lance la pièce de monnaie 6 fois, on aura :

P (x = 0) = C60 (0.5)6 = 0.015625 C60 = 1, car 0! = 1
P (x = 1) = C61 (0.5)6 = 0.09375 C 1 = 6! = 6
6 1!(6−1)!
6!
P (x = 2) = C62 (0.5)6 = 0.234375 C62 = 2!(6−2)! = 15

6!
P (x = 3) = C63 (0.5)6 = 0.3125 C63 = 3!(6−3)! = 20

6!
P (x = 4) = C64 (0.5)6 = 0.234375 C64 = 4!(6−4)! = 15 = C62

6!
P (x = 5) = C65 (0.5)6 = 0.09375 C65 = 5!(6−5)! = 6 = C61

P (x = 6) = C66 (0.5)6 = 0.015625 C66 = C60 = 1
On peut ainsi construire le polygone de la distribution des points (x, p(x)).

Comme dans ce cas p = 0.5 = 1 − 0.5 = q et qu’on a Cni = Cnn−i puisque :
n! n!
Cni = = Cnn−i =
i!(n − i)! (n − i)!(n − n + i)!
La courbe ci-dessus est symétrique par rapport à la verticale x = 3, le mode de la

distribution.
5.4.1 Espérance mathématique d’une variable aléatoire discrète

Pour une variable aléatoire discrète x dont la loi de distribution est définie par
P (x = xk ) = pk , l’espérance mathématique, désignée par E(x) est ainsi définie :
n

E(x) = x k pk (n est le nombre des valeurs possibles de x)
k=1
Lorsque n est infini, on a

∞

E(x) = x k pk .
k=1
Dans ce cas seules les variables aléatoires dont la série converge sont considérées.
Pour un grand nombre d’épreuves indépendantes N , si la fréquence d’occurrence
de xk est nk , la moyenne arithmétique de la variable x est :
n n
1 nk
x̄ = x k nk = xk .
N N
k=1 k=1
nk
Comme pour un grand nombre N d’épreuves la fréquence relative N tend vers la
probabilité de la réalisation de xk , nNk → pk , on a :
n
n
nk
x̄ = xk −−−→ xk pk = E(x).
N n→∞
k=1 k=1
Dans l’exemple ci-dessus de la loi binômiale à n = 6
E(x) = 0 × 0.015625 + 1 × 0.09375 + 2 × 0.234375 + 3 × 0.3125

+4 × 0.234375 + 5 × 0.09375 + 6 × 0.015625
= 3
Exemple : Dans une loterie de 100000 billets, il y a 1 lot de 10000 dirhams, 10 lots
de 1000 DH et 100 lots de 100 DH. X est le gain pour le possesseur d’un seul billet.
X est une variable aléatoire et sa loi de distribution est
x 10000 1000 100 0

p 1/100000 10/100000 100/100000 (100000-1-10-100)/100000
= 0.00001 = 0.0001 = 0.001 = 0.99889
L’espérance mathématique du gain est
E(x) = 0.00001 × 10000 + 0.0001 × 1000 + 0.001 × 100 + 0 × 0.99889

= 0.1 + 0.1 + 0.1 + 0
= 0.3 dirhams !
Le prix “équitable” d’un billet est de 30 centimes de dirham !

La probabilité de gagner 10000 DH dans cette loterie est 0.00001 (un seul lot
sur 100000 billets). La probabilité de ne pas gagner 10000 DH est 0.99999 (c’est la
probabilité de gagner 0, 100 ou 1000 DH).
L’espérance mathématique d’une variable aléatoire Y pouvant prendre 1 ou 0
comme valeur et dont la probabilité de prendre 1 est p, est :
E(Y ) = 1 × p + 0 × (1 − p) = p.
On jette un dé et on appelle X le nombre de points de la face qui apparait si le dé

est parfait. La loi de distribution de cette variable discrète X est
X 1 2 3 4 5 6
p 1/6 1/6 1/6 1/6 1/6 1/6
1 1 1 1 1 1
E(x) = 1 × +2× +3× +4× +5× +6×
6 6 6 6 6 6
1 21
= (1 + 2 + 3 + 4 + 5 + 6) =
6 6
= 3.5
Si on considère un autre dé similaire et qu’on considère que Y est le nombre de points
de la face qui apparait lorsqu’on le jette. On a également E(Y ) = 3.5.
Si maintenant on lance les deux dés au même temps et qu’on appelle Z la somme
de X et Y , Z = X + Y . Trouvons la loi de distribution de Z. Quelles sont les
valeurs possibles pour Z ? Pour chacune des valeurs de X, Y peut prendre 6 va-
leurs différentes, donc on aura 62 = 36 combinaisons possibles de (1, 2, 3, 4, 5, 6) et
(1, 2, 3, 4, 5, 6). Et il n’y a aucune raison de privilégier une combinaison par rapport
à une autre : elles sont équiprobables. Autrement dit, la probabilité de chacune des
combinaisons est 36 1
. Les valeurs possibles sont entières et comprises entre le mini-
mum Z = 1 + 1 = 2 et le maximum Z = 6 + 6 = 12. Elles sont donc 2, 3, 4, 5, 6, 7,
8, 9, 10, 11, 12. Une seule combinaison donne 2 (1 et 1). Sa probabilité est donc 36 1
.
Même chose pour 12 (6 et 6). Pour trouver les valeurs possibles et leurs fréquences,
on peut construire le carré des sommes comme ceci
1 2 3 4 5 6 Zi fi Zi fi
1 2 3 4 5 6 7 2 1 7 6
2 3 4 5 6 7 8 3 2 8 5
3 4 5 6 7 8 9 d’où les fi : 4 3 9 4
4 5 6 7 8 9 10 5 4 10 3
5 6 7 8 9 10 11 6 5 11 2
6 7 8 9 10 11 12 12 1
D’où la loi de distribution de Z :

Zi 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
pi 36 36 36 36 36 36 36 36 36 36 36
1 2 3 4 5 6 5
E(Z) = 2 × +3× +4× +5× +6× +7× +8×
36 36 36 36 36 36 36
4 3 2 1
+9 × + 10 × + 11 × + 12 ×
36 36 36 36
1
= (2 × 1 + 3 × 2 + 4 × 3 + 5 × 4 + 6 × 5 + 7 × 6 + 8 × 5 + 9 × 4
36
+10 × 3 + 11 × 2 + 12 × 1)
1
= (3 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12)
36
253
=
36
= 7 = 3.5 + 3.5
En effet, E(Z) = E(X + Y ) et (πij est probabilité de xi + yj )

6
6 6
6
E(X + Y ) = (xi + yj )πij = (xi πij + yj πij )
i=1 j=1 i=1 j=1
6 6 6
6 6
6
6
6

= xi πij + yj πij = xi πij + yj πij
i=1 j=1 i=1 j=1 i=1 j=1 i=1 j=1
πij = P (X = xi ) × P (Y = yj /X = xi ) = P (Y = yj ) × P (X = xi /Y = yj )
6

6
j=1 πij = P (X = xi ) × P (Y = yj /X = xi )
j=1
6

= P (X = xi ) × P (Y = yj /X = xi )
j=1
= P (X = xi ) × 1
De même
6

yj πij = P (Y = yj ) × 1
j=1
D’où :
6
6

E(X + Y ) = xi × P (X = xi ) + yj × P (Y = yj ) = E(X) + E(Y )
i=1 j=1
Cette démonstration peut être aisément étendue au cas général pour obtenir
E(X1 + X2 + X3 + · · · + Xn ) = E(X1 ) + E(X2 ) + E(X3 ) + · · · + E(Xn )

L’espérance mathématique d’une somme de variables aléatoires est la somme des

espérances mathématiques de ces variables aléatoires. Si une variable aléatoire ne
prend qu’une seule valeur et à tous les coups X = C. Cela veut dire qu’on a affaire
à une variable “aléatoire” prenant la valeur C avec la probabilité de P (X = C) = 1.
Donc, son espérance mathématique est E(X) = C × 1 = C. De là, X quelconque :
E(X + C) = E(X) + C.
Soit Y = α × X, X une variable aléatoire et α un réel quelconque.
n
n

E(Y ) = (αxi )pi = α xi pi = αE(X)
i=1 i=1
(probabilité de αxi = yi étant égale à la probabilité de xi ).

Si l’on revient à l’exemple du lancer de deux dés dont E(X) = E(Y ) = 3.5 et
si l’on définit une nouvelle variable aléatoire B par le produit de X et Y , on peut
trouver les valeurs possibles de B dans la table de multiplication suivante. Il y a 36
combinaisons possibles, une seule combinaison donnant B = 1 (1 et 1), une seule
donnant B = 36(6 × 6), 2 donnant B = 2, 3 donnant B = 4 . . .
X× Y 1 2 3 4 5 6
1 1 2 3 4 5 6
2 2 4 6 8 10 12
3 3 6 9 12 15 18
4 4 8 12 16 20 24
5 5 10 15 20 25 30
6 6 12 18 24 30 36
La loi de répartition de B est donc
B(bj ) 1 2 3 4 5 6 8 9 10
1 2 2 3 2 4 2 1 2
pj 36 36 36 36 36 36 36 36 36
B(bj ) 12 15 16 18 20 24 25 30 36
4 2 1 2 2 2 1 2 1
pj 36 36 36 36 36 36 36 36 36
18
On vérifie que pj = 1 et E(B) = j=1 bj × pj
1
E(B) = (1 × 1 + 2 × 2 + 3 × 2 + 4 × 3 + 5 × 2 + 6 × 4 + 8 × 2 + 9 × 1
36
+10 × 2 + 12 × 4 + 15 × 2 + 16 × 1 + 18 × 2 + 20 × 2 + 24 × 2 + 25 × 1
+30 × 2 + 36 × 1)
441
= = 12.25
36
On constate que 12.25 = 3.5 × 3.5. En effet,
bj = xi × y i , P (B = bj ) = P (B = xi × yi )
n

E(B) = E(XY ) = bj pj
j=1
P (B = bj ) = pj
= πii
= P (X = xi ) × P (Y = yi /X = xi )
= P (Y = yi ) × P (X = xi /Y = yi )
= P (X = xi ) × P (Y = yi )
Les deux variables X et Y étant indépendantes. D’où

E(XY ) = xi yi πii = x i y i pi pi = x i pi y i pi
i
i i i i i
= xi pi E(Y ) = E(Y ) x i pi = E(X)E(Y )
i i
L’espérance mathématique du produit de deux variables aléatoires est le produit des

espérances
mathématiques des deux variables aléatoires.
De même E(XY Z) = E(XY )E(Z) et comme on a E(XY ) = E(X)E(Y ) on
obtient E(XY Z) = E(X)E(Y )E(Z). D’où l’espérance mathématique du produit de
plusieurs variables aléatoires est égal au produit des espérances mathématiques de
ces variables aléatoires. De là on tire également que E(−X) = −E(X) et E(X −Y ) =
E(X) − E(Y ).
5.4.2 Variance d’une variable aléatoire discrète

Soit X une variable aléatoire (va) et soit E(X) son espérance mathématique. La
va X − E(X) est l’écart par rapport à E(X). L’espérance mathématiques de cet
écart est :

E(X − E(X)) = i E(xi − E(X))pi = i [xi pi − E(X)pi ]
= x p
i i i − i E(X)pi = E(X) − E(X) i pi
= E(X) − E(X) × 1 = 0
E(X) est une constante est on a vu que E(X − Y ) = E(X) − E(Y ). Si Y = E(X)
donc, E(X − E(X)) = E(X) − E(X) = 0. On appelle variance de X l’espérance
mathématique du carré de l’écart à l’espérance mathématique de X

V (X) = E (X − E(X))2

Si on note E(X) = µ on a V (X) = E (X − µ)2 .
Exemple : Soit X la va dont la loi de répartition est
X 4 10 20
1 2 1
P 4 4 4
1 2 1
E(X) = 4 × + 10 × + 20 × = 11 = µ
4 4 4
D’où
X 4 10 20
X −µ -7 -1 9
(X − µ)2 49 1 81
1 2 1
P 4 4 4
1 2 1
V (X) = E (X − µ)2 = (xi − µ)2 pi = 49 × + 1 × + 81 × = 33
4 4 4
i
Nous pouvons vérifier que

1 2 1
E(X − µ) = (xi − µ)pi = −7 × −1× +9× =0
4 4 4
i
La racine carrée de la variance de X est appelé écart type de X. C’est l’écart qua-
dratique moyen de X. L’écart type est√noté σ(X).
Dans l’exemple ci-dessus, σ(X) = 33 5.75.
V (X) = E(X 2 − 2Xµ + µ2 )
= E(X 2 ) − 2µE(X) + E(µ2 )
= E(X 2 ) − µ2
Ainsi,
V (X) = E(X 2 ) − (E(X))2
C’est la formule développée de la variance de X. C, une constante
V (CX) = E((CX)2 ) − (E(CX))2

= E(C 2 X 2 ) − (CE(X))2
= C 2 E(X 2 ) − C 2 (E(X))2
= C 2 V (X)
V (X + Y ) = E((X + Y )2 ) − (E(X + Y ))2

= E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2
= E(X 2 ) + 2E(XY ) + E(Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (E(Y ))2
= E(X 2 ) + 2E(X)E(Y ) + E(Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (E(Y ))2
= E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2
= V (X) + V (Y )
Ainsi,
V (X + Y ) = V (X) + V (Y )
Pour X = Cte,
V (C) = E(C 2 ) − (E(C))2 = C 2 − C 2 = 0
V (−X) = (−1)2 V (X) = V (X)
V (X − Y ) = V (X) + V (−Y ) = V (X) + V (Y )
5.4.3 Fonction de répartition d’une va

On appelle fonction de répartition de la va X, la fonction F définie pour x réel
par :
F (x) = Px {X < x} = P {ω ∈ Ω/X(ω) < x}
La définition anglo-saxonne correspond F (x) = Px {X ≤ x}. Il s’agit d’une fonc-

tion
en escalier, constante par morceaux, continue à gauche définie par F (x) =
{pi /xi < x}. F (x) est la somme des poids de tous les points qui sont strictement
à gauche de x.
Exemple : Reprenons X dont la loi de répartition est :
X 4 10 20
1 2 1
p 4 4 4


 0 pour x<4
 1
4 pour 4 ≤ x < 10
F (X) = 3

 4 pour 10 ≤ x < 20

1 pour x ≥ 20
5.4.4 Moments d’une va

Dans ce qui précède, nous avons vu E(X), E(X 2 ), V (X), . . .
E(X), E(X 2 ), E(X 3 ), . . . , E(X n ) sont des moments simples de X d’ordres 1, 2,
3, . . . , n. On note ces moments simples : mn

V (X) = E (X − E(X))2 : la variance est un moment d’ordre 2. Il n’est pas
simple, mais centré. Il s’agit d’un moment centré d’ordre 2. On peut ainsi définir le
moment centré d’ordre n de X : E [(X − E(X))n ] = µn (X).
5.5 Lois discrètes usuelles

Nous allons présenter ici les lois de Dirac et de Bernoulli, la loi binômiale, la
loi hypergéométrique, la loi de Poisson, la loi géométrique ou de Pascal et la loi
binômiale négative.
5.5.1 Loi de Dirac

C’est la loi de la va certaine X qui est constante et prenant la même valeur a,
quel que soit le résultat de l’épreuve : X(ω) = a, ∀ω ∈ Ω. Donc
P (X = a) = P {ω ∈ Ω / X(ω = a)} = P (Ω) = 1
. La fonction de répartition est :

0 si x≤a
F (x) =
1 si x>a
Le graphe de F présente un saut au point a appelé échelon de Heaviside
E(X) = a × 1 = a, V (X) = V (a) = 0
5.5.2 Loi de Bernoulli

Il s’agit d’une va X qui prend la valeur X = 1 avec la probabilité p et X = 0
avec la probabilité (1 − p).

1 avec p
X=
0 avec (1 − p) = q
La fonction de répartition est ainsi définie :


 0 si x≤0
F (x) = q si 0<x≤1

1 si 1<x
E(X) = 1 × p + 0 × q = p = m1 (X)
E(X 2 ) = 12 × p + 02 × q = p = m2 (X) = m3 (X)
V (X) = E(X 2 ) − (E(X))2 =p − p2 = p(1 − p) = pq
µ3 (X) = E(X − E(X))3 = E X 3 − 3X 2 E(X) + 3X(E(X))2 − (E(X))3
= E(X 3 ) − 3E(X)E(X 2 ) + 3(E(X))2 E(X) − (E(X))3
= p − 3p2 + 3p2 p − p3
= p(1 − 3p + p2 )
= p(1 − p)(1 − 2p)
5.5.3 Loi binômiale
Nous avons déjà vu en quoi elle consiste. Contentons nous de la définir ainsi :
PX (X = k) = Cnk pk (1 − p)n−k
La variable aléatoire X correspond au nombre k de succès sur n épreuves se soldant

soit par un succès avec la probabilité à chaque fois du succès égale à p et donc la
probabilité de l’échec est q = 1 − p. La variable aléatoire X esr donc la
somme de n
variables de Bernoulli Xi avec la probabilité de succès égale à p : X = ni=1 Xi .
On vient de voir que E(Xi ) = p et V (Xi ) = p(1 − p). Nous avons précédemment
vu que
n n

E(X) = E Xi = E(Xi ) = np
i=1 i=1
et que
n
n

V (X) = V Xi = V (Xi ) = npq
i=1 i=1
Ainsi,
E(X) = np et V (X) = npq
Nous pouvons trouver E(X) et V (X) en utilisant la loi de répartition ci-dessus

n
n

E(X) = kP (X = k) = kCnk pk (1 − p)n−k
k=0 k=1
n n
n! n!
= k pk q n−k = pk q n−k
k!(n − k)! (k − 1)!(n − k)!
k=1 k=1
n
(n − 1)!
= np pk−1 q n−k
(k − 1)!(n − k)!
k=1
n
k
= np Cn−1 pk q n−1−k avec k = k − 1
k =0
= np(p + q)n−1 = np1n−1 = np
Ainsi,
E(X) = np
V (X) = E (X − E(X))2 = E(X 2 ) − (E(X)2 )
E(X(X − 1)) = E(X 2 ) − E(X)
n
n!
= k(k − 1) pk q n−k
k!(n − k)!
k=0
n
(n − 2)!k(k − 1) k n−k
= n(n − 1) p q
k!(n − k)!
k=0
n
(n − 2)!
= n(n − 1)p2 pk−2 q n−k
(k − 2)!(n − k)!
k=2
n−2
(n − 2)! k n−2−k
= n(n − 1)p 2
p q avec k = k − 2
k !(n − k )!
k =0
= n(n − 1)p2 (p + q)n−2
= n(n − 1)p2 1n−2
= n(n − 1)p2
Ainsi,
E(X 2 )−E(X) = n(n−1)p2 ⇒ E(X 2 )−np = n(n−1)p2 ⇒ E(X 2 ) = n(n−1)p2 +np
V (X) = E(X 2 ) − (E(X))2

= n(n − 1)p2 + np − n2 p2
= n(p − p2 )
= np(1 − p)
Ainsi,
V (X) = npq
Exemple : Reprenons l’exemple de la distribution binômiale vue ci-dessus où n = 6
et p = 0.5 = q
E(X) = np = 6 × 0.5 = 3,
npq = 6 × 0.5 × 0.5 = 1.5
V (X) = √
σ(X) = 1.5 = 1.22

Remarque : On note cette loi binômiale où n = 6, p = 0.5, B 6, 12 et de manière
générale une variable aléatoire X suivant une loi binômiale est notée X B (n, p).
Cette loi est tabulée pour différents n et pour p < 12 . Et lorsque p > 12 , on utilise
B (n, q), q = 1 − p < 12 . Puisque cette loi est symétrique.
5.5.4 Loi géométrique ou de Pascal

Nous l’avons déjà vue. Il s’agit de la loi de la variable aléatoire discrète correspon-
dant à X = n, le nombre d’épreuves successives indépendantes effectuées jusqu’au
succès : (n − 1) échecs et la nème épreuve est un succès. On a vu que la probabilité
de X = n est (1 − p)n−1 × p = P (X = n).
On peut vérifier que
∞
∞

P (X = x) = (1 − p)k−1 p = 1 voir plus haut
k=1 k=1
On sait aussi que

∞
1
xk = pour |x| < 1
1−x
k=0
En effet,
∞
∞

S= xk = 1 + x + x2 + . . . ⇒ Sx = xk+1 ⇒ Sk (1 − x) = 1 − xk+1
k=0 k=0
1 − xk+1 1
Sk = ⇒ S∞ = puisque lim xk+1 = 0 pour |x| < 1
1−x 1−x k→∞
Dérivons les deux côtés pour obtenir
∞
1
kX k−1 =
(1 − x)2
k=0
D’où
∞
1 1 1
E(X) = k(1 − p)k−1 p = p =p 2 =
1 − (1 + p)2 p p
k=1
Ainsi
1
E(X) =
p
Exemple : Si on lance successivement une pièce de monnaie et qu’on appelle X = k,
le k ème lancer qui correspond au 1er lancer qui donne “face”, les (k − 1) lancers
précédents ayant donné “pile” à chaque fois :
k−1 k
1 1 1
P (X = k) = × =
2 2 2
E(X) = p1 = 2 l’espérance mathématique est qu’on obtienne face 2ème au lancer de

la pièce de mannaie (p = q = 12 ).
Calculons V (X) de la loi de Pascal.
V (X) = E(X 2 ) − (E(X))2 = E(X(X − 1)) + E(X) − (E(X))2
car E(X(X − 1)) = E(X 2 − X) = E(X 2 ) − E(X)

∞

E(X(X − 1)) = k(1 − k)q k−1 p
k=1
∞

= k(1 − k)q k−1 p (le premier terme étant nul)
k=2 ∞
∞

= pq k(1 − k)q k−2 = pq kq k−1
k=2 k=2
1 2(1 − q)
= pq = pq
(1 − q)2 (1 − q)4
2 2q
= pq = 2 car 1 − q = p
(1 − q)3 p
Ainsi,
2
2q 1 1 2q + p − 1 2q − (1 − p) q
V (X) = + − = = = 2
p2 p p p2 p2 p
q
V (X) = 2
p
dans l’exemple ci-dessus : p = q ⇒ V (X) = 1
p = E(X). La variance est donc égale à
2.
5.5.5 Loi hypergéométrique

Dans la loi géométrique ci-dessus, les épreuves sont indépendantes et la probabi-
lité du succès est la même p. En revanche, dans la loi hypergéométrique, les épreuves
ne sont pas indépendantes. C’est comme dans des tirages successifs sans remise. En
effet, lorsqu’on ne remet pas la boule tirée d’une urne, la probabilité de tirer une
couleur donnée de l’urne change après chaque tirage.
Dans le schéma binômial vu plus haut, c’était comme si on faisait des tirages
successifs avec remise de la boule tirée. Les tirages étaient indépendants et on avait
la même probabilité à chaque fois de tirer de l’urne une couleur donnée.
Dans le cas de la loi hypergéométrique, les n tirages sans remise sont équivalents
à un seul tirage de n objets. Il y a donc équiprobabilité de chacun des CN
n échantillons
possibles.
Dans une urne, il ya Nb boules blanches et Nr boules rouges avec N = Nb + Nr
boules au total. Donc, Nr = N − Nb .
On tire sans remise n boules de l’urne. Quelle est la probabilité de tirer k boules
blanches de l’urne ? 0 ≤ k ≤ n et k ≤ Nb et n − k ≤ Nr . D’où, k ≥ n − Nr ou
k ≥ n − (N − Nb ). Ainsi,
max{0, n − (N − Nb )} ≤ k ≤ min{n, Nb }
Pour fixer les idées, supposons que Nb = 7 et que N = 10, donc Nr = 3. On tire
sans remise n = 5 boules de l’urne. Quelle est la probabilité de tirer k = 3 boules
blanches parmi les 5 boules tirées de l’urne ?
Le nombre total des possibilités de tirage de 5 boules est C105 . Le nombre de cas
favorables c’est de tirer 3 boules blanches parmi les 7 boules blanches de l’urne et en
même temps tirer 2 boules rouges parmi les 3 boules rouges de l’urne : C73 × C32 .
La probabilité d’obtenir k = 3 boules blanches parmi les 5 boules tirées est donc
nombre de cas favorables C3 × C2 1

= 7 5 3 = C73 × C32 × 5
nombre de cas possibles C10 C10
7! 3! 5!(10 − 5)!
= × ×
3!(7 − 3)! 2!(3 − 2)! 10!
7 × 6 × 5 3! 5×4×3×2
= × ×
3! 2 10 × 9 × 8 × 7 × 6
5
= 0.42
12
En généralisant, on obtient :
k C n−k
CN b N −Nb
P (X = k) = n
CN
Nb

Vérifions que : P (k) = 1
k=0
Nb
Nb
k C n−k
CN b N −Nb
P (k) = n posons Nb = m
CN
k=0 k=0
m
m
k C n−k m
Cm N −m 1 k n−k 1 n
P (k) = n = n Cm CN −m = n CN =1
CN CN CN
k=1 k=0 k=0
En effet, on a
m
m(=k+m−k)
Crk Csn−k = Cr+s
k=0
et on sait que
r
s
r
s

(1 + x)r (1 + x)s = Crk xk Csk xk = Crk Csk xk+k
k=0 k =0 k=0 k =0
et
r+s

(1 + x)r+s = m
Cr+s xm
m=0
D’où :
n

k n−k n
CN C
b N −Nb
= CN
k=0
La loi hypergéométrique dépend de 3 paramètres N , n et Nb et on note X

H(N, n, Nb )
n
n
k C n−k
CN n
k C n−k
CN
N −N N −N
E(X) = k pk = k b n b = k b n b = np
CN CN
k=0 k=0 k=1
Ainsi,
Nb
E(X) = np avec p =
(N = Nb + Nr )
N
Démonstration : Reprenons l’exemple numérique ci-dessus : Nb = 7, Nr = 3, N = 10,
n = 5 (5 boules tirées sans remise de l’urne contenant 7 boules blanches (succès) et
3 boules rouges (échec), soit 10 boules en tout). X = k, k est le nombre de boules
tirées ; le nombre de succès, donc le nombre d’échecs est n − k).
On a vu que
k C n−k
CN N
P (X = k) = b n r
CN
Si l’on note de 1 à Nb les boules blanches (succès) et si l’on appelle Ei l’événement
“on a tiré parmi les n boules la boule blanche i”, comme le nombre total X de boules
blanches tirées parmi les n boules tirées de l’urne (sans remise) :
Nb

1 si la boule i est tirée
X= f (Ei ) avec f (Ei ) =
0 si la boule i n’est pas tirée
i=1
X = k = le nombre de boules blanches tirées.

E(X) = Nb E (f (Ei )) et
E (f (Ei )) = 1 × P (f (Ei ) = 1) + 0 × P (f (Ei ) = 0) = P (f (Ei ) = 1) = P (Ei )
or P (Ei ) = 1 − P (Ēi ) (avec P (Ēi ) la probabilité de ne jamais tirer la boule blanche)

et
Cn (N − 1)! n!(N − n)! N − n
P (Ēi ) = Nn−1 = × =
CN n!(N − n − 1)! N! N
D’où,
N −n N −N +n n
P (Ei ) = 1 − = = .
N N N
Ainsi,
n Nb
E(X) = Nb × =n = np ⇒ E(X) = np
N N
Dans notre exemple, E(X) = 5 × 10 7
= 3.5. En effet, sur les 5 boules tirées de l’urne,
on peut s’attendre à ce qu’il ait 3.5 boules blanches, puisqu’il y a 7 boules parmi les
10 boules que contient l’urne, soit 70% de boules blanches. On espère donc 70 % de
boules blanches parmi les 5 boules tirées, soit 5 × 70% = 3.5.
La variance de X suivant la loi hypergéométrique de paramètres n, p, N est
N −n
V (X) = E(X 2 ) − (E(X))2 = E(X(X − 1)) + E(X) − (E(X))2 = npq
N −1
10 − 5
Dans notre exemple, V (X) = 5 × 0.7 × 0.3 × 0.58. D’où σX = V (X)
10 − 1
0.76.
N −n 1 − n/N
V (X) = n p q = npq
N −1 1 − 1/N
Si N est très grand par rapport à n, on a V (X) n p q.

On voit ainsi que lorsque N est très grand, la loi hypergéométrique est approxi-
mativement égale à la loi binômiale B(n, p).
5.5.6 Loi de Poisson
Une va X suit une loi de Poisson de paramètre λ > 0 si elle peut prendre n’importe
quelle valeur entière k de N avec la probabilité :
λk
P (X = k) = e−λ
k!
On écrit dans ce cas X P(λ).

On sait que le développement en série entière de eλ est
∞
λk
eλ =
k!
k=0
D’où,
∞
∞
∞ ∞ ∞
λk λk λk 1 λk eλ
P (X = k) = e−λ = = ∞ = = =1
k! k!eλ λk eλ k! eλ
k=0 k=0 k=0 k=0 k! k=0
k!
k=0
∞
∞
∞
∞

λk λk λk
E(X) = k P (X = k) = k e−λ = e−λ k = e−λ
k! k! (k − 1)!
k=0 k=1 k=1 k=1
∞
∞
∞

λk−1 λk−1 λk
= e−λ λ = λ e−λ = λ e−λ = λ e−λ eλ
(k − 1)! (k − 1)!
k !
k=1 k=1 k =0
= λ
Ainsi, E(X) = λ
V (X) = E(X(X − 1)) + E(X) − (E(X))2

∞
∞
λk
E(X(X − 1)) = k (k − 1) P (X = k) = k (k − 1) e−λ
k!
k=0 k=0
∞
∞
λk λk
= k (k − 1) e−λ =e −λ
k! (k − 2)!
k=2 k=2
∞
∞

λ2 λk−2 λk−2
= e−λ = λ2 e−λ
(k − 2)! (k − 2)!
k=2 k=2
∞

λk
= λ2 e−λ = λ2 e−λ eλ

k !
k =0
= λ2 (car k = k − 2)
Ainsi,
V (X) = λ2 + λ − λ2 = λ ⇒ V (X) = λ
D’où,
E(X) = V (X) = λ
Soient X P(λ) et Y P(µ) indépendantes, alors
E(X + Y ) = E(X) + E(Y ) = λ + µ

V (X + Y ) = V (X) + V (Y ) = λ + µ
D’où, la somme X +Y suit une loi de Poisson de paramètre λ+µ : X +Y P(λ+µ).
5.5.7 Loi binômiale négative

On tire successivement jusqu’à ce qu’on ait atteint n fois la cible. Le nombre de
tirs nécessaires à cela est Y , y ≥ n.
Le dernier tir, le y ème , est évidemment un succès. Dans les y − 1 tirs précédents,
n − 1 tirs ont été des succès. Si p est la probabilité du succès d’un tir, on a
n−1 n
P (Y = y) = Cy−1 p (1 − p)y−n
n−1
Cy−1 est le nombre de combinaisons de n − 1 succès parmi les y − 1 tirs, le dernier
tir étant nécessairement un succès.
Il est clair que y est la somme de n variables aléatoires de Pascal Xi (Xi est le
nombre de tirs successifs nécessaires pour obtenir un succès). D’où Y = X1 + X2 +
. . . + Xn D’où
n nq
E(X) = n E(Xi ) = et V (X) = n V (Xi ) =
p p2
Pour cette loi binômiale négative, le nombre de succès est fixé et c’est le nombre de
tirs y nécessaires qui est aléatoire. Dans la loi binômiale, y est fixé et n est aléatoire.
Chapitre 6
Variables aléatoires continues
6.1 Variables aléatoires continues

Une v.a. continue X est une v.a. pouvant prendre pour valeur n’importe quel réel
d’un intervalle I de R. Exemples : durée de vie d’une lampe, salaire d’un employé
quelconque dans une population de salariés.
Dans ca cas, P (X = x) = 0, le nombre de cas possibles étant infini. I peut être
divisé en sous intervalles de longueur ∆xij = xj − xi . Supposons que la probabilité
que X appartienne à xj − xi soit connue : P (xi < x < xj ). On peut représenter les
rectangles de base ∆xij et de hauteur P (xi < x < xj ) qu’on appelle l’histogramme
de X. La fonction y = f (x), si elle existe, telle que
P (xi < x < xj )

f (x) = lim
∆xij →0 ∆xij
est appelée densité de distribution de X ou loi de distribution ou densité de proba-

bilité. I = (a, b)
La courbe de distribution des probabilités (ou courbe de densité) joint les sommets
des rectangles à la limite lorsque ∆xij → 0
P (xi < x < xj ) f (x) × ∆xij

166 Chapitre 6. Variables aléatoires continues
f (x)∆xij est la surface du rectangle de base xi xj ou ∆xij et de hauteur f (x). Donc

la somme des surfaces de tous les rectangles se situant entre a et b est la probabilité
pour que a < x < b. Autrement dit :
b
P (xi < x < xj ) = f (x) dx = lim f (xi ) ∆xi
a ∆xi →0
Courbe de densité de X
Si toutes les valeurs possibles de la v.a . X se situent dans l’intervalle (a, b), alors
b
f (x) dx = 1, puisque X ne peut pas se situer en dehors de (a, b). Autrement dit :
a
P (a < x < b) = 1.
+∞
Si l’intervalle des valeurs de X est (−∞, +∞), alors f (x) dx = 1. Evidem-
−∞
ment, on a f (x) = 0 à l’exterieur de l’intervalle de définition. Si f (x) est la densité
de probabilité de X définie sur (−∞, +∞), alors la fonction
x
F (x) = f (x) dx
−∞
est appelée fonction de répartition (loi intégrale de distribution des probabilités de

X).
∞
F (x) = P (−∞ < X < x). On a F (x) = P (−∞ < X < +∞) = f (x) dx = 1
−∞
Considérons la courbe f (x) et un intervalle (a, b)
a b
F (a) = f (x) dx F (b) = f (x) dx
−∞ −∞
b a b
F (b) − F (a) = f (x) dx − f (x) dx = f (x) dx = P (a < x < b)
−∞ −∞ a
6.1.1 Espérance mathématiques d’une v.a. continue

On appelle espérance mathématiques de la v.a. continue X définie sur ]−∞, +∞[
de densité de probabilité f (x) l’expression
∞
E(x) = x f (x) dx
−∞
Si f (x) est paire, c’est-à-dire si f (x) = f (−x), la courbe de distribution est symé-
trique par rapport à l’axe de y, alors
∞
E(X) = x f (x) dx = 0.
−∞
C’est ainsi que l’on appelle aussi E(X) centre de distribution des probabilités de X.
Si E(X) = M x, on a :
E(X − M x) = E(X) − E(M x) = E(X) − E(X) = 0
X − M x est la v.a. centrée, son espérance mathématique est nulle.
6.1.2 Variance d’une v.a. continue

On appelle variance de la v.a. continue X de densité de probabilité f (x), l’espé-
rance mathématique du carré de la v.a. centrée correspondante :
+∞
V (X) = E(X − M x)2 = (x − M x)2 f (x) dx
−∞

L’écart type de X, σX , est égal à la racine carrée de V (X) : σX = V (X).
6.2 Lois usuelles continues

Nous allons voir successivement les lois usuelles suivantes : loi uniforme, loi ex-
ponentielle, loi normale, loi gamma, loi du χ2 , loi bêta, loi log-normale et loi de
Pareto.
6.2.1 Loi uniforme

Une v.a. X suit une loi uniforme si sa densité est constante sur un intervalle fini
[a, b].
te
C si x ∈ [a, b]
f (x) =
0 sinon
On écrit alors X U[a, b]. Le graphique de f (x) est :
Cette loi est également appelée distribution rectangulaire à cause de la forme du

graphe.
On doit évidemment avoir
+∞ b a +∞
f (x) dx = 1 = C te dx + 0 dx + 0 dx
−∞ a te b −∞ b
a +∞
= C · x a + C te −∞ + C te b
= (Cb − Ca) + C − C
= C(b − a)
donc,
1
C= = f (x) pour x ∈ [a, b]
b−a
La fonction de répartition de X est :
x
Si x < a on a : F (x) = 0 dt = 0 ;
−∞ x
a
1 t x x−a
Si a ≤ x < b on a : F (x) = 0 dt + dt = = ;
b−a b−a a b−a
−∞a a b x
1
Si x ≥ b on a : F (x) = 0 dt + dt + 0 dt
−∞ a b−a b
b
t b−a
= = = 1.
b−a a b−a
D’où 
 0x − a
 pour x<a
F (x) = pour a≤x<b

 b−a
1 pour x≥b
Son graphe est alors :
Entre a et b, xp = a + (b − a)p p ∈]0, 1[.

Dans ce cas
a + (b − a)p − a (b − a)p
F (xp ) = = = p.
b−a b−a
(p est une fraction, un fractile d’ordre p).
La densité f (x) est discontinue en a et en b, mais la loi et la fonction de ré-
partition sont bien entendu absolument continues en a et en b. Comme la fonction
de répartition est linéaire entre a et b, il y a proportionalité entre la longueur d’un
sous-intervalle de a et b et la probabilité que X appartienne à ce sous-intervalle. En
effet
β β
1 x β β−α
P (α < X < β) = f (x) dx = dx = =
α α b−a b−a α b−a
+∞ b b 2 b
1 1 1 x
E(X) = xf (x) dx = x dx = x dx =
−∞ b − a b − a b − a 2 a
2 b a a
1 b a2 (b − a)(b + a) (b + a)
= − = =
b−a 2 2 a 2(b − a) 2
+∞ b b 3 b
2 1 2 1 2 1 x
E(X 2 ) = x f (x) dx = x dx = x dx =
−∞ b − a b − a b − a 3 a
3 b a a
1 b a3 b − a a2 + b2 + ab a2 + b2 + ab
= − = =
b−a 2 3 a b−a 3 3
V (X) = E(X 2 ) − E 2 (X)

a2 + b2 + ab a + b 2 a2 + b2 + ab a2 + b2 + 2ab
= − = −
3 2 3 4
a2 + b2 − 2ab (a − b)2
= =
12 12
Ainsi,
a+b (a − b)2
E(X) = = V (X) =
2 12
Exemple de loi uniforme : a = 0 et b = 1 ⇒ X U[0, 1]
b+a 1 (1 − 0)2 1
E(X) = = V (X) = =
2 2 12 12
6.2.2 Loi exponentielle

Si X suit une loi exponentielle de paramètre θ > 0, X E(θ), sa densité f (x)
est
θe−θx si x≥0
f (x) =
0 si x<0
Le graphe de f (x) est :

X est utilisée pour représenter une durée de vie.

La fonction de répartition F (x) est
x 0 x x
F (x) = f (t) dt = 0 dt + θe−θx dt = 0 + θe−θx dt
−∞ −∞ 0 0
x
= −e−θt = −e−θx + e−θ0
0
= 1 − e−θx
Donc,
F (x) = 1 − e−θx
Sa courbe se présente ainsi :
F (x) = θe−θx à x = 0 → F (x) = θ

+∞ +∞
E(X) = xθe−θx dx = θ xe−θx dx
0 0
Posons :
1
u=x et dv = e−θx dx ⇒ du = dx et v = − e−θx
θ
+∞ +∞ +∞ +∞
E(X) = θ xe−θx dx = θ udv = θ uv − vdu
0 +∞ 0 +∞
0
+∞ 0 +∞
1
= θx − e−θx + e−θx dx = −xe−θx + e−θx dx
θ 0
+∞ 0 0 0
1 1 +∞ 1 1
= − e−θx = − e−θx = − (0 − 1) =
θ 0 θ 0 θ θ
+∞ +∞
V (X) = E(X 2 ) − E 2 (X) ; E(X 2 ) = x2 θe−θx dx = θ x2 e−θx dx
0 0
Posons :
1
u = x2 et v = e−θx ⇒ du = 2xdx et v = − e−θx
θ
+∞
1 −θx +∞
E(X 2 ) = θ x2 − e +2 xe−θx dx
θ 0 0
+∞ +∞
1 1
On vient de voir que E(X) = θxe−θx dx = d’où θ xe−θx dx = ⇒
+∞ 0 θ 0 θ
1
xe−θx dx = 2 .
0 θ
Donc,
+∞ 1 2
E(X 2 ) = −x2 e−θx +2 2 = 2
0 θ θ
2 1 1
V (X) = − = 2
θ2 θ2 θ
Ainsi,
1 1
E(X) = V (X) =
θ θ2
6.2.3 Loi normale ou loi de Gauss

X suit une loi normale de paramètre m et σ, X N (m, σ), si la densité f (x)
est
1 (x − m)2
f (x) = √ exp −
σ 2π 2σ 2
+∞
Evidemment pour une densité de probabilité f (x), on a f (x) dx = 1 d’où
−∞
+∞ +∞ +∞ √
1 (x−m)2 1 (x−m)2 (x−m)2
√ e− 2σ2 dx = √ e− 2σ 2 dx = 1 ⇒ e− 2σ 2 dx = σ 2π
−∞ σ 2π σ 2π −∞ −∞
Pour montrer ce résultat, il faut calculer l’intégrale d’Euler-Poisson

+∞ +∞
2 2
I= e−x dx = e−y dy
0 0
d’où
+∞ +∞
2 2 2 +y 2 )
I2 = e−x dx e−y dy = e−(x dx dy
0 0 S
S étant le domaine défini par 0 ≤ x < +∞ et 0 ≤ y < +∞, soit le premier quadrant
du plan des coordonnées Oxy.
Le domaine S est balayé par le rayon OM de longueur r allant de 0 à +∞, en
rotation de ϕ allant de 0 à π2 .
π +∞ π +∞
2 2 2 2
I2 = e−r r dϕ dr = dϕ re−r dr
0 0 0 0
2
(x2 + y 2 = r2 : théorème de Pythagore, x = r cos ϕ et y = r sin ϕ, S = e−r r).
Or
+∞
2 1 +∞ 2 1 2 +∞ 1 1
re−r dr = − −2re−r dr = − e−r = − (0 − 1) =
0 2 0 2 0 2 2
Ainsi,
ϕπ
π √
1 2 2 π π π
I2 = dϕ = = −0= ⇒I =
0 2 2 0 4 4 2
+∞ √
−x2 π
Appliquons ce résultat de l’intégrale d’Euler-Poisson I = e dx = à
0 2
l’intégrale de la densité de probabilité de la loi normale :
+∞
1 (x−m)2
√ e− 2σ 2 dx
σ 2π −∞
Faisons le changement de variable
x−m √ (x − m)2
t= √ ⇒ dx = 2 σ dt et t2 =
σ 2 2σ 2
D’où l’intégrale recherchée est en fonction de t :
+∞ √ +∞ +∞
1 −t2
√ σ 2 2 1 2
√ e σ 2 dt = √ e−t dt = √ e−t dt
σ 2π −∞ σ 2π −∞ π −∞
+∞ 0 +∞ +∞ √
2 2 2 2 π √
e−t dt = e−t dt + e−t dt = 2 e−t dt = 2 = π
−∞ −∞ 0 0 2
Donc,
+∞ √
1 +∞ (x−m)2 1 +∞
2 √ 1 2 π
√ e− 2σ 2 dx = √ e−t σ 2 dt = √ e−t dt = √ = 1
σ 2π −∞ σ 2π −∞ π −∞ π
C.Q.F.D.
Construisons le graphe de la densité de probabilité de la loi normale

1 (x − m)2 1
f (x) = √ exp − = √ 2
σ 2π 2σ 2 σ 2π exp (x−m) 2 2σ
On remarque tout de suite que cette fonction est symétrique par rapport à m puisque
(x − m)2 = (m − x)2 .
Lorsque x → ∞, f (x) → 0.

1 −(x − m)2 −(x − m)2 − (x − m)2 −(x − m)2
f (x) = √ exp = √ exp
σ 2π 2σ 2 2σ 2 σ 2π2σ 2 2σ 2

−1 −(x − m)2 −1 x − m −(x − m)2
= √ 2(x − m)exp = √ exp
σ 2π2σ 2 2σ 2 σ 2π σ 2 2σ 2

m−x 1 (x − m)2
f (x) = √ exp −
σ 2 σ 2π 2σ 2
Donc,
m−x
f (x) = f (x)
σ2

m−x m−x m−x
f (x) = f (x) = f (x) + f (x)
σ2 σ2 σ2

−1 m−x m−x −1 (m − x)2
= f (x) + f (x) = + f (x)
σ2 σ2 σ2 σ2 σ4
(m − x)2 − σ 2 (m − x − σ)(m − x + σ)
= f (x) = f (x)
σ4 σ4
f (x) s’annule lorsque (m − x − σ)(m − x + σ) s’annule, c’est-à-dire à x = m − σ et
m−x
x = m + σ, les deux points d’inflexion de f . f (x) = f (x) s’annule à x = m et
σ2
−σ 2
change de signe et là f (x) = 4 f (x) < 0. Cela veut dire que f est au maximum
σ
1
à x = m, f (m) = √ .
σ 2π
Finalement, le tableau de variation de f (x) est
x −∞ m−σ m m+σ +∞
f (x) 0 0
f (x) + 0 -
f (x) 0 √1
σ 2π
0
La courbe est une courbe en cloche.
Calculons E(X) et V (X).

+∞ +∞
E(X) = (x + m − m) f (x) dx
x f (x) dx =
−∞
−∞ +∞
+∞ +∞
= m f (x) dx + (x − m) f (x) dx = m + (x − m) f (x) dx
−∞
m −∞ +∞ −∞
= m+ (x − m) f (x) dx + (x − m) f (x) dx
−∞ m
m +∞
E(X) = m + (x − m) f (x) dx − (m − x) f (x) dx
−∞ m
Comme f (x) est symétrique par rapport à m, ces deux intégrales sont égales et leur
différence est nulle. D’où E(X) = m.
On a
V (X) = E(X 2 ) − E 2 (X)
Or,
+∞ +∞
1 (x − m)2
E(X 2 ) = x2 f (x) dx = √ x2 exp − dx
−∞ σ 2π −∞ 2σ 2
x−m (x − m)2
t= , x − m = σt ⇒ x = σt + m et t2 = , dx = σdt
σ σ2
d’où
+∞ 2
1 t
E(X 2 ) = √ (σt + m)2 exp − σ dt
σ 2π −∞ 2
+∞ 2
σ 2 2 2 t
= √ (σ t + m + 2σtm) exp − dt
σ 2π −∞ 2
+∞ 2 +∞ 2
1 t t
= √ m2 exp − dt + σ 2 t2 exp − dt
2π −∞ 2 −∞ 2
+∞ 2
t
+2σm t exp − dt
−∞ 2
+∞ 2
1 2
√ 2 2 t
= √ m 2π + σ t exp − dt + 0
2π −∞ 2
+∞ 2
σ2 t
= m2 + √ t2 exp − dt
2π −∞ 2

−t2 −t2
En posant u = t et dv = t exp 2 dt, on obtient du = dt et v = −exp 2 . D’où
2 +∞ +∞ 2
σ2 t t
E(X 2 ) = m2 + √ −t exp − − − exp − dt
2π 2 −∞ −∞ 2
2 2 +∞ +∞ 2
−σ t t σ2 t
= m2 + √ exp − +√ exp − dt
2π 2 −∞ 2π −∞ 2
+∞ 2
σ2 t
= m2 + 0 + √ exp − dt
2π −∞ 2
σ2 √
= m2 + √ 2π
2π
= m2 + σ 2
Ainsi,
V (X) = E(X 2 ) − E 2 (X) = m2 + σ 2 − m2 = σ 2
D’où,
V (X) = σ 2 et σX = σ
Pour résumer les résultats précédents : une v.a. X suivant la loi normale de para-
mètres m et σ, c’est-à-dire ayant pour densité de probabilité f (x) avec

1 (x − m)2
f (x) = √ exp − ,
σ 2π 2σ 2
a pour espérance mathématique E(X) = m et pour variance V (X) = σ 2 et donc pour

X −m
écart type σ. Si l’on centre et réduit X, on obtient la variable aléatoire t =
σ
de densité de probabilité
2
1 t
f (t) = √ exp −
σ 2π 2

1 (t − 0)2 1 1 (t − 0)2
f (t) = √ exp − = × √ exp −
σ 2π 2 × 12 σ 1 × 2π 2 × 12
Posons 2
1 (t − 0)2 1 t
ϕ(t) = √ exp − = √ exp −
2π 2 × 12 2π 2
ϕ(t) = σf (t). ϕ(t) correspond à une loi normale lorsque σ = 1. D’où la v.a. centrée
et réduite t suit une loi normale de paramètres m = 0 et σ = 1. C’est la loi normale
standard. +∞ +∞
t2 √
On a vu que : e− 2 dt = 2π d’où : ϕ(t) dt = 1
−∞ −∞
√ t2
ln ϕ(t) = − ln 2π − , d’où
2
ϕ (t) 1 t2
[ln ϕ(t)] = = −t ⇒ ϕ (t) = −tϕ(t) = −t √ e− 2
ϕ(t) 2π
ϕ (t) = −ϕ(t) − tϕ (t) = −ϕ(t) − t(−tϕ(t)) = −ϕ(t) + t2 ϕ(t) = ϕ(t)(t2 − 1)
ϕ (t) = ϕ(t)(t − 1)(t + 1)
1
ϕ (t) s’annule lorsque t est nul (t = 0), dans ce cas ϕ(t) = √ = 0.3989 et dans ce
2π
cas ϕ (0) = −ϕ(t) < 0. D’où à t = 0, ϕ(t) est à son maximum.
La fonction de répartition de t est
x
1 t2
φ(x) = √ e− 2 dt
2π −∞
Les valeurs de φ sont fournies dans des tables statistiques pour x ≥ 0. Pour x < 0,
on utilise la parité de ϕ, ϕ(t) = ϕ(−t), c’est-à-dire sa symétrie par rapport à l’axe
des y ou par rapport à son centre de distribution O. D’où φ(−x) = 1 − φ(x)
L’aire qui est sous la courbe en cloche et au dessus de l’axe des x est égale à 1.
L’aire qui se trouve sous la courbe au-delà de x est égale à l’aire en deçà de (−x).
L’aire hachurée à droite est égale à 1 moins l’aire sous la courbe pour t allant de −∞
à x, soit 1 − φ(x).
L’aire qui se situe sous la courbe et qui est délimitée par les verticales t = x et
t = −x est égale à
1 − 2(1 − φ(x)) = 1 − 2 + 2φ(x) = 2φ(x) − 1
C’est la surface non hachurée sous la courbe.

Si l’on veut que cette surface corresponde à la probabilité de 12 ou de 50%, il faut
avoir
1 3 3
2φ(x) − 1 = ⇒ 2φ(x) = ⇒ φ(x) = = 0.75
2 2 4
On peut lire dans la table de la loi normale que x correspondant à φ(x) = 0.75 est
x = 23 = 0.6745
Si l’on appelle p(a) cette aire comprise entre
la courbe en cloche et les deux
verticales t = a et t = −a. Pour a = 23 , on a p 23 = 0.5 et dans ce cas φ(a) = 0.75.
Cela veut dire que l’aire ainsi définie correspond à 50 % de l’aire qui se trouve sous
la courbe, soit l’unité et dans ce cas t = a = 23 . On avait posé t = x−m σ . Donc pour
n’importe quelle v.a. X suivant la loi normale de paramètre m et σ, pour avoir 50
% de l’aire de la courbe centrés sur m, on doit avoir x−m 2
σ = 3 ⇒ x = 3 + m.
2σ
De la même manière : p(a) = 0.95 = 2φ(a) − 1 ⇒ 2φ(a) = 1.95 ⇒ φ(a) = 1.95 2 =

0.975. On peut lire sur la table que pour φ(a) = 0.975, a = 1.96 = t = x−m σ ⇒
x = 1.96σ + m. Et enfin pour p(a) = 0.99 = 2φ(a) − 1 ⇒ 2φ(a) = 1.99 ⇒ φ(a) =
1.99
2 = 0.995. On lit sur la table de la fonction de répartition de la loi normale centrée
réduite que le a correspondant est 2.57 d’où x = 2.57σ + m.
Convolution des lois normales
Soient X N (m1 , σ1 ) et Y N (m2 , σ2 )indépendantes. La somme Z = X + Y

est Z N (m1 + m2 , σ12 + σ22 ). L’espérance mathématique et la variance de la
somme de 2 v.a. sont égales respectivement aux sommes des espérances mathéma-
tiques et des variances des 2 v.a.
6.2.4 Loi gamma
Une v.a. X suit une loi gamma de paramètre k et θ, avec k > 0et θ > 0 si X ≥ 0
+∞
θk −θx k−1
et sa densité de probabilité est f (x) = e x , avec Γ(k) = e−x xk−1 dx.
Γ(k) 0
On note X γ(k, θ). Nous avons déjà vu dans la chapitre du calcul différentiel et
intégral que pour k > 1, Γ(k) = (k − 1)Γ(k − 1) et que Γ(k) = (k − 1)!.
Calculons E(X) et V (X) (x ≥ 0)

+∞ +∞
θk −θx k−1 θk
E(X) = e x x dx = e−θx xk dx
0 Γ(k) Γ(k) 0
+∞ +∞
1 1 1
= e−θx (θx)k dx = e−θx (θx)k dx
Γ(k) 0 Γ(k) 0 θ
dy dy
Si on pose y = θx, on a dx = θ ⇒ dy = θdx et dx = θ . D’où
+∞ +∞
1 dy 1
E(X) = e−y y k = e−y y k dy
Γ(k) 0 θ θΓ(k) 0
Comme on a :
+∞ +∞
θk −θx k−1
f (x) dx = 1 ⇒ e x dx = 1
0 0 Γ(k)
+∞ +∞
θk θk +1
⇒ e−θx xk−1 dx = 1 = e−θx xk dx
Γ(k) 0 Γ(k + 1) 0
avec k = k − 1. D’où +∞
Γ(k + 1)
e−θx xk · dx =
0 θk +1
+∞
Γ(k + 1)
donc e−θx xk · dx = ou encore
0 θk+1
+∞ +∞
1 −θx kθ 1 Γ(k + 1)
e (θx) · dx = k e−y y k · dy =
θk 0 θ θθ 0 θk+1
+∞
θk+1 Γ(k + 1)
⇒ e−y y k · dy = = Γ(k + 1)
0 θk+1
D’où
1 1 Γ(k + 1) k
E(X) = · Γ(k + 1) = =
θΓ(k) θ Γ(k) θ
k
donc E(X) =
θ
V (X) = E(X 2 ) − E 2 (X)
+∞ +∞
θk θk
E(X 2 ) = e−θx xk−1 x2 dx = e−θx xk+1 dx
Γ(k) 0 Γ(k) 0
θk Γ(k + 2) 1 Γ(k + 2) k(k + 1)

= k+2
= 2 =
Γ(k) θ θ Γ(k) θ2
D’où : 2
k(k + 1) k k
V (X) = − = 2
θ2 θ θ
k
Donc V (X) =
θ2
Nous avons déjà vu que E(aX) = aE(X) et que V (aX) = a2 V (X). Si on prend
alors a = θ, on obtient : E(θX) = V (θX) = k
La loi gamma de θX ne dépend plus de θ, mais seulement de k
Y = θX γ(k), X γ(k, θ)
Convolution des lois gammas
Si le second paramètre θ est le même pour deux lois gammas indépendantes X

et Y , X γ(k1 , θ) et Y γ(k2 , θ), alors Z = X + Y a pour
k1 k2 k 1 + k2
E(Z) = E(X) + E(Y ) = + =
θ θ θ
et pour
k1 + k2
V (Z) = .
θ2
D’où Z γ(k1 + k2 , θ).
La loi exponentielle déjà vue est un cas particulier de la loi gamma :

θe−θx si x ≥ 0
X E(θ) ⇒ f (x) =
0 si x < 0
C’est la loi gamma lorsque k = 1. En effet :
θ1 −θy 0
Y γ(1, θ) ⇒ f (y) = e y = θe−θy pour y ≥ 0.
Γ(1)
Si l’on considère n v.a. indépendantes de même loi exponentielle de paramètre θ.

n
n
n 1
E Xi = E(Xi ) = puisque E(X) =
θ θ
i=1 i=1
n
n
n
et V Xi = V (Xi ) =
θ2
i=1 i=1
D’où
n

Sn = Xi γ(n, θ) et θSn γ(n).
i=1
Il existe un autre cas particulier de la loi de gamma. C’est la loi du χ2 que nous
allons voir.
6.2.5 Loi du χ2 (chi-2)

Si une v.a. X suit la loi du χ2 à n degrés de liberté, χ2n , sa densité de probabilité
est pour x > 0 :
1 x n
f (x) = n n e− 2 x 2 −1
22Γ 2
Si on remplace, dans f (x), n
2 par k et 1
2 par θ, on obtient
1 θk −θx k−1
f (x) = 1 e−θx xk−1 =
e x
θk
Γ(k) Γ(k)

La loi du χ2n n’est donc pas autre chose que la loi γ n2 , 12 de paramètres k = n
2 et
θ = 2 . D’où
1

2 n 1 n/2
E(χn ) = E γ , = =n ⇒ E(χ2n ) = n
2 2 1/2

n 1 n/2
V (χ2n ) = V γ , = = 2n ⇒ V (χ2n ) = 2n
2 2 1/22
On peut ainsi passer de la loi du χ2 à la loi gamma. Cette dernière n’est pas tabulée.
Comme on a montré ci-dessus que la loi exponentielle est un cas particulier de la
loi gamma, la somme de plusieurs lois exponentielles donne une loi gamma, laquelle
correspond à une loi du χ2 .
X −m
Si X N (m, σ), alors U = N (0, 1).
σ
Si on considère Y = U 2 , la fonction de répartition de Y pour y > 0 est
√ √ √ √
F (y) = P (Y < y) = P (U 2 < y) = P (− y < u < y) = φ( y) − φ(− y)
Sa densité est donc

√ √
1 √ √ 2φ( y) φ( y) 1 1 y
f (y) = √ [φ( y) + φ(− y)] = √ = √ = √ √ e− 2
2 y 2 y y y 2π
√
Et comme Γ 12 = π on a :

1 1 − y2 1 − y2 −1 1 1
f (y) = √ √ e ⇒ f (y) = 1 e y ⇒ Y γ
2 , ≡ χ21
y 2Γ 12 2 2 Γ 12 2 2
X −m (X − m)2
Donc : si X N (m, σ), N (0, 1) et Suit une loi du χ21 .
σ σ2
Convolution des lois du χ2 :
X χ2n et Y χ2m et X et Y sont indépendantes, alors X + Y χ2n+m

car E(X) = n, E(Y ) = m et V (X) = 2n, V (Y ) = 2m, E(X + Y ) = n + m et
V (X + Y ) = 2n + 2m = 2(n + m)
n

Si l’on a n Xi N (0, 1) alors Xi2 suit une loi du χ2 de n degrés de liberté.
i=1
n est le nombre des v.a. indépendantes intervenues dans la loi du χ2 . Si ces v.a. sont
liées par k relations, le nombre de degrés de liberté devient n − k.
6.2.6 Loi bêta

Les lois bêta se déduisent des lois gammas. Elles sont définies par un rapport de
lois gammas.
Soient X γ(k1 ) et Y γ(k2 ) (θ = 1) pour x > 0 et y > 0. On peut définir
X
une loi bêta par le rapport des deux lois gammas : Z = . Dans ce cas, la loi bêta
Y
a deux paramètres k1 et k2 .
1 1
f (x) = e−x xk1 −1 et f (y) = e−y y k2 −1
Γ (k1 ) Γ (k2 )
On sait que (θ = 1) : E(X) = V (X) = k1 et E(Y ) = V (Y ) = k2

1 1
E(Z) = E(X) · E = E(X) · E(Z ∗ ) avec Z ∗ =
Y Y
1
Z ∗ = h(Y ) =
Y
+∞ +∞
1
E(Z ∗ ) = E[h(Y )] = h(y)f (y) dy = · f (y) dy
0 0 y
+∞ +∞
1 1 −y k2 −1 −1
E(Z ∗ ) = · f (y) dy = e y y dy
0 y 0 Γ(k 2)
+∞ +∞
1 −y k2 −2 1
= e y dy = e−y y k2 −2 dy
0 Γ(k2 ) Γ(k2 ) 0
1 (k2 − 2)! 1
E(Z ∗ ) = Γ(k2 − 1) = =
Γ(k2 ) (k2 − 1)! k2 − 1
D’où
1 1 k1
E(Z) = E(X) · E = k1 × =
Y k2 − 1 k2 − 1
V (Z) = E(Z 2 ) − E 2 (Z)

2
X 1 1
E(Z 2 ) = E = E(X 2
) × E = k 1 (k 1 + 1) × E
Y2 Y2 Y2
+∞ +∞
1 1 −2 −y k2 −1 1
E = y e y dy = e−y y k2 −3 dy
Y2 Γ(k2 ) 0 Γ(k2 ) 0
1 Γ(k2 − 2) 1
= Γ(k2 − 2) = =
Γ(k2 ) Γ(k2 ) (k2 − 1)(k2 − 2)
Donc,
1 k1 (k1 + 1)
E(Z 2 ) = k1 (k1 + 1) × =
(k2 − 1)(k2 − 2) (k2 − 1)(k2 − 2)
k1 (k1 + 1) k12
V (Z) = −
(k2 − 1)(k2 − 2) (k2 − 1)2
X
E(Z) = V (Z) alors que θ = 1. La nouvelle loi suivie par n’est pas une loi gamma.
Y
C’est une loi de densité qu’il nous faut déterminer.
1 −x k1 −1
La densité de probabilité de X est f (x) = e x , loi gamma de para-
Γ(k1 )
mètre unique k1 , θ = 1.
1 −y k2 −1
La densité de probabilité de Y est f (y) = e x , loi gamma de para-
Γ(k2 )
mètre unique k2 , θ = 1.
X
Trouvons la densité de probabilité de Z = .
Y
Appelons FZ (z) la valeur de la fonction de distribution de Z à z. Lorsque Z = z,
x
on a = z ⇒ x = yz (y = 0)
y
z +∞ yz
FZ (z) = P (Z ≤ z) = f (z) dz = f (x, y) dx dy
0 0 0
Comme x et y sont indépendantes, on a : f (x, y) = f (x) · f (y)

+∞ yz
1 −x k1 −1 1 −y k2 −1
F (z) = e x e y dx dy
0 0 Γ(k1 ) Γ(k2 )
Le calcul de cette intégrale est assez fastidieux. Une fois déterminée, il faudra la
différencier pour trouver fZ (z). Après calculs, on trouve :
Γ(k1 + k2 ) z k1 −1
fZ (z) = ×
Γ(k1 ) Γ(k2 ) (1 + z)k1 +k2
Γ(k1 ) Γ(k2 )
En posant B(k1 , k2 ) = , on obtient :
Γ(k1 + k2 )
1 z k1 −1
fZ (z) = ×
B(k1 , k2 ) (1 + z)k1 +k2
C’est ce qu’on appelle la loi bêta de seconde espèce de paramètre k1 > 0 et k2 > 0
qu’on note BII (k1 , k2 ) et dont nous avons déjà calculé l’espérance mathématiques
et la variance. On doit avoir k2 > 2 pour que ces moments existent. La loi bêta de
X
première espèce est celle de T = . Sa densité de probabilité est
X +Y
1
f (t) = tk1 −1 (1 − t)k2 −1
B(k1 , k2 )
On écrit T BI (k1 , k2 )
k1 k1 k 2
E(T ) = et V (T ) =
k1 + k2 (k1 + k2 )2 (k1 + k2 + 1)
6.2.7 Loi log-normale

La v.a. positive X suit une loi log-normale N (m, σ) σ > 0, si ln X N (m, σ).
Sa fonction de répartition est donnée par :

ln X − m ln x − m ln x − m
F (x) = P (X < x) = P (ln X < ln x) = P < =φ
σ σ σ
et sa densité est

1 ln x − m 1 −1 2
f (x) = ϕ = √ exp (ln x − m)
σx σ σx 2π 2σ 2
6.2.8 Loi de Pareto

La variable aléatoire X suit une loi de Pareto de paramètre (x0 , k), k réel positif,
si sa densité de probabilité est :
k x0 k+1
f (x) = avec x ≥ x0
x0 x
−k−1
k x k · x−k−1 k · x−k−1 xk0
f (x) = · = = = k ·
x0 x0 x−k−1+1
0 x−k
0
xk+1
Cette loi peut se présenter sous différentes formes. Dans tous les cas, il s’agit d’un
cas particulier de loi de puissance ayant des applications intéressantes en économie.
Elle donne une base théorique au principe de Pareto, bien connu des 80-20 : 80 % des
effets sont le produit de 20 % des causes pouvant s’appliquer dans plusieurs domaines
(ex : 80 % des entreprises ne paient que 20 % de l’impôt sur les sociétés alors que les
20 % les plus riches en paient 80 %).
La fonction de répartition est donnée par
−k
x
F (x) = P (X > x) = , x≥0
x0
Ces distributions de Pareto sont continues. La loi de Zipf, et son cas limite, la loi de
zêta, sont l’équivalent discret de la loi de Pareto.
Le paramètre k est appelé indice de Pareto.
+∞
k x0 k+1 k · x0
E(X) = · · x dx = pour k = 1, E(X) = +∞
x0 x 0 x k−1
x20 k
V (X) = pour k = 2, la variance est infinie.
(k − 1)2 k − 2
La distribution de Pareto peut être reliée à la distribution exponentielle, comme on

peut considérer que la distribution de Dirac est un cas limite de celle de Pareto (la
fonction de Dirac a pour représentation graphique :
δ(0) = 1
δ(Q) = 0
Q : volume ne contenant pas 0
6.3 Fonction génératrice des moments d’une loi continue

et sa fonction caractéristique
6.3.1 La fonction génératrice
Elle permet de calculer aisément les moments des lois de probabilité. Pour une
v.a. X, elle est définie par MX (t) = E(etX ), t réel.
+∞ +∞
t2 x2
MX (t) = etx f (x) dx = 1 + tx + + . . . f (x) dx
−∞ −∞ 2!

t2 x2 t3 x3
puisque etx = 1 + tx + + + ...
2! 3!
+∞ +∞ +∞ 2 2
t x m2
MX (t) = f (x) dx+ tx f (x) dx+ f (x) dx+. . . = 1+tm1 +t2 +. . .
−∞ −∞ −∞ 2! 2!

mi étant le ième moment de X E(X), E(X 2 ), E(X 3 ), . . .
• Pour la loi exponentielle, X ξ(θ) on a :

+∞
MX (t) = etx θ e−θx dx pour x ≥ 0
−∞
+∞
θ
= θ e(t−θ)x dx = pour t < θ
0 θ−t
∞ k
∞

1 t k! tk
= t = =
1− θ
θ θk k!
k=0 k=0
0! t0
2! t2 1! t1
= 0 + + 2 + ...
θ 0! θ 1! θ 2!
t2
= 1 + tm1 + m2 + . . .
2!
t t2
= 1+ + 2 + ...
θ θ
k! 1 2 3!
D’où mk = k et donc m1 = , m2 = 2 , m3 = E(X 3 ) = 3 résultats déjà
θ θ θ θ
trouvés pour m1 et m2 .
• Pour une v.a. normale standard X N (0, 1) on a :
1 x2
fX (x) = √ e− 2 ,
2π
+∞
1 x2
MX (t) = E etx = etx √ e− 2 dx
−∞ 2π
+∞
1 x2
= √ e− 2 +tx dx
2π −∞
x2 1 1
= − + tx = − (x2 − 2tx) = − (x − t)2 − t2
2 2 2
= − 12 (x − t)2 + 12 t2
Si l’on pose v = x − t, on obtient :
+∞
1 1 2 t2
MX (t) = √ e− 2 v +2
dv (dx = dv)
2π −∞
+∞
1 t2 v2
= √ e2 e− 2 dv
2π −∞
1 t2 √
= √ e 2 2π
2π
t2
= e2
On a
(n) dn MX
mn = E (X n ) = MX (0) = (0)
dtn
t2 (1) t2 (2) t2 t2
MX (t) = e 2 =⇒ MX (t) = te 2 , MX (t) = e 2 + t2 e 2
(1)
E(X) = MX (0) = 0 = m1
(2)
E(X 2 ) = MX (0) = 1 = m2
V (X) = E(X 2 ) − E 2 (X) = 1 − 0 = 1

θ
• Pour la loi exponentielle, X ξ(θ), nous avons trouvé : MX (t) =
θ−t
(1) θ (1) θ 1
MX (t) = =⇒ MX (0) = = = E(X) = m1
(θ − t)2 θ2 θ
(2) 2θ(θ − t) 2θ (2) 2θ 2
MX (t) = = =⇒ MX (0) = = 2 = E(X 2 ) = m2
(θ − t)4 (θ − t)3 θ3 θ
2 1 1
V (X) = E(X 2 ) − E 2 (X) =⇒ − = 2
θ2 θ2 θ
• Pour la loi normale X N (µ, σ) on a :
+∞
1(x − m)2
MX (t) = E(etx ) = etx exp − √ dx
−∞ σ 2π 2σ 2
+∞
1 (x − m)2
= √ exp tx − dx
σ 2π −∞ 2σ 2

(x − m)2 1 (x − m)2 1 x−m 2
tx − = − − 2tx = − − 2tx
2σ 2 2 σ2 2 σ
2
(x − m)2 x−m
− 2tx = − tσ − t2 σ 2 − 2mt
σ2 σ
(x − m)2 (x − m)
= + t2 σ 2 − 2tσ − t2 σ 2 − 2mt
σ2 σ

x−m 2
= − 2tx + 2tm + t2 σ 2 − t2 σ 2 − 2tm
σ

x−m 2
= − 2tx
σ
D’où
2
(x − m)2 1 x−m 2 2
tx − =− − tσ − t σ − 2mt
2σ 2 2 σ
Posons
x−m dv 1
− tσ =⇒
v= = =⇒ dx = σ dv
σ dx σ
D’où +∞
1 1 v2 2 2
MX (t) = √ exp − − t σ − 2mt σ dv
σ 2π −∞ 2 2
2 2 +∞ 2
1 +t σ + 2mt v
= √ exp exp − dv
2π 2 −∞ 2
2 2
+t σ + 2mt
= exp
2
t2 σ 2
= emt e 2
t2 σ 2 (1) t2 σ 2 t2 σ 2
MX (t) = emt e 2 =⇒ MX (t) = memt e 2 + emt σ 2 t e 2 = (m + σ 2 t) MX (t)
(2)
=⇒ MX (t) = σ 2 MX (t) + (m + σ 2 t) MX (t)
= σ 2 MX (t) + (m + σ 2 t)2 MX (t)

(1)
E(X) = MX (0) = m
(2)
E X 2 = MX (0) = MX (0) σ 2 + (m + 0)2 MX (0) = σ 2 + m2 (MX (0) = 1)
V (X) = σ 2 + m2 − m2 = σ 2
6.3.2 Fonction caractéristique d’une v.a.

• Variable aléatoire complexe
Une variable aléatoire complexe Z est définie par Z = X + i Y avec X et Y

des variables aléatoires à valeurs réelles. La distribution de Z est déterminée par la
distribution du vecteur aléatoire (X, Y ). Son espérance mathématique est le nombre
complexe E(Z) = E(X) + i E(Y ) (i étant le nombre imaginaire, i2 = −1).
Deux variables aléatoires complexes Z1 = X1 + i Y1 et Z2 = X2 + i Y2 sont
indépendantes si les deux vecteurs aléatoires (X1 , Y1 ) et (X2 , Y2 ) sont indépendants.
Le produit Z1 Z2 est tel que :
Z1 Z2 = (X1 + i Y1 )(X2 + i Y2 ) = X1 X2 + i2 Y1 Y2 + i Y1 X2 + i X1 Y2 ,
d’où
Z1 Z2 = (X1 X2 − Y1 Y2 ) + i (X1 Y2 + Y1 X2 ),
E(Z1 Z2 ) = E(X1 X2 − Y1 Y2 ) + i E(X1 Y2 + Y1 X2 ).
Si Z1 et Z2 sont indépendantes, alors X1 et X2 sont indépendantes et Y1 et Y2 sont
indépendantes, de même pour X1 et Y1 ou Y2 , et X2 et Y1 ou Y2 . D’où E(Z1 Z2 ) =
E(Z1 ) E(Z2 ).
• Soit X une v.a. (réelle) avec pour fonction de distribution FX (x). La fonction
caractéristique de X est la fonction à valeurs complexes ϕX (t) ainsi définie :
+∞
itx

ϕX (t) = E e = eitx FX dx
−∞
On sait que eit = cost + i sint, t ∈ R d’où

+∞ +∞
ϕX (t) = E(cos tx) + i E(sin tx) = cos tx FX dx + i sin tx FX dx
−∞ −∞
Pour une v.a. continue X :

+∞
ϕX (t) = eitx fX (x) dx
−∞
fX (x) : fonction de densité de probabilité de X.

La fonction caractéristique de X continue correspond à la transformée de Fourier
pour la fonction de densité de probabilité de X, fX (x) , si cette dernière est intégrable
(dans le cas où elle ne l’est pas, on recourt à l’intégration de Lebesgue). Cette fonction
caractéristique est continue et ϕX (0) = 1.
Pour une v.a. normale standard X N (0, 1),
t2
ϕX (t) = e− 2 .
Pour une v.a. normale X N (m, σ),

σ 2 t2
ϕX (t) = eitm− 2 .
t2 σ 2
Nous avons vu que MX (t) = emt+ 2 , d’où
i2 t2 σ 2 t2 σ 2
MX (it) = eimt+ 2 = eimt− 2 = ϕX (t).
Le passage de la fonction génératrice de moments à la fonction caractéristique consiste

simplement donc à substituer i t à t.
6.4 Fonctions d’une variable aléatoire continue et leurs

distributions
Si X est une v.a. continue, Y = g(x), Y est une v.a. continue. Trouvons la
fonction de densité de probabilité de Y .
La fonction de distribution cumulative de Y : FY (y) = P (Y ≤ y). La fonction de

densité de probabilité fY (y) = FY (y).
Exemple 1 : X une v.a. de densité de probabilité f (x) = 3x2 pour 0 < x < 1.
Quelle est la fonction de densité de probabilité (p.d.f.) de Y = X 2 ? (0 < y < 1)
La fonction de distribution de Y est

√
FY (y) = P (Y ≤ y) = P (X 2 ≤ y) = P (X ≤ y)
√
y √
y
√ √y √ 3
FY (y) = P (X ≤ y) = f (x) dx = 3x2 dx = x3 0 = ( y)3 = y 2
0 0
√
3 3 1 3 y
FY (y) = y 2 =⇒ fY (y) = FY (y) = y 2 =
2 2
Donc,
√
3 y
fY (y) =
2
Exemple 2 : X une v.a. de p.d.f. f (x) = 3(1 − x)2 pour 0 < x < 1. Quelle est la
p.d.f. de Y = (1 − X)3 ?
1
1

FY (y) = P (Y ≤ y) = P (1 − x)3 ≤ y = P (1 − x) ≤ y 3 = P −x ≤ −1 + y 3
1
1
1

= P x ≥ 1 − y 3 = 1 − P x ≤ 1 − y 3 = 1 − FX 1 − y 3
1
1−y 3
= 1− 3(1 − x)2 dx
0
1−y 13 1−y 31
= 1 − −(1 − x)3 0 = 1 + (1 − x)3 0

1 3 3
= 1 + 1 − (1 − y) 3 − (1 − 0)3 = 1 + y 3 − 1 = y
D’où fY (y) = 1.
La technique passant par la fonction de distribution de X pour trouver la p.d.f.
de Y = g(X) revient aussi à faire un changement de variable.
g −1 (y)

FY (y) = P (Y ≤ y) = P [g(X) ≤ y] = P X ≤ g −1 (y) = fX (x) dx
−∞

g −1 (y)

fY (y) = FY (y) = fX (x) dx = fX (v(y)) · v (y)
−∞
en posant [Y = g(X) ⇐⇒ X = V (Y )] (Théorème fondamental du calcul et règle de

la chaîne vus dans le chapitre du calcul différentiel et intégral).
Ce résultat est valable pour g(X) croissante. Pour une g(X) décroissante, on trouve
fY (y) = −fX (v(y)) · v (y)
Dans les deux cas :

fY (y) = fX (v(y)) × v (y)
√ 1
Dans l’exemple 1 ci-dessus : Y = X 2 =⇒ v(y) = y =⇒ v (y) = √
2 y

fY (y) = fX (v(y)) × v (y)
√ 1 √ 1
= fX ( y). √ = 3( y)2 √ fX (x) = 3x2
2 y 2 y
√
3 y
= , résultat trouvé
2
Dans l’exemple 2 :

Y = (1 − X)3 et fX (x) = 3(1 − x)2 d’où fY (y) = fX (v(y)) × v (y)
1 1
y = (1 − x)3 ⇒ y 3 = 1 − x ⇒ x = 1 − y 3
1 1 1 1 2 1 2
⇒ v(y) = 1 − y 3 ⇒ v (y) = − y 3 −1 = − y − 3 ⇒ v (y) = y − 3
3 3 3
1
2 2
fX (v(y)) = 3(1 − v(y))2 = 3 1 − 1 − y 3 = 3y 3

2 1 2 3 2 2
⇒ fY (y) = 3y 3 × + y − 3 = y 3 − 3 = 1,
3 3
ce qui correspond au résultat trouvé.
6.5 Variables aléatoires bi et multidimensionnelles

Il s’agit, dans cette section, de généraliser les notions de variable aléatoire et
de ses moments au cas multidimensionnel. Nous commençons par le cas de deux
variables aléatoires, avant de passer au cas général de n v.a.
6.5.1 v.a. bidimensionnelles et leurs lois

v.a. bidimensionnelles discrètes
Considérons deux v.a. discrète X et Y , X prenant les valeurs xi , i ∈ N et Y les
valeurs yj , j ∈ N.
1. Lois marginales
Lorsqu’on considère X et Y séparément, X a sa propre loi de probabilité et Y a

sa propre loi de probabilité :

PX (X = xi ) = P (X, Y ) = pij = pi.
j j

PY (Y = yj ) = P (X = xi , Y = yj ) = pij = p.j
i i
Si on présente la loi du couple dans un tableau, les lois marginales sont dans les
marges, obtenues par sommation de ligne ou de colonne.
Y
y1 y2 ··· yj ···
X

..
x1 .
..
x2 .
.. ..
. .
xi ··· ··· ··· pij ··· xi.
.. ..
. .

x.j
pij est la probabilité que X prenne comme valeur xi et qu’au même temps Y prenne
xj : pij = P (X = xi , Y = y j )
xi. est la somme des pij de la ligne i et x.j est la somme des pij de la colonne j.
2. Lois conditionnelles
Lorsque Y prend la valeur yj , la variable X peut prendre l’une de toutes les

p1j p2j
valeurs de la colonne X, (x1 , x2 , . . .) avec les probabilités , , . . .. Cette loi de
p.j p.j
probabilité
X x1 x2 ... xi ...
p1j p2j pij

pij ... ...
p.j p.j p.j
est la loi conditionnelle de X.
Exemple : On jette deux dés distincts, X est le numéro que présente le 1er et Y
est le numéro que présente le second dé.
Lorsqu’on lance les deux dés, on peut savoir l’une des 36 situations possibles : cha-
cun des 6 numéros du 1er dé avec chacun des 6 numéros du second. Les 36 situations
possibles sont équiprobables et donc la probabilité de chacun est 36 1
.

Y
1 2 3 4 5 6
X
1 1
36
1
36
1
36
1
36
1
36
1
36
1
6
2 1
36
1
36
1
36
1
36
1
36
1
36
1
6
3 1
36
1
36
1
36
1
36
1
36
1
36
1
6
4 1
36
1
36
1
36
1
36
1
36
1
36
1
6
5 1
36
1
36
1
36
1
36
1
36
1
36
1
6
6 1 1 1 1 1 1 1
36
1
36
1
36
1
36
1
36
1
36
1
6
6 6 6 6 6 6
Les probabilités marginales de X et Y sont les probabilités séparées que X soit

égal à 1 numéro quelconque et Y soit égal à un numéro quelconque. Ces probabilités
marginales sont ici égales à 16 .
Quelle est la probabilité que X soit égal à 5 lorsque Y est 2 ? P (X = 5/Y = 2).
Lorsque Y = 2, X peut prendre l’un des 6 numéros 1,2,3,4,5,6. La probabilité
que X prenne 5 parmi ces 6 numéros est donc 16 . P (X = 5/Y = 2) = 16 . On sait que
1
P (X = 5, Y = 2) = 36
1
P (X = 5, Y = 2) 36 6 1
P (X = 5/Y = 2) = = 1 = =
P (Y = 2) 6
36 6
D’où
P (X = xi , Y = yj ) pij
P (X = xi /Y = yj ) = = = pji
P (Y = yj ) p.j

P (X = xi , Y = yj )
P (X = xi , Y = yj ) i p.j
= = =1
P (Y = yj ) P (Y = yj ) p.j
i
Les v.a. X et Y sont indépendantes si l’on a ∀i, j
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj )
P (X = xi ).P (Y = yj )
Dans ce cas P (X = xi /Y = yj ) = = P (X = xi )
P (Y = yj )
P (X = xi /Y = yj ) = P (X = xi )
C’est le cas dans notre exemple ci-dessus : P (X = 5/Y = 2) = P (X = 5) = 61 .
3. Moments conditionnels
Comme on a une loi conditionnelle de X, P (X = xi /Y = yj ), on peut définir
l’espérance mathématique conditionnelle de X pour Y = yj :
j
E(X/Y = yj ) = xi P (X = xi /Y = yj ) = x i pi
i=1 i=1
(Le graphe de E(X/Y = yj ) en fonction de yj s’appelle courbe de régression non

linéaire de X en Y ).
Exemple : Soit la v.a. bidimensionnelle discrète (X, Y ) dont la loi de probabilité

est donnée par ce tableau donnant P (X = xi , Y = yj ).

Y
X 1 2 3 4

1 0 0 0 0.3
2 0.2 0 0 0
3 0 0 0.1 0
4 0.3 0.1 0 0
Ce couple (X, Y ) ne prend donc que les valeurs suivantes (1,4) ; (2,1) ; (3,3) ; (4,1)
et (4,2), avec les probabilités respectives de 0.3, 0.2, 0.1, 0.3 et 0.1. Evidemment, la
somme de ces probabilités est égale à 1. La probabilité d’une autre valeur du couple,
(1,3) ou (4,3) par exemple, est nulle.
La loi marginale de X est :
X 1 2 3 4
P (X) 0.3 0.2 0.1 0.4 Somme des lignes
La somme de ces probabilités est bien sûr égale à 1. X prend les valeurs 1,2,3,4 avec
les probabilités respectives indiquées ci-dessus.
E(X) = 1 × 0.3 + 2 × 0.2 + 3 × 0.1 + 4 × 0.4 = 2.6
La loi marginale de Y est :

Y 1 2 3 4
P (Y ) 0.5 0.1 0.1 0.3 Somme des colonnes
La somme de ces probabilités est l’unité.
E(Y ) = 1 × 0.5 + 2 × 0.1 + 3 × 0.1 + 4 × 0.3 = 2.2
La loi conditionnelle de Y . Lorsque X prend la valeur 1, la probabilité que Y prenne

1 est 0, que Y prenne 2 est 0, . . . La probabilité que X prenne la valeur 1 est 0.3.
D’où
P (xi = 1, yj = 1) 0
P (Y = 1/X = 1) = = =0
P (X = 1) 0.3
La loi conditionnelle de Y est donc pour X = 1 :
Y 1 2 3 4
P (Y /X) 0 0 0 1
Lorsque X = 1, Y ne prend qu’une seule valeur, 4, avec certitude.
Pour X = 2, on trouve
Y 1 2 3 4
P (Y /X) 0 1 0 0
Pour X = 3, on a :
Y 1 2 3 4
P (Y /X) 0 0 1 0
Pour X = 4, on trouve
Y 1 2 3 4
P (Y /X) 0.75 0.25 0 0
D’où :

E(Y /X) = yj P (Y = yj /X = xi ) pour xi = 1
j=1
= 1×0+2×0+3×0+4×1
= 4 = E(Y /X = 1)
On remarque que X et Y ne sont pas indépendantes :
P (X = xi , Y = yj ) = P (X = xi ) × P (Y = yj )
Exemple :
P (X = 1, Y = 1) = 0 et P (X = 1) × P (Y = 1) = 0.5 × 0.3 = 0.15
La variance conditionnelle de Y est

V (Y /X = xi ) = E [Y − E(Y /X = xi )]2 /X = xi = E(Y 2 /X = xi )−E 2 (Y /X = xi )
Pour X = 1 :
V (Y /X = 1) = E(Y 2 /X = 1) − E 2 (Y /X = 1)
E(Y 2 /X = 1) = 1 × 0 + 22 × 0 + 32 × 0 + 16 × 1 = 16
E 2 (Y /X = 1) = 42 = 16
V (Y /X = 1) = 0
Pour X = 2 :
E(Y /X = 2) = 1 × 0 + 2 × 1 + 3 × 0 + 4 × 0 = 2
E(Y 2 /X = 2) = 12 × 0 + 22 × 1 + 32 × 0 + 42 × 0 = 4
V (Y /X = 2) = 4 − 22 = 0.
Pour X = 3 :
E(Y /X = 3) = 3
V (Y /X = 3) = 0
Pour X = 4 :
E(Y /X = 4) = 1 × 0.75 + 2 × 0.25 + 3 × 0 + 4 × 0 = 1.25

E(Y 2 /X = 4) = 12 × 0.75 + 22 × 0.25 + 32 × 0 + 42 × 0 = 1.75
V (Y /X = 4) = 1.75 − (1.25)2 = 1.75 − 1.5625 = 0.1875.
4. Moments associés à une v.a. bidimensionnelle
Soit une v.a. bidimensionnelle (X, Y ) définie dans R2 . Considérons une applica-
tion continue h : R2 −→ R. Cette application définit une nouvelle v.a. réelle h(X, Y )
dont on peut calculer les moments :

E [h(X, Y )] = pij h(xi , yj )
i j
Si l’on définit h par h(X, Y ) = [X − E(X)] [Y − E(Y )]. La covariance de X et Y ,

cov(X, Y ) est alors définie par E [h(X, Y )]
cov(X, Y ) = E [h(X, Y )]
= E {[X − E(X)] [Y − E(Y )]}
= E {XY − XE(Y ) − Y E(X) + E(X)E(Y )}
cov(X, Y ) = E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
On a vu que dans le cas où X et Y sont indépendantes on a
E(XY ) = E(X)E(Y ) =⇒ cov(X, Y ) = 0
La réciproque n’est pas toujours vraie : On peut avoir cov(X, Y ) = 0 sans indépen-
dance de X et Y .
Reprenons l’exemple ci-dessus X et Y dont les lois marginales sont :
X 1 2 3 4 Y 1 2 3 4
et
P (X) 0.3 0.2 0.1 0.4 P (Y ) 0.5 0.1 0.1 0.3
E(X) = 1 × 0.3 + 2 × 0.2 + 3 × 0.1 + 4 × 0.4 = 2.6

E(Y ) = 1 × 0.5 + 2 × 0.1 + 3 × 0.1 + 4 × 0.3 = 2.2
E(X)E(Y ) = 2.6 × 2.2 = 5.72
La loi de probabilité de XY est :
XY 1 2 3 4 6 8 9 12 16
P (XY ) 0 0.2 0 0.6 0 0.1 0.1 0 0
En effet, pour que XY soit égal à 1, il faut que X = 1 et Y = 1, or P (X =
1, Y = 1) selon la loi de probabilité du couple ci dessus.
Pour que XY = 4, il faut que X = 1 et Y = 4, ou que X = 4 et Y = 1, ou X = 2
et Y = 2, d’où :
P (XY = 4) = P (X = 1, Y = 4)+P (X = 4, Y = 1)+P (X = 2, Y = 2) = 0.3+0.3+0
= 0.6
E(XY ) = 1 × 0 + 2 × 0.2 + 3 × 0 + 4 × 0.6 + 6 × 0 + 8 × 0.1 + 9 × 0.1 + 12 × 0
+16 × 0
= 0.4 + 2.4 + 0.8 + 0.9 = 4.5
cov(X, Y ) = E(XY ) − E(X) E(Y ) = 4.5 − 5.72 = −1.22.

Ce qui confirme que X et Y ne sont pas indépendantes.
Le coefficient de corrélation linéaire de deux v.a. X et Y est le nombre réel
cov(X, Y )
ρ = corr(X, Y ) = (−1 ≤ ρ ≤ 1)
V (X) V (Y )
On a vu que : V (X) = E(X 2 ) − E 2 (X)

E(X 2 ) = x2i p(xi )
i=1
Dans l’exemple ci-dessus :

E(X 2 ) = 12 × 0.3 + 22 × 0.2 + 32 × 0.1 + 42 × 0.4 = 8.4
E(Y 2 ) = 12 × 0.5 + 22 × 0.1 + 32 × 0.1 + 42 × 0.3 = 6.6
V (X) = E(X 2 ) − E 2 (X) = 8.4 − (2.6)2 = 8.4 − 6.76 = 1.64
V (Y ) = E(Y 2 ) − E 2 (Y ) = 6.6 − (2.2)2 = 6.6 − 4.84 = 1.76
cov(X, Y ) −1.22 1.22

ρ= =√ =− = −0.7181
σX σY 1.64 × 1.76 1.6989
La corrélation linéaire est forte et négative entre X et Y . C’est à dire que Y croît
lorsque X décroît et vice-versa et que la relation linéaire est forte entre Y et X, sans
être affine (Y = aX + b).
5. Loi de la somme X + Y
X et Y deux v.a. discrètes de lois respectives (xi , pi ) et (yj , pj ). La v.a. Z = X +Y
est également discrète et de loi (zk , pk ) :

pk = P (Z = zk ) = {P (X = xi , Y = yj )/xi + yj = zk }
Si l’on reprend l’exemple précédent, Z = X +Y prend les valeurs du tableau suivant :

Y
1 2 3 4
X

1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Z = X + Y prend donc les valeurs possibles 2,3,4,5,6,7 et 8. Z prend la valeur 2 dans
un seul cas, c’est lorsque X = 1 et Y = 1. La probabilité de ce cas est donnée par le
tableau de la loi du couple P (X = 1, Y = 1) = 0.
Z prend la valeur 4 dans trois cas. La probabilité de Z égal à 4 est la somme des
3 probabilités des cas (1,3), (2,2) et (3,1) : P (Z = 4) = 0 + 0 + 0 = 0.
On construit ainsi la loi de probabilité de Z :
Z 2 3 4 5 6 7 8
P(Z) 0 0,2 0 0,6 0,2 0 0
On vérifie que la somme est 0.2 + 0.6 + 0.2 = 1.
On a vu que lorsque X et Y sont indépendantes, P (Y /X) = P (Y ) et donc
P (X, Y ) = P (Y /X) · P (X) = P (Y ) · P (X)
Comme on a

P (Z = zk ) = {P (X = xi , Y = yj )/xi + yj = zk }

= {P (X = xi , Y = zk − xi )}

= P (X = xi ) × P (Y = zk − xi )

i
= P (Y = yj ) × P (X = zk − yj )
j
On parle dans ce cas de convolution des lois de X et Y . On a déja vu plusieurs cas

de convolutions (lois binômiales, lois de Poisson, . . . ).
Nous avons ainsi vu que :
— pour X P (λ) et Y P (µ), on a X + Y P (λ + µ)
— pour X B(n1 , p) et Y B(n2 , p), on a X + Y B(n1 + n2 , p)
v.a. bidimensionnelles continues (X, Y )

1. Loi de (X, Y )
X et Y deux v.a. réelles continues. La loi de probabilité de la v.a. bidimensionnelle
(X, Y ) est déterminée par sa fonction de répartition F : F (x, y) = P (X < x, Y < y)
∂ 2 F (x, y)
si F est 2 fois dérivable par rapport à X et Y , f (x, y) = est la fonction
∂x∂y
de densité de probabilité de (X, Y ). D’où
x y
F (x, y) = f (u, v) du dv
−∞ −∞
Les couples (X, Y ) sont l’ensemble des points du plan. F (x, y) représente la proba-
bilité de la zone hachurée ci-dessous (la zone en deçà de la verticale X = x et de
l’horizentale Y = y.
La probabilité du plan (OX, OY ) est égale à l’unité.

En général, c’est seulement à l’intérieur d’un domaine D que la densité de pro-
babilité f (x, y) n’est pas nulle.
2. Lois marginales
Les fonctions de répartition marginales de X et Y sont définies à partir de
F (x, y) :
FX (x) = P (X < x) = F (x, +∞)
FY (y) = P (Y < y) = F (+∞, y)
Les densités marginales sont obtenues par dérivation des fonctions de répartition
marginales :

+∞
+∞
fX (x) = f (x, y) dy et fY (x) = f (x, y) dx

−∞ −∞
3. Lois conditionnelles
Si l’on fixe x à une valeur donnée, on pourra définir la loi conditionnelle de y et

si l’on fixe y, on pourra définir la loi conditionnelle de x.
Les lois conditionnelles sont définies par les densités conditionnelles ainsi :
f (x, y) f (x, y)
fX (x/Y = y) = et fY (y/X = x) =
fY (y) fX (x)
à condition que le dénominateur soit supérieur à 0.

L’indépendance des v.a. X et Y implique

fX (x/Y = y) = fX (x)
=⇒ f (x, y) = fX (x) fY (y)
fY (y/X = x) = fY (y)
4. Moments associés à une v.a. bidimensionnelle continue

h : (X, Y ) ∈ R2 −→ h(X, Y ) ∈ R. On peut calculer E [h(X, Y )] de la maniére
suivante :

E [h(X, Y )] = h(x, y).f (x, y).dx.dy
R2
si h(X, Y ) = [X − E(X)] [Y − E(Y )], E [h(X, Y )] correspond à la covariance de

X et Y .
Si X et Y sont indépendantes, on a :

E(X, Y ) = xy f (x, y) dx dy = x fX (x) dx y fY (y) dy = E(X) E(Y )
R2 R
R
Et dans ce cas on a : cov(X, Y ) = E(XY ) − E(X) E(Y ) = 0. La réciproque est

généralement fausse.
5. Exemple numérique de détermination des lois d’un couple (X, Y )

Soit la loi de (X, Y ) définie par p.d.f. suivante :

e−x si 0 ≤ y ≤ x
f (x, y) =
0 sinon
Les points (X, Y ) vérifiant 0 ≤ y ≤ x sont les points du triangle hachurée dans la
figure suivante :
(Le triangle est délimité par la 1ère bissectrice x = y)
x y
F (x, y) = f (u, v).du.dv
−∞ −∞
Dans notre cas, lorsque y < 0 la fonction de densité est nulle, la fonction de réparti-
tion l’est également. On doit donc intégrer pour y à partir de 0.
Comme x ≥ y, pour x, il faut intégrer à partir de y et aller jusqu’à x0 . D’où :
F (x0 , y0 ) = P (x < x0 , y < y0 )
y=y
0 x=x
0
= f (x, y) dx dy
y=0 x=y
 
y=y 0
0 x=x y=y
0
x=x0
=  e −x
dx dy = −e−x dy
x=y
y=0 x=y y=0
y=y
0 y=y
0 y=y
0

= −e−x0 + e−y dy = − e−x0 dy + e−y dy
y=0 −y y=y0y=0 y=0
= −e−x0 [y]y=y 0
y=0 + −e y=0

= −y0 e−x0 + −e−y0 + e0
= −y0 e−x0 − e−y0 + 1
F (x0 , y0 ) = 1 − y0 e−x0 − e−y0
On peut voir sur la figure précédente que
F (x0, y1 ) = F (x0 , x0 ) = 1 − e−x0 − x0 e−x0 ,
dans ce cas y1 > x0 c’est-à-dire que lorsque 0 ≤ x ≤ y, F (x, y) = 1 − e−x − xe−x .

D’où la définition complète de F (x, y)


 0 pour x ≤ 0 ou y ≤ 0
F (x, y) = 1 − e−y − ye−x pour 0 ≤ y ≤ x

1 − e−x − xe−x pour 0 ≤ x ≤ y
Lois marginales : FX (x) = F (x, +∞), lorsque y tend vers l’infini et que x reste à
x, on est dans le cas 0 ≤ x ≤ y. Et là F (x, y) = 1 − e−x − xe−x . F (x, y) ne dépend
pas de y. D’où FX (x) = 1 − e−x − xe−x
fX (x) = FX (x) = 0 + e−x + xe−x − e−x = xe−x ⇒ fX (x) = xe−x
FY (y) = F (+∞, y). Ici on est dans le cas où 0 ≤ y ≤ x et F (x, y) = 1 − e−y − ye−y .
Lorsque x tend vers l’infini F (+∞, y) = 1 − e−y (ye−x → 0). D’où
FY (y) = 1 − e−y =⇒ fY (y) = e−y .

+∞
On peut calculer fX (x) de l’autre manière : fX (x) = f (x, y) dy :
−∞
y=x y=x
fX (x) = e−x dy = ye−x y=0 = xe−x
y=0
et

x=+∞
+∞
fY (y) = e−x dx = −e−x y = 0 − (−e−y ) = e−y
x=y
Lois conditionnelles :
f (x, y) e−x
fX (x/Y = y) = = −y = ey−x
fY (y) e
f (x, y) e−x 1
fY (y/X = x) = = = x = 0
fX (x) xe−x x
f (x, y) = e−x pour 0 ≤ y ≤ x, fX (x) = xe−x , fY (y) = e−y ⇒ f (x, y) = fX (x)×fY (y)
En effet, fX (x/Y = y) = fX (x) implique que les deux variables X et Y ne sont pas
indépendantes.
Calculons les différents moments :

+∞ +∞
+∞
−x2 − 2x − 2
E(X) = x · fX (x) dx = x2 e−x dx = =2
0 0 ex 0
+∞ +∞
E(Y ) = y · fY (y) dy = ye−y dy = 1
0 0
+∞ x
E(XY ) = xy · f (x, y) dx dy = xye−x dy dx = 3
R2 x=0 y=0
+∞
2
+∞
2
+∞ − x3 + 3x2 + 6x + 6
3 −x
E(X ) = x · fX (x) dx = x e dx = =6
0 0 ex
0
+∞ +∞ +∞
2 2 2 −y − y 2 + 2y + 2
E(Y ) = y · fY (y) dy = y e dy = =2
0 0 ey
0
√
V (X) = E(X 2 ) − E 2 (X) = 6 − 22 = 2 =⇒ σX = 2
V (Y ) = E(Y 2 ) − E 2 (Y ) = 2 − 12 = 1 =⇒ σY = 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 3 − 2 × 1 = 1

+∞ x
y x
E(Y /X = x) = y · fY (y/X = x) dy = dy =
−∞ 0 x 2
+∞ +∞ +∞
E(X/Y = y) = x · fX (x/Y = y) dx = xey−x dx = ey xe−x dx = ey
−∞ 0 0
6.5.2 Fonction de régression

La fonction de régression (non linéaire) de Y en x est : x → E(Y /X = x) = x2 .
Il s’agit d’une v.a. fonction de X dont on peut calculer l’espérance mathématique
et les autres moments :
+∞ +∞
x
E (E(Y /X = x)) = E(Y /X = x) · fX (x) dx = · xe−x dx = 1 = E(Y )
−∞ 0 2
Car
+∞ +∞ +∞
E(Y /X = x)fX (x) dx = yfY (y) dy · fX (x) dx
−∞ −∞ −∞
+∞ +∞
= yfY (y)fX (x) dx dy
−∞ −∞
+∞ +∞
= yf (x, y) dx dy
−∞ −∞
+∞
= yfY (y) dy
−∞
= E(Y )
On peut également calculer la variance conditionnelle : V (Y /X = x)

V (Y /X = x) = E [Y − E(Y /X = x)]2 /X = x = E(Y 2 /X = x) − E 2 (Y /X = x)
On remarque que les espérances conditionnelles sont des v.a.

6.5.3 Loi d’une somme

Soit la v.a. Z = X + Y , X et Y deux v.a. continues. La fonction de répartition
de Z est définie
par F (Z) = P (Z < z) = P (X + Y < z).
F (Z) = f (x, y) dx dy, f (x, y) étant la densité de probabilité de Z et D son
D
domaine d’intégration D = (x, y)/ x + y < z}.
On peut faire le changement de variable de y en s, s = x + y ⇒ y = s − x et x
restant x. On remplace ainsi le couple (x, y) par le couple (x, s) avec s = x + y. On
a:

x x a b
=M avec M=
y s c d
On trouve facilement M :

x = ax + bs ⇒ a = 1 et b = 0 1 0
=⇒ M=
y = cx + ds ⇒ c = −1 et d = 1 −1 1
D(x, y)
DM = = 1 : c’est le Jacobien de la transformation.
D(x, s)

+∞
z−x
+∞ z
+∞
F (Z) = dx f (x, y) dy = dx f (x, s − x) ds = g(s) ds

−∞ −∞ −∞ −∞ −∞
avec

+∞
g(s) = f (x, s − x) dx
−∞
Lorsque X et Y sont indépendantes, la loi de Z = X + Y est déterminée par les

deux densités marginales fX et fY (les densités conditionnelles fX (x/Y = y) et
fY (y/X = x) étant égales aux densités marginales et f (x, y) = fX (x) · fY (y)

z−x
+∞
z−x
+∞
F (Z) = f (x, y) dx dy = fX (x) · fY (y) dx dy

−∞ −∞ −∞ −∞

+∞ z z
= fX (x) · fY (s − x) ds dx = g(s) ds
−∞ −∞ −∞
g s’appelle le produit de convolution de fX et fY .
Exemple : X et Y deux v.a. indépendantes de même loi de Laplace de densité

1 −|t|
2e . La densité du couple (X, Z) avec Z = X + Y , f (x, z − x) = fX (x) · fy (z − x)
et la densité de Z, g(Z), s’obtient par intégration de la densité du couple (X, Z),
comme on vient de voir :

+∞
g(z) = fX (x) · fY (z − x) dx
−∞
+∞
1 −|x| 1 −|z−x|
= e e dx
−∞ 2 2
+∞
= 1
4 e−|x|−|z−x| dx
−∞
Pour se débarasser de la valeur absolue, il faut distinguer les différents cas où z > 0,
z < 0 et sous-cas x < 0 et x > 0.
1er cas z < 0
Dans ce cas, g(z) s’obtient en intégrant de −∞ à z puis de z à 0 et enfin de 0 à +∞
et donc :
z 0 +∞
1
g(z) = e−|x|−|z−x| dx + e−|x|−|z−x| dx + e−|x|−|z−x| dx
4 −∞ z 0
Pour les deux 1ères intégrales z < 0 et x < 0. Pour la 1ère x < z et pour la 2ème
x > z. Dans les deux premières : −|x| = x ; |z − x| = −x + z dans la première et
|z − x| = −z + x dans la 2ème ; d’où −|x| − |z − x| = x − (−x + z) = 2x − z pour la
1ère et −|x| − |z − x| = x − (−z + x) = z dans la 2ème .
Pour la 3ème intégrale, z < 0 et x > 0 ce qui implique −|x| = −x, |z − x| = x − z et
−|x| − |z − x| = −x − (x − z) = z − 2x. D’où :
z 0 +∞
1
g(z) = e2x−z dx + ez dx + ez−2x dx
4 −∞ z 0
z
1 1 2x−z z 0 −1 z−2x +∞
= e + xe |z + e
4 2 −∞ 2 0

1 1 z 1
= e + (−zez ) + ez
4 2 2
1 z
= (e − zez )
4
ez
g(z) = (1 − z)
4
2ème cas z > 0
Dans ce cas, pour obtenir g(z), il faut intégrer de −∞ à 0, puis de 0 à z et enfin de
z à +∞. Et donc
0 z +∞
1 −|x|−|z−x| −|x|−|z−x| −|x|−|z−x|
g(z) = e dx + e dx + e dx
4 −∞ 0 z
z > 0 et x < 0 pour la 1ère intégrale et x > 0 pour les 2 dernières, −|x| − |z − x| =
x − (z − x) = 2x − z pour la 1ère .
z > 0 et x > 0 et x < z pour la 2ème intégrale : −|x| − |z − x| = −x − (z − x) = −z.

Pour la 3ème intégrale z > 0, x > 0 et x > z : −|x| − |z − x| = −x − (x − z) = z − 2x.
D’où : 0 z +∞
1 2x−z −z z−2x
g(z) = e dx + e dx + e dx
4 −∞ 0 z

1 1 2x−z 0
−z z 1 z−2x +∞
= e + xe 0
− e
4 2 −∞ 2 z

1 1 −z 1
= e + ze−z + e−z
4 2 2
1 −z
= e + ze−z
4
Donc,
1
g(z) = e−z (1 + z)
4
z < 0 ⇒ g(z) = 14 ez (1 − z) = 14 e−|z| (1 + |z|) : |z| = −z
z > 0 ⇒ g(z) = 14 e−z (1 + z) = 14 e−|z| (1 + |z|) : |z| = z
Donc,
1
∀z : g(z) = e−|z| (1 + |z|)
4
6.5.4 Variables aléatoires multidimensionnelles

Nous passons de deux variables aléatoires ou couple au cas général de plusieurs,
n v.a., ou vecteur aléatoire de dimension supérieure à 2.
Un vecteur aléatoire s’écrit :
 
X1
 X2 
 
X= .  où X1 , X2 , . . . , Xn sont des v.a. n composantes du vecteur X
 .. 
Xn
 
E(X1 )
 E(X2 ) 
 
On peut ainsi définir E(X) par le vecteur X =  .. 
 . 
E(Xn )
1. Matrice des variances-covariances

Pour un couple aléatoire, la notion de covariance a été introduite. Ici, nous avons
n composantes v.a., on peut définir une matrice de covariances entre tous les couples
possibles. Evidemment, entre Xi et Xi , la covariance est plutôt une variance. On
obtient donc en fait la matrice des variances-covariances du vecteur X :
V (X) =
X1 X2 ··· Xi ··· Xn
X1 σ12 Cov(X1 , X2 ) · · · Cov(X1 , Xi ) ··· Cov(X1 , Xn )
X2 Cov(X2 , X1 ) σ22 · · · Cov(X2 , Xi ) ··· Cov(X2 , Xn )
.. .. .. .. ..
. . . . .
Xi Cov(Xi , X1 ) Cov(Xi , X2 ) ··· σi2 ··· Cov(Xi , Xn )
.. .. .. .. ..
. . . . .
Xn Cov(Xn , X1 ) Cov(Xn , X2 ) ··· Cov(Xn , Xi ) ··· σn2
où σi2 = Cov(Xi , Xi ) = σX
2 .
i
Cette matrice carrée d’ordre n, symétrique et de termes positifs.

V (X) = E (X − E(X)) (X − E(X)) = E (X − E(X))(X − E(X))
avec,  
X1 − E(X1 )
 X2 − E(X2 ) 
 
X − E(X) =  .. 
 . 
Xn − E(Xn )

et (X − E(X)) = X1 − E(X1 ) X2 − E(X2 ) . . . Xn − E(Xn )
2. Transformation affine du vecteur X

Soit une matrice de scalaires A(m, n). Prémultiplions X par A. On obtient AX,
un vecteur colonne de m composantes égales à des combinaisons linéaires des n v.a.
Xi .
Soit un vecteur de m scalaires b. Définissons Y par Y = Ax + b. Cette transfor-
mation a consisté en une application linéaire de Rn dans Rm (passage de X à AX),
puis en un changement d’origine dans Rm par la translation de vecteur b. Y est un
vecteur dans Rm . E(Y ) = E(AX + b) = AE(X) + b. La même transformation opé-
rée sur X pour obtenir Y est opérée sur E(X) pour obtenir E(Y ) : un changement
d’echelle par l’application linéaire de matrice associée A suivi par un changement
d’origine dans Rm par une translation de vecteur b.
On peut calculer la matrice des variances-covariances de Y :
V (Y ) = V (AX + b) = V (AX) + V (b) = V (AX), V (b) = 0

 
V (A1 X)
 V (A2 X) 
 
V (AX) =  .. 
 . 
V (Am X)
Ai étant la ligne i de A.
Ai X combinaison linéaire des Xi .
Les composantes de AX sont les sommes des Xi multipliées par des scalaires
 

V (Ai X) = V  aij Xj  = V (aij Xj ) = a2ij V (Xj )
j j j
D’où,  
..
 . 
 a2ij V (Xj ) 
V (AX) = 
 j
 = A(m,n) V (X)(n,n) A
 (n,m)
 
..
.
Y −E(Y ) = Y −AE(X)−b = AX +b−AE(X)−b = AX −AE(X) = A(X −E(X))
(Y − E(Y )) = (X − E (X))A
(Y − E(Y ))(Y − E(Y )) = A(X − E(X))(X − E(X ))A = AV (X)A
Ainsi, V (Y ) = AV (X)A .
X − E(X)
Maintenant, centrons et réduisons X. C’est-à-dire passons de X à
V (X)
X − E(X) 1 1 1
= V − 2 (X) [X − E(X)] = V − 2 (X)X − V − 2 (X)E(X) = AX + b
V (X)
1
Centrer et réduire X est une transformation affine Y = AX + b avec A = V − 2 (X)
1
(matrice carrée d’ordre n, V − 2 (X) existe puisque V (X) est une matrice carrée sy-
1
métrique et positive, formée de sommes de carrées) et b = −V − 2 (X) · E(X). On
vient de voir que
1 1
V (Y ) = AV (X)A = V − 2 (X)V (X)V − 2 (X) = In
3. Lois d’un vecteur aléatoire

Il s’agit ici d’étendre les résultats obtenus pour une v.a. bidimensionnelle au
cas multidimensionnel, c’est-à-dire de passer au cas général. Comme dans le cas du
couple, nous n’avons traité que des v.a. continues, pour être complet, traitons aussi
des v.a. discrètes.
Fonctions de distribution conjointe ou fonction de distribution cumulative conjointe
(c.d.f.)
F (x1 , x2 , . . . , xn ) = P (X1 < x1 , X2 < x2 , . . . , Xn < xn )
L’événement (X1 < x1 , X2 < x2 , . . . , Xn < xn ) est équivalent à l’événement A1 ∩A2 ∩
A3 ∩. . .∩An où Ai = {Xi < xi }. D’où, F (x1 , x2 , . . . , xn ) = P (A1 ∩A2 ∩A3 ∩. . .∩An ).
Lorsque les événements A1 , A2 , A3 , . . . , An sont indépendants (deux à deux), on a :
FX1 X2 ···Xn (x1 , x2 , . . . , xn ) = P (A1 ∩ A2 ∩ A3 ∩ . . . ∩ An )
= P (A1 )P (A2 ) . . . P (An )
= FX1 (x1 )FX2 (x2 ) . . . FXn (xn )
Propriétés de FX1 X2 ···Xn (x1 , x2 , . . . , xn )
i- 0 ≤ FX1 X2 ···Xn (x1 , x2 , . . . , xn ) ≤ 1

ii- Si x11 < x12 , x21 < x22 , . . ., xn1 < xn2 , on a
F (x11 , x21 , . . . , xn1 ) < F (x21 , x21 , x31 , . . .) < . . . < F (x12 , x22 , . . . , x2n )
iii- lim F (x1 , x2 , . . . , xn ) = F (∞, ∞, . . . , ∞) = 1
∀i,xi →∞
iv- lim F (x1 , x2 , . . . , xn ) = 0
∀i,xi →−∞
v- lim F (x1 , x2 , . . . , xn ) = F (x1 , x2 , . . . , a, . . . , xn )
xi →a+
vi- P (X1 < x1 , X2 < x2 , . . . , xi1 < Xi < xi2 , . . . , Xn < xn )
= F (x1 , x2 , . . . , xi2 , . . . , xn ) − F (x1 , x2 , . . . , xi1 , . . . , xn )
Fonctions de distribution marginales
lim (X1 < x1 , X2 < x2 , . . . , Xn < xn )

xi →∞
= (X1 < x1 , X2 < x2 , . . . , Xi < +∞, . . . , Xn < xn )

= (X1 < x1 , X2 < x2 , . . . , Xn < xn )
Car Xi ≤ +∞ est certaine. D’où :
lim F (x1 , x2 , . . . , xi , . . . , xn ) = F (x1 , x2 , . . . , xn )

xi →∞
Donc,
lim F (x1 , x2 , . . . , xn ) = FX1 (x1 )
Lorsque tous les
xi → ∞ sauf x1
FX1 (x1 ) est appelée c.d.f. marginale de X1 .
Cas des variables discrètes
• Fonction masse de probabilité conjointe : X1 , X2 , · · · , Xn sont des v.a. discrètes

P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) est appelé fonction masse de probabilité conjointe
(p.m.f. conjointe) : p(x1 , x2 , . . . , xn )
• Propriétés de p.m.f. conjointe :

1. 0 ≤ p(x1 , x2 , . . . , xn ) ≤ 1

2. ... p(x1 , x2 , . . . , xn ) = 1
x1 x2 xn

3. P [(X1 , X2 , · · · , Xn ) ∈ A] = ... p(x1 , x2 , . . . , xn )
(x1 ,x2 ,...,xn )∈RA
• Fonction masse de probabilité conjointe :

P (Xi = xi ) = pXi (xi ) = ... p(x1 , x2 , . . . , xn )
xj , j=i
• v.a. indépendantes : Xi et Xj indépendantes
PX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) = pX1 (x1 )pX2 (x2 ) . . . pXn (xn )
Cas des variables continues
• Fonction de densité de probabilité conjointe : X1 , X2 , · · · , Xn des v.a. continues.

La c.d.f. est :
FX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ).
La fonction de densité de probabilité conjointe est ainsi définie :
∂ n FX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn )

fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) =
∂x1 ∂x2 · · · ∂xn
fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) p.d.f. conjointe, est obtenue en différenciant la c.d.f. conjointe,
ou la c.d.f. est obtenue en intégrant la p.d.f.
x1 x2 xn

FX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) = ... fX1 ,X2 ,··· ,Xn (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn
−∞ −∞ −∞
Propriétés de la p.d.f. conjointe :
i- fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) ≥ 0

x1 x2 xn
ii- ... fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn = 1
−∞ −∞ −∞
iii- fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) est continue pour toutes les valeurs de xi
iv- P [(X1 , X2 , · · · , Xn ) ∈ A]

= ... fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn
(x1 ,x2 ,...,xn )∈RA
v- P (· · · ai < Xi < bi · · · )
b1 b2 bi bn
= ... ... fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn
a1 a2 ai an
• Fonctions de densité de probabilité marginales :
FXi (xi ) = FX1 ,X2 ,··· ,Xn (∞, ∞, . . . , xi , . . . , ∞)
∞ ∞ xi ∞
= ... ... fX1 ,X2 ,··· ,Xn (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn
−∞ −∞ −∞ −∞
dFXi (xi )
=⇒ fXi (xi ) =
dxi
∞ ∞ xi ∞
= ... ... fX1 ,X2 ,··· ,Xn (t1 , t2 , . . . , xi , ti+1 , . . . , tn ) dt1 dt2 . . . dtn
−∞ −∞ −∞ −∞
On intégre sauf pour xi , j = i intégration d’ordre n − 1.
• Pour des variables continues indépendantes, on a :

fX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn )
FX1 ,X2 ,··· ,Xn (x1 , x2 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) . . . FXn (xn )
Distributions conditionnelles
• Fonction masse de probabilité conditionnelle : X1 , X2 , · · · , Xn des v.a. discrètes,

on a :
p(x1 , x2 , · · · , xn )
PXi /X1 ,X2 ,··· ,Xn (xi /x1 , x2 , · · · , xn ) = pXi (xi ) > 0
pXi (xi )
Cette probabilité est comprise entre 0 et 1 (inclus). La somme des probabilités condi-
tionnelles pour toutes les valeurs de Xi est égale à l’unité.
• Fonction de densité de probabilité conditionnelle : X1 , X2 , · · · , Xn des v.a. conti-

nues, on a :
fX1 ,X2 ,··· ,Xn (x1 , x2 , · · · , xn )
fXi /X1 ,X2 ,··· ,Xn (xi /x1 , x2 , · · · , xn ) =
fX1 (x1 ) . . . fXj (xj ) . . . fXn (xn )
fXj (xj ) > 0 ∀j = i
Cette fonction est ≥ 0. En l’intégrant de −∞ à +∞ par rapport à xi , on obtient

l’unité. Et quand les v.a. sont indépendantes, on a : fXi /X1 ,X2 ,··· (xi /x1 , x2 , · · · ) =
fXi (xi )
4. Distribution multinômiale
Il s’agit d’une extension de la distribution binômiale au cas multidimensionnel.
Une expérience est appelée épreuve multinômiale avec les paramètres p1 , p2 , . . ., pk
si elle vérifie les conditions suivantes :
i- L’expérience a k résultats possibles mutuellement exclusifs A1 , A2 , . . ., Ak
k

ii- P (Ai ) = pi i = 1, 2, . . . , k et pi = 1
i=1
Répétons l’expérience n fois. Soit Xi la v.a. correspondant au nombre d’épreuves
donnant le résultat Ai . Le vecteur (X1 , X2 , . . . , Xk ) est appelé la v.a. ou le vecteur
aléatoire multinômial aux paramètres (n,p1 , p2 , . . ., pk ) et sa p.m.f. est :
n!
PX1 ,X2 ,··· ,Xk (x1 , x2 , · · · , xk ) = px1 px2 . . . pxk k
x1 !x2 ! · · · xk ! 1 2
k

pour xi = 0, 1, . . . , n ; i = 1, 2, . . . , k, avec xi = n
i=1
Notons que la distribution binômiale correspond à la distribution multinômiale
pour laquelle k = 2. Pour cette distribution binômiale, on a que deux résultats
possibles : succès ou échec.
On note X M(n, p1 , p2 , . . . , pk )
D’après ce qu’on a vu, on a
   
X1 E(X1 )
 X2   E(X2 ) 
   
X= .  E(X) =  .. 
.
 .   . 
Xk E(Xk )
Comme Xi est une v.a. suivant une loi binômiale à (n, pi ) paramètres, E(Xi ) = npi .
D’où  
p1
 p2 
 
E(X) = n ×  . 
 .. 
pk
Les lois marginales correspondent à des lois binômiales Xi B(n, pi ). On a vu que
V (Xi ) = npi (1 − pi )
Cov(Xi , Xj ) = E [(Xi − E(Xi )) (Xj − E(Xj ))]
= E [(Xi − npi ) (Xj − npj )]

= E Xi Xj − Xi npj − npi Xj + n2 pi pj
= E(Xi Xj ) − npj E(Xi ) − npi E(Xj ) + n2 pi pj
= E(Xi Xj ) − npj npi − npi npj + n2 pi pj
= E(Xi Xj ) − n2 pi pj
= E(Xi Xj ) − E(Xi )E(Xj )
= n(n − 1)pi pj − n2 pi pj
= pi pj (n2 − n − n2 )
Cov(Xi , Xj ) = −npi pj
Toutes les covariances sont négatives à cause de n = C te . Cela fait que lorsque Xi
augmente, Xj diminue, Xi étant le nombre d’épreuves donnant le résultat Ai parmi
les n épreuves. Si ce nombre augmente, Xi , doit diminuer, car xi = n
i
Distribution trinômiale : Pour la loi binômiale, on n’a que deux possibilités :

succès ou échec, 1 ou 0. Lorsqu’on répète l’épreuve n fois, le nombre de succès X suit
une loi binômiale étudiée précédement et ayant E(X) = np et V (X) = npq. Une loi
trinômiale considère la possibilité d’avoir une 3ème situation lorsqu’on effectue une
épreuve : succès, échec, ni succès ni échec : nini par exemple. Et si la probabilité
du succès est p, la probabilité de l’échec est θ, la probabilité de nini est 1 − p − θ.
On repète n fois l’épreuve. Le résultat, on obtient à chaque épreuve soit S ou 1
pour succès, soit E ou 0 pour échec et N ou −1 pour nini. Pour les n épreuves, On
obtiendra une succession de n nombres (1 ou 0 ou -1).
Les résultats possibles sont ω = (r1 , r2 , . . . , rn ) avec ri pouvant être soit 1, soit 0,
soit -1. Et à chaque épreuve P (ij = 1) = p, P (ij = 0) = θ, P (ij = −1) = 1 − p − θ.
X Désigne le nombre d’épreuves donnant 1 parmi les n épreuves effectuées.
Y Désigne le nombre d’épreuves donnant 0 parmi les n épreuves effectuées.
Si X = k, Y = l, on a : Z = n − k − l. (Z le nombre de -1)
La fonction masse de probabilité conjointe du couple (X, Y ) est donnée par :
n!
fXY (k, l) = P (X = k, Y = l) = pk θl (1−p−θ)n−k−l (avec k+l ≤ n).
k!l!(n − k − l)!
L’univers du couple (X, Y ) est l’ensemble des successions possibles de n chiffres (1,
0, -1) ci-dessus. La probabilité d’une succession présentant k succès, l échecs est
p(ω) = pk θl (1 − p − θ)n−k−l . Le nombre de ces successions présentant k succès et l
échecs est
n! (n − k)! n!
Cnk × Cn−k
l
= =
k! (n − k)! l! (n − k − l)! k! l! (n − k − l)!
D’où :
n!
P (X = k, Y = l) = pk θl (1 − p − θ)n−k−l
k!l!(n − k − l)!
Lorsqu’on développe un trinôme
n
n n−k

(a + b + c)n = (a + (b + c))n = Cnk ak (b + c)n−k = Cnk Cn−k
l
ak bl cn−k−l
k=0 k=0 l=0
n
En développant à l’intérieur de k=0 le binôme (b + c)n−k . D’où le nom de cette
distribution : la distribution du couple (X, Y ) est trinômiale. La distribution de X,
comme celle de Y sont binômiales de paramètres (n, p) et (n, θ) respectivement.
E(X) = np
E(Y ) = nθ
V (X) = np(1 − p)
V (Y ) = nθ(1 − θ)
E(X 2 ) = V (X) + E 2 (X) = np(1 − p) + n2 p2 = np(1 − p + np)
E(Y 2 ) = V (Y ) + E 2 (Y ) = nθ(1 − θ) + n2 θ2 = nθ(1 − θ + nθ)
P (X = k, Y = l)
P (X = k/Y = l) =
P (Y = l)
n!
pk θl (1 − p − θ)n−k−l
k!l!(n − k − l)!
=
n!
θl (1 − θ)n−l
l!(n − l)!
(n − l)! pk (1 − p − θ)n−k−l
= ·
k!(n − k − l)! (1 − θ)n−l
k
k p (1 − p − θ)n−k−l
= Cn−l ·
1−θ (1 − θ)n−k−l
k
k p 1 − p − θ n−k−l
= Cn−l ·
1−θ 1−θ
k n−k−l
k p p
= Cn−l · 1−
1−θ 1−θ
p
On reconnaît là la loi binômiale de paramètres (n − l, 1−θ ). Donc la loi conditionnelle

p p
(X/Y = y) B n − y, , E(X/Y = y) = (n − y)
1−θ 1−θ
En effet, lorsque le nombre d’échecs est fixé à y parmi les n épreuves, il ne reste plus
que n − y épreuves où le succès arrive. El la probabilité du succès est la probabilité
p
du succès pour chaque épreuve étant donné que l’échec n’est pas arrivé, donc .
1−θ
E(XY ) = E [E(XY /Y )] = E [Y E(X/Y )]

p p
= E y · (n − y) · = E y · (n − y) ·
1−θ 1−θ
p p
= E [Y · (n − Y )] = E(nY ) − E(Y 2 )
1−θ 1−θ
p 2
p
= nE(Y ) − E(Y ) = n · nθ − E(Y 2 )
1−θ 1−θ
Or
E(Y 2 ) = V (Y ) + E 2 (Y ) = nθ(1 − θ) + n2 θ2
D’où,
p 2 pnθ
E(XY ) = n θ − nθ + nθ2 − n2 θ2 = (n − 1 + θ − nθ)
1−θ 1−θ
Cov(X, Y ) = E(XY ) − E(X)E(Y )
pnθ
= (n − 1 + θ − nθ) − np · nθ
1−θ
pnθ (n − 1 + θ − nθ) − n2 pθ + n2 pθ2
=
1−θ
n2 pθ − npθ + npθ2 − n2 pθ2 − n2 pθ + n2 pθ2
=
1−θ
npθ(θ − 1)
=
1−θ
= −npθ
Donc, Cov(X, Y ) = −npθ.

Maintenant que nous avons trouvé Cov(X, Y ), retournons à la matrice des variances-
covariances dans le cas de n v.a. binômiales
 
X1
 X2 
 
X= .. 
 . 
Xn
On vient de voir que Cov(X, Y ) = −npθ lorsque X B(n, p) et Y B(n, θ). Ainsi,
lorsque Xi B(n, pi ), on a : Cov(Xi , Xj ) = −npi pj . Comme V (Xi ) = npi (1 − pi ),
la matrice des variances-covariances est donc la matrice carrée symétrique ayant sur
la diagonale les V (Xi ) et, en dehors de la diagonale, les Cov(Xi , Xj ) :
 
..
 . Cov(X i , Xj ) 
V (X) = 
 V (Xi ) 

..
Cov(Xi , Xj ) .
V (Xi ) = npi (1 − pi )
Cov(Xi , Xj ) = −npi pj
1 et i=j
V (Xi ) = npi (sij − pj ) = Cov(Xi , Xj ) avec sij =
0 et i = j
sij est le symbole de Kronecker. D’où V (X) = npi (sij − pj ).

5. Loi normale multidimensionnelle

 
X1
 X2 
 
Soit le vecteur aléatoire X =  .  multidimensionnel. Ce vecteur est normal
 .. 
Xn
si sa p.d.f. est ainsi :

1 1
fX (X) = exp − (X − E(X)) V (X)−1 (X − E(X))
(2π)n/2 [det(V (X)]1/2 2
V (X) matrice des variances-covariances de X
det(V (X)) est un scalaire
(X − E(X))(1,n) V (X)−1 (X − E(X))(n,1) un scalaire fonction des xij
  (n,n)
E(X1 )
 E(X2 ) 
 
E(X) =  .. 
 . 
E(Xn )
On peut aussi dire que X est normal si toute combinaison linéaire de ses com-
posantes (v.a.
réelles) suit une loi normale. Une combinaison linéaire des nXi s’écrit
n n
a X
i=1 i i . Si a X
i=1 i i N ∀a i , alors les a i = 0 sauf aj
= 0, on a : i=1 ai Xi =
Xj N . Donc toutes les Xi sont normales.
En revanche, si toutes les Xi suivent une loi normale, il n’est pas certain que le
vecteur X N .
La loi normale multidimensionnelle est définie par les paramètres E(X) vecteur
de n composantes et V (X) matrice carrée d’ordre n. Rappelons que pour une v.a.
normale Xi , on a les paramétres E(Xi ) et σXi et non V (Xi ). Dans le cas particulier
où les Xi normales sont indépendantes de lois N (mi , σi )
f (x1 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) . . . fXn (xn )

1 1
2 −1
= exp − (X 1 − m 1 ) σ 1 (X 1 − m1 ) × ...
2πσ12 2

1 1 −1
× exp − (Xn − mn ) σ12 (Xn − mn )
2πσn2 2

1 1 −1
= √ n 2 2 exp − (X − E(X)) σ12 σ22 . . . σn2 (X − E(X))
2π σ1 σ2 . . . σn2 2
Lorsque les Xi sont indépendantes, on a,

 
σ12 0 ··· 0
 .. .. 
 0 σ22 . . 
Cov(Xi , Xj ) = 0 i = j, V (X) = 
 .. .. ..


 . . . 0 
0 ··· 0 σn2

et det(V (X)) = σ1 σ2 . . . σn . D’où :

1 1
f (x1 , . . . , xn ) = √ n 1/2
exp − (X − E(X)) [V (X)]−1 (X − E(X))
2π (det(V (X))) 2
Donc, toute combinaisonlinéaire dev.a. normales indépendantes suit une loi normale
E(X1 )
 E(X2 ) 
 
de paramètres E(X) =  ..  et V (X) matrice diagonale formée des V (Xi ).
 . 
E(Xn )
La loi normale multidimensionnelle standard est N (0, In ) où 0 est le vecteur de
zéros de n composantes.
Transformation linéaire d’un vecteur aléatoire normal X −→ Nn (M, Σ).
Y = A(m, n)X =⇒ E(Y ) = AE(X)

=⇒ V (Y ) = AV (X)A = AΣA
Ainsi,
1 1 −1
fX (X) = √ n exp − (X − M ) Σ (X − M )
2π (det(Σ))1/2 2
Comme X est normal, toute combinaison linéaire des composantes de X est normale.
Les composantes de Y sont des combinaisons linéaires normales de X, donc Y est
normal, de paramètres (E(Y ), V (Y ) = AV (X)A ). Lorsque X est normal standard :
X −→ Nn (0, In ), Y −→ Nn (A × 0 = 0, AA )
X Nn (0, In ) ⇔ E(Xi ) = 0 et V (X) = In
Donc,
1
X X = V (X ∗ )
Cov(Xi , Xj ) = 0 ⇒
n
X ∗ est une matrice non centrée et non réduite.
X ∗ − E(X ∗ )
X= X ∗ Nn (E(X ∗ ), V (X ∗ ))
V (X ∗ )
On montre que si la v.a. X AX suit une loi de chi-2 à p degrés de liberté χ2p avec A
une matrice symétrique d’ordre n, alors A est une matrice indépendante de rang p
(A2 = A et rgA = trace(A))
1
χ2p ⇔ f (x) = e−x/2 xp/2−1
2p/2 Γ(p/2)
Chapitre 7
Éléments de théorie statistique
asymptotique
Il s’agit, dans ce chapitre d’étudier le comportement asymptotique d’une suite de

v.a. X1 , . . . , Xn lorsque n devient infini. Les variables aléatoires concernées ici sont
des moments empiriques associés à un échantillon. Le comportement asymptotique
en question est la convergence de suite de v.a. des constantes. Il existe différentes
notions de convergence.
Dans l’étude du comportement asymptotique, les deux théorèmes fondamentaux
de la statistique asymptotique, loi des grands nombres et théorème central limite,
seront présentés.
Toutes ces notions de convergence et ces théorèmes fondamentaux feront l’objet
de la seconde section 7.2. Dans la première section (7.1.), il faut d’abord présenter
les moments empiriques, la distribution empirique et la distribution théorique qui
lui correspond le plus et les tests d’adéquation du modèle théorique avec le modèle
empirique.
7.1 Moments empiriques et distributions empirique et

théorique
7.1.1 Echantillon et loi empirique
L’échantillonnage consiste à choisir au hasard un sous-ensemble d’une population,
à l’étudier et à tirer des conclusions au sujet de cette population sans avoir à examiner
tous les individus ou unités la composant, car la population peut être très grande ou
infinie. On s’intéresse à une caractéristique v.a. X de la population. Le sous-ensemble
prélevé est un échantillon. Un échantillon de taille n de la variable aléatoire X est
une suite de v.a. indépendantes X1 , X2 , . . . , Xn ayant la même distribution que X.
Une suite de valeurs x1 , x2 , . . . , xn prises par les v.a. X1 , X2 , . . . , Xn est une
réalisation de l’échantillon. On appelle parfois même cette réalisation “échantillon”. Il
faut distinguer ces deux notions : (X1 , X2 , . . . , Xn ) est un échantillon aléatoire. Si X
217
218 Chapitre 7. Éléments de théorie statistique asymptotique
est une v.a. de loi P , on dit que l’échantillon aléatoire est un échantillon de la v.a. X.
Exemple : On fait l’hypothèse que la taille des 10000 étudiants de la faculté est
une v.a. normale X. X N (µ, σ 2 ). Un échantillon aléatoire de 60 étudiants est
tiré de la population. Les tailles de ces 60 étudiants sont 60 v.a. X1 , X2 , . . . , X60 .
Xi N (µ, σ 2 ), i = 1, 2, . . . , 60. On peut ne pas connaître les paramètres µ et σ 2 .
On peut donc chercher à les estimer.
Soit X1 , . . . , Xn un échantillon aléatoire d’une v.a. X. Une statistique est une
fonction g(X1 , X2 , . . . , Xn ) ne dépendant que des v.a. Xi . La moyenne et la variance
échantillonnales, ou empiriques, sont les statistiques les plus utilisées. Comme les X1 ,
X2 , . . . , Xn sont des v.a., toute statistique est une v.a. et sa distribution est appelée
distribution empirique ou échantillonnale (sample distribution en anglais).
7.1.2 Moments empiriques

Les moments empiriques ou échantillonnaux ou d’échantillon sont des v.a. dont on
peut calculer l’espérance mathématique, la variance et d’autres moments ordinaires
ou centrés et dont on peut établir la distribution empirique.
La moyenne empirique et ses moments

Soit X1 ,. . . , Xn un échantillon de taille n, tiré d’une population de moyenne µ et
de variance σX 2 . les X suivent bien évidemment la même loi. La moyenne empirique
i
1 n
est X̄n = Σi=1 Xi .
n
X̄n dépend des valeurs prises par X1 , X2 , . . . , Xn dans l’échantillon. Si l’on
change d’échantillon, cette moyenne empirique changera. Elle est donc, elle-même,
une v.a. dont on peut calculer les moments ordinaires ou simples (ou en 0) et les
moments centrés.
L’espérance mathématique (moment ordinaire d’ordre 1) de la moyenne empi-
rique est :
n n
1 1 1
E X̄n = E Xi = E (Xi ) = n E (Xi ) = µ
n n n
i=1 i=1
car E(X1 ) = E(X2 ) = . . . = E(Xn ) = E(X) = µ.

L’espérance mathématique de la moyenne d’échantillon est donc la moyenne de
la population mère.
La variance (moment centré d’ordre 2) de la moyenne empirique est :
n n
1 1 1 σ2
V X̄n = V Xi = 2 V (Xi ) = 2 n V (Xi ) =
n n n n
i=1 i=1
car V (X1 ) = V (X2 ) = . . . = V (Xn ) = V (X) = σ 2 .

La variance de la moyenne empirique est égale à la variance de la population
divisée par la taille de l’échantillon. C’est là un résultat important : plus la taille de
l’échantillon est grande, plus la variance de la moyenne empirique est petite. Lorsque
n tend vers l’infini, V (X̄n ) tend vers 0. Cela veut dire de X̄n tend vers µ lorsque n
devient très grand. Intuitivement, lorsque l’échantillon se confond avec la population,
la moyenne de l’échantillon coïncide avec µ et devient certaine.
Calculons les autres moments centrés et ordinaires de X̄n .
• D’abord le moment centré d’ordre 3 de X̄n , le skew ou le coefficient de skewness

ou de l’asymétrie ou de dissymétrie de la distribution :
n
3 n 3
1 1
S X̄n = E (Xi − µ) = 3E (Xi − µ)
n n
i=1 i=1
1
= E [(X1 − µ) + (X2 − µ) + · · · + (Xn − µ)]3
n3
 
n n n
1 
= E 3
(Xi − µ) + 3 (Xi − µ) (Xj − µ) + . . .
2 1
n3
i=1 i j=i
  
1  
n n n
= E (X i − µ) 3
+ 3E  (X i − µ) 2
(X j − µ) 1
+ . . . 
n3  
i=1 i j=i
1
= n E(X − µ)3 + 0
n3
 
E[(Xi − µ)2 (Xj − µ)1 ] = 0,
 n 
car  (X − µ) = 0 ⇒ E[(X − µ)2 (X − µ)] = 0 
j i j
j
Ainsi,
1
S X̄n = 2 S(X) (car S(X) = µ3 )
n
• Calculons le Kurtosis, ou le coefficient d’aplatissement de X̄n , son moment centré

d’ordre 4 :
n
n
1 4 1 4
K X̄n = E (Xi − µ) = 4 E (Xi − µ)
n n
i=1 i=1
1 4

= E ((X 1 − µ) + (X 2 − µ) + · · · + (X n − µ))
n4

n n n
1  4

= E (X i − µ) + 4 (Xi − µ)3 (Xj − µ)1
n4
i=1 i j=i

n n
+6 (Xi − µ) (Xj − µ) + . . .
2 2
i j=i  
1  
n n
n
= E (X i − µ) 4
+ 0 + E 6 (X i − µ) 2
(X j − µ) 2
n4  
i=1 i j>i
  
n n

1  6
= n K(X) + E (X i − µ) 2
(Xj − µ)2 
n4
i j>i
1 1 n(n − 1) 2
= K(X) + 4 6 σ (X)σ 2 (X)
n3 n 2
1 3(n − 1) 4
= K(X) + σ (X)
n3 n3
Ainsi,
1

K X̄n = 3 K(X) + 3(n − 1)σ 4 (X)
n
n! n(n − 1)
car Cn2 = = et K(X) = µ4 .
2!(n − 2)! 2
On peut résumer les résultats ci-dessus comme suit :
2 σ 2 (X)
V X̄n = σX̄ =
n n
S(X)
S X̄n =
n2
K(X) + 3(n − 1)σ 4 (X)
K X̄n =
n3
On remarque que tous ces moments centrés (de deuxième, troisième et quatrième
ordres respectivement) de la moyenne empirique dépendent de la taille de l’échan-
tillon. Plus cette taille est grande moins sont grands la variance, la dissymétrie et
l’aplatissement de la distribution de la moyenne de l’échantillon.
Pour les moments ordinaires (non centrés) de X̄n , E(X̄n ), E(X̄n2 ), E(X̄n3 ) et
E(X̄n4 ) (en fait, nous avons déjà établi que E(X̄n ) = E(X) = µ), calculons d’abord
les moments ordinaires de X (ou des Xi ), E(X 2 ), E(X 3 ) et E(X 4 ), E(X) = µ.
• Pour déterminer E(X 2 ), posons :

E(Xi2 ) = E[(Xi − µ) + µ]2 = E[(Xi − µ)2 + 2(Xi − µ)µ + µ2 ]
= E(Xi − µ)2 + 2E[(Xi − µ)µ] + E(µ2 ) = σ 2 (X) + 2µE(Xi − µ) + µ2
= σ 2 (X) + 0 + µ2
Ainsi,
E(Xi2 ) = σ 2 (X) + µ2
(On retrouve en fait la formule développée connue de la variance : V (X) = E(X 2 ) −
[E(X)]2 ).
• Pour déterminer E(X 3 ), procédons de la même manière :

E(X 3 ) = E[(Xi − µ) + µ]3 = E[(Xi − µ)3 + 3(Xi − µ)2 µ + 3(Xi − µ)µ2 + µ3 ]
= E(Xi − µ)3 + 3µE(Xi − µ)2 + 3µ2 E(Xi − µ) + E(µ3 ) =
2
= S(X) + 3µσX + 0 + µ3
Ainsi,
E(X 3 = S(X) + 3µσX
2
+ µ3
• Pour le kurtosis E(X 4 ) :
E(X 4 ) = E [(Xi − µ) + µ]4
= E[(Xi − µ)4 + 4(Xi − µ)3 µ + 6(Xi − µ)2 µ2 + 4(Xi − µ)µ3 + µ4 ]
= E(Xi − µ)4 + 4µE(Xi − µ)3 + 6µ2 E(Xi − µ)2 + 4µ3 E(Xi − µ) + E(µ4 )
= K(X) + 4µS(X) + 6µ2 σX

2
+ 0 + µ4
Ainsi,
E(X 4 ) = K(X) + 4µS(X) + 6µ2 σX
2
+ µ4
On constate que la “variance non centrée” dépend de la moyenne, que la dissymétrie
non centrée dépend de la dissymétrie, de la variance, de la moyenne et que l’aplatis-
sement non centré dépend de l’aplatissement, de la dissymétrie, de la moyenne et de
la variance.
• Calculons maintenant les moments ordinaires de X̄n , E(X̄n ), E(X̄n ) et E(X̄n ),

2 3 4
E(X̄n ), ayant déjà été calculé (E(X̄n ) = µ = n1 i Xi ) et procédons de la même

manière que pour les moments de X.
E(X̄n2 ) = E[(X̄n − µ) + µ]2 = E[(X̄n − µ)2 + 2(X̄n − µ)µ + µ2 ]
= E(X̄n − µ)2 + 2µE(X̄n − µ) + E(µ2 ) = V (X̄n ) + 2µE(X̄n − µ) + µ2
= V (X̄n ) + 0 + µ2
Ainsi,
2
σX
E(X̄n2 ) = + µ2
n
car (E(X̄n ) = µ).
E(X̄n3 ) = E[(X̄n − µ) + µ]3 = E[(X̄n − µ)3 + 3(X̄n − µ)2 µ + 3(X̄n − µ)µ2 + µ3 ]
= E(X̄n − µ)3 + 3µE(X̄n − µ)2 + 3µ2 E(X̄n − µ) + E(µ3 )
= S(X̄n ) + 3µV (X̄n ) + 0 + µ3 = S(X̄n ) + 3µV (X̄n ) + µ3
Ainsi,
1 3
E(X̄n3 ) = S(X) + µV (X) + µ3
n2 n
4
E(X̄n4 ) = E (X̄n − µ) + µ
= E[(X̄n − µ)4 + 4(X̄n − µ)3 µ + 6(X̄n − µ)2 µ2 + 4(X̄n − µ)µ3 + µ4 ]
= E(X̄n − µ)4 + 4µE(X̄n − µ)3 + 6µ2 E(X̄n − µ)2 + 4µ3 E(X̄n − µ) + E(µ4 )
= K(X̄n ) + 4µS(X̄n ) + 6µ2 V (X̄n ) + 0 + µ4

Ainsi,
4
K(X) + 3(n − 1)σX σ2
S(X)
E(X̄n4 ) = 3
+ 4µ 2 + 6µ2 X + µ4
n n n
On voit bien que lorsque n → ∞, on a E(X̄n2 ) → µ2 , E(X̄n3 ) → µ3 et E(X̄n4 ) → µ4 .

Ces moments sont des estimations asymptotiquement non biaisées des puissances de
µ.
On peut également penser à calculer les moments hybrides E(Xi ·X̄n ) de différents
ordres pour Xi et pour X̄n . Commençons par les premiers ordres.
n
1 1
E(Xi · X̄n ) = E Xi Xi = E Xi (X1 + . . . + Xn )
n n
i=1
 
n
1  2 1 2
= E Xi + Xi Xj  = E Xi + (n − 1)E(Xi Xj )
n n
j=1,j=i
1 2 (n − 1) 1 2 n−1
= E Xi + E(Xi )E(Xj ) = σX + µ 2 + µµ
n n n n
1 2 1 n−1 2 1 2
= σ + µ2 + µ = σX + µ 2
n X n n n
= V (X̄n ) + E 2 (X̄n )
Ainsi,
E(Xi · X̄n ) = E X̄n2
avec pour tout i = j on a E(Xi Xj ) = E(Xi Xj ) = E(Xi )E(Xj ) puisque Xi et Xj

sont indépendantes.
Pour le calcul du moment hybrides d’ordre 2 pour X̄n , prenons i = 1 pour Xi :
 2   n 2 
n
1 1
E(X1 · X̄n2 ) = E X1 · Xi  = E  X1 · Xi 
n n2
i=1 i=1
 
1 n n
1
= E X1 · (X1 + . . . + Xn )2 = 2 E X1 · Xi Xj 
n2 n
i=1 j=1
(danscette somme, il y a n2  termes)
n
n
1  3
= E X 1 + X1 Xi Xj 
n2
i j=i
 
n n n
1  3
= E X 1 + X1 2
X i + X1 Xi Xj 
n2
i=2 i j,j=i
(Il reste n2 − 1 termes dans la somme)
  
n n n
1  3
= E X 1 + E X1 Xi2 + E X1 Xi Xj 
n2
i=2 i j,j=i
 
n n
1  3
= 2
E X + (n − 1)E(X1 )E(X ) + E(X) E(Xi ) E(Xj )
n2
i j
 
n n
1  3
= E X + µ(n − 1)E(X 2 ) + C1 µ µ µ + C2 µE(X 2 )
n2
i j
C1 est le nombre de termes où i = 1, j = 1 et i = j

C2 est le nombre de termes où on a X1 X1 Xj avec j = 1 ou X1 Xi X1 avec i = 1.
Soit 2(n−1) termes : C2 = 2(n−1) et C1 = n2 −1−(n−1)−2(n−1) = n2 −3n+2
1 3
E(X1 · X̄n2 ) = 2
E X + µ(n − 1)E(X 2 ) + (n2 − 3n + 2)µ3 + 2(n − 1)µE(X 2 )
n
1 3
= 2
E X + 3(n − 1)µE(X 2 ) + (n2 − 3n + 2)µ3
n
1
= 2
S(X) + µ3 + 3µσX 2
+ 3(n − 1)µ(σX2
+ µ2 ) + (n2 − 3n + 2)µ3
n
1
= S(X) + µ3 (1 + 3(n − 1) + n2 − 3n + 2) + µσX 2
(3 + 3(n − 1)
n2
1
= S(X) + n2 µ3 + 3nµσX2
n2
E(X1 · X̄n2 ) = E(X̄n3 )
On montre de la même manière que E(X1 · X̄n3 ) = E(X̄n4 ) et que la formule générale
est finalement
E(Xi · X̄nr ) = E(X̄nr+1 )
On peut également calculer les moments hybrides d’ordre supérieur à 1 pour Xi ,

E(Xi2 · X̄n ), E(Xi3 · X̄n ), . . . Les calculs sont fastidieux mais faisables. En voici les
résultats :
1 n+2 2
E(X12 · X̄n ) = S(X) + σ µ + µ3
n n X
1 n+3 3n + 3 2 2
E(X13 · X̄n ) = K(X) + S(X)µ + σX µ + µ 4
n n n
1 2(n + 1) n+5 2 2 n−1 4
E(X12 · X̄n2 ) = K(X) + S(X)µ + σ µ + σ + µ4
n2 n2 n X n2 X
La variance empirique et ses moments
de la variance de l’échantillon X1 , X2 , . . . , Xn dont la moyenne est

Il s’agit
X̄n = n1 ni=1 Xi . Cette variance est par définition :
n n
1 1 2
Ve (X) = (Xi − X̄n − µ + µ)2 = (Xi − µ) − (X̄n − µ)
n n
i=1 i=1
puisque µ = E(X̄n ), µ moyenne de la population
n
1
Ve (X) = (Xi − µ)2 − 2(Xi − µ)(X̄n − µ) + (X̄n − µ)2
n
i=1
n n n

1
= (Xi − µ)2 − 2(X̄n − µ) (Xi − µ) + (X̄n − µ)2
n
i=1 i=1 i=1
n
n n
1 2 1
= (Xi − µ)2 − (X̄n − µ) Xi − nµ + (X̄n − µ)2
n n n
i=1 i=1 i=1
n n n
1 i=1 Xi 1
= (Xi − µ)2 − 2(X̄n − µ) −µ + (X̄n − µ)2
n n n
i=1 i=1
n
1
= (Xi − µ)2 − 2(X̄n − µ)2 + (X̄n − µ)2
n
i=1
Ainsi,
n
1
Ve (X) = (Xi − µ)2 − (X̄n − µ)2
n
i=1
Calculons l’espérance mathématique de la variance empirique Ve (X) :
n
1
E(Ve (X)) = E (Xi − µ) − E(X̄n − µ)2
2
n
i=1
n
1
= E(Xi − µ)2 − E(X̄n − µ)2
n
i=1
1 2 2 1 2
= nσ − V (X̄n ) = σX − σX
n X n
Ainsi,
n−1 2
E(Ve (X)) = σ
n X
On voit que l’espérance mathématique de la variance empirique est égale à la variance

n . La variance empirique est donc un estimateur
de la population multipliée par n−1
biaisé de la variance de la population.
Cependant lorsque n est très grand on a n − 1 n et donc E (Ve (X)) σX 2 .
n−1 2 2
Lorsque n n’est pas très grand, E (Ve (X)) σ = σX . on a E (Ve (X)) < σX2 .
n X
Il faut donc corriger le biais en multipliant la variance échantillonnale par n−1
n
pour la ramener à une variance dont l’espérance coïncide avec σX . Il faut ainsi
2
prendre comme variance empirique non Ve (X), mais
n n
n n 1 1
Sn2 = × Ve (X) = × (Xi − X̄n )2 = (Xi − X̄n )2
n−1 n−1 n n−1
i=1 i=1

n n n n−1 2
2
E(Sn ) = E × Ve (X) = × E(Ve ) = × σ = σ2
n−1 n−1 n−1 n
Voilà donc la variance empirique qu’il convient d’adopter, étant donné qu’elle n’est
pas biaisée, c’est-à-dire qu’on a : E(S 2 ) = σX
2 .
Calculons la variance de cette v.a. qu’est la variance empirique S 2 :
n
n 2
1 2 n i=1 (Xi − X̄n )
V (Sn2 ) = V (Xi − X̄n ) = V
n−1 n−1 n
i=1
n 2
n2 i=1 (Xi − X̄n )
= 2
V
(n − 1) n
n
n
n

2 2
(Xi − X̄n )2 = Xi − µ − X̄n + µ = (Xi − µ) − X̄n − µ
i=1 i=1 i=1
n
n 2
i=1 Xi
= (Xi − µ) − −µ
n
i=1
n n 2
i=1 Xi − nµ
= (Xi − µ) −
n
i=1
n
n 2
i=1 (Xi − µ)
= (Xi − µ) −
n
i=1
Posons Zi = Xi − µ, on obtient :
n
n
n 2 n

i=1 Zi
(Xi − X̄n )2 = Zi − = (Zi − Z̄n )2
n
i=1 i=1 i=1
D’où,
2 2
n n
i=1 Xi − X̄n i=1 Zi − Z̄n
V =V = V Z 2 − (Z̄n )2
n n
n n 2
i=1 Zi i=1 Zi
avec, Z̄n = et Z2 = .
n n
n 2
Sn2 = Z − (Z̄n )2
n−1
2 2 2
V Sn = E Sn2 − E(Sn2 ) = E Sn2 − σ 2 = E Sn4 − 2Sn2 σ 2 + σ 4
= E(Sn4 ) − 2σ 2 E(Sn2 ) + σ 4 = E(Sn4 ) − σ 4
n2 2 n2 2
Sn4 = Z 2 − (Z̄ )2
n = Z 2 − 2Z 2 (Z̄ )2 + (Z̄ )4
n n
(n − 1)2 (n − 1)2
n2 2
E(Sn4 ) = 2
E Z 2 − 2E Z 2 (Z̄n )2 + E Z̄n4
(n − 1)
Comme les Zi sont indépendantes, on a :
E(Zi Zj ) = E(Zi3 Zj ) = E(Zi2 Zj Zk ) = 0 pour tout i = j = k et i = k
E(Zi2 Zj2 ) = E(Zi2 )E(Zj2 ) = σ 4
E(Zi4 ) = µ4
évidemment E(Zi ) = E(Xi − µ) = E(Xi ) − µ = 0.
n n 2
2 2
2 i=1 Zi 1
2 1 2
E Z2 = E = 2E Zi = 2 E Z12 + . . . + Zn2
n n n
i=1
termes
n2 n entre crochets
1
4 2 2
= E Zi + n(n − 1)Zi Zj
n2
i=1

n termes avec le même i
car
et n2 − n = n(n − 1) termes avec i = j
1 1
nE(Zi4 ) + n(n − 1)E(Zi2 Zj2 ) = 2 nµ4 + n(n − 1)σ 4 )
=
n2 n
n 2
n 2
i=1 Zi i=1 Zi
E Z 2 Z̄n2 = E Z 2 E Z̄n2 = E E
n n n
1 1 2
= E Zi2 E (Z1 + . . . + Zn )
n n2
i=1
1
= 3 E (Z12 + . . . + Zn2 )(Z1 + . . . + Zn )2
n n
1
2 2 2
= 3 E (Z1 + . . . + Zn ) Zi + n(n − 1)Zi Zj i=j
n
 i=1 
n
2
1  2
= 3E Zi + n(n − 1)Zi Zj 
n
i=1
 2 
n
1 
= 3 E Zi2
+ n(n − 1)E(Zi Zj )
n
i=1
1 1
= 3 nµ4 + n(n − 1)σ 4 + n(n − 1) × 0 = 3 nµ4 + n(n − 1)σ 4
n n

n 4
i=1 Zi
E Z̄n4 = E
n
1
= E (Z1 + . . . + Zn )4 on a entre crochets n4 termes
n4
n
1
4 3 2 2 2
= E Zi + C 1 Zi Zj + C 2 Zi Zj + C 3 Zi Zj Zk + C 4 Zi Zj Zk Zl
n4
i=1
indices
différents

n

1 4 2 2
= E Zi + 0 + C2 E(Zi Zj ) + 0 + 0
n4
i=1
C2 est le nombre de termes où l’on prend un même indice pour 2 facteurs et un

même indice différent pour les 2 autres facteurs de la puissance 4 : C2 = 3n(n − 1),
on choisit i avec n possibilités et pour chaque i, on a (n − 1) choix pour j, trois fois.

D’où
1
E Z̄n4 = 4 nµ4 + 3n(n − 1)σ 4
n
D’où

n2 1 1
E(Sn4 ) = 2 4
nµ4 + n(n − 1)σ 4 − 2 3 nµ4 + n(n − 1)σ 4
(n − 1) n n

1
+ 4 nµ4 + 3n(n − 1)σ 4
n
1 2
= nµ4 + n(n − 1)σ 4 − nµ4 + n(n − 1)σ 4
(n − 1)2 n(n − 1)2
1
+ 2 2
nµ4 + 3n(n − 1)σ 4
n (n − 1)

n nµ4 + n(n − 1)σ 4 − 2n nµ4 + n(n − 1)σ 4 + nµ4 + 3n(n − 1)σ 4
2
=
n2 (n − 1)2
3
µ4 n − 2n2 + n + σ 4 n3 (n − 1) − 2n2 (n − 1) + 3n(n − 1)
=
n2 (n − 1)2
n(n − 1)2 µ4 + σ 4 (n − 1)(n3 − 2n2 + 3n)
=
n2 (n − 1)2
µ4 (n − 1)n(n2 − 2n + 3) µ4 2
4 n − 2n + 3
= + σ4 = + σ
n n2 (n − 1)2 n n(n − 1)
D’où
2
µ4 n − 2n + 3
V (Sn2 ) = E(Sn4 ) − σ 4 = + σ4 −1
n n(n − 1)
µ4 n2 − 2n + 3 − n(n − 1) µ4 n2 − 2n + 3 − n2 + n)
= + σ4 = + σ4
n n(n − 1) n n(n − 1)

µ4 −n + 3 1 n−3 4
= + σ4 = µ4 − σ
n n(n − 1) n n−1
7.1.3 Échantillon d’une loi normale

Nous venons de voir les propriétés d’un échantillon aléatoire d’une population
quelconque et notamment les distributions de sa moyenne et de sa variance. Tirer un
échantillon d’une population normale conduit à des propriétés utiles des moments
échantillonnaux à des distributions bien connues d’échantillonnage. Cela conduit plus
particulièrement aux théorèmes fondamentaux de la statistique mathématique qui
confèrent une place centrale à la loi normale.
Si l’on tire,
auhasard, un échantillon
X1 , X2 , . . . , X
n de taille n, d’une population
normale N µ, σ 2 et si X̄n = n1 ni=1 Xi et Sn2 = n−1 1 n
i=1 (Xi − X̄n ) alors,
2
1. X̄n et Sn2 , la moyenne et la variance empiriques (variance corrigée) sont des

v.a. indépendantes ;
2

2. La moyenne empirique X̄n suit la loi normale N µ, σn ;
3. (n − 1)Sn2 /σ 2 suit une loi du χ2 de n − 1 degrés de liberté.
Pour démontrer ces propriétés, rappelons que :
Xi − µ
Xi N µ, σ 2 ⇒ Zi = N (0, 1)
σ
Nous savons aussi que si Z est un vecteur aléatoire normal, toute transformation
linéaire Y de Z est également un vecteur aléatoire normal : Y = AZ.
Supposons que la matrice A associée à cette transformation linéaire est orthogo-
nale, en ce sens qu’on a : A A = I (A = A−1 ), alors :
n
n

Y Y = Yi2 = (AZ) AZ = Z A AZ = Z IZ = Z Z = Zi2
i=1 i=1
Comme Zi = N (0, 1), la fonction de densité de probabilité p.d.f. conjointe des v.

Zi , i = 1, . . . , n, qui sont des v.a. indépendantes, est :
n

1 1 2
fZ (z) = √ exp − zi , Z ∈ Rn
2π 2
i=1
D’où :
n
1 1 2
fY (y) = √ exp − yi , Y ∈ Rn
2π 2
i=1
Donc, Yi N (0, 1).

Si l’on choisit A avec sa première ligne √1n , √1n , . . . , √1n , alors Y = AZ donne
la première ligne
n n
1 n i=1 Zi
√
Y1 = √ Zi = √ = nZ̄n
n n n
i=1
Et on a :
n
n
n
n

(Zi − Z̄n )2 = (Zi2 − 2Z̄n Zi + Z̄n2 ) = Zi2 − 2Z̄n Zi + nZ̄n2
i=1 i=1 i=1 i=1
n
n

= Zi2 − 2nZ̄n2 + nZ̄n2 = Zi2 − nZ̄n2
i=1 i=1
n n

√
= Zi2 − ( nZ̄n )2 = Yi2 − Y12
i=1 i=1
Ainsi,
n
n

(Zi − Z̄n )2 = Yi2
i=1 i=2

Ce résultat signifie que ni=1 (Zi − Z̄n ) ne dépend pas de Y1 correspondant à la
2
n
moyenne Z̄n . Cela implique ainsi que i=1 (Xi − X̄n )2 ne dépend pas de la moyenne
1 n
empirique X̄n , puisque Zi = Xiσ−µ . Le résultat est que X̄n et Sn2 = n−1 i=1 (Xi −
X̄n )2 sont indépendantes : la moyenne et la variance empiriques d’un échantillon tiré
d’une distribution normale sont des v.a. indépendantes : Cov(X̄n , Sn2 ) = 0 (Théo-
rème de Fisher).
Nous avons vu que Yi N (0, 1), donc

√
Y1 N (0, 1) ⇒ nZ̄n = Y1 N (0, 1)
√
n(X̄n − µ) √ σ2
⇒ = nZ̄n N (0, 1) ⇒ X̄n N µ,
σ n
√
n(X̄n − µ) X̄n − µ
puisque = .
σ √σ
n
2
Nous avons vu dans lechapitre précédent que si X N (m, σ) on a X−m
σ χ21
n
et quesi Yi χ1 alors i=1 Yi χn . Comme les Yi N (0, 1) on a Yi χ21 et
2 2 2
donc ni=2 Yi2 χ2n−1 . Or

n
n
n
2 n 2
Xi − X̄n i=1 (Xi − X̄n )
Yi2 = 2
(Zi − Z̄n ) = =
σ σ2
i=2 i=1 i=1
n
n 2
i=1 (Xi − X̄n )
Yi2 χ2n−1 ⇒ χ2n−1
σ2
i=2
n 2 n
i=1 (Xi −X̄n )
Sn2 = n−1 ⇒ i=1 (Xi − X̄n )2 = (n − 1)Sn2
n 2
i=1 (Xi − X̄n ) Sn2
⇒ = (n − 1) χ2n−1
σ2 σ2
Sn2 √ (X̄n − µ)2
Nous venons de voir que (n − 1) 2
suit la loi χ2n−1 et que n suit une loi
σ σ
normale centrée réduite N (0, 1).
√ X̄n − µ X̄n − µ
n(X̄n − µ) √
√σ √σ
n(X̄n − µ)
σ
n n
= =t= =
2 2 S Sn
(n − 1) Sσn2 Sn n
σ 2 σ
(n − 1)
Le numérateur de la variable t ci-dessus suit donc une loi normale centrée réduite
et son dénominateur est la racine carrée d’une loi χ2n−1 divisée par son nombre de
degrés de liberté. Le numérateur et de dénominateur sont des v.a. indépendantes
et leur rapport suit une loi de Student à (n − 1) degrés de liberté. En effet, si le
numérateur de t est distribué suivant N (0, 1) et si son dénominateur l’est suivant
une loi de χ2k , t est distribué suivant une loi de Student à k degrés de liberté et sa
densité fT est donnée par :
− k+1
1 Γ k+1 t2 2
fT (t) = √ · k2 1 + k > 0, Γ fonction Gamma d’Euler
kπ Γ 2 k
Cette densité est symétrique, centrée sur 0, en forme de cloche. Son espérance est
indéfinie pour k = 1 et nulle pour k > 1. Sa variance est infinie pour k ≤ 2 et vaut
k−2 pour k > 2.
k
Cette loi de probabilité usuelle a été découverte et publiée en 1908 par William
Gossert sous le pseudonyme de Student (Son employeur, la brasserie Guinness à
Dublin lui interdisait de publier sous son vrai nom). C’est Ronald Fisher qui l’a fait
connaître et qui a donné au test de Student ce nom.
√ X̄n − µ X̄n − µ X̄n − µ
n = Sn =
Sn √ 2
Sn
n
n
Nous avons vu que E(Sn2 ) = σ 2 est nous avons vu que lorsque n devient très grand
E[Ve (X)] tend vers σ 2 , car n−1
n tends vers 1. On peut donc approcher la loi de
Student par la loi normale centrée réduite lorsque n est grand.
D’un autre côté, on peut à l’aide de cette loi de Student, construire l’intervalle
de confiance de l’estimateur de l’espérance mathématique µ d’une loi normale dont
la variance σ 2 est inconnue.
X̄n − µ Sn
t= Sn
⇒ X̄n = ±t √ + µ
±√ n
n
Comme nous connaissons la distribution de t, on peut lire sur la table de cette

distribution les deux valeurs symétriques entre lesquelles on a la probabilité de 95 %
ou 99 % selon le nombre de degré de liberté.
Ainsi pour n − 1 = 50,
P (t < 1.676) = 0.95 ⇒ P (t < −1.676) = 0.05 ⇒ P (−1.676 < t < 1.676) = 0.90
Toujours pour n − 1 = 50,
P (t < 2.009) = 0.975 ⇒ P (t < −2.009) = 0.025 ⇒ P (−2.009 < t < 2.009) = 0.95
Enfin, toujours pour n − 1 = 50,
P (t < 2.678) = 0.995 ⇒ P (t < −2.678) = 0.005 ⇒ P (−2.678 < t < 2.678) = 0.99
Ainsi, pour un inetvalle de confiance de 99%, il faut prendre t = ±2.678.
Distributions apparentées à la loi de Student :
— Nous avons vu que la loi de Student peut être approchée par une loi normale
centrée réduite lorsque n est grand.
— Lorsque k = 1, t suit une loi de Cauchy (0, 1) de densité π(1+t 1

2 ) et qui n’a
pas d’espérance mathématique.

— Si t suit une loi de Student, t2 suit une loi de Fisher F(ν1 = 1, ν2 = k) ou loi
de Fisher-Snedecor (Ronald Aylmer Fisher et George Snedecor).
X̄n − µ (X̄n − µ)2
√σ σ2
n 2 n n(X̄n − µ)2 (X̄n − µ)2
t= ⇒t = = =
Sn2 Sn2 σ 2 2
Sn
n
σ2 Sn2
De manière générale, le quotient de deux v.a. indépendantes U1 et U2 suivant chacune
une loi du χ2 et divisées par leurs nombres de degrés de liberté k1 et k2 respectifs,
est une v.a. distribuée selon la loi de Fisher-Snedecor de degrés de liberté k1 et k2 .

U1 χ2k1 U1 /k1
⇒ F(k1 , k2 )
U 2 χ k2 2
U2 /k2
La densité de probabilité d’une loi de Fisher (k1 , k2 ) est donnée par :
k1 /2 k2 /2
k1 F k1 F
1−
k1 F + k2 k1 F + k2
f (F ) = β, fonction bêta
F β(k1 /2, k2 /2)
Son espérance et sa variance sont :
k2
E(F ) =
k2 − 2
2k22 (k1 + k2 − 2)
et V (F ) = avec k2 > 2 pour E et k2 > 4 pour V
k1 (k2 − 2)2 (k2 − 4)
Pour les calculs, il faut tenir compte de ce que
U2 /k2
F(k2 , k1 )
U1 /k1
7.1.4 Tests d’ajustement

Lorsqu’on ne connaît pas la loi de probabilité de la population dont l’échan-
tillon est tiré, on étudie la loi de probabilité échantillonnale et on choisit parmi
les lois usuelles celle qui ressemble le plus à cette loi empirique et on pourra re-
tenir que l’échantillon provient de cette loi usuelle si bien évidemment la distance
est faible entre les deux fonctions de répartition théorique usuelle et empirique ou
échantillonnale. En revanche, si cette distance est grande, on rejette cette hypothèse
que l’échantillon provient de cette loi usuelle (théorique). Toutefois, il y a risque de
rejet de l’hypothèse alors qu’elle est vraie. Il faut donc veiller à minimiser ce risque
à 5 % ou 1%.
C’est cela le test d’ajustement d’une loi empirique à une loi théorique. Pour les
variables discrètes, on peut utiliser le test de χ2 et pour les v.a. continues, le test de
Kolmogorov-Smirnov est recommandé.
Test du Chi-2
Exemple : On lance un dé 60 fois. Le nombre de fois Ni qu’on a obtenu la face i
est :
face i 1 2 3 4 5 6 Effectif total
effectif Ni 15 7 4 11 6 17 60
Si le dé en question n’est pas truqué et que chacune des 6 faces a exactement la

même chance d’apparaître que les autres faces, on aurait eu les effectifs théoriques
Ni = 10 ∀i, c’est-à-dire si les probabilités d’apparitions des différentes six faces
étaient égales à 1/6, pi = 1/6. ∀i.
Empiriquement, on n’a pas obtenu les effectifs Ni tous égaux à 10. Peut-on dire
que le dé est truqué ? La distance entre les effectifs obtenus et les effectifs théoriques,
est-elle si grande ? Calculons la distance du χ2 entre ces effectifs empiriques (observés)
et théoriques (ici ei = 10, ∀i) : (k = 6 pour le dé)
6
i=1 (Ni − ei ) (15 − 10)2 (7 − 10)2 (17 − 10)2
d= = + + ... + = 13.6
ei 10 10 10

Sous l’hypothèse nulle H0 : pi = 61 , ∀i = 1, . . . , k , la v.a. χ2n (p, p̄n ) a pris la valeur
13.6. Le seuil de rejet lisible dans la table de la loi du χ2(k−1=5) est 11.07. Comme
13.6 > 11.07, on rejette H0 au risque α = 0.05. Toutefois, au seuil α = 0.01, on a
χ25 = 15.086 et on ne pourra donc pas rejeter H0 .
Nous venons de présenter un exemple d’application du test du Chi-2 d’adéqua-
tion, d’ajustement ou de conformité de la distribution empirique avec la distribution
théorique. Ce test est applicable aux v.a. discrètes, comme celle que nous venons de
considérer dans l’exemple.
Dans cet exemple, on a 6 valeurs possibles xi (1, 2, 3, 4, 5 ou 6), donc k = 6. La
probabilité de chaque face p(X = 1) = p(X = 2) = p(X = 3) = p(X = 4) = p(X =
5) = p(X = 6) = pi ∀i. Les Ni sont 15, 7, 4, 11, 6 et 17. Les effectifs théoriques sont
tous = npi = 60 × 16 = 10.
La distance du χ2 entre les k (6) effectifs observés Ni et la fonction de répartition
F , représentée par les k effectifs théoriques npi est basée sur le fait que les v.a. Ni
suivent des lois binômiales de paramètres n (= 60) et pi 61 et que les variables
√ √
centrées (Ni − npi )/ npi convergent vers la loi N (0, 1 − pi ).
n
(Ni − npi )2
d(Fn , F ) =
npi
i=1
Il sagit d’une somme

de carrés de v.a. centrées asymptotiquement normales et liées
par la relation ni=1 (Ni − npi ) = 0. Cette somme converge vers la loi χ2(k−1) .
Exemple : X est le nombre d’accidents par semaine à un croisement donné :
xi 0 1 2 3 4 5 total
Ni 5 10 7 4 3 1 30
X suit-il une loi de Poisson de paramètre λ = 2 ?

Si X suivait une loi de Poisson de λ = 2, on aurait eu les effectifs théoriques
suivants (voir P(2)) :
xi 0 1 2 3 4 total
pi 0.1353 0.271 0.271 0.18 0.1433 1
ei = npi 4 8 8 5.5 4.5 30
n
(Ni − npi )2
d(Fn , F ) =
npi
i=1
(5 − 4)2 (10 − 8)2 (7 − 8)2 (4 − 5.5)2 (4 − 4.5)2
= + + + +
4 8 8 5.5 4.5
= 0.25 + 0.5 + 0.125 + 0.41 + 0.41 + 0.0555 = 1.34
Le fractile d’ordre 0.95 de la loi χ24 est 9.488 9.49. Comme 1.34 < 9.4, on ac-
cepte H0 : les observations constituent un échantillon tiré d’une loi de Poisson P(2).
Remarque : le test du Chi-2 est également utilisé comme test d’homogénéité qui
consiste à tester l’hypothèse que deux échantillons proviennent de deux v.a. suivant
la même loi, et comme test d’indépendance de 2 v.a. X et Y .
Le test d’ajustement de Kolmogorov-Smirnov

Il s’agit d’un test de conformité dû à Andrei Kolmogorov (1903-1987, russe)
et à Vladimir Smirnov (1887-1974, également russe) applicable aux v.a. continues.
Comme pour le test de conformité de χ2 , le test de Kolmogorov-Smirov est utilisé
pour savoir si un échantillon aléatoire provient d’une distribution (continue) donnée.
On peut donc l’utiliser pour tester la normalité, c’est-à-dire pour tester la provenance
de l’échantillon considéré d’une distribution normale.
Soit un échantillon aléatoire ordonné (du plus petit au plus grand), de taille n
suivant : x1 , x2 , . . . , xn ; x1 ≤ x2 ≤ . . . ≤ xn . On définit la fonction Sn (x) ainsi :

 0 si x < x1
Sn (x) = k/n si xk ≤ x < xk+1

1 si x ≥ k + 1
On suppose que cet échantillon provient d’une population avec la fonction de distri-
bution cumulative F (x). On définit Dn comme suit :
Dn = max |F (x) − Sn (x)|

x
Dn ne dépend que de Sn (x), laquelle dépend de l’échantillon aléatoire choisi. Dn

est donc une v.a. On peut donc utiliser Dn pour estimer F (x). La distribution de
Dn peut être calculée. On peut lire sur la table de Kolmogorov-Smirnov les valeurs
critiques. Ainsi, si Dn,α est la valeur critique indiquée par cette table pour n donné
et α choisi, alors on a : P (Dn ≤ Dn,α ) = 1 − α. Dn peut être utilisé pour tes-

ter l’hypothèse qu’un échantillon aléatoire donné provient d’une population avec la
distribution F (x) :
Si max|F (x) − Sn (x)| ≤ Dn,α , alors l’ajustement de la distribution empirique
x
avec la distribution théorique F (x) est bon.
À partir de P (Dn ≤ Dn,α ) = 1 − α, on peut construire un intervalle de confiance
pour F (x). En effet :

1 − α = P (Dn ≤ Dn,α ) = P max |F (x) − Sn (x)| ≤ Dn,α
x
= P (Sn (x) − Dn,α ≤ F (x) ≤ Sn (x) + Dn,α pour tout x)
= P (|F (x) − Sn (x)| ≤ Dn,α pour tout x)
Exemple d’application : testons que l’échantillon suivant est tiré d’une distribu-
tion normale :
x 100 200 300 400 500 600 700 800 900 1000 Total
fréquence fi 8 25 88 172 243 252 144 49 13 6 100 = n

x i fi 481400
La moyenne est : x̄ = = = 481.4. avec xi les centres de classe
fi 1000

(xi − x̄)2 fi 89343600
et σ = = 155.17 2
x = = 89343.6
fi 1000
Les centres de classes sont 50, 250, 350, 450, . . . , 950.
Nous pouvons maintenant calculer Sn (x) pour chaque x > 50 = x1 , c’est-à-dire
qu’on aura Sn (x) = nk (k étant la fréquence cumulée). Sn (x) est donc la fréquence
relative cumulée.
Standardisons ou centrons et réduisons x (en retranchant x̄ et en divisant le
x − x̄
résultat par σ). Cela nous donne zi = . Les valeurs de zi nous donnent sur la
σ
table normale les F (zi ) correspondantes.
Si l’échantillon est normalement distribué, on devrait avoir la différence entre
Sn (x) et F (zi ) égale à 0.
Voici la table des calculs :
x fi fi cum. crois. Sn (x) zi = x−x̄

σ F (x) |F (x) − Sn (x)|
100 8 8 0.008 -2.457949295 0.006987 0.001013
200 25 33 0.033 -1.8134802 0.034879 0.001879
300 88 121 0.121 -1.169031 0.121196 0.000196
400 172 293 0.293 -0.5245817 0.299938 0.006938
500 243 536 0.536 0.11986756 0.547706 0.011706
600 252 788 0.788 0.76431682 0.777661 0.010339
700 144 932 0.932 1.40876608 0.920548 0.011452
800 49 981 0.981 2.05321534 0.979974 0.001026
900 13 994 0.994 2.6976646 0.996509 0.002509
1000 6 1000 1 3.342140878 1 0
1000
Dn = max |F (x) − Sn (x)| = 0.01171

x
Sur la table de Kolmogorov-Smirnov, on lit Dn,α = 0.043007 pour n = 1000 et

α =0.05
1.36 1.36
Dn,0.05 = √ pour n > 50, D1000,0.05 = √ .
n 1000
Comme, Dn = 0.0117 < Dn,α = 0.043, la conclusion est que l’échantillon donné
s’ajuste bien avec une distribution normale.
Voici les valeurs critiques Dn,α tirées de blog.ExcelMasterSeries.com :
n/α 0.20 0.10 0.05 0.01

10 0.32 0.37 0.41 0.49
15 0.27 0.26 0.34 0.40
20 0.23 0.24 0.29 0.36
25 0.21 0.22 0.27 0.32
30 0.19 0.20 0.24 0.29
35 0.18 0.19 0.23 0.27
40 0.17 0.18 0.21 0.25
45 0.16 0.17 0.20 0.24
50 0.15 0.16 0.19 0.23
√ √ √ √
n 50 1.07/ n 1.22/ n 1.36/ n 1.63/ n
7.2 Notions de convergence et théorèmes fondamentaux

de statistique
Dans cette section, nous allons étudier la convergence en probabilité et la conver-
gence en loi ou en distribution, ainsi que la convergence presque sûre (almost surely
convergence). Il s’agit dans tous les cas, de déterminer le comportement de X̄n lorsque
n tend vers l’infini.
7.2.1 Convergence en probabilité

Cette convergence est parmi les plus faibles. Elle est facile à vérifier.
Définition de la convergence en probabilité

Définition générale
Une suite de v.a. X1 , X2 , . . . converge en probabilité vers une variable aléatoire
X si, pour tout ε > 0, on a :
lim P (|Xn − X| ≥ ε) = 0 ⇔ lim P (|Xn − X| < ε) = 1

n−→∞ n−→∞
Cela veut dire que lorsque n tend vers l’infini, la probabilité que Xn se confonde avec
X devient presque l’unité. Cela devient presque certain : Xn = X.
Une définition plus particulière intéressant les statisticiens consiste à prendre
X = Cte = a et à considérer les moyennes empiriques comme v.a. de la suite. Cela
revient à définir la convergence en probabilité par :

lim P |X̄n − a| < ε = 1
n−→∞
On écrira : plim X̄n = a ou X̄n −→ a.

n−→∞ p
Notons que les v.a. considérées ici dans les deux cas ne sont pas indépendantes
et identiquement distribuées.
Lorsque a est un paramètre inconnu et Xn un estimateur de a, l’estimateur est
dit convergent si plim Xn = a.
n−→∞
La limite en probabilité se réduit à la limite classique lorsque Xn n’est pas
aléatoire. La convergence en probabilité s’établit grâce à l’inégalité de Bienaymé-
Tchebychev.
Inégalité de Tchebychev
Voyons d’abord une autre inégalité, celle de Markov (Andrei Andreyevich, mathé-
maticien russe, 1856-1922). Il s’agit du même Markov des chaînes et des processus.
L’inégalité de Markov établit pour une v.a. positive X dont E(X) existe et pour tout
λ > 0, que
1 E(X)
P (X ≥ λE(X)) ≤ ou P (X ≥ λ) ≤
λ λ
Cette inégalité est parfois appelée première inégalité de Tchebychev (Pafnuty, mathé-
maticien russe, 1821-1894, professeur de Markov). Elle est également appelée inégalité
de Bienaymé (Irénée-Jules, Statisticien français, 1796-1878).
Pour démontrer l’inégalité de Markov, considérons un événement E et la v.a.
indicatrice de E, IE telle que IE = 1 si E se réalise et IE = 0 si E ne se réalise pas.
La réalisation de l’événement correspond à X ≥ a et sa non-réalisation correspond
à X < a. Donc,
I(X≥a) = 1 si X ≥ a et I(X≥a) = 0 si X < a
Pour a > 0, on a : a · I(X≥a) ≤ X, vraie dans tous les cas. En effet,

Si X ≥ a, on a : I(X≥a) = 1 et donc a · I(X≥a) = a, X ≥ a ⇒ X ≥ a · I(X≥a) .
Si X < a, on a : I(X≥a) = 0 et donc a · I(X≥a) = 0 ≤ X.
Comme E est une fonction croissante monotone, en prenant les espérances mathé-
matiques des deux parties de l’inégalité a · I(X≥a) ≤ X, on n’inverse pas l’inégalité,
et donc E(a · I(X≥a) ) ≤ E(X)

E a · I(X≥a) = a · E I(X≥a) = a [1 · P (X ≥ a) + 0 · P (X < 0)] = a · P (X ≥ a)
D’où
E(X)
E a · I(X≥a) = a · P (X ≥ a) ≤ E(X) ⇒ P (X ≥ a) ≤ , car a > 0
a
a peut être remplacé par λ ou ε.
L’inégalité de Tchebychev
Si X est une v.a. réelle continue avec E(X) = µ et V (X) = σ 2 , pour tout ε > 0, on
σ2
a : P (|X − µ| ≥ ε) ≤ 2 .
ε
+∞ µ−ε +∞
V (X) = σ 2 = (t − µ)2 fX (t) dt ≥ (t − µ)2 fX (t) dt + (t − µ)2 fX (t) dt
−∞ −∞ µ+ε
fX (x) : p.d.f. de X.
µ+ε
Dans la partie droite, il manque pour l’égalité (t − µ)2 fX (t) dt. Dans cette
µ−ε
partie droite, pour le 1er terme, on intégre de −∞ à µ − ε, donc t ≤ µ − ε.
t ≤ µ − ε ⇒ t − µ ≤ −ε ⇒ |t − µ| ≥ ε ou ε ≤ |t − µ| ⇒ ε2 ≤ (t − µ)2
Pour le second terme, on intègre de µ + ε à +∞, c’est-à-dire que t ≥ µ + ε
t ≥ µ + ε ⇒ t − µ ≥ ε ⇒ (t − µ)2 ≥ ε2
D’où, pour les deux termes de la partie droite, on a ε2 ≤ (t − µ)2 . Donc, dans les
deux intégrales, si l’on remplace ce terme positif (t − µ)2 par cet autre terme positif
ε2 inférieur, on trouvera une somme inférieure. D’où :
µ−ε +∞
(t − µ)2 fX (t) dt + (t − µ)2 fX (t) dt
−∞ µ+ε
µ−ε +∞
2
≥ ε fX (t) dt + ε2 fX (t) dt
−∞ µ+ε
µ−ε +∞
= ε2 fX (t) dt + fX (t) dt
−∞ µ+ε
2
= ε P (X ≤ µ − ε ou X ≥ µ + ε) définition de la p.d.f.
= ε2 P (|X − µ| ≥ ε)
D’où :
σ2
σ 2 ≥ ε2 P (|X − µ| ≥ ε) ⇒ ≥ P (|X − µ| ≥ ε)
ε2
Ces inégalités de Tchebychev sont utiles pour la démonstration de certaines pro-
priétés, tout comme l’inégalité de Jensen (Johan, mathématicien danois, 1859-1925)
suivante :
Pour une fonction réelle convexe g sur un intervalle I de R qui contient X(Ω),
ensemble des valeurs possibles pour la v.a. pour laquelle E(X) et E[g(X)] existent,
on a : g[E(X)] ≤ E[g(x)].
Rappelons la définition d’une fonction réelle g(x) convexe sur un intervalle I =
[a, b] : pour tout x1 , x2 ∈ [a, b] et pour tout λ ∈ [0, 1], on a :
g(λx1 + (1 − λ)x2 ) ≤ λf (x1 ) + (1 − λ)f (x2 )
Cette fonction g(x) est dite strictement convexe si l’inégalité ci-dessus est stricte,
c’est-à-dire x1 = x2 . L’ordonnée de la moyenne des abscisses est plus petite que la
moyenne de leurs ordonnées.
Une fonction est dite concave si −f (x) est convexe.
Intuitivement, la convexité de g(x) entre x1 et x2 signifie que la courbe g(x) entre
x1 et x2 est en dessous des deux points (x1 , g(x1 )) et (x2 , g(x2 )).
Si g(x) est dérivable deux fois sur [a, b], la convexité signifie g (x) ≥ 0. L’expres-
sion mathématique de l’inégalité de Jensen consiste à prendre n valeurs de x dans
I, x1 , x2 , . . . , xn et n valeurs de λ entre 0 et 1 de manière à avoir ni=1 λi = 1 et
écrire ceci : (avec g(x) convexe)
n n

g λi x i ≤ λi g (xi )
i=1 i=1
Si les λi sont les probabilités des xi d’une v.a. X ne prenant que ces valeurs x1 ,
x2 , . . . , xn , alors ni=1 P (xi ) = 1 et l’inégalité de Jensen devient :
n n

g xi P (xi ) ≤ g(xi )P (xi ) ⇔ g [E(X)] = E [g(x)]
i=1 i=1
Cette inégalité de Jensen peut être prouvée par récurrence. En effet :

- Pour n = 1, on a P (x) = 1 et l’inégalité de Jensen devient :
g(x × 1) = g(x) × 1 = g(x) ce qui est trivial.
- Pour n = 2, on a P (x1 ) + P (x2 ) = 1 ⇒ P (x2 ) = 1 − P (x1 ) et si on pose

P (x1 ) = λ, on trouve P (x2 ) = 1 − λ et l’inégalité de Jensen se confond alors
avec la définition de la convexité de g(x) :
g (x1 P (x1 ) + x2 P (x2 )) = g(x1 λ + x2 (1 − λ))
≤ λg(x1 ) + (1 − λ)g(x2 ) = g(x1 )P (x1 ) + g(x2 )P (x2 )
L’inégalité de Jensen vient d’être vérifiée pour n = 1 et pour n = 2. Supposons donc

qu’elle est vraie pour n = k − 1 et montrons que si elle est vraie pour k − 1, alors
elle est aussi vraie pour k.
Inégalité vraie pour n = k − 1 ⇐⇒

k−1 k−1

g xi P (xi ) ≤ g(xi )P (xi )
i=1 i=1
Pour n = k,
k
k−1

g(xi )P (xi ) = g(xi )P (xi ) + g(xk )P (xk )
i=1 i=1
Posons P (xi ) = P (xi )/(1 − P (xk ), dans ce cas
k
k−1

g(xi )P (xi ) = g(xi )P (xi )[1 − P (xk )] + g(xk )P (xk )
i=1 i=1
k−1

= (1 − P (xk )) g(xi )P (xi ) + g(xk )P (xk )
i=1
Inégalité vraie pour k − 1 ⇐⇒

k−1
k−1

g(xi )P (xi ) ≥ g xi P (xi )
i=1 i=1
Comme on a ci dessus :
k
k−1

g(xi )P (xi ) = (1 − P (xk )) g(xi )P (xi ) + g(xk )P (xk )
i=1 i=1
k−1

≥ (1 − P (xk ))g xi P (xi ) + g(xk )P (xk )
i=1
k−1
Posons i=1 xi P (xi ) = xk−1 , d’où :
k

g(xi )P (xi ) ≥ (1 − P (xk ))g(xk−1 ) + g(xk )P (xk )
i=1
Dans le cas où n = 2, xk−1 et xk , on a :
(1 − P (xk ))g(xk−1 ) + g(xk )P (xk ) ≥ g (xk−1 (1 − P (xk )) + xk P (xk ))
D’où :
k
k−1

g(xi )P (xi ) ≥ g (1 − P (xk )) xi P (xi ) + xk P (xk )
i=1 i=1
k−1

= g xi P (xi ) + xk P (xk )
i=1
k

= g xi P (xi )
i=1
En conclusion :
k
k

g(xi )P (xi ) ≥ g xi P (xi ) C.Q.F.D.
i=1 i=1
Si l’inégalité est vraie pour k − 1, elle est aussi vraie pour k. Comme elle est vraie
pour 2, alors elle est vraie 3, . . . , n pour tout n.
Dans le cas où g(t) = t2 , l’inégalité de Jensen s’écrit :
n
n 2

x2i P (xi ) ≥ xi P (xi ) ⇒ E(X 2 ) ≥ E 2 (X)
i=1 i=1
résultat déjà connu, puisque :
V (X) = E(X 2 ) − E 2 (X) ≥ 0 ⇒ E(X 2 ) ≥ E 2 (X)
Dans le cas où g(x) = ln(x), on sait que ln(x) est concave puisque (ln(x))(2) = − x12 <
0. Donc, − ln(x) est convexe, d’où l’inégalité de Jensen pour − ln(x) :
n n n n

− ln xi P (xi ) ≤ − ln(xi )P (xi ) ⇒ ln xi P (xi ) ≥ ln(xi )P (xi )
i=1 i=1 i=1 i=1
Ce résultat est utilisé pour obtenir l’algorithme de maximisation de l’espérance ma-

thématique et pour montrer la convergence des estimateurs du maximum de vrai-
semblance.
Loi faible des grands nombres

Cette loi s’énonce ainsi : si Xn est une suite de v.a. avec
E(Xn ) = µ et lim V (Xn ) = 0,

n−→∞
alors plim(Xn ) = µ ou Xn −→ µ.
p
Cette loi dit simplement qu’une suite de v.a. converge en probabilité vers son
espérance mathématique lorsque n tend vers l’infini, si sa variance tend vers 0 lorsque
n tend vers l’infini. La loi faible est contenue dans cette limite de V (Xn ) et cette
2
limite est contenue dans le résultat V (X̄n ) = σn établi au début du présent chapitre
(Section 7.1. Moments empiriques) pour la moyenne empirique.
Pour démonter la loi faible des grands nombres, il suffit d’utiliser l’inégalité de
Tchebychev vue ci-dessus. En effet, pour cette inégalité, pour tout ε > 0, on a :
σ2
P (|X − µ| ≥ ε) ≤
ε2
avec E(X) = µ et V (X) = σ 2 . D’où :
V (X)
P (|X − µ| ≥ ε) ≤
ε2
Si V (X) −→ 0 lorsque n −→ ∞, alors lorsque n −→ ∞, on a P (|X − µ| ≥ ε) ≤ 0.
Comme une probabilité ne peut pas être négative, on a : P (|X − µ| ≥ ε) = 0.
C’est cela la convergence de X vers µ.
On peut généraliser cette loi faible des grands nombres ainsi : si lim E(Xn ) = µ
et lim V (Xn ) = 0 alors plim(Xn ) = µ. Il suffit de centrer les v.a. pour obtenir cette
généralisation.
Une application directe de la loi des grands nombres concerne la moyenne empi-
rique que nous venons d’évoquer.
En effet, la moyenne échantillonnale X̄n des n v.a. indépendantes et identique-
2
ment distribuées (i.i.d.) ayant E(Xi ) = µ et V (Xi ) = σ 2 , E(X̄n ) = µ et V (Xi ) = σn .
D’où lim V (X̄n ) = 0 et plim X̄n en vertu de la loi faible des grands nombres.
n−→∞
Théorème de Slutsky
Ce théorème dû au scientifique russe ( mathématicien, statisticien et économiste)
Evgeny (Eugen) Slutsky (1880-1948) est en fait énoncé de différentes manières et il
concerne la convergence en probabilité aussi bien que la convergence en loi que nous
n’avons pas encore vue. Le travail de Slutsky nous intéressant ici, a consisté à étendre
les propriétés des opérations algébriques sur les suites de nombres réels convergentes
aux suites de v.a.
La forme qui nous intéresse ici s’énonce ainsi :
Si f est une application réelle continue, alors Xn −→ X ⇒ f (Xn ) −→ f (X).
p p
Cela veut dire que la convergence en probabilité d’une suite de v.a. est conservée par
les fonctions réelles continues de v.a. C’est que la limite de la suite des images de
v.a. est l’image de la limite de la suite.
On peut généraliser ce théorème de Slutsky au cas de deux dimensions :
si f est une application de R2 dans R uniformément continue et si Xn et Yn
sont 2 suites de v.a. convergentes en probabilité vers X et Y respectivement, alors
f (Xn , Yn ) −→ f (X, Y ).
p
En appliquant ce théorème de Slutsky généralisé à l’addition et à la multiplication
de 2 suites de v.a., on obtient :
Xn + Yn −→ X + Y et Xn Yn −→ XY
p p
7.2.2 Convergence en loi

Une suite de v.a. Xn , de fonctions de répartition (f.r.) Fn converge en loi vers
une v.a. X de f.r. F si la suite {Fn } converge vers F (X) en tout point x où F est
continue. On note alors : Xn −→ X ou dlim Xn = X.
loi n−→∞
Notons que les v.a. X1 , . . . , Xn ont des f.r. différentes F1 , . . . , Fn , mais ces f.r.
convergent, lorsque n tend vers l’infini, vers la f.r. F de X. On a donc : lim Fn (x) =
n−→∞
F (x).
On dit indifféremment convergence en loi ou convergence en distribution, d’où d
de dlim.
Exemple : soit la moyenne empirique X̄n de n observations Xi indépendantes cen-

trées et réduites et donc E(Xi ) = 0 et V (Xi ) = 1. La loi faible des grands nombres
√
implique que plimX̄n = 0. Si l’on considère la suite nX̄n , il est évident qu’elle
√
ne converge pas en probabilité, car n X̄n devient indéterminée lorsque n −→ ∞ :
∞ × 0. Cette suite converge cependant en loi. Elle converge vers la loi normale,
comme on verra ci-dessous. Cela signifie que la convergence en loi est plus faible que
la convergence en probabilité.
Les moments de la loi limite F s’appellent moments asymptotiques de Xn . On
parle ainsi d’espérance asymptotique d’un estimateur ou de sa variance asympto-
tique. On parle aussi d’estimateur asymptotiquement sans biais ou asymptotique-
ment efficace. Il s’agit ici des moments de F et non des limites des moments de
Fn .
Relation entre plim et dlim

Si la suite de paires de v.a. (Xn , Yn ) est telle que plim(Xn − Yn ) = 0 et dlimYn =
Y , alors dlimXn = X.
Notons qu’une même loi limite de Xn et Yn n’implique pas plim(Xn − Yn ) = 0,
lorsque cette distribution limite n’est pas dégénérée (dégénérée : prenant une seule
valeur =0 avec probabilité =1, masse de Dirac en 0, δ0 ).
Théorème de Slutsky pour la convergence en loi

Si g est une fonction réelle continue, alors Xn −→ X ⇒ g(Xn ) −→ g(X).
loi loi
Fonction caractéristique et convergence en loi

Rappelons que la fonction caractéristique d’une v.a. X est :

ϕX (t) = E ei t x = E [cos(tx)] + i E [sin(tx)]
Cette fonction caractéristique existe toujours puisque cos(tx) et sin(tx) sont des
fonctions bornées [−1, 1] pour toute valeur de tx, leurs espérance mathématiques
existent donc toujours. Cette fonction caractéristique de X caractérise entièrement
la distribution de X.
Notons aussi que, si X et Y sont 2 v.a. indépendantes, alors ϕX+Y (t) = ϕX (t) ·
ϕY (t), car

E ei t(x+y) = E ei t x · ei t y = E ei t x E ei t y (indépendance de X et Y )
Une dernière propriété de la fonction caractéristique est ainsi : Xn est une suite de
v.a. ϕXn est la suite de leurs fonctions caractéristiques si lim ϕXn (t) = ϕ(t) et
n−→∞
si ϕ(t) est continue en t = 0, alors ϕ(t) est une
fonction
caractéristique, celle de
dlimXn . C’est-à-dire que et dlimXn = X et E ei t x = ϕ(t)
Cette propriété permet de démontrer le théorème central limite ci-après
Calculons la fonction caractéristique d’une v.a. normale
X N (µ, σ 2 ), sa fonction caractéristique est E[ei t X ]
E[ei t X ] = E[ei t (X−µ+µ) ] = E[ei t µ · ei t (X−µ) ] = ei t µ E[ei t (X−µ) ]
(ei t µ constante ne dépendant pas de x)

+∞
1 (x−µ)2
E ei t (X−µ) = √ ei t (x−µ) e− 2σ2 dx Posons y = x − µ ⇒ dx = dy
σ 2π −∞
+∞ +∞
1 y2 1 y2
= √ ei t y e− 2σ2 dy = √ e− 2σ2 +i t y dy
σ 2π −∞ σ 2π −∞
+∞
1 y 2 −2σ 2 i t y
= √ e− 2σ2 dy
σ 2π −∞
or
y 2 − 2σ 2 i t y y 2 − 2σ 2 i t y + σ 4 i2 t2 − σ 4 i2 t2 (y − σ 2 i t)2 − σ 4 i2 t2
− − −
e 2σ 2 = e 2σ 2 =e 2σ 2
σ 4 i 2 t2 (y − σ 2 i t)2 σ 2 t2 1
2
− 2
− − 2 (y − σ 2 i t)2
= e 2σ ×e 2σ =e 2 ×e 2σ
Donc +∞
1 σ 2 t2 1 2 2
E ei t (X−µ) = √ e− 2 e− 2σ2 (y−σ i t) dy.
σ 2π −∞
Posons z = y − σ 2 i t, alors dy = dz et
+∞ +∞
1 1 2 2 1 z2
√ e− 2σ2 (y−σ i t) dy = √ e− 2σ2 dz = 1
σ 2π −∞ σ 2π −∞
Ainsi,
σ 2 t2
E ei t (X−µ) = e− 2
et donc
σ 2 t2 σ 2 t2
E ei t X = ei t µ × E ei t (X−µ) = ei t y × e− 2 = ei t y− 2 = ϕX (t)
Théorème Centrale limite

Il existe des versions différentes de ce théorème. Considérons d’abord le cas où
l’on a des v.a. iid avant de voir le cas où les v.a. ne sont pas identiquement distribuées
Cas de v.a. iid Nous avons vu dans le cas de n v.a. iid Xi , X1 , X2 , . . . , Xn

que la suite des X̄n converge vers la moyenne théorique µ. La suite des X̄n converge
√
donc vers 0, lorsque les Xi sont centrées (et réduites). Dans ce cas, nX̄n tend vers
∞ × 0 lorsque n tend vers l’infini, une forme indéterminée.
√
Le théorème central limite nous dit que nX̄n , X̄n moyennes de v.a. centrées et
√
réduites, converge en loi vers la loi normale : dlim nX̄n N (0, 1) avec
n √
Zi − µ 1 √ n(Z̄ − µ)
Xi = et X̄n = Xi et donc nX̄n =
σ n σ
i
Ce théorème porte le nom de théorème de Lindeberg-Lévy (Jarl Waldeman Lindeberg,

mathématicien finnois, 1876-1932 et Paul Lévy, mathématicien français, 1886-1971).
Cette formulation du théorème central limite (CLT) se démontre ainsi : La fonc-
tion caractéristique d’une v.a. Yj (pour distinguer l’indice j du nombre imaginaire i)
Xj
est ϕYi (t) = E ei t Yj . Posons Yj = √ les Xj sont des v.a. iid centrées et réduites.
n
On sait que le développement limite de ex en 0 est :
x2 x3 xn
ex = 1 + x + + + ... + + o xn+1 .
2! 3! n!
Appliquons cette formule à Yj :
(itYj )2 (itYj )3 (itYj )n

eitYj = 1 + (itYj ) + + + ... + + . . . + o Yj n+1
2! 3! n!
i 2 t2 2 i 3 t3 3
= 1 + it(Yj ) + Yj + Yj + o Yj n+1
2! 3!
i2 t2 2 i3 t3 3
ϕYj (t) = eitYj = E(1) + itE(Yj ) + E Yj + E Yj
2 3!
1 1
E(Xj ) = 0 ⇒ E(Yj ) = 0, V (Xj ) = 1 ⇒ V (Yj ) = √ 2 = = E(Yj2 )
n n
Avec un n grand, on peut négliger les termes d’ordre supérieur à 2 et écrire
i2 t 2 1
ϕYj (t) = eitYj = 1 + 0 + + ...
2 n
D’où
t2
ϕYj (t) 1 −
2n
Les Yi sont indépendantes, la fonction caractéristique de leur somme est le produit des
fonctions caractéristiques des Yi (comme on a vu ci-dessus dans la présente section)
D’où, n
t2
ϕnj Yj (t) 1 − (pour n grand)
2n
Calculons la limite de ϕni Yj (t) lorsque n tend vers l’infini :
n n
t2 −t2 /2 −t2
lim 1− = lim 1+ =e 2
n−→∞ 2n n−→∞ n
car
n
−t2 /2 −t2 /2 −t2 /2 −t2 /2 −t2
ln 1+ = n ln 1 + et lim n ln 1 + =n =
n n n−→∞ n n 2
n
−t2 /2 −t2
⇒ lim exp ln 1 + =e 2
n−→∞ n
n
n
n
−t2 Xj 1 √
Finalement lim ϕnj=1 Yj (t) = e 2 , or Yj = √ = √ Xj = nX̄
n−→∞ n n
j=1 j=1 j=1
D’où
2
−t2 it×0−12 t2
lim ϕ√nX̄ (t) = e 2 =e
n−→∞
On reconnaît là la fonction caractéristique (calculée ci-dessus) de la loi normale

√
de µ = 0 et σ 2 = 1. Donc nX̄n suit une loi normale standard N (0, 1). Donc
√
dlim( nX̄n ) N (0, 1).
Le CLT appliqué au nombre de succès dans n tirages effectués avec remise, c’est-à-
dire n tirages indépendants. À chaque tirage correspond le succès avec une probabilité
de p ou un échec avec (1 − p). Le nombre de succès est la somme des succès obtenus
lors des n tirages. Donc si l’on appelle Zi la variable aléatoire correspondant au tirage
i et prenant 1 en cas de succès et 0 en cas d’échec. Y le nombre de succès obtenus
lors des n tirages est
n
Y = Zi ,
i=1
E(Zi ) = 1×p+0×(1−p) = p, V (Zi ) = E(Z 2 )−E 2 (Z), E(Z 2 ) = 12 p−02 (1−p) = p

ce qui entraine
V (Zi ) = p − p2 = p(1 − p)
D’où
n
n

E(Y ) = E Zi = E(Zi ) = np
i=1
n
i=1

V (Y ) = V Zi = np(1 − p)
i=1
Zi − p
Si l’on centre et réduit les Zi , on obtient Xi =
p(1 − p)
n n
Zi − p
( ni=1 Zi − np) (Y − np) Y − np √
Xi = = = = n = nX̄
i=1 i=1
p(1 − p) p(1 − p) p(1 − p) np(1 − p)
Ainsi,
√ Y − np
nX̄n =
np(1 − p)
√
Le CTL nous dit que nX̄n converge en loi vers N (0, 1) lorsque n est grand. Donc, on
Y − np
peut approcher , loi binômiale de paramètres n et p, par une loi normale
np(1 − p)
d’espérance np de variance np(1 − p).
Variables aléatoires indépendantes, mais non identiquement distribuées

Dans le cas où les v.a. indépendantes ne sont pas identiquement distribuées, il faut
introduire une condition sur les troisièmes moments des variables. En acceptant cette
condition, on aboutit au théorème suivant :
Si Zt est une suite de vecteurs aléatoires indépendants avec E(Zt ) = 0 et V (Zt ) =
E(Zt Zt ) = Mt et si l’on a :
n
1
i lim Mt = M , M définie positive
n−→∞ n
t=1
ii E (Zit Zjt Zkt ) < ∞ pour tout i, j, k, t
√
Alors nX̄n converge en loi vers N (0, M ).
Cas des variables dépendantes

Dans un tel cas, il faut faire une hypothèse sur la forme de dépendance des v.a.
afin d’étudier la convergence en loi de la suite de vecteurs aléatoires.
Une forme particulière de cette dépendance est la forme des différences de mar-
tingales qu’on peut définir ainsi.
Une suite infinie de v.a. Zt ou de vecteurs aléatoires, est une différence de mar-
tingales si E(Zi ) = 0 pour tout t et si E(Zt /Zt−1 , Zt−2 , . . . , Zn ) = 0 pour tout t.
James D. Hamilton, présente le CLT pour une suite de différences de martingales,
dans son Time Series Analysis, Princeton University Press, 1994, à la page 194. Voici
sa présentation :
1 T
Soit{Yt }∞
t=1 un vecteur dans R de différences de martingales avec Ȳt = T
n
t=1 Yt .
Si l’on suppose que :
1
a) E(Yt Yt ) = Ωt , une matrice définie positive avec ΣTt=1 Ωt −→ Ωt une matrice
T
définie positive ;
b) E(Yit Yjt Ylt Ymt ) < ∞, pour tous i, j, l et m (dont i = j = l = m) où Yit est
le ième élément du vecteur Yt ;
T
1
c) Yt Yt −→ Ω
T
t=1
√
alors, T ȲT −→ N (0, Ω).
loi
Convergence des lois usuelles

Il s’agit de voir le comportement asymptotique, lorsque n −→ ∞, des différentes
lois usuelles.
Convergence de la loi binômiale : Une v.a. X suit une loi binômiale de para-
mètres n et p, B(n, p), si on a : P (x = k) = Cnk pk (1 − p)n−k .
Que se passe-t-il pour cette expression lorsque n −→ ∞. Deux situations doivent
être distinguées :
• La situation où p reste fixe lorsque n −→ ∞. C’est la situation classique où X est

la somme de n v.a. Xi indépendantes et de même loi de Bernoulli de paramètre p :
n

X= Xi , E(Xi ) = p et V (Xi ) = p(1 − p).
i=1
Dans cette situation, l’application du CLT conduit au résultat que
√ X̄n − p
n −→ N (0, 1)
p(1 − p) loi
n
X 1
où X̄n = = Xi . D’où :
n n
i=1
√ X
√ X̄n − p n n −p X − np
Zn = n = = et Zn −→ N (0, 1)
p(1 − p) p(1 − p) np(1 − p) loi
La distribution de Zn converge ainsi vers la distribution normale standard lorsque

n → ∞. Cette version du CLT est appelée théorème de Moivre-Laplace (dû à Abra-
ham De Moivre, mathématicien français, 1667-1754 et à Pierre-Simon Laplace, savant
français, 1749-1827). Ce théorème signifie que pour n grand, la distribution
binômiale
est approximativement normale de moyenne np et d’écart type np(1 − p). Mais, à
partir de quelle valeur pour n, l’approximation est-elle valable ? Cela dépend en fait
de p. La règle adoptée est qu’on a besoin que np ≥ 5 et n(1 − p) ≥ 5.
Evidemment, il faut se rappeler que lorsqu’on approxime une loi binômiale par
une loi normale, c’est une loi discrète qui est approchée par une loi continue, et il
ne faut pas manquer de réécrire les probabilités de la fonction de masse P (X = k)

sous la forme d’une probabilité d’intervalle P (k − 0.5 < X < k + 0.5). C’est ce qu’on
appelle la correction de continuité.
Exemple numérique : soit X B(n, p) avec p = 0.1.

Pour n = 20, P (10 ≤ X ≤ 15) = P (X = 10) + P (X = 11) + . . . + P (X = 15) ou
P (10 ≤ X ≤ 15) = P (X ≤ 15) − P (X ≤ 10) 1 − 0.999999 = 0.0000001.
Comme np = 2 < 5, on ne peut pas faire l’approximation par la loi binômiale
X − np
pour Zn = .
np(1 − p)
10 − 2 8
Pour X = 10, on trouve : Z = √ = = 5.963.
20 × 0.1 × 0.9 1.3416
13
Pour X = 15, on trouve : Z = = 9.69.
1.3416
Ainsi
P (5.963 ≤ Zn ≤ 9.69) 0
Lorsque n = 50, P (10 ≤ X ≤ 15) = 0.999982 − 0.9906454 = 0.00934. Comme
np = 5 ≥ 5, on peut approcher la loi binômiale par la loi normale standard
X − np X −5 X −5
Zn = = √ =
np(1 − p) 4.5 2.1213
pour X = 15 on a Z = 4.714 et pour X = 10 on a Z = 2.357 et
P (2.357 ≤ Zn ≤ 4.714) 0.99997 − 0.99079 = 0.00918.
Avec la loi binômiale, on a une probabilité de 0.00934, avec la loi normale, on

trouve 0.00918, l’approximation est bonne, sans correction de continuité !
• La seconde situation est lorsque np −→ µ ≥ 0 lorsque n → ∞. Dans ce cas, lorsque

µ µ
n → ∞, on a : p −→ . À n infini p = .
n n
µ
Montrons que lorsque p = et que p diminue et tend vers 0 avec n1 , la loi
n
binômiale converge vers la loi de Poisson.
On sait que pour la loi binômiale, on a :
P (X = k) = Cnk pk (1 − p)n−k
Cette expression peut être réécrire ainsi,
n! µ
k n−k
P (X = k) = p (1 − p) np = µ ⇒ p =
nk (n − k)! n
n!
µ n−k µ k
= 1−
nk (n − k)! n n
µk n! µ n µ −k
= k
× k 1− 1−
n n (n − k)! n n
Pour calculer la limite de l’expression lorsque n → ∞, calculons séparément les

limites des 3 facteurs dépendant de n :
n! n(n − 1) · · · (n − k + 1) n(n − 1) · · · (n − k + 1)
lim = lim = lim =1
n→∞ nk (n − k)! n→∞ nk n→∞ n × n × ··· × n

µ n µ −µ
lim 1 − = lim exp n ln 1 − = lim exp n × = e−µ
n→∞ n n→∞ n n→∞ n
µ − k
lim 1 − = 1−k = 1
n→∞ n
Finalement,
µk µk e−µ
lim Cnk pk (1 − p)n−k = × 1 × e−µ × 1 =
n→∞ k! k!
On trouve ainsi la fonction de Poisson. Nous venons de montrer que lorsque np = µ
µ
et que donc p = c’est-à-dire que p diminue lorsque n augmente et qu’elle tend
n
vers 0 lorsque n tend vers l’infini, dans ce cas la loi binômiale converge vers la loi de
Poisson :
µk e−µ
lim B(k; n, p) =
n→∞ k!
Exemple numérique : Pour p = 0.1 et n = 30, on lit dans la table de la loi
binômiale P (X = 2) = 0.22766. Pour la table de la loi de Poisson de paramètre np =
3, on lit P (X = 2) = 0.224042. La loi de Poisson est donc une bonne approximation
de la loi binômiale à partir de n = 30.
Pour n = 100, toujours pour p = 0.1, on obtient pour la loi binômiale P (X =
2) = 0.00162, et pour la loi de Poisson P (X = 2) = 0.00227.
Remarque : au lieu de lire dans les tables statistiques, on peut utiliser le calculateur
de probabilité en ligne suivant : https ://www.easycalculation.com/statistics/
Convergence de la loi hypergéométrique Rappelons que la loi hypergéomé-

trique est celle du nombre k d’objets A tirés sans remise d’une urne contenant N
objets dont NA objets A et (N − NA ) objets B. Les tirages sans remise sont dépen-
dants, car ils modifient le contenu de l’urne à chaque fois.
La probabilité d’obtenir k objets A est ainsi :
k C n−k
CN A N −NA
P (X = k) = n
CN
avec k ≤ n et n ≤ N puisqu’il ne peut pas y avoir de tirage, lorsque l’urne est vidée.
n2
Que se passe-t-il lorsque N → ∞, n → ∞, de sorte que → 0. Posons
N
k C n−k
CN
NA N − NA p Nq
p= ⇒ NA = Np ⇒ q = et P (X = k) = n
N N CN
Développons chacun des facteurs :
k Np ! Np (Np − 1) · · · (Np−k+1 )
CN p
= =
k! (Np−k )! k!
1 1 Np (Np−1 ) · · · (Np−k+1 )
= Np (Np−1 ) · · · (Np−k+1 ) = Npk
k! k! Np · · · N p

Npk 1 2 k−1
= 1 1− 1− ... 1 −
k! Np Np Np
k
Np N k 1 2 k−1
= 1 − 1 − . . . 1 −
N k k! Np Np Np
k

N 1 2 k−1
= pk 1− 1− ... 1 −
k! Np Np Np
On reprend ce résultat en faisant les substitutions nécessaires pour obtenir

n−k N n−k 1 2 n−k−1
CN = q n−k 1− 1− ... 1 − même procédé
q
(n − k)! Np Nq Nq

n Nn 1 2 n−1
CN = 1n × 1− 1− ... 1 −
n! N N N
n

N 1 2 n−1
= 1− 1− ... 1 −
n! N N N
Remplaçons ces trois facteurs dans P (X = k) pour obtenir :

P (X = k)
k

1 kN 1 k−1
= p 1− ... 1 −
Nn 1 n−1 k! Np Np
1− ... 1 −
n! N N

N n−k 1 n−k−1
× q n−k 1− ... 1 −
(n − k)! Nq Nq

1 n! 1
= pk q n−k × k
×N 1−
1 n−1 k!(n − k)! Np
Nn 1 − ... 1 −
N N

k−1 n−k 1 n−k−1
... 1 − ×N 1− ... 1 −
Np Nq Nq
 
1 k−1 1 n−k−1
 N k N n−k 1−
... 1 − Np × 1− ... 1 −
Np Nq Nq 
= Cnk pk q n−k 
 

1 n−1
Nn 1 − ... 1 −
N N
 
1 k−1 1 n−k−1
 1 − Np . . . 1 − N p × 1 − Nq . . . 1 − Nq 
= B(k, n, p) × 
 

1 n−1
1− ... 1 −
N N
= B(k, n, p) × R(k, n, N )
avec

k−1
i

n−k−1
i

1− × 1−
Np Nq
i=1 i=1
R(k, n, N ) = (7.1)

n−1
i

1−
N
i=1
Le 1er facteur, Cnk pk q n−k n’est autre que P (X = k) pour X B(n, p). On
peut lui appliquer le CLT de Moivre-Laplace lorsque n → ∞. Ce 1er facteur tend
vers la loi normale. Le second facteur R(k, n, N ), lui, est un ratio comportant au
numérateur A deux facteurs et au dénominateur D un seul facteur. Etablissons sa
limite inférieure et sa limite supérieure. Rappelons pour cela que 1 − x ≤ e−x , ∀x et
que 1 − x ≥ e−x(1+ε) pour 0 ≤ x ≤ δ où δ = δ(ε) −→ 0 lorsque ε → 0, ∀ε positif. Le
dénominateur de (7.1) est :

n−1
i

1

2

n−1

D= 1− = 1− 1− ··· 1 −
N N N N
i=1
n
Il est évident que lorsque N → ∞ et que → 0, on a D −→ 1.
N
Pour le numérateur A comportant 2 “facteurs” (l’un en fonction de Np , l’autre de

Nq ). Le 1er facteur est :

1 2 k−1
1− 1− ... 1 − soit (1 − x1 ) (1 − x2 ) . . . (1 − xk−1 )
Np Np Np
On vient de voir que chacun des facteurs 1 − x ≤ e−x d’où :

k−1

− xi
(1 − x1 ) (1 − x2 ) . . . (1 − xk−1 ) ≤ e−x1 e−x2 e−x3 · · · e−xk = e i=1
Donc,
k−1
i
−
1 2 k−1 Np
1− 1− ... 1 − ≤e i=1
Np Np Np
Or,
−k(k − 1)
k−1
i 1
k−1
k(k − 1)
k−1
i

= i=+ =⇒ 1− ≤ e 2Np
Np Np 2 Np
i=1 i=1 i=1
(n − k)(n − k − 1)
n−k−1
−
=⇒ ≤e 2Nq
i=1
ce qui implique
−k(k − 1) −(n − k)(n − k − 1) −k(k − 1) (n − k)(n − k − 1)

−
A≤e 2N p ×e 2N q = e 2Np 2Nq = e−E
On montre 1 que :
√
n2 x2 n n x npq(p − q)
E= + − + −→ 0
2N 2N N 2N pq
n2
lorsque n → ∞, N → ∞ et → 0.
N
On vient de montrer que la limite supérieure du numérateur tend vers 1 sous les
n2
conditions n → ∞ et → 0.
N
On peut établir maintenant la limite inférieure en utilisant 1−x ≥ e−x(1+ε) et obtenir
que :

k(k − 1) (n − k)(n − k − 1)
−(1 + ε) +
A≥e 2Np 2Nq soit A ≥ e−(1+ε)E
k − np √
1. x = √ ⇒ k = x npq + np
npq
Cette limite inférieure tend aussi vers 1 sous les mêmes conditions. D’où :
1 ≤ lim inf R(k; n, N ) ≤ lim sup R(k; n, N ) ≤ 1
Le numérateur A tend donc vers 1 comme le dénominateur, d’où R(k; n, N ) −→ 1

n2
lorsque n → ∞, N → ∞ et → 0.
N
D’où convergence de la loi hypergéométrique vers la loi binômiale lorsque les 3 condi-
tions sont satisfaites ; et à n → ∞, la loi binômiale peut être approchée par la loi
normale. Donc, à ces conditions, la loi hypergéométrique converge vers la loi normale.
Exemple numérique :
- Pour n = 10, N = 100, NA = 20. Pour x = 2, P (X ≤ 2) = 0.6812. Le calcul

avec Matlab se fait aisément avec la commande
p = cdf (‘hypergeometric , 2, 100, 20, 10).
La loi binômiale B(10, 0.2) donne pour P (X ≤ 2) = 0.6778, soit une bonne
approximation de la loi hypergéométrique.
L’approximation de la loi binômiale par la loi normale ne donne pas ici de
bons résultats, car p = 0.2 > 0.1 et n = 10 30.
— Pour n = 30, N = 200, NA = 100 La loi hypergéométrique donne P (X ≤
12) = 0.1611. Or B(30, 0.5) = 0.1808 pour P (X ≤ 12), ce qui n’est pas une
très bonne approximation.
L’approximation normale donne pour
12 − np 12 − 15 −3
√ = √ = = −1.0955
npq 7.5 2.7386
L(x ≤ −1.0955) = 1 − L(x ≤ 1.0955) = 1 − 0.8634 = 0.1366

Avec la correction de continuité, la loi normale donne : P (X ≤ 12.5−15
√
7.5
=
−0.9129) = 0.1806. Ce qui est une excellente approximation de la loi hyper-
géométrique.
Convergence de la loi de Poisson
λk
Si X P(λ), on a P (x = k) = e−λ , k ∈ N.
k!
La fonction caractéristique de la loi de Poisson ϕX (t) est :
∞ ∞ ∞ i t k
λk i t k e−λ λe
ϕX (t) = E ei t X = ei t k × e−λ = λe × = e−λ
k! k! k!
k=0 k=0 k=0
En posant x = λei t , on obtient :

∞

xk x2 x3 xn
ϕX (t) = e−λ = e−λ 1 + x + + + ... + + . . . = e−λ ex
k! 2! 3! n!
k=0
Et remplaçons x par sa valeur pour obtenir

it i t −1)
ϕX (t) = e−λ eλe = eλ(e
Si Xn est une suite de v.a. Xi suivant une loi de Poisson de paramètre λi , Xn

P (λn ).
X n − λn
Considérons les v.a. centrées et réduites Zn = √ (rappelons que pour la loi
λn
de Poisson, on a E(X) = V (X) = λ)
λkn k − λn
ϕZn (t) = E ei t Zn P (Xn = k) = e−λn Xn = k ⇒ Zn = √
k! λn
∞
it k−λ
√ n λkn −λn
= e λn × e
k!
k=0
∞
√ ∞
it √k
√ λkn i t √k λk
= e−λn e λn e−i t λn
× = e−λn e−i t λn e λn × n
k! k!
k=0 k=0
k
√i t
√ ∞ e

λn λn it
√
= e−λn −i t λn
Posons x = e n λn
k!
k=0
∞
∞

√ xk √ xk
−λn −i t
= e λn
= e−λn −i t λn car x
e =
k! k!
k=0 k=0
Ainsi
√ √it √it

λn
ϕZn (t) = e−λn −i t λn λn e
e = exp −λn − i t λn + λn e λn
√it
ln ϕZn (t) = −λn − i t λn + λn e λn
or 2
√it
√it x2 it λn
e λn = ex = 1 + x + + ... = 1 + √ + + ...
2 λn 2
alors

it t2
ln ϕZn (t) = −λn − i t λn + λn 1 + √ − + ...
λn 2λn
t2
= −λn − i t λn + λn + it λn − + (. . .)
2
t2
= − + (. . .) (. . .) tend vers 0 lorsque n → ∞
2
t2
eln ϕZn (t) = e− 2 +(...)
t2
ϕZn (t) → e− 2 : c’est la fonction caractéristique de la loi normale standard
Ainsi,
X n − λn
Zn = √ N (0, 1)
n loi
La loi de Poisson converge ainsi vers la loi normale lorsque n → ∞.
Exemple numérique :
P(15) donne pour P (X ≤ 8), commande “p=cdf(‘poisson’,18,15)”, P (X ≤ 18) =

0.8195.
X n − λn
Pour l’approximation de Poisson par la loi normale standard, Zn = √
λn
18 − 15 +3
N (0, 1) ; Z = √ = √ = +0.7746 ; N (X ≤ +0.7746) = 0.7805. Avec la
15 15
correction de continuité, on obtient N (X ≤ 3+0.5
√
15
= +0.9037) = 0.8169 Ce qui est
une très bonne approximation.
Convergence des loi usuelles continues L’application directe du CLT aux dif-
férentes loi nous donne :
• Si X suit une loi gamma de paramètre k, γ(k), alors lorsque k → ∞, on a
X −k
√ −→ N (0, 1) (on sait que E(X) = V (X) = k.)
k loi
• Si X suit une loi du χ2 de nombre de degrés de liberté ν, lorsque ν → ∞, on
X −ν
a: √ −→ N (0, 1) (on sait que E(X) = ν et V (X) = 2ν.)
2ν loi
• Si X suit une loi de Student dont le nombre de degrés de liberté est n et si
n → ∞, alors : X −→ N (0, 1) (on sait que E(X) = 0 et V (X) = n−2 n
pour
loi
n > 2, pour n → ∞, V (X) → 1).
Autres modes de convergence

Nous avons vu, dans ce qui précède, la convergence en probabilité et la conver-
gence en loi ou en distribution. Il nous reste à voir la convergence des moments
empiriques, la convergence en moyenne quadratique, la convergence presque sûre et
la convergence presque complète.
Convergence des moments empiriques

Le moment empirique d’ordre k pour un échantillon de taille n, est :
n
1 k
mkn = Xi
n
i=1
Le moment empirique centré d’ordre k, pour un échantillon de taille n est :

n n
1 k 1
µkn = Xi − X̄n où X̄n = Xi
n n
i=1 i=1
X̄n , correspond au moment empirique d’ordre 1 appelé moyenne empirique.

n
1 2
Ve = Xi − X̄n correspond au moment empirique centré d’ordre 2, appelé
n
i=1
variance empirique. k
Le moment d’ordre k est défini par mk =
E X
Le moment centré d’ordre k est µk = E (X − E[X])k
Nous avons vu que la suite X̄n converge en probabilité et en loi vers m1
n
1 p
m1n = Xi = X̄n −→ m1
n n→∞
i=1
Nous avons également vu que

√ loi
n Ve − σ 2 −→ N 0, µ4 − µ22
n→∞
Et par application de la loi des grands nombres, on a :

n
1 k
mkn = Xi −→ E(X k ) = mk
n p
i=1
Convergence en moyenne quadratique

2
Une suite Xn converge en moyenne quadratique vers X : Xn −→ X, si

lim E (Xn − X)2 = 0, E(Xn2 ) < ∞ et E(X 2 ) < ∞
n→∞
Convergence presque sûre (almost surely)

Une suite Xn de v.a. converge presque sûrement vers la v.a. X, Xn −→ X, si
ps
Xn (ω) converge vers X(ω), pour tout ω ∈ Ω, àl’exception d’un
sous-ensemble de
Ω dont la probabilité est nulle : Xn −→ X si P lim Xn = X = 1. Si Xn est une
ps n→∞
suite de v.a. iid (indépendantes et de même loi) admettant une espérance notée m,
alors : X̄n −→ m lorsque n → ∞. C’est ce qu’on appelle la loi forte des grands
ps
nombres.
Convergence presque complète

Xn converge presque complétement sûrement vers X, Xn −→ X si
p.co.
∞

∀ε > 0, P {|Xn − X| > ε} < +∞
n=1
Cela conduit au théorème de Glinvenko-Cantelli qui s’énonce ainsi : Si Fn est la

fonction de répartition associée à un échantillon d’une loi de fonction de répartition
F , alors :
sup |Fn (x) − F (x)| −→ 0 lorsque n → ∞
x∈R p.co.
Remarque : Pour la convergence de la loi de Poisson vers la loi normale, notre

démonstration a utilisé les fonctions caractéristiques et, implicitement, le théorème
qui dit que Xn de loi de Poisson converge en loi, lorsque n → ∞, vers une loi normale,
lorsque la fonction caractéristique de la loi de Poisson converge avec n → ∞ vers la
fonction caractéristique de la loi normale (théorème de Lyapunov, Aleksandr, 1857-
1918, mathématicien russe, autre éléve de Chebyshev). Rappelons que pour une v.a.
X, la fonction caractéristique ϕX est définie par :

ϕX = E eitx = E (cos(tx) + i sin(tx)) = E(cos(tx)) + iE(sin(tx))
Rappelons les fonctions caractéristiques des lois usuelles :
Dirac, un point a : ϕX = eita = δa

n
Binômiale (n, p) : ϕX = 1 − p + peit
it −1)
Poisson (λ) : ϕX = eλ(e
eitb − eita
Uniforme (a, b) : ϕX =
it(b − a)
Exponentielle (θ) : ϕX = (1 − itθ)−1
Gamma (k, θ) : ϕX = (1 − itθ)−k

1 2 2
Normale (µ, σ 2 ) : ϕX = eitµ− 2 t σ
1 2
Normale Standard (0, 1) : ϕX = e− 2 t
Note finale : nous avons vu dans ce qui précède les différents modes de conver-
gence et les deux théorèmes fondamentaux de la statistique mathématique. Tout
cela montre la place centrale qu’occupe la loi normale en statistique mathématique,
base de l’économétrie. Il va sans dire que les modes de convergence les plus im-
portants sont la convergence en probabilité et, surtout, la convergence en loi et en
distribution.
Chapitre 8
Introduction à l’optimisation
dynamique : Calcul variationnel
8.1 Introduction
Le grand mathématicien suisse Leonhard Euler (1707 - 1783) écrit dans son livre
“ Methodus Inveniendi Lineas Curvas ” ce qui peut être rendu en français par : “
Il n y a rien de tout ce qui se passe dans l’univers où la règle du maximum ou du
minimum n’apparaît pas ”.
Euler affirme par là que la problématique de l’optimisation, c’est-à-dire de la
recherche du maximum ou du minimum, est universelle.
Optimiser, c’est traiter mathématiquement le problème de prise de décision qui
se passe dans la plupart des sciences, en ingénierie, économie, finance, management,
statistiques . . .
L’optimisation mathématique, également appelée programmation mathématique
se divise en un grand nombre de branches et de sous-branches. Le projet NEOS,
administré par l’université américaine de Wisconsin-Madison, propose un arbre de
ces branches et sous branches de l’optimisation
(neos-guide.org/optimisation-Guide).
Selon la taxonomie proposée, l’optimisation se divise en trois grandes branches :
— L’optimisation à objectifs multiples ;
— L’optimisation déterministe ;
— L’optimisation incertaine.
L’optimisation incertaine se subdivise en optimisation stochastique et optimisation
robuste.
L’optimisation déterministe se divise en optimisation continue et optimisation dis-
crète.
L’optimisation discrète est de deux sortes : entière et combinatoire.
L’optimisation continue peut être contrainte ou sans contrainte.
L’optimisation déterministe, continue et non contrainte est de 4 types :
— Les moindres carrés non linéaires ;
259
260 Chapitre 8. Introduction à l’optimisation dynamique : Calcul variationnel
— Les équations non linéaires ;

— L’optimisation non différentiable ;
— L’optimisation globale.
L’optimisation déterministe, continue contrainte est de 6 types :
— L’optimisation non différentiable ;
— L’optimisation globale ;
— Programmation non linéaire ;
— Optimisation de réseau ;
— Optimisation bornée ;
— L’optimisation contrainte linéairement.
La programmation non linéaire est de 4 sortes :
— Programmation semi-définie ;
— Programmation semi-indéfinie ;
— Programmation mathématique avec contraintes d’équilibre ;
— Programmation non linéaire entière mixte.
L’optimisation bornée donne l’optimisation sans dérivées et l’optimisation linéaire-
ment contrainte peut être soit de la programmation quadratique, soit de la program-
mation linéaire.
Quant à la programmation non linéaire semi-définie, elle peut être de la programma-
tion conique de second ordre ou de la programmation quadratique.
En mettant donc de côté l’optimisation à objectif multiple, l’optimisation à un seul
objectif ou à une seule fonction-objectif est soit une optimisation déterministe, soit
une optimisation incertaine. Elle est déterministe lorsque les données du problème
donné sont connues avec précision. Lorsque ces données sont incertaines, plus parti-
culièrement lorsque ces données concernent le futur, l’optimisation est incertaine.
Lorsque l’optimisation est incertaine, elle peut être soit de la programmation sto-
chastique, soit de l’optimisation robuste. L’optimisation stochastique traite le pro-
blème posé en termes probabilistes. L’optimisation robuste, plus récente, recourt aux
ensembles mathématiques.
L’optimisation déterministe, elle, est soit continue, soit discrète, selon la nature
des variables concernées. L’optimisation discrète peut être soit une programmation
entière, soit une programmation combinatoire. La programmation entière est un type
particulier de programmation linéaire. La programmation combinatoire traite des
problèmes du genre de celui du vendeur voyageur et de problèmes de management
relatifs aux stocks.
L’optimisation déterministe continue est le type d’optimisation qui a connu le plus
de développement et de ramifications. Elle peut être contrainte ou non contrainte,
linéaire ou non linéaire . . .
L’une des distinctions de types d’optimisation qui intéresse le plus l’économiste
nous semble être la distinction entre l’optimisation à un instant donné, l’optimisa-
tion statique, et l’optimisation d’une fonction variant dans le temps, l’optimisation
dynamique.
La programmation linéaire est statique et fait l’objet d’un cours dispensé parfois
en licence de sciences économiques et de gestion. L’optimisation mathématique conti-
nue statique fait l’objet du cours d’analyse mathématique dispensé en licence. Mais,
souvent, l’enseignent en sciences économiques et de gestion, se contente de l’optimi-

sation d’une fonction à une seule variable et, parfois à plusieurs variables, sans ou
avec une ou plusieurs contraintes d’égalités. Les cours ne vont jamais au-delà, vers
des contraintes d’inégalités, par exemple.
L’objet du chapitre présent est l’optimisation dynamique. Le calcul des variations
ou calcul variationnel, le principe du minimum de Pontriaguine et la programmation
dynamique sont les trois grandes formulations de la théorie de la commande optimale,
du contrôle optimal ou de l’optimisation dynamique.
Le calcul variationnel peut être utilisé pour résoudre toutes sortes de problèmes
d’optimisation dynamique. Le principe de Pontriaguine et la programmation dyna-
mique de Bellman peuvent être considérés comme des extensions du calcul variation-
nel.
Ce calcul des variations a pour origine le principe de Pierre Fermat selon lequel
la lumière suit le trajet dont le temps de propagation est minimal. L’origine, non
seulement du calcul variationnel, mais aussi du calcul différentiel classique se trouve
dans les travaux de Fermat et, notamment, dans sa méthode présentée dans “ de
maximis minimis " communiquée à ses confrères au Parlement de Borderaux, en
1629, soit 13 ans avant la naissance de Newton auquel on accorde classiquement la
paternité du calcul différentiel, 17 ans avant la naissance de Leibnitz, cet autre père
du calcul différentiel et de ses méthodes passées à la postérité. Toutefois, les premières
bases du calcul variationnel ont été posées par Euler et Newton avec leur résolution
du problème de la brachistochrone posé en 1696 par J. Bernoulli. Il appartiendra,
par la suite, à Lagrange de donner à ce calcul la forme analytique qui nous a été
transmise.
8.2 Introduction au calcul variationnel 1

En économie, le problème statique d’optimisation consiste à trouver la valeur x∗
de x qui maximise (ou minimise) une fonction F (x) donnée. Par exemple, il s’agira
de trouver le niveau de production x∗ qui maximise le profit F (x) engendré par la
production et la vente de x unités de produit :
max F (x) (8.1)

x≥0
La solution du problème est un nombre x∗ . Si F (x) est une fonction définie, x∗ peut
être déterminé avec précision. Si F est continue et dérivable, x∗ satisfait la condition
nécessaire de premier ordre F (x∗ ) = 0. En cas de fonction de plusieurs variables
F (x1 , x2 , . . . , xn ) comme fonction de profit, par exemple, dépendant des niveaux de
production de n produits différents, la solution est un ensemble de n nombres x∗1 ,
x∗2 , . . . , x∗n , représentant les n niveaux de production à produire et à vendre pour
maximiser le profit :
max F (x1 , x2 , . . . , xn )
xi ≥0,i=1,2,...,n
1. Cette introduction s’inspire largement de la 1ère partie de l’ouvrage de Kamien et Schwartz.

F (x1 , x2 , . . . , xn ) étant la fonction de profit.

On peut généraliser (8.1) au cas de temps discret multipériode pour trouver le
niveau de production xt du produit à produire et vendre à chaque période t. Il s’agira
de :
max F (t, xt ) (8.2)

xt ≥0,t=1,2,...,T
La solution optimale de ce problème (8.2) est un ensemble de T nombres, x∗1 , x∗2 , . . . ,

x∗T . Comme le produit de chaque période est le seul à influencer le profit de cette
période, le problème (8.2) se réduit à une suite de problèmes statiques. Il s’agira de
trouver pour chaque période le niveau de production x∗t qui maximisera son profit
F (xt ). Les T conditions nécessaires de premier ordre sont des conditions séparées.
Cela peut être généralisé au cas de plusieurs produits (variables).
Le problème d’optimisation ne devient réellement dynamique que lorsque le ni-
veau de production d’aujourd’hui détermine non seulement le profit d’aujourd’hui,
mais aussi les profits des périodes à venir.
À titre d’exemple, si le profit d’aujourd’hui dépend du niveau de production
d’aujourd’hui et du niveau de production xt de l’an dernier, ou de la période passée,
xt−1 (à cause du coût d’augmentation ou de réduction de l’équipement nécessaire,
par exemple), on a :
T

max F (t, xt , xt−1 ) (8.3)
xt ≥0,t=1,2,...,T
t=1
Avec xt = x0 à spécifier pour t = 0. Les conditions nécessaires de premier ordre ne

sont plus séparées. Elles constituent un système d’équations simultanées.
L’équivalent du problème (8.2) pour le temps continu est :
T
max F (t, x(t))dt (8.4)
x(t)≥0 0
La solution de ce problème dynamique est une fonction x∗ (t), 0 ≤ t ≤ T , qui

donne le produit optimal à chaque point t du temps. À vrai dire, ce problème n’est
pas encore réellement dynamique, dans la mesure où, comme dans (8.2), le niveau
de production de chaque période est le seul à déterminer le profit de cette période
et il ne détermine pas le profit d’autres périodes.
L’équivalent, en temps continu, de (8.3) est moins évident car en temps continu,
la notion de période précédente est peu claire. Le taux de variation dans le temps du
produit correspond à la dérivée par rapport au temps du produit. Le problème peut
ainsi être formulé comme suit :
T
max F (t, x(t), x (t))dt
x(t)≥0,x(0)=x0 0
C’est là la formulation d’un problème d’optimisation dynamique. Comme cela

a été vu, il existe trois méthodes de résolution de ce problème type d’optimisation
dynamique : la méthode du calcul variationnel, la méthode du contrôle optimal ou du
principe du minimum de Pontriaguine et la méthode de la programmation dynamique

de Richard Bellman.
Le reste de ce chapitre sera consacré au calcul variationnel, analogue au calcul
différentiel et intégral classique. Cette méthode est utilisable lorsque les fonctions dé-
crivant le problème sont dérivables et que l’optimum se situe strictement à l’intérieur
de la région faisable.
Les trois questions d’existence, de conditions nécessaires et de conditions suf-
fisantes de l’optimum qui se posent en calcul classique ont leurs équivalentes en
optimisation dynamique. L’accent sera mis sur les conditions nécessaires et, dans
une moindre mesure, sur les conditions suffisantes.
8.3 Exemples de problèmes d’optimisation dynamique pou-

vant être traités par le calcul variationnel 2
Exemple 3.1 :
Une entreprise reçoit une commande de n entités de produit à livrer à l’instant T .
Elle désire établir un calendrier de production de manière à remplir son engagement
pour T au coût minimal, tenant compte du fait que le coût unitaire de production est
dans une relation linéaire positive avec le taux de production et que le coût unitaire
de stockage pour une unité de temps est constant.
Si x(t) est le stock de produit t, on a x(0) = 0 et on doit avoir x(T ) = n. x(t) est
égal à la production cumulée jusqu’à T . Le taux de variation du stock est le taux de
dx
variation de la production = x (t).
dt
À l’instant t, le coût total de l’activité de l’entreprise est égal à la somme du coût
de production et du coût de stockage.
Le coût de stockage est : b x(t)
Le coût de production est : [a x (t)] x (t) = a [x (t)]2
Le coût total est : a [x (t)]2 + b x(t)
Il s’agit donc pour l’entreprise de minimiser le coût total cumulé dans le temps de 0
àT :
T
2
min a x (t) + b x(t) dt
x(0)=0,x(T )=n,x (t)≥0 0
L’entreprise peut penser à adopter un plan de production régulier qui consiste à

n
produire à un taux uniforme x (t) = . Et comme à t :
T
t t n t
n nt
x(t) = x (t) dt = dt = t =
0 0 T T 0 T
2. Exemples empruntés à Dynamic Optimisation de M. I. Kamien et N. L. Schwartz, North-

Holland, 2de Edition, Partie I, Section 1ère
Le coût total pour t de 0 à T est :
T 2 T
n 2 nt n nt2
a +b dt = a 2 t + b
0 T T T 2T 0
n2 nT 2
= a 2
T +b
T 2T
n2 nT
= a +b
T 2
Cela est faisable, mais cela ne minimise pas nécessairement le coût.
Exemple 3.2 :
Le stock de capital d’un pays à t est K(t). Avec ce stock de capital, la produc-
tion est réalisée au taux F (K). La fonction de production F est supposée continue
et dérivable deux fois et concave. Le produit obtenu peut être consommé procurant
une satisfaction immédiate, comme il peut être réinvesti pour augmenter le stock de
capital et la production future.

dK
Le produit F (K) = consommation C(t) + investissement K K =
dt
K correspond à la variation du stock de capital.

Le problème du pays consiste à chercher à maximiser l’utilité procurée par la consom-
mation à travers le temps en choisissant la part de produit à consacrer à l’investis-
sement à chaque moment t. Il s’agit de déterminer K qui
T T
maximise U [C(t)] dt = U F (K(t)) − K (t) dt
0 0
Sous contrainte K(0) = K0 , K(T ) ≥ 0
U étant supposée doublement dérivable, croissante et concave.

Mais, comme le capital se déprécie dans le temps et si le taux de dépréciation est
constant, il faut réinvestir b K(t) pour maintenir le stock de capital, d’où F (K) =
C + K + bK.
Et si la satisfaction de demain est moins désirée que la satisfaction immédiate,
alors il faut actualiser à un taux d’escompte r toutes les satisfactions futures. Fina-
lement, le problème devient :
T
maximiser e−rt U F (K(t)) − K (t) − bK(t) dt
0
Sous contrainte K(0) = K0 , K(T ) ≥ 0

Exemple 3.3 :
P (K) est le temps de profit pouvant être obtenu à l’aide du stock de capital
productif K. Si F (K) est l’output obtenu avec et que p est le prix du marché, on a :
P (K) = pF (K). Si P et F sont doublement dérivables, croissantes et concaves et si le
taux de dépréciation du capital est constant b (K = I − bK, I étant l’investissement
brut) et si C(I) est le coût de l’investissement additionnel, avec C, fonction croissante
et convexe et si les biens d’investissement ont un prix constant c, alors C(I) = cI, le
problème est de maximiser la valeur d’aujourd’hui du flux des profits nets pour une
période T :
T

max e−rt U P (K) − C(K + bK) dt
0
s.c. K(0) = K0 , K(T ) ≥ 0
où K = K(T ) et K = K (t). (I = K + bK)

Le capital, dans ce problème, peut être considéré comme capital humain et C(I)
comme coût d’éducation et de formation. K peut aussi être considéré comme le
stock de goodwill d’une entreprise, C(I) comme dépense en publicité et promotion
pour renforcer le goodwill. K peut également être considéré comme stock de bien
d’équipement durable loué à d’autres et C(I) est alors le coût de production. K peut
enfin être vu comme le capital santé et C(I) correspond alors aux dépenses de santé
et de couverture médicale.
Exemple 3.4 :
Trouver la plus courte distance dans le plan entre les points (a, A) et (b, B).
Dans
√ le plan (t, x), une distance ds est, en vertu du théorème de Pythagore : ds =
dt2 + dx2
2
dx2 dx
ds = dt2 1+ 2 = dt 1 + = dt 1 + x (t)2
dt dt
Il s’agit donc de :
b 1/2
min 1 + [x (t)]2 dt
a
s.c. x(a) = A, x(b) = B

Exemple 3.5 :
Trouver dans un plan la surface maximum pouvant être contenue à l’intérieur
d’une courbe de longueur L et d’une droite (0, t)
Il faut trouver
la forme de la courbe. On sait que la surface sous la courbe d’équation
T
x(t) est x(t) dt. C’est elle qu’il faut maximiser sous contrainte :
0
T 1/2
1 + [x (t)]2 dt = L, x(0) = 0, et x(T ) = 0
0
Exemple 3.6 : (la brachistochrone)

Il s’agit de trouver le chemin y(x) dans le plan x, y à emprunter par une particule
de masse m propulsée par la force de gravité d’un point initial (x0 , y0 ) à un point
final (x1 , y1 ) de manière à minimiser
la durée de temps pour faire le trajet indiqué.
La durée du trajet est T = dt.
ds ds ds
dt = = , v étant la vitesse de la particule v = et ds est une “courte”
ds/dt v dt
distance sur le chemin de la particule.
On sait que
dy
(ds)2 = (dx)2 + (dy)2 ⇒ ds = 1 + y 2 dx où y = .
dx
On suppose que la particule ne gagne et ne perd pas d’énergie tout au long de son
v2
trajet. Cela signifie que son énergie cinétique, m = = mgy, son énergie potentielle
2
à tout point de son chemin, où mg est le poids de la particule et g est l’accélération
de gravité. On suppose que la vitesse initiale de la particule est nulle. Il s’ensuit que
√
v = 2gy. En procédant aux substitutions nécessaires, on obtient qu’il faut
x1 1/2
1 + y 2 dx
min
x0 y (2g)1/2

ds √
(puisque T à minimiser est dt et dt = et ds = 1 + y 2 dx et v = 2gy.
v
C’est là le problème dont la résolution a déclenché le développement du calcul

variationnel. Comme on le voit, il s’agit d’un problème de physique. Cependant, les
problèmes posés par les exemples 1 à 3 précédents sont des problèmes économiques,
mais de nature mathématique similaire.
8.4 Résolution de l’exemple 3.1

Rappelons qu’il s’agit de planifier la production dans le temps de manière à
minimiser le coût et à pouvoir exécuter la commande de n unités, c’est-à-dire
T

min a(x (t))2 + bx(t) dt
0
s.c. x(0) = 0, x(T ) = n et x (t) ≥ 0
Si le coût de stockage est nul, le problème devient :

T

min a(x (t))2 dt
0
s.c. x(0) = 0, x(T ) = n et x (t) ≥ 0
Si l’on raisonne en temps discret, en divisant le temps T en T /k segments de temps

de durées k égales, la fonction x(t) peut être approchée par la ligne polygonale y
faite de segments correspondant aux segments de temps :
(0, 0), (k, y1 ), (2k, y2 ), . . . , (T, n)
Les variables de décision sont les niveaux de stocks y1 , y2 , . . . , yT /k−1 . Le taux de

∆x yi − yi−1
variation x (t) est approché par = . Il s’agit donc de trouver yi , i =
∆t k
1, . . . , k − 1 de manière à :
T
T /k
yi − yi−1 2
min k avec y0 = 0 et yT /k = n
k
i=1
Pour trouver le minimum de cette quantité dépendant des yi , annulons les dérivées
partielles par rapport aux yi :
T /k yi −yi−1 2 T /k
Q = i=1 k k = k1 i=1 (yi − yi−1 )2

= k1 (y1 − y0 )2 + (y2 − y1 )2 + . . . , +(yT /k − yT /k−1 )2
∂Q 1
= [2(yi − yi−1 ) − 2(yi+1 − yi )] = 0
∂yi k
⇒ (yi − yi−1 ) − (yi+1 − yi ) = 0 ⇒ (yi − yi−1 ) = (yi+1 − yi )

Les écarts successifs doivent donc être égaux. Cela veut dire que le taux de variation
du stock doit être constant. Ce qui revient à dire que les yi doivent se situer sur une
ligne droite entre (O, 0) et (T, n).
Pour retourner au temps continu, il faut faire tendre k vers 0 et donc le nombre
T
de segments vers l’infini.
k
Le raisonnement précédent, en temps discret, reste valable quant à la solution
du problème d’optimisation qu’il suggère : un taux de variation de production et
de stock constant : x(t) = tn T , puisque x (t) = T ≥ 0. Ce chemin est faisable. Il
n
faut maintenant montrer que c’est le chemin optimal, c’est-à-dire qu’il correspond
au moindre coût.
Considérons un autre chemin z(t) satisfaisant les conditions z(0) = 0 et z(T ) = n.
Posons h(t) = z(t) − x(t). On a nécessairement h(0) = h(T ) = 0, puisque z(t) et x(t)
coïncident au point initial et au point terminal.
Comme x(t) = tn T , on a
tn tn n
h(t) = z(t) − ⇒ z(t) = h(t) + ⇒ z (t) = h (t) +
T T T
et la différence de coûts entre les deux chemins z et x est :
T T
2 2
n 2 n 2
[z (t)] − [x (t)] dt = h (t) + − dt
0 0 T T
T
n2 2n n2
= h (t)2 + 2 + h (t) − 2 dt
0 T T T
T
2n
= h (t)2 + h (t) dt
0 T
T
2n T
= h (t)2 dt + h (t) dt
0 T 0
T
2 2n
= h (t) dt + [h(t)]T0
0 T
T
2 2n
= h (t) dt + ×0 (h(T ) = h(0) = 0)
0 T
T
2
= h (t) dt ≥ 0
0
Donc la différence de coûts entre z(t) et x(t) est positive. Cela veut dire que le coût
du chemin de z est supérieur ou égal au coût du chemin x. Donc x(t) est la solution
optimale.
8.5 L’équation d’Euler

Reprenons la formulation générale du problème d’optimisation dynamique :
t1
max F (t, x(t), x (t)) dt (8.5)
x(t) t0
s.c. x(t0 ) = x0 et x(t1 ) = x1
F est supposée être continue

dxen t, x et x et avoir des dérivées partielles continues par

rapport à x et à x , x = dt . F est considérée comme une fonction de 3 variables

indépendantes t, x et x .
Nous cherchons donc x(t) vérifiant les conditions des points terminaux (initial et
final) et maximisant l’intégrale ci-dessus.
Supposons que x∗ (t) maximise (8.5), x(t) une autre fonction admissible. Défi-
nissons la différence entre les deux chemins : h(t) = x(t) − x∗ (t). Comme x et x∗
vérifient les conditions des points terminaux (elles passent toutes les deux par x0 et
x1 ), h(t0 ) = h(t1 ) = 0.
La déviation ou l’écart h est admissible, si x = x∗ + h est admissible, et pour
tout a, y(t) = x∗ (t) + a h(t) sera aussi admissible, car x∗ est admissible et h(t0 ) =
h(t1 ) = 0.
x∗ et h donnés, calculons (8.5) pour y(t) fonction du paramètre a. le résultat sera
une fonction de a, g(a) par exemple :
t1 t1

g(a) = F (t, y(t), y (t)) dt = F t, x∗ (t) + a h(t), x∗ (t) + a h (t) dt (8.6)
t0 t0
Comme x∗maximise (8.5), la fonction g doit avoir son maximum à a = 0. Cela

implique que g (0) = 0 (condition nécessaire de premier ordre). Pour calculer g (a),
appliquons le théorème des fonctions composées 3 (chain rule) à l’intégrand de (8.6)

dF t, x∗ (t) + a h(t), x∗ (t) + a h (t) /da = Fx h(t) + Fx h (t)
Et appliquons la règle de Leibnitz 4 pour dériver sous l’intégrale :

t1 t1

g (a) = Fa t, x∗ (t), x∗ (t) da = Fx h(t) + Fx h (t) dt
t0 t0
Comme g (0) = 0 on a :
t1
Fx h(t) + Fx h (t) dt = 0
t0

3. (g ◦ ×
f ) (a) = g (f (a)) fy1 (a)
y1
d
4. f (x, y) dy = fx (x, y) dy
dx y0 y0
t1
Calculons Fx h (t) dt en intégrant par parties, Fx = u et h (t)dt = dv
t0
t1 t1 t1
Fx h (t) dt = u dv = u v − v du
t0 t0 t0
t1
dFx
= [Fx h(t)]tt10 − h(t) dt (Fx supposée dérivable)
t0 dt
t1
dFx
= 0− h(t) dt (h(t1 ) = h(t0 ) = 0)
t0 dt
D’où
t1 t1 t1
dFx dFx
g (0) = 0 = Fx h(t) dt − h(t) dt = Fx − h(t) dt
t0 t0 dt t0 dt
Ceci est
tvrai ∀h nulle aux points terminaux, continue et dérivable.
1
Si g(t) h(t) dt = 0 ∀h(t) alors g(t) = 0.
t0
D’où,
dFx
Fx − =0 ⇒ Fx t, x∗ (t), x∗ (t) = dFx t, x∗ , x∗ / dt (8.7)
dt
C’est cela l’équation d’Euler. Il s’agit d’une généralisation de la condition nécessaire
de premier ordre f (x) = 0 pour x donnant le maximum de f (x) du calcul classique.
dFx
(Ainsi, si = 0 alors Fx = 0 condition nécessaire de premier ordre).
dt t1
Supposons qu’on a : g(t) h(t) dt = 0 ∀h(t) continue et dérivable et vérifiant
t0
h(t1 ) = h(t0 ) = 0 et que g(t) = 0 ou, disons g(t) > 0. Posons

(t − a)(b − t) a ≤ t ≤ b
h(t) =
0 t ailleurs sur [t1 , t2 ]
t1 a b t1
g(t) h(t) dt = g(t) h(t) dt + g(t) h(t) dt + g(t) h(t) dt
t0 t0 a b
b
= 0+ g(t) (t − a)(b − t) dt + 0
a
b
Comme g(t) > 0 et que t − a > 0 et que b − t > 0 pour a ≤ t ≤ b alors g(t) (t −
t1 a
a)(b − t) dt > 0. Or on a : g(t) h(t) dt = 0. Donc g(t) ne peut être > 0.

t0
Pour g(t) < 0, on aboutit aussi à la contradiction de la même manière en construi-
sant h(t). D’où g(t) = 0.
L’équation d’Euler doit être vérifiée comme condition d’optimalité de x∗ (t) dans
le problème (8.5) pour tout t dans l’intervalle [t0 , t1 ].
Notons aussi Fx est une fonction de t, x et x et que dFx /dt est la dérivée totale
par rapport à t. La variation totale de Fx lorsque t varie est égale au total de la
variation de Fx due à t, à x et à x , puisque x et x sont elles-mêmes des fonctions
de t :
dFx /dt = Fx t + Fx x x + Fx x x
L’équation d’Euler peut ainsi être réécrite :
Fx = Fx t + Fx x x + Fx x x t0 ≤ t ≤ t1
Une autre forme de l’équation d’Euler est :

t1
Fx = Fx s, x∗ (s), x∗ (s) ds + c
t0
Cette forme est appelée l’équation de du Bois-Reymond.

Si l’on a : Fx (t, x, x ) = p(t) et si Fx x = 0, x peut être exprimée comme une
fonction de t, x et p. Une nouvelle fonction, le Hamiltonien, peut être ainsi définie :
H(t, x, p) = −F (t, x, x ) + p x
(p correspond au moment généralisé en physique. En économie, il correspond à un

prix fantôme (shadow), ou un prix virtuel ou fictif).
La différentielle totale du Hamiltonien est :
dH = −Ft dt − Fx dx − Fx dx + pdx + x dp = −Ft dt − Fx dx + x dp

=0
Ce qui implique :
∂H ∂H
= −Fx et = x
∂x ∂p
Si x(t) vérifie l’équation d’Euler (8.7) ci-dessus, alors :
dFx dp
−Fx = − = − = −p
dt dt
∂H ∂H
p = − et x =
∂x ∂p
Ces deux équations différentielles de premier ordre sont appelées la forme canonique
de l’équation d’Euler. Le Hamiltonien joue un rôle important dans la théorie du
contrôle optimal de Pontriaguine.
Les solutions de l’équation d’Euler sont appelées extrémales (extremals). En ana-
lyse classique, les extrémales correspondent aux points stationnaires. La résolution
d’un problème de calcul variationnel, d’optimisation dynamique, consiste donc à
trouver les extrémales, puis parmi ces dernières, le chemin optimum.
8.6 Applications de l’équation d’Euler

8.6.1 Application 1
Reprenons l’exemple 3.1 ci-dessus avec b = 0, coût de stockage nul et a = 1. Il
s’agissait de
T
2
min x (t) dt
x(t) 0
s.c. x(0) = 0 et x(T ) = n
L’intégrand est F (t, x, x ) = x 2 et Fx = 2x. Comme F ne dépend pas de x, on a
dFx
Fx = 0. L’équation d’Euler est donc 0 = 2x Fx =
dt
2x (t) = 0 ⇒ x (t) = 0 ⇒ x (t) = cte = c1 ⇒ x(t) = c1 t + c2
Les constantes c1 et c2 sont déterminées à partir des conditions de bornes :
x(0) = 0 ⇒ x(0) = c1 × 0 + c2 = 0 ⇒ c2 = 0
n
x(T ) = n ⇒ x(T ) = c1 × T + 0 = n ⇒ c1 =
T
Finalement
n
x(t) = t 0≤t≤T
T
Voilà donc la solution déjà trouvée au problème.
8.6.2 Application 2
Trouvons les extrémales de
1
[x (t)]2 + 10 t x(t) dt
0
s.c. x(0) = 1 et x(1) = 2
C’est le même problème économique avec T = 1, n = 2 et un coût de stockage égal
à 10 t x(t).
2
F (t, x, x ) = x + 10 t x
dFx
Fx = 10 t, Fx = 2x , = 2x
dt
L’équation d’Euler est
dFx 5 5
Fx = ⇔ 10 t = 2x ⇒ x = 5t ⇒ x = t2 + c1 ⇒ x = t3 + c1 t + c2
dt 2 6
Pour déterminer c1 et c2 :
5
x(0) = 1 ⇒ × 03 + c1 × 0 + c2 = 1 ⇒ c2 = 1
6
5 5 1
x(1) = 2 ⇒ × 13 + c1 × 1 + 1 = 2 ⇒ c1 = 2 − 1 − =
6 6 6
D’où
5 1
x(t) = t3 + t + 1
6 6
8.6.3 Application 3
Trouvons les extrémales de
t1
t x (t) + [x (t)]2 dt
t0
s.c. x(t0 ) = x0 et x(t1 ) = x1
2
F (t, x, x ) = t x + x
dFx
Fx = 0, Fx = t + 2x , = 1 + 2x
dt
dFx t + c1 1 c1
Fx = ⇔ 1 + 2x = 0 ⇒ t + 2x = c1 ⇒ x = = t+
dt 2 2 2
1 c1
⇒ x(t) = t2 + t + c2
4 2
Pour trouver c1 et c2 , on a :
1 c1
x(t0 ) = x0 ⇒ x0 = t20 + t0 + c2
4 2
1 2 c1
x(t1 ) = x1 ⇒ x1 = t1 + t1 + c2
4 2
Les deux équations nous permettent de déterminer c1 et c2 .
8.6.4 Application 4
Reconsidérons l’exemple 3.1 avec un coût de stockage non nul. Il s’agit alors de
T
2
min c1 x (t) + c2 x(t) dt
x(t) 0
s.c. x(0) = 0, x(T ) = n et x (t) ≥ 0
c1 et c2 deux constantes non négatives.
Fx = c2 , et Fx = 2 c 1 x
d(2 c1 x ) c2 c2 c2 2
= 2 c1 x = c2 ⇒ x = ⇒ x = t + c3 ⇒ x(t) = t + c3 t + c 4
dt 2c1 2c1 4c1
Les constantes d’intégration c3 et c4 sont déterminées en considérant les conditions
limites
c2
x(0) = 0 ⇒ x(0) = × 0 + c3 × 0 + c4 = 0 ⇒ c4 = 0
4c1

c2 1 c2 2 n c2 T
x(T ) = n ⇒ x(T ) = × T 2 + c 3 × T = n ⇒ c3 = n− T = −
4c1 T 4c1 T 4c1
D’où la solution est

c2 2 n c2 T c2 t(t − T ) nt
x(t) = t + − t= +
4c1 T 4c1 4c1 T
x (t) ≥ 0?
c2 t n c2 T n c2 T c2 T 2
x (t) = + − ≥0 ⇒ > ⇒ n≥
2c1 T 4c1 T 4c1 4c1
x(t) est la solution, si cette condition est vérifiée, c’est-à-dire si n est suffisamment
grand.
8.6.5 Application 5
Reprenons l’exemple précédent en y introduisant une actualisation au taux continu
r. Il s’agit de :
T
2
min e−rt c1 x + c2 x dt
x(t) 0
s.c. x(0) = 0 et x(T ) = n
Nous devons aussi avoir ≥ 0 pour que le problème ait un sens en économie.
x (t)

2
F (t, x, x ) = e−rt c1 x + c2 x ⇒ Fx = c2 e−rt et Fx = 2x c1 e−rt
L’équation d’Euler est :

dFx −rt d 2x c1 e−rt
Fx = ⇔ c2 e = ⇒ c2 e−rt dt = 2x c1 e−rt
dt dt
Ou encore

d 2x c1 e−rt
= 2x c1 (−r)e−rt +2x c1 e−rt = Fx = c2 e−rt ⇒ −r2x c1 +2x c1 = c2
dt
d’où,
c2
x = rx +
2c1
c2
En faisant le changement de variable y = x , soit y = x , on obtient y = ry +
2c1
soit une équation différentielle de premier ordre avec des coefficients constants. La
solution est 5 :
c2
y = k1 ert − = x
2rc1
ert c2 t
x(t) = k1 − + k2 (k1 et k2 constantes d’intégration)
r 2rc1
k1 e 0 k1 −k1
x(0) = 0 = − 0 + k2 = + k2 ⇒ k2 =
r r r

k1 erT c2 T k1 erT c2 T k1 erT 1 c2 T
x(T ) = n = − + k2 = − − = k1 − −
r 2rc1 r 2rc1 r r r 2rc1
5. Cf. chapitre des équations différentielles ordinaires
D’où,
c2 T nr c2 T c2 T c2 T
n+ + nr + n+
2rc1 r 2rc1 2c1 2rc1
k1 = rt = = rt et k2 =
e 1 ert − 1 e −1 1 − ert
−
r r r
Finalement
c2 T c2 T
nr + n+
2c1 ert c2 t 2rc1
x(t) = rt − +
e −1 r 2rc1 1 − ert
8.6.6 Application 6
Supposons que le coût de production est une fonction croissante, monotone et
convexe du taux de production x , g(x ), g(0) = 0, g ≥ 0, g > 0 pour x ≥ 0.
Le problème devient :
T
min e−rt g(x ), c2 x dt
x(t) 0
sous conditions limites x(0) = 0 et x(T ) = n

F (t, x, x ) = e −rt
g(x ), c2 x ⇒ Fx = c2 e−rt et Fx = e−rt g (x )

dFx d e−rt g (x )
Fx = ⇔ = c2 e−rt
dt dt
−re−rt g (x ) + e−rt g (x ) × x = c2 e−rt ⇒ −rg (x ) + g (x ) × x = c2
g (x ) x = rg (x ) + c2 (8.8)
La partie droite de cette de cette égalité est non négative, g (x ) ≥ 0, d’où x >
0. Donc x est croissante avec t jusqu’à T , lorsqu’on aura accumulé les n unités
commandées.
Par ailleurs, l’égalité (8.8) ci-dessus montre que x est une fonction croissante de r
et c2 (coût de stockage).
8.6.7 Application 7
Un individu cherche à déterminer le taux de consommation à chaque moment
qui va maximiser le flux de son utilité actualisé, durant un intervalle de temps T .
L’utilité de la consommation au moment de t est U (C(t)), fonction croissante et
concave (utilité marginale décroissante) : u > 0 et u < 0. Le taux d’actualisation
est r. L’objectif de cet individu est donc :
T
max e−rt U (C(t)) dt (8.9)
x(t) 0
L’individu considéré a, comme revenu, un salaire ω(t) exogène en plus des intérêts
iK procurés par la détention du capital K(t). L’individu peut emprunter (K <
0) ou louer (K > 0) au taux i. Le capital peut être vendu ou acheté à un prix
unitaire. Ce revenu à t composé de ω(t) est iK(t) est alloué à la consommation et à
l’investissement K (t) :
ω(t) + iK(t) = C(t) + K (t) (8.10)
Le capital initial K(0) = K0 et le capital final est K(T ) = KT . De (8.10), on tire :
C(t) = ω(t) + iK(t) − K (t)
i et ω sont donnés. On remplace C(t) par cette expression dans (8.9). On obtient :
T

max e−rt U ω(t) + iK(t) − K (t) dt
K(t) 0
s.c. K(0) = K0 et K(T ) = KT

L’intégrand est alors F (t, K, K ) avec x = K(t)
et x = K (t).
−rt

Fx = FK = ie U ω(t) + iK(t) − K (t)

∂F ∂F ∂C ∂C
= ie−rt U (C) = × ; =i
∂K ∂C ∂K ∂K
Fx = FK = −1e−rt U (C)
L’équation d’Euler

dFx −rt d −e−rt U (C)
Fx = ⇔ ie U (C) =
dt dt
⇒ re−rt U (C) − e−rt U (C)C = ie−rt U (C)
⇒ rU (C) − C U (C) = iU (C)
⇒ −U C = (i − r)U
U C
⇒ − =i−r
U
Donc
U C
− = i−r (8.11)
U
En effet,

d −e−rt U (C) d −e−rt d [U (C)]
= × U (C) − e−rt ×
dt dt dt
dU (C(t)) dC(t)
= re−rt U (C) − e−rt × ×
dC(t) dt
= re−rt U (C) − e−rt U (C) × C (t)
Le résultat (8.11) ci-dessus signifie que le taux de variation de l’utilité marginale est
proportionnel à (i − r).
U C U
Si i > r, on a − > 0, comme − > 0 par hypothèse, C > 0. D’où la
U U
consommation doit être croissante à travers le temps (si i > r) pour maximiser
l’utilité, r étant le taux d’impatience.
Si l’on pose U (C) = ln C, ω(t) = 0 et KT = 0, K(0) = K, on obtient : C(t) =
iK(t) − K (t).
d(ln C) 1 d( 1 ) −1
Lorsque U (C) = ln(C), on a U (C) = = et U (C) = C = 2 .
dC C dC C
Et (8.11) devient
(− 12 )C C
− C1 =i−r ⇒ =i−r
(C ) C

C C
=i−r ⇒ dt = (i − r) dt
C C
⇒ ln C = (i − r) t + c1 ; c1 est la constante d’intégration
⇒ C(t) = e(i−r) t+c1 = e(i−r) t × ec1 et C(0) = 1 × ec1
⇒ C(t) = C(0) × e(i−r) t

Ainsi,
C(t) = iK(t) − K (t) = C(0)e(i−r) t
En posant K(t) = y, on obtient
i y − y = f (t) = C(0) e(i−r) t
Multiplions les deux côtés par e−it , on obtient
i e−i t y − e−i t y = C(0) e−r t −i e−i t y + e−i t y = −C(0) e−r t

⇒

Le côté gauche de l’égalité est la dérivée de y e−i t par rapport à t, d’où

d y e−i t 1 −r t
= −C(0) e−r t ⇒ y e−i t = − C(0) e−r t dt = −C(0) e + c2
dt −r
1
⇒ y = K(t) = C(0) e(i−r) t + c2 ei t
r
Or

 1 1
 à t = 0, on a :
 K(0) = K0 = C(0) + c2 ⇒ c2 = K0 − C(0)
r r

 1 1
 à t = T, on a : K(T ) = 0 = C(0)e(i−r) T + K0 − C(0)
r r

1 (i−r) T 1 K0
⇒ 0 = C(0) e − + K0 ⇒ C(0) = 1 (i−r) T

r r r 1−e
Finalement

1 K0 (i−r) t it 1 K0
K(t) = × 1
×e + e K0 − × 1

r 1 − e (i−r) T r 1 − e(i−r) T
r r
−r t

1−e
K(t) = ei t K0 1 −
1 − e−r T
Et donc
e(i−r) t
C(t) = r K0
1 − e−r T
8.7 Résolution de l’équation d’Euler dans des cas parti-

culiers
5 cas particuliers sont étudiés dans cette section :
- Cas où F = F (t, x )
- Cas où F = F (x, x )
- Cas où F = F (t, x)
- Cas où F = F (x )
- Cas où F = A(t, x) + B(t, x)x linéaire en x
8.7.1 Cas où F ne dépend que de t et x

F = F (t, x )
Dans ce cas,
∂F (t, x )
Fx = 0, et F x =
∂x
L’équation d’Euler devient :
dFx
= Fx = 0 ⇒ Fx = constante
dt
On obtient ainsi une équation différentielle de 1er ordre en (t, x ). Elle correspond à
la 1ère intégrale de l’équation d’Euler.
Exemple :
t1
2
max 3x − tx dt
x(t) t0
s.c. x(t0 ) = x0 et x(t1 ) = x1
2
F (t, x ) = 3x − tx , Fx = 0 et Fx = 3 − 2tx
Équation d’Euler :
d(3 − 2tx ) c1 − 3
= 0 ⇒ d(3 − 2tx ) = 0 ⇒ 3 − 2tx = c1 ⇒ tx = −
dt 2
c1 −3
c1 − 3
⇒ x = − 2
⇒x=− ln(t) + c2
t 2
Or 
 c1 − 3

 x(t0 ) = x0 ⇒ x0 = − 2 ln(t0 ) + c2

 x(t1 ) = x1 ⇒ x1 = − c1 − 3 ln(t1 ) + c2

2
Ces deux équations permettent de déterminer les constantes d’intégration c1 et c2 .
8.7.2 Cas où F ne dépend que de x et x (et pas de t)

F = F (x, x )
dFx
est la dérivée totale par rapport à t, Fx est la dérivée partielle de F par rapport
dt
dFx
à x . Cette dérivée partielle ne dépend pas de t. Dans le cas général, F (t, x, x ),
dt
varie totalement à la suite d’une variation de t du fait de la variation de t, mais aussi
des variations de x et de x :
dFx ∂Fx dt ∂Fx dx ∂Fx dx

= Fx t + Fx x x + Fx x x = × + × + ×
dt ∂t dt ∂x dt ∂x dt
d (F − x Fx )
Calculons .
dt
d (F − x Fx ) dF d (x Fx )
= −
dt dt dt

∂F dt ∂F dx ∂F dx dFx
= × + × + × − x Fx − x
∂t dt ∂x dt ∂x dt dt
dFx
= Ft + x Fx + x Fx − x Fx − x
dt
dFx
= F t + x Fx − x
dt

dFx
= F t + x Fx −
dt
= Ft + x × 0 (Équation d’Euler)
= Ft
D’où
d (F − x Fx )
= Ft ⇒ d F − x Fx = Ft dt
dt
Lorsque F ne dépend pas de t, Ft = 0 et donc :

d F − x Fx = 0 ⇒ F − x Fx = constante
D’où, dans ce cas de F = F (x, x ), il faut résoudre cette équation différentielle de pre-
t1
mier ordre F −x Fx = constante, pour déterminer x(t) qui maximise F (x, x ) dt
t0
s.c. x(t0 ) = x0 et x(t1 ) = x1 .
Exemple : La brachistochrone
Nous avons vu au 3.6 que le problème consistait à
x1 1/2
1 1 + y2
min 1/2
dx
x(t) x0 (2g) y
1/2
1 1 + y2
F (y, y ) = √ ×
2g y
On est bien dans le cas N 2 où F ne dépend pas de t (ici x), mais seulement de y et
◦
y . D’où : F − y Fy = C te .
Calculons Fy .
 −1/2 
1  1 1 + y2 y 
Fy = √ ×2
2g 2 y y
1/2  −1/2 
1 1 + y 2 1 1 1 + y 2 2y
F − y Fy = √ − y √  × 
2g y 2g 2 y y
 1/2  −1/2 
1  1 + y2 1 + y 2 y 2
= √ − × 
2g y y y
 1/2 
2
1  1+y y 1/2 y2 
= √  − 1/2 × y 
2g y 1/2 1 + y2

1 1 + y2 y2
= √ −
2g y 1/2 1 + y 2 1/2 1 + y 2 1/2 y 1/2
1 1
= √
2g y 1/2 1 + y 2 1/2
1
2 −1/2
= √ y 1 + y
2g
= constante
Ainsi,
2 2c
y(1 + y ) = constante c ⇒ y = −1
y

c−y dy
⇒ y = =
y dx

dx y
⇒ =
dy c−y

y
⇒ dx = dy
c−y
D’où
y
x = c arcsin − cy − y 2 + C te
c
C’est là l’équation d’une cycloïde.
8.7.3 Cas où F ne dépend que de x

F = F (x )
On a vu plus haut que
dFx
= Fx t + Fx x x + Fx x x
dt
Comme F ne dépend ni de t, ni de x, cette égalité se réduit à Fx x × x = 0 puisque
dFx
= Fx t = Fx x x = 0. Ainsi,
dt
Fx x × x = 0 pour tout t0 < t < t1 ⇒ Fx x = 0 ou x = 0
Si Fx x = 0 ⇒ x (t) = C te ⇒ Fx = 0

Si x = 0 ⇒ x (t) = c1 (Constante) ⇒ x(t) = c1 t + c2 .
Dans ce cas, si F (x ) est linéaire
F (x ) = a + bx ⇒ Fx x × x ≡ 0 ∀x(t).
Si F (x ) n’est pas linéaire, alors x(t) est linéaire en t.
Exemple déjà vu :
t1
2
min x e−x dt s.c. x(t0 ) = x0 et x(t1 ) = x1
t0
On est dans le cas 7.3 avec F (x ) non linéaire, d’où x(t) doit être de la forme x(t) =
c1 t + c2 et les conditions aux bords permettent de déterminer c1 et c2 en fonction de
t0 , t1 , x0 et x1 .
8.7.4 Cas où F = F (t, x)

dFx
Dans ce cas Fx = 0 et l’équation d’Euler devient Fx = = 0.
dt
Fx = 0 implique qu’il faut optimiser pour chaque t. Cela veut dire que le problème
dynamique est dégénérescent. En fait, le problème n’est pas dynamique puisque x(t)
n’affecte pas F (t + h, x) mais seulement F (t, x).
8.7.5 Cas où F est linéaire en x

F = A(t, x) + B(t, x) × x
Dans ce cas
dFx
Fx = B(t, x), = Bt (t, x) + Bx (t, x) × x et Fx = Ax + Bx x
dt
Ax + Bx x = Bt + Bx x ⇒ A x = Bt
Cette égalité n’est pas une équation différentielle (elle ne comporte pas x ou ses
dérivées). Elle peut être considérée comme une fonction implicite pour x en terme
de t. Si x(t) satisfait les conditions aux bords, elle est une solution optimale.
Par contre si Ax ≡ Bt pour n’importe quel x(t), alors il existe une fonction P (t, x)
telle que Pt ≡ A, Px ≡ B, dans ce cas :
Ptx ≡ Ax , Pxt ≡ Bt et Ptx ≡ Pxt

dP
Comme = Pt + Px x on a
dt
dP
= A + B x = F (t, x, x )
dt
L’intégrand est donc égal à la dérivée totale de P (par rapport à t) d’où :
t1 t1
dP
F (t, x, x )dt = dt = [P (t, x)]tt10 = P (t1 , x(t1 )) − P (t0 , x(t0 ))
t0 t0 dt
= P (t1 , x1 ) − P (t0 , x0 )
La valeur de l’intégrale ne dépend donc que des points terminaux et le chemin entre
les deux n’importe pas pour l’optimum : tout chemin faisable est optimal.
C’est comme si l’on a à maximiser (en fonction de x) une fonction constante. N’im-
porte quel x fait l’affaire.
Dans ce cas N ◦ 5, l’équation d’Euler est une identité.
Exemple 1 :
F (t, x, x ) = x (t), s.c. x(t0 ) = x0 et x(t1 ) = x1
L’intégrand est linéaire en x .

dFx
Fx = 0, Fx = 1 ⇒ =0
dt
L’équation d’Euler est 0 = 0 une identité ∀x(t)
t1 t1
x (t) dt = d x(t) = [x(t)]tt10 = x1 − x0
t0 t0
L’intégrale ne dépend pas de x(t). Elle ne dépend que des points terminaux.
Exemple 2 : Supposons que le coût de production à minimiser à travers le temps

soit linéaire en x (t) :
F (t, x, x ) = c1 x + c2 x s.c. x(0) = 0 et x(T ) = n.

Dans ce cas
dFx
Fx = c2 et Fx = c1 =0 ⇒
dt
et l’équation d’Euler est : c2 = 0. Dans le cas où c2 > 0 (coût de stockage), il n’y
a pas de calendrier de production optimal. Mais si c2 = 0, n’importe quel plan de
production sera optimal.
T
c2 = 0 ⇒ c1 x dt = [c1 x(t)]T0 = c1 [x(T ) − x(0)] = c1 n
0
Le coût total de production sera c1 n indépendamment du plan ou du calendrier

de production. Tous les plans faisables sont bons. Si c2 > 0, il faut juste respecter
les conditions aux bords, mais on ne peut pas en savoir plus sur le plan de production.
Exemple 3 : Soit
F (t, x, x ) = t x x s.c. x(0) = 0 et x(T ) = n.
Dans ce cas
dFx
Fx = t x et Fx = t x ⇒ = x + t x (t x = u v)
dt
x + t x = t x ⇒ x(t) = 0.
Ce résultat ne se vérifie que si x(0) = x(T ) = 0 ⇒ n = 0. En effet

T T T 2 T
T
x2 x2 tx x2
t x x dt = (t)(x x dt) = (t) × − dt = − t =0
0 0 u dv u 2 0 2 2 2 0
v 0
⇔ n=0
Exemple 4 :
t1
e−rt (x − ax) dt s.c. x(t0 ) = 0 et x(t1 ) = x1 .
t0
Dans ce cas
dFx
F (t, x, x ) = e−rt (x − ax), Fx = −ae−rt et Fx = e−rt ⇒ = −re−rt
dt
−ae−rt = −re−rt ⇔ a=r
Si a = r, l’équation d’Euler est une identité et l’intégrand est une différentielle

exacte :
t1
t
F (t, x, x ) = e−rt (x −rx) et e−rt (x −rx) dt = xe−rt t10 = x1 e−rt1 −x0 e−rt0
t0
valeur ne dépendant pas de x(t) pour t0 < t < t1 . Entre t0 et t1 , tout x(t) est bon.
Si a = r, l’équation d’Euler ne peut pas être satisfaite, pas d’optimum.
Exemple 5 :
T
max e−rt p(t) f (K(t)) − c(t)(K + bK) dt s.c. K(0) = K0 et K(T ) = KT .
0
(maximisation du profit actualisé sur (0, T )).

p(t) est le prix d’une unité d’output, c(t) est le coût unitaire de l’investissement brut,
K(t) le stock de capital, f (K(t)) est la fonction de production.

F (t, K, K ) = e−rt p(t)f (K(t)) − c(t)(K + bK)

et FK = e−rt p.f (K) − c b et FK = e−rt (−c)

d −c(t)e−rt
e−rt p.f (K) − c b = = −c (t)e−rt − c(t)(−r)e−rt = [rc(t) − c (t)]e−rt
dt
Ce qui implique
p.f (K) − c b = rc − c
Cette égalité est une équation statique pour K(t) qu’on peut résoudre (si f (K) est
explicitée) en fonction de p, c, b, r et c . Ensuite, il faudra vérifier les conditions aux
bords. L’équation signifie que le stock de capital doit être choisi de manière à ce que
la valeur du produit marginal du capital à tout t, soit égale au coût de son utilisation
p f (K) = (r + b)c(t) − c (t)
Exemple 6 : soit
1
2
(x − 2xx + 10tx) dt sous x(0) = 1 et x(1) = 2
0
Dans ce cas,
dFx
Fx = −2x + 10t, Fx = 2x − 2x et = 2x − 2x
dt
5 5
−2x + 10t = 2x − 2x ⇒ x (t) = 5t ⇒ x (t) = t2 + c1 ⇒ x(t) = t3 + c1 t + c2
2 6
Or
x(0) = 1 ⇒ 1 = c2
x(1) = 2 ⇒ 2 = 56 + c1 + 1 ⇒ c1 = 1
6
D’où,
5 1
x(t) = t3 + t + 1
6 6
8.8 Conditions de second ordre

Pour une fonction réelle d’une seule variable, la condition nécessaire de 1er ordre
est f (x∗ ) = 0. Cette condition nous donne le point stationnaire x∗ . La condition de
second ordre d’un minimum estf (x∗ ) > 0 et celle d’un maximum est f (x∗ ) < 0.
t1
En calcul variationnel, min ou max F (t, x, x ) dt s.c. x(t0 ) = x0 et x(t1 ) = x1 , a
t0
dFx
pour condition nécessaire de premier ordre, l’équation d’Euler-Lagrange = Fx .
dt
Quelles en sont les conditions de second ordre ? C’est ce qu’on va voir dans cette
section.
On cherche à
t1
max F (t, x(t), x (t)) dt s.c. x(t0 ) = x0 et x(t1 ) = x1 (8.12)
x(t) t0
F est supposé deux fois différentiable pour ses trois arguments t, x et x . Supposons
que x∗ (t) maximise (8.12).
Pour une fonction donnée h(t) admissible, on définit :
t1
g(a) = F (t, x∗ + ah, x∗ + ah ) dt
t0
t1
Lorsque a = 0, g(0) = F (t, x∗ , x∗ ) dt correspondant au maximum de (8.12).
t0
Comme g(0) est le maximum, on doit avoir g (0) = 0 (condition nécessaire de premier
ordre).
t1
dg(a) ∂F (t, x∗ + ah, x∗ + ah )
g (a) = = dt (Règle de Leibniz)
da t0 ∂a
Posons y = x∗ + ah et donc y = x∗ + ah . D’où

t1 t1
∂F (t, y, y ) ∂F ∂y ∂F ∂y
g (a) = dt = · + · dt
t0 ∂a t0 ∂y ∂a ∂y ∂a
t1
= Fy · h + Fy · h dt
t0
Lorsque a = 0, y = x∗ et donc :
t1
g (0) = Fx h + Fx h dt = 0
t0
L’intégrale ci-dessus est appelée première variation. La seconde variation est :

t1
∂ (Fx h + Fx h )
g (a) = dt
t0 ∂a
avec a = 0, on a :
t1
2
g (0) = Fxx h2 + 2Fxx hh + Fx x h dt (8.13)
t0
Comme g (0) = 0 maximise g(a), g (0) doit être négative pour tout h(t) admissible.
L’intégrand de (8.13) est une forme quadratique en h et h . Cette forme quadratique
est non-positive si les coefficients sont les dérivées partielles secondes d’une fonction
concave en (x, x ) . D’où le résultat que pour maximiser (8.12), F doit être concave
en (x, x ) et x∗ (t) doit vérifier l’équation d’Euler.
La concavité de F en (x, x ) est remplacée, dans le cas général, par la condition de
Legendre suivante :
Fx x (t, x∗ (t), x∗ (t)) ≤ 0
Pour le minimum, il faut prendre le signe d’inégalité opposé, ce qui correspond à la
convexité de F en (x, x ).
8.9 Problème isopérimétrique

Jusqu’à présent, nous avons considéré l’optimisation d’une intégrale sous condi-
tions aux bornes (ou aux bords). Dans cette section, il s’agit d’optimiser une intégrale
sous une contrainte d’intégrale :
t1
max F (t, x, x ) dt (8.14)
x(t) t0
t1
s.c. G(t, x, x )dt = c, x(t0 ) = x0 et x(t1 ) = x1 (8.15)
t0
F et G sont fonctions continues et dérivables deux fois, c est un nombre réel donné.
Nous avons déjà vu des exemples de ce problème. L’appellation isopérimétrique pro-
vient de l’exemple où l’on avait à maximiser l’aire entourée par une courbe de péri-
mètre fixe donné.
T T
L’exemple déjà vu de max e−rt P (x) dt sous contrainte : x(t) dt = n, est un
0 0
exemple de problème isopérimétrique. La contrainte isopérimétrique
peut être trans-
t
formée en condition de points terminaux en posant y(t) = x(s) ds comme produit
0
accumulé jusqu’à t. Donc = x(t). Dans ce cas, dans l’intégrale à maximiser, il
y (t)
T
faut substituer y à x et la contrainte x(t) dt = n devient y(0) = 0 et y(T ) = n.
0
Le problème est que dans le cas général, la transformation de la contrainte isopéri-
métrique en conditions aux bords n’est pas toujours simple. On peut alors utiliser la
technique du multiplicateur de Lagrange, en ajoutant à l’objectif, la contrainte (= 0)
multipliée par λ le multiplicateur de Lagrange :
T T T
L = e−rt P (x) dt − λ xdt − n = e−rt P (x) − λx dt + nλ (8.16)
0 0 0
La condition nécessaire pour que x maximise l’intégrand augmenté (8.16), entre

crochets, est qu’il vérifie l’équation d’Euler -Lagrange :
dFx
Fx = 0 ⇒ = 0, Fx = e−rt P (x) − λ
dt
L’équation d’Euler : Fx = e−rt P (x) − λ = 0 ⇒ e−rt P (x) = λ
(la valeur actuelle du profit marginal accumulé est constante et égale à λ).
Pour revenir à (8.14) et (8.15) ci-dessus, on a :
t1
max F (t, x, x ) dt (8.14)
x(t) t0
t1
s.c. G(t, x, x )dt = c, x(t0 ) = x0 et x(t1 ) = x1 (8.15)
t0
t1 t1
L(t, x, x , λ) = F (t, x, x ) dt − λ G(t, x, x )dt − c
t0 t0
t1
= F (t, x, x ) dt − λG(t, x, x ) dt + λc (8.17)
t0
L’intégrale (8.14) atteint son maximum pour x, lorsque (8.17) l’atteint pour le même
x et λ déterminé pour que (8.15) soit vérifiée.
Pour (8.17), l’équation d’Euler est :
d (Fx − λGx )
Fx − λGx =
dt
x∗ qui maximise (8.14) sous la contrainte (8.15), n’est pas une extrémale de l’intégrale-
contrainte, sinon on ne pourrait pas déterminer λ et x∗ qui satisfont (8.14) et (8.15).
Exemple 1 :
1 1
2
min x (t) dt sous c. x(t) dt = n, x(0) = 0 et x(1) = 2
0 0
L’intégrand augmenté est L = [x (t)]2 − λx(t), on a :
dLx
Lx = −λ, Lx = +2x , = 2x
dt
L’équation d’Euler est alors :
dLx λ λ
Lx = ⇔ 2x = −λ ⇒ 2x + λ = 0 ⇒ 2x = −λ ⇒ x = − ⇒ x = − t + c1
dt 2 2
λ
⇒ x(t) = − t2 + c1 t + c2
4
or
x(0) = 0 ⇒ c2 = 0
λ λ
x(1) = 2 ⇒ − + c1 = 2 ⇒ c1 = 2 +
4 4
La contrainte
1 1
λ λ
x(t) dt = n ⇒ − t2 + 2 + t dt = n
0 0 4 4

λ 3 8+λ 2 1 λ 8+λ
⇒ − t + t =− + =n
12 8 0 12 8
−2λ + 3(8 + λ)
⇒ =n
24
⇒ −2λ + 24 + 3λ = 24n
⇒ λ = 24(n − 1)
⇒ c1 = 2 + 6(n − 1) = 6n − 4
D’où
x(t) = 6(n − 1)t2 + (6n − 4)t
Exemple 2 :
T T
2 1/2
max x dt sous c. 1 + x dt = n, x(0) = 0 et x(T ) = 0
0 0
1/2
L’intégrand augmenté est L = x − λ 1 + x 2 , on a :
1
2 −1/2

2 −1/2
Lx = 1, L x = − λ 1 + x × 2x = −λx 1 + x
2

d 2 −1/2
1= −λx 1 + x
dt

d 2 −1/2 2 −1/2
1= −λx 1 + x ⇔ d −λx 1 + x = dt
dt

2 −1/2
⇔ −λx 1 + x =t+k
−λx
⇔ =t+k
1 + x 2
λ 2 x 2
⇔ = (t + k)2
1 + x 2
2 2
⇔ λ2 x = (t + k)2 + (t + k)2 x
2
⇔ λ2 − (t + k)2 x = (t + k)2
2 (t + k)2
⇔ x =
λ2 − (t + k)2
t+k
⇔ x =
λ2 − (t + k)2
du
u = λ2 − (t + k)2 ⇒ = −2(t + k)
dt
Donc
1 du 1 du
x = − √dt ⇒ x dt = − √
2 u 2 u

du 1
⇒ x dt = − √ =− √ du
2 u 2 u
√
⇒ x(t) = − u + c

⇒ x(t) = − λ2 − (t + k)2 + c
or √ √

x(0) = 0 ⇒ 0 = − λ2 − k 2 + c ⇒ c = λ2 − k2
x(T ) = 0 ⇒ 0 = − λ2 − (T + k)2 + c ⇒ c = λ2 − (T + k)2
D’où
T
λ2 − k 2 = λ2 − (T + k)2 ⇒ k 2 = (T + k)2 ⇒ k = −
2
On a trouvé ci-dessus x = − λ2 − (t + k)2 + c. On en tire :

x − c = − λ2 − (t + k)2 ⇒ (x − c)2 = λ2 − (t + k)2 ⇒ (x − c)2 + (t + k)2 = λ2

T 2
⇒λ= (x − c)2 + t −
2
x(t) trouvé doit satisfaire la contrainte :
2 1/2
T 1/2 T t − T2
2
1+x dt = n ⇒ 1+ 2 dt = n
0 0 λ2 − t − T2
 T 
t − T2
⇒ λ arcsin =n
λ
0
Appelons la solution optimale x∗ (t). Comme elle satisfait la contrainte, on a donc la
valeur optimale dépendant de n :
t1 t1
∗ ∗
Vn = F t, x∗ , x∗ dt = F t, x , x − λG t, x∗ , x∗ dt + λn
t0 t0
t1
La contrainte étant G(t, x, x ) dt = n.
t0
t1
dL∗ d(λn) dL∗
V (n) = L∗ dt + λn et V (n) = + = +λ
t0 dn dn dn
dL∗
Comme = 0, on a : V (n) = λ.
dn
Le multiplicateur de Lagrange L correspond donc à la valeur marginale du paramètre
n : c’est le taux de variation de l’optimum à la suite d’une variation de n.
8.10 Cas où le point final n’est pas spécifié

t1
Il s’agit de maximiser ou minimiser F t, x, x dt sous la seule contrainte de
t0
x(t0 ) = x0 . (x(t1 ) est donc libre).
Il s’agit de maximiser (ou minimiser) l’intégrale de F (t, x, x ) de t0 à t1 , sachant
que x(t0 ) = x0 . Sur l’axe des t, on sait qu’on doit aller de t0 à t1 . Dans le plan, on
doit aller de (t0 , x0 ) jusqu’à la verticale t = t1 . Mais à quel point sur la verticale, on
ne sait pas. Le problème est donc : quel est le chemin optimal pour aller du point
(t0 , x0 ) à la verticale t = t1 ?
Supposons que x(t) soit optimale et que x(t) + h(t) soit une fonction admissible.
D’où : x(t0 ) + h(t0 ) = x0 ⇒ h(t0 ) = 0. Quant à h(t1 ), elle peut être nulle, négative
ou positive.
Considérons la famille des courbes admissibles x(t) + ah(t) avec x(t) et h(t) déter-
minés. La valeur de l’intégrale dépend alors de a :
t1 t1

g(a) = F t, y, y dt = F t, x + ah, x + ah dt
t0 t0
où y = x + ah, y = x + ah
Puisque x(t) est la solution optimale, g(a) est maximum ou minimum lorsque a = 0
ou y = x, donc
t1

g (0) = 0 ⇒ g (0) = Fx h + Fx h dt = 0
t0
Si l’on pose Fx = u et h dt = dv, on obtient :

t1 t1 t1
dFx dFx
Fx h dt = Fx h|tt10 − h dt = Fx h|t1 − h dt
t0 t0 dt t0 dt
puisque Fx h(t0 ) = 0. Ainsi,
t1
dFx
g (0) = h Fx + dt + Fx h|t1 = 0
t0 dt
Comme x(t) vérifie l’équation d’Euler, le crochet est nul. Pour que g (0) soit nul, il
faut avoir h(t1 ) = 0 et

Fx t1 , x(t1 ), x (t1 ) × h(t1 ) = 0
Pour que cela soit nul pour tout h admissible, il faut que

Fx t1 , x(t1 ), x (t1 ) = 0 si x1 est libre.
Finalement, pour que x(t) soit la solution optimale, il faut que
1. x(t) vérifie l’équation d’Euler
2. x(t) vérifie x(t0 ) = x0
3. x(t) vérifie la condition de transversalité Fx (t1 , x(t1 ), x (t1 )) = 0
4. x(t) vérifie pour le maximum la condition de Legendre de second ordre
Fx x (t, x(t), x (t)) ≤ 0
Exemple 1 : Trouvons la plus courte distance entre x(a) = A et la droite t = b.

Nous avons déjà vu que la distance à minimiser est l’intégrale de petites distances
ds allant du point initial au point final dont on ne connait dans l’espace (t, x) que
l’abscisse t1 .
Dans la figure ci-dessus, on voit que (ds)2 = (dt)2 + (dx)2 . Cela donne :
2
(ds)2 dx 2
2
=1+ = 1 + x (t) ⇒ ds = 1 + x 2 dt2 = 1 + x 2 (t)dt.
dt dt
b
La distance à minimiser est ainsi : 1 + x 2 dt s.c. x(a) = A. Dans ce cas F (x ) =
a
1 + x 2 . L’intégrand F = F (x ) implique que la forme de la solution est donc ;
x(t) = c1 t + c2 .
La condition de transversabilité lorsque le point final n’est pas spécifié est :

1 −1/2 x
Fx = 0, Fx = 1 + x 2x = = 0 ⇒ x = 0
2 1+x 2
D’où
x (b) = 0 = c1
x(a) = A = c1 a + c2 ⇒ c2 = A
Donc, x(t) = A pour a ≤ t ≤ b.
La ligne recherchée qui minimise la distance entre (a, A) et la verticale t = b est
la droite horizontale x = A. La condition de Legendre du minimum Fx x > 0 est
satisfaite, puisque

1 + x 2 − x Fx 1 + x 2
F x x = = >0 puisque Fx = 0
1 + x 2 1 + x 2
8.11 Cas où l’horizon est libre

t1
C’est le cas où l’on a à minimiser ou maximiser F t, x, x dt sous la seule
t0
condition x(t0 ) = x0 .
On suppose que F est continue et 2 fois dérivable. Supposons qu’avec t1 , x∗ (t) pour
t0 ≤ t ≤ t1 est la solution optimale de notre problème. Considérons x(t), t0 ≤
t ≤ t1 + δt1 avec δt1 petit. x(t) et x∗ (t) satisfont x(t0 ) = x0 . Elles sont supposées
continues et dérivables.
Si δt1 > 0, on pourra étendre x∗ (t) sur l’intervalle [t1 , t1 + δt1 ]
Si δt1 < 0, on pourra étendre x(t) sur l’intervalle [t1 + δt1 , t1 ]
Posons h(t) = x(t) − x∗ (t) t0 ≤ t ≤ max(t1 , t1 + δt). Pour t0 , on a x∗ (t0 ) = x(t0 ) =
x0 par hypothèse, ceci implique h(t0 ) = 0.
Définissons la distance entre x et x∗ par :
x − x∗ = max|h(t)| + max|h (t)| + |δt1 | + |x(t1 + δt1 ) − x∗ (t1 )|

t t
Les deux fonctions x∗ et x sont proches si à chaque point du domaine étendu, leurs
valeurs sont proches, leurs pentes sont similaires et si leurs points terminaux sont
proches. C’est ce qu’exprime la distance définie ci-dessus.
Définissons t1 +aδt1

g(a) = F t, x∗ + ah, x∗ + ah dt
t0
La fonction g atteind son optimum à a = 0, donc g (0) = 0 est nécessaire.
t1 +aδt1
∂F t, x∗ + ah, x∗ + ah
g (a) = dt
t0 ∂a
Rappelons la règle de Leibniz :

b(x,y)
k(x, y) = a f (x, y, z) dz
b(x,y)
∂k(x, y) ∂f (x, y, z) ∂b(x, y)
⇒ = dz + f (x, y, b(x, y))
∂x a ∂x ∂x
Dans g(a), t correspond à z, a correspond à x, x et x à y, t1 + aδt1 = b(x, y). Sa

dérivée partielle par rapport à a est δt1 . D’où :
t1 +aδt1

g (a) = F t1 , x∗ (t1 ), x∗ (t1 ) δt1 + Fx h + Fx h dt
t0
Pour a = 0, on a :
t1

g (0) = 0 = F t1 , x∗ (t1 ), x∗ (t1 ) δt1 + (Fx h + Fx h ) dt
t0
Intégrons le second terme par parties (rappel : h(t0 ) = 0). On obtient : g (0) = 0
t1
dFx
F t1 , x∗ (t1 ), x∗ (t1 ) δt1 +Fx t1 , x∗ (t1 ), x∗ (t1 ) ×h(t1 )+ Fx + h dt = 0
t0 dt
La différence des valeurs des deux fonctions x et x∗ à leurs points finals respectifs
est : δx1 ≡ x(t1 + δt1 ) − x∗ (t1 ).
On peut extrapoler pour déterminer x(t1 + δt1 ) en tirant une droite à partir du point
(t1 , x(t1 )) et ayant pour pente x∗ (t1 ) : l’équation de cette droite est donc :
x(t) = x∗ (t1 ) × t + x(t1 ) − x∗ (t1 ) × t1
x vaut sur cette droite à t1 + δt1 :
x(t1 + δt1 ) = x∗ (t1 ) × [t1 + δt1 ] + x(t1 ) − x∗ (t1 ) × t1
δx1 x(t1 + δt1 ) − x∗ (t1 )

= x∗ (t1 ) × [t1 + δt1 ] + x(t1 ) − x∗ (t1 ) − x∗ (t1 ) × t1
= x∗ (t1 ) × t1 + x∗ (t1 ) × δt1 + x(t1 ) − x∗ (t1 ) − x∗ (t1 ) × t1
= x(t1 ) − x∗ (t1 ) + x∗ (t1 ) × δt1
= h(t1 ) + x∗ (t1 ) × δt1
D’où :
h(t1 ) δx1 − x∗ (t1 ) × δt1
Nous avons là une valeur approximative de h(t1 ). Substituons à h(t1 ) sa valeur dans
l’expression de g (0) ci-dessus. Il vient :
t1
dFx
g (0) = Fx − h dt+Fx (t1 ) δx1 − x∗ (t1 )δt1 +F (t1 , x∗ (t1 ), x∗ (t1 ))δt1 = 0
t0 dt
t1
dFx
g (0) = Fx − h dt + Fx (t1 )δx1 + F − x Fx (t1 )δt1 = 0
t0 dt
L’intégrand est nul puisque l’équation d’Euler doit être vérifiée. D’où : Fx (t1 )δx1 +
(F − x Fx )(t1 )δt1 = 0.
L’analyse de cette condition nous conduit, dans les différents sous-cas relatifs à la
borne finale, aux conditions nécessiares suivantes pour l’optimisation du problème :
t1

max ou min F t, x(t), x (t) dt
t0
sous x(t0 ) = x0
Conditions nécessaires :
dFx
— L’équation d’Euler-Lagrange doit être vérifiée : Fx = pour t0 ≤ t ≤ t1 ;
dt
— La condition de Legendre de second ordre doit être vérifée :
• pour le maximum : Fx x ≤0 pour tout t, t0 ≤ t ≤ t1 ;
• pour le minimum : Fx x ≥0 pour tout t, t0 ≤ t ≤ t1 .
Conditions aux bornes :

— x(t0 ) = x0 ;
— Si x(t1 ) est donné, alors x(t1 ) = x1 est connu ;
— Si t1 est fixé, alors t1 est connu.
Conditions de transversalité :
— Si x(t1 ) est libre, alors on doit avoir : Fx = 0 à t1 ;
— Si t1 est libre, alors on doit avoir : F − x Fx = 0 à t1 ;
— Si x(t1 ) et t1 sont tous les deux libres, alors on doit avoir : Fx = 0 et F = 0
à t1 .
8.12 Cas de point final sous contrainte

On se contente de voir ici le seul cas de contrainte d’égalité. Pour la contrainte
d’inégalité, il vaut mieux recourir aux méthodes du contrôle optimal.
Le problème d’optimisation est ainsi :
t1
max ou min F (t, x, x ) dt
t0
s.c. x(t0 ) = x0 et R(t1 ) = x1
R est une fonction dérivable, x1 doit se situer sur la courbe de R(t). Si t1 varie de
δt1 , la valeur finale de x1 variera de R (t1 )δt1 :
δx1
R (t1 ) =
δt1
Nous avons établi dans la section précédente (11) que pour trouver l’optimum dans
le cas général, on doit avoir :
δx1
Fx (t1 )δx1 + (F − x Fx (t1 ) × δt1 = 0 ⇒ Fx (t1 ) + (F − x Fx )(t1 ) = 0
δt1
⇒ Fx (t1 ) × R (t1 ) + (F − x Fx )(t1 ) = 0

⇒ F (t1 ) + Fx (t1 ) R (t1 ) − x = 0
La condition de l’optimum dans ce cas précis, de point final sous contrainte d’égalité
est donc
F + Fx (R − x ) = 0 à t1
Condition à ajouter aux conditions d’Euler, de Legendre et de x(t0 ) = x0 .
Bibliographie
[1] Adda, Jérôme and Russel Cooper. “DynamicEconomics : Quantitative

Methods and Applications.” The MIT Press, 2003.
[2] Anthony, M. and M. Harvey. “LinearAlgebra : Concepts and Methods.”
Cambridge UniversityPress, 2012.
[3] Cartan, Henri. “Cours de calcul différentiel.” Ed. Hermann, collection Mé-
thodes, Paris, 1967, Ed. refondue et corrigée de 1977.
[4] Chevalier, A., J.-P. Nakache and V. Morice. “Exercices Commentés de
Mathématiques pour l’Analyse Statistique des Données.” Editions Dunod, Paris,
1981.
[5] Deschamps, Philippe. “Cours d’Econométrie. ” Université de Fribourg, mi-
meo, 2006.
[6] Dhrymes, Phoebus J. “Mathematics for Econometrics.” Springer, New York,
2013.
[7] Dowling, Edward T. ”Introduction to MathematicalEconomics.” McGraw-
Hill, Schaum’sOutlines, 1992.
[8] Gentle, James E. “Matrix Algebra, Theory, Computations and Applications
in Statistics.” Springer, 2007.
[9] Hallam, Arne. “Probability, Random Variables.” Iowa State University, Mi-
meo, 2004.
[10] Hamilton, James D. “ Time SeriesAnalysis.” Princeton UniversityPress, New
Jersey, 1994.
[11] Kamien, Morton I. and Nancy L. Schwartz. “Dynamic Optimization.”
North-Holland, Elsevier, 1991.
[12] Koudriavtsev, V. and B. Démidovitch. “Cours élémentaire de mathéma-
tiques supérieures.” Ed. Mir, Moscou, 1982.
[13] Lecoutre, Jean-Pierre. “Statistique et Probabilités.” Ed. Dunod, Paris, 2012.
[14] Neilson, William. “Must-Have Math Tools for GraduateStudy in Economics.”
Ed. William Neilson, 2009.
[15] Piskounov, N. ”Calcul Différentiel et Intégral.” Tomes 1 et 2, Editions Mir,
Moscou, 1970.
297
298 BIBLIOGRAPHIE
[16] Pontriaguine, L. ”Equations différentielles ordinaires.” Ed. Mir, Moscou,

1969.
[17] Schweinzer, Paul. ”MathematicalMethods for EconomicAnalysis.” School of
Economics, Statistics and Mathematics, University of London, mimeo, 2004.
Table des matières
Abstract iii
Préface v
Prologue vii
Remerciements xvii
Dédicaces xxi
Sommaire xxv
1 Rappels d’algèbre linéaire 1

1.1 Espaces vectoriels, base et dimension . . . . . . . . . . . . . . . . . . 1
1.2 Espaces Euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Applications linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Matrice associée à une application linéaire . . . . . . . . . . . . . . . 4
1.5 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Addition des matrices . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2 Multiplication des matrices . . . . . . . . . . . . . . . . . . . 7
1.6 Formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Matrices particulières . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7.1 Matrice identité . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7.2 Matrice transposée . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7.3 Matrices symétriques . . . . . . . . . . . . . . . . . . . . . . . 9
1.8 Matrices partagées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9 Déterminant d’une matrice carrée . . . . . . . . . . . . . . . . . . . . 10
1.10 Inverse d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . 12
1.11 Dépendance linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.12 Valeurs et vecteurs propres d’une matrice . . . . . . . . . . . . . . . 13
1.12.1 Valeurs propres de matrices triangulaires . . . . . . . . . . . . 13
1.12.2 Indépendance linéaire de vecteurs propres . . . . . . . . . . . 14
1.13 Décomposition d’une matrice à valeurs propres distinctes . . . . . . . 14
299
300 TABLE DES MATIÈRES
1.14 Autres propriétés des valeurs propres . . . . . . . . . . . . . . . . . . 16

1.15 Matrices semblables . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.16 Séries géométriques de matrices . . . . . . . . . . . . . . . . . . . . . 17
1.17 Produit de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.18 Matrices définies positives . . . . . . . . . . . . . . . . . . . . . . . . 19
1.19 Transposées conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.20 Dérivation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Systèmes linéaires d’équations et transformations de matrices 23

2.1 Système consistant d’équations linéaires . . . . . . . . . . . . . . . . 24
2.2 L’inverse généralisée d’une matrice . . . . . . . . . . . . . . . . . . . 27
2.3 Espace nul d’une matrice et espace de ses colonnes . . . . . . . . . . 28
2.4 Pseudo-inverse d’une matrice . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1 Existence de l’inverse de Moore-Penrose . . . . . . . . . . . . 32
2.4.2 Unicité de la pseudo-inverse . . . . . . . . . . . . . . . . . . . 33
2.5 Factorisation des matrices . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1 Décomposition spectrale : compléments . . . . . . . . . . . . 34
2.5.2 Décomposition de matrices pour la résolution de SLE . . . . . 38
2.6 Résolution des systèmes linéaires d’équations . . . . . . . . . . . . . 44
2.6.1 Systèmes linéaires à solutions évidentes . . . . . . . . . . . . 44
2.6.2 Conditionnement d’une matrice . . . . . . . . . . . . . . . . . 46
2.6.3 Méthodes directes de résolution des systèmes linéaires . . . . 50
2.6.4 Méthodes itératives de résolution des systèmes consistants . . 51
2.6.5 Systèmes linéaires surdéterminés, les moindres carrés . . . . . 57
3 Calcul différentiel et intégral 61

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Dérivées et règles de dérivation . . . . . . . . . . . . . . . . . . . . . 62
3.3 Règle de dérivation de fonctions composées (Chain rule) . . . . . . . 68
3.4 Intégrale et intégration . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.5 Méthodes d’intégration . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5.1 Méthode de changement de variable (ou de substitution) . . 73
3.5.2 Intégration par parties . . . . . . . . . . . . . . . . . . . . . 76
3.6 Application des dérivées et des intégrales en économie . . . . . . . . 79
3.6.1 Applications de la dérivée en économie . . . . . . . . . . . . . 79
3.6.2 Applications de l’intégrale en économie . . . . . . . . . . . . 80
3.7 Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.7.1 Dérivée totale d’une fonction composée . . . . . . . . . . . . 83
3.7.2 Dérivation des fonctions implicites . . . . . . . . . . . . . . . 85
3.7.3 Dérivées (partielles) de différents ordres . . . . . . . . . . . . 85
3.7.4 Formule de Taylor . . . . . . . . . . . . . . . . . . . . . . . 86
3.8 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.9 Calcul différentiel et intégral fractionnaire : une introduction . . . . . 89
4 Équations différentielles ordinaires 101

4.1 Équations différentielles linéaires du premier ordre . . . . . . . . . . 103
4.1.1 Équations à coefficients constants . . . . . . . . . . . . . . . . 103
4.1.2 Équations à partie droite Q variable . . . . . . . . . . . . . . 104
4.1.3 Équations à coefficients variables . . . . . . . . . . . . . . . . 104
4.2 Équations spéciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2.1 Équation de BERNOULLI . . . . . . . . . . . . . . . . . . . . 107
4.2.2 Équation de CLAIRAUT . . . . . . . . . . . . . . . . . . . . 108
4.2.3 Équations de LAGRANGE . . . . . . . . . . . . . . . . . . . 109
4.3 Solutions graphiques des équations différentielles du premier ordre . 110
4.4 Existence et unicité d’une solution d’une équation du premier ordre . 113
4.4.1 Solution approchée des équations du 1er ordre . . . . . . . . . 114
4.4.2 Équations différentielles linéaires du second ordre . . . . . . . 115
4.4.3 Équations différentielles linéaires d’ordre n . . . . . . . . . . . 121
4.4.4 Système d’équations différentielles linéaires . . . . . . . . . . 129
5 Probabilités et statistique mathématique 135

5.1 Événement aléatoire et probabilité d’un événement . . . . . . . . . . 135
5.2 Somme et produit des probabilités . . . . . . . . . . . . . . . . . . . 138
5.3 Probabilités des causes, formule de Bayes . . . . . . . . . . . . . . . 142
5.4 Variable aléatoire discrète et sa loi de distribution . . . . . . . . . . . 144
5.4.1 Espérance mathématique d’une variable aléatoire discrète . . 148
5.4.2 Variance d’une variable aléatoire discrète . . . . . . . . . . . . 152
5.4.3 Fonction de répartition d’une va . . . . . . . . . . . . . . . . 154
5.4.4 Moments d’une va . . . . . . . . . . . . . . . . . . . . . . . . 154
5.5 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.5.1 Loi de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.5.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.5.3 Loi binômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.5.4 Loi géométrique ou de Pascal . . . . . . . . . . . . . . . . . . 158
5.5.5 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . 159
5.5.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.5.7 Loi binômiale négative . . . . . . . . . . . . . . . . . . . . . . 163
6 Variables aléatoires continues 165

6.1 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . 165
6.1.1 Espérance mathématiques d’une v.a. continue . . . . . . . . . 167
6.1.2 Variance d’une v.a. continue . . . . . . . . . . . . . . . . . . . 168
6.2 Lois usuelles continues . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.2.3 Loi normale ou loi de Gauss . . . . . . . . . . . . . . . . . . . 172
6.2.4 Loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.2.5 Loi du χ2 (chi-2) . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.2.6 Loi bêta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
302 TABLE DES MATIÈRES
6.2.7 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . 184

6.2.8 Loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.3 Fonction génératrice des moments d’une loi continue et sa fonction
caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.3.1 La fonction génératrice . . . . . . . . . . . . . . . . . . . . . . 185
6.3.2 Fonction caractéristique d’une v.a. . . . . . . . . . . . . . . . 188
6.4 Fonctions d’une variable aléatoire continue et leurs distributions . . . 189
6.5 Variables aléatoires bi et multidimensionnelles . . . . . . . . . . . . . 191
6.5.1 v.a. bidimensionnelles et leurs lois . . . . . . . . . . . . . . . 191
v.a. bidimensionnelles discrétes . . . . . . . . . . . . . . . . . . . 191
v.a. bidimensionnelles continues (X, Y ) . . . . . . . . . . . . . . 198
6.5.2 Fonction de régression . . . . . . . . . . . . . . . . . . . . . . 202
6.5.3 Loi d’une somme . . . . . . . . . . . . . . . . . . . . . . . . . 203
6.5.4 Variables aléatoires multidimensionnelles . . . . . . . . . . . . 205
7 Éléments de théorie statistique asymptotique 217

7.1 Moments empiriques et distributions empirique et théorique . . . . . 217
7.1.1 Echantillon et loi empirique . . . . . . . . . . . . . . . . . . . 217
7.1.2 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . 218
7.1.3 Échantillon d’une loi normale . . . . . . . . . . . . . . . . . . 228
7.1.4 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . 232
7.2 Notions de convergence et théorèmes fondamentaux de statistique . . 236
7.2.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . 236
7.2.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 243
8 Introduction à l’optimisation dynamique : Calcul variationnel 259

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
8.2 Introduction au calcul variationnel . . . . . . . . . . . . . . . . . . . 261
8.3 Exemples de problèmes d’optimisation dynamique pouvant être traités
par le calcul variationnel . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.4 Résolution de l’exemple 3.1 . . . . . . . . . . . . . . . . . . . . . . . 267
8.5 L’équation d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.6 Applications de l’équation d’Euler . . . . . . . . . . . . . . . . . . . 272
8.6.1 Application 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.6.2 Application 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.6.3 Application 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
8.6.4 Application 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
8.6.5 Application 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
8.6.6 Application 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.6.7 Application 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.7 Résolution de l’équation d’Euler dans des cas particuliers . . . . . . . 278
8.7.1 Cas où F ne dépend que de t et x . . . . . . . . . . . . . . . 278
8.7.2 Cas où F ne dépend que de x et x (et pas de t) . . . . . . . 279
8.7.3 Cas où F ne dépend que de x . . . . . . . . . . . . . . . . . . 281
8.7.4 Cas où F = F (t, x) . . . . . . . . . . . . . . . . . . . . . . . . 281
8.7.5 Cas où F est linéaire en x . . . . . . . . . . . . . . . . . . . . 281

8.8 Conditions de second ordre . . . . . . . . . . . . . . . . . . . . . . . 285
8.9 Problème isopérimétrique . . . . . . . . . . . . . . . . . . . . . . . . 286
8.10 Cas où le point final n’est pas spécifié . . . . . . . . . . . . . . . . . 290
8.11 Cas où l’horizon est libre . . . . . . . . . . . . . . . . . . . . . . . . . 292
8.12 Cas de point final sous contrainte . . . . . . . . . . . . . . . . . . . . 295
Bibliographie 303
Table des matières 303

Méthodes mathématiques avancées
Pour l’analyse économique
Contenu
Rappels d’algèbre linéaire
Systèmes d’équations linéaires et transformations de matrices
Calcul différentiel et intégral
Equations différentielles ordinaires Probabilités et statistique mathématique
Variables aléatoires
Eléments de théorie statistique asymptotique
Calcul des variations
Advanced Mathematical Methods

For Economic Analysis
Abstract
Linear algebra
Systems of Linear Equations and Matrix Transformation
Calculus
Ordinary Differential Equations
Probability and Mathematical Statistics
Random Variables
Elements of Asymptotic theory
Calculus of Variations
L’auteur : Lahcen OULHAJ est professeur de sciences économiques à la Faculté de

Droit Agdal de l’Université Mohammed V de Rabat (ancien doyen de ladite faculé)
Président de commission permanente au CESE du Maroc

Video 2 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Video 2 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Méthodes mathématiques avancées

Pour l’analyse économique

Professeur de sciences économiques

L.O., Rabat, octobre 2016

La question de l’utilisation des mathématiques en économie a longuement divisé

L.O., Rabat, octobre 2016

Mes vifs remerciements vont à l’OCP-Policy Center, et plus particulièrement à son

1 Rappels d’algèbre linéaire 1

3 Calcul différentiel et intégral 61

4 Équations différentielles ordinaires 101

5 Probabilités et statistique mathématique 135

6 Variables aléatoires continues 165

7 Éléments de théorie statistique asymptotique 217

Table des matières 303

1.1 Espaces vectoriels, base et dimension

Un sous-espace vectoriel de E est toute partie F non vide de E telle que :

∀x, y ∈ F et ∀λ, µ ∈ R : λ·x+µ·y ∈F

Si tout élément x de E s’écrit sous forme de combinaison linéaire de p vecteurs

on appelle (x1 , x2 , · · · , xi , · · · , xp ) un système générateur de E.

Les n vecteurs y1 , y2 , · · · , yn de E sont linéairement indépendants si

Ces vecteurs yi forment une famille libre ou un système libre.

Un espace vectoriel E est somme directe des k sous-espaces vectoriels E1 , E2 , · · · ,

1.2 Espaces Euclidiens

∀λ, µ ∈ R, ∀x, y, z ∈ E, x, λy + µz = λx, y + µx, z

Il est une forme définie positive : ∀x ∈ E, x, x ≥ 0 et x, x = 0 ⇔ x = 0.

∀u, v ∈ E : |u, v| ≤ u v.

Deux vecteurs x et y d’un espace Euclidien E sont orthogonaux si x, y = 0. On

1.3 Applications linéaires

∀x, y ∈ E : f (x + y) = f (x) + f (y)

On peut combiner ces deux propriétés de linéarité en une seule :

∀x, y ∈ E, ∀α, β ∈ R f (αx + βy) = αf (x) + βf (y)

Si E = F , l’application linéaire f est appelée endomorphisme de E ou opérateur

f (αx + βy) = 5(αx + βy) + 4 = 5αx + 5βy + 4

Soit f une application linéaire de E dans F . f −1 (0), sous-espace vectoriel de E,

f (E) est un sous-espace vectoriel de F . Il est appelé ensemble image de f .

Im(f ) = {y ∈ F : y = f (x) où x ∈ E}.

Le rang de f est la dimension de l’image de f , c’est-à-dire la dimension de f (E).

Le rang de f a les propriétés suivantes :

rg(f ) = dim(E) − dim[ker(f )]

L’ensemble des applications linéaires de E dans F , noté L(E, F ), muni de l’addition

∀x ∈ E : (f + g)(x) = f (x) + g(x)

est un espace vectoriel défini sur R.

f (x) ∈ F et y ∗ ∈ F ∗ donc y ∗ [f (x)] ∈ R

1.4 Matrice associée à une application linéaire

Si y est l’image de x par f , on a :

y = Γx y  = (β1 , β2 , · · · , βn ) ; x = (α1 , α2 , · · · , αp ) ; Γ(n, p) = [γij ]

Ce tableau Γ est la matrice associée à l’application linéaire f de E dans F .

Exemple : Soit l’application linéaire

β1 = 2α1 − α2 ; β2 = α1 − 2α2 ; β3 = −α1 + α2 ; β4 = 3α2 .

Il est évident que la matrice associée à l’application linéaire f est :

1.5 Calcul matriciel

Lorsque n = 1, A est un vecteur ligne ; lorsque p = 1, A est un vecteur colonne ;

1.5.1 Addition des matrices

[aij ](n×p) + [bij ](n×p) = [aij + bij ](n×p)

A+B =B+A et A + B + C = (A + B) + C = A + (B + C).

1.5.2 Multiplication des matrices

1.6 Formes quadratiques

q(x, y, z) = 5x2 + 10y 2 + 2x2 + 4xy + 2xz − 6yz = u Au

1.7 Matrices particulières

A · A = A2 ; A multiplié par A k fois = Ak ; A0 = In .

1.7.2 Matrice transposée

(A ) = A; (A + B) = A + B  ; (AB) = B  A

Montrons cela dans le cas de matrices carrées d’ordre 2 :

∀λ, µ ∈ R, ∀x, y, z ∈ E, x, λy + µz = λx, y + µx, z

Il est une forme définie positive : ∀x ∈ E, x, x ≥ 0 et x, x = 0 ⇔ x = 0.

∀u, v ∈ E : |u, v| ≤ u v.

Deux vecteurs x et y d’un espace Euclidien E sont orthogonaux si x, y = 0. On

y = Γx y = (β1 , β2 , · · · , βn ) ; x = (α1 , α2 , · · · , αp ) ; Γ(n, p) = [γij ]

q(x, y, z) = 5x2 + 10y 2 + 2x2 + 4xy + 2xz − 6yz = u Au

(A ) = A; (A + B) = A + B ; (AB) = B A

avec |In − A| = 0, si det(In − A) = 0 ⇒ det(A − In ) = 0 ⇒ |A − 1In | = 0.

dyx dx y dx M y dx M y

A est carrée, |A| = 2 = 0, A n’est pas singulière. D’où : x = A−1 b

rg[A|b] = rg(A) ⇒ Le système est inconsistant.

rg[A|b] = 3, en effet det[A|b] = 0.