Vous êtes sur la page 1sur 5

MATHÉMATIQUES ET ENTREPRISES

Quelles statistiques
sont utiles aux entreprises ?
Paul Deheuvels,
Professeur à l’université Pierre et Marie Curie (Paris VI),
membre de l’Institut

Il serait fastidieux de vouloir présenter ici un catalogue technique riences médicales, dont certaines doi-
de méthodes ou de concepts. Il me semble plus intéressant, en préalable, vent être conduites sur des patients
d’illustrer par quelques exemples le rôle que peut jouer la statistique
en cours de traitement. Il est facile de
comprendre, dans ce dernier cas, que
au sein d’une entreprise, pour ensuite tenter d’en dégager certains des les données d’observation sont presque
aspects parmi les plus dignes d’intérêt. L’objet primordial de la statistique toujours coûteuses et peu nombreuses.
étant de fournir des moyens efficaces pour le traitement des données Il importe donc qu’on puisse en
expérimentales, il convient d’abord de préciser la nature des informations extraire toute l’information dispo-
qu’il est utile d’extraire de telles observations, avant de réfléchir sur nible, plutôt que de prendre des risques
le mode opératoire devant être utilisé à cet effet. sur la santé de malades en multipliant
des protocoles inutiles. Le problème

U
se pose d’ailleurs dans les mêmes
termes lorsqu’il est fait appel à des
NE ENTREPRISE combine trois expérimentations animales. Sans entrer
fonctions essentielles : inven- dans le débat de justifier ou non leur
ter, fabriquer et vendre. existence, chacun sera d’accord sur le
L’exemple de l’industrie pharmaceu- fait qu’il serait inacceptable de ne pas
tique illustre parfaitement cette trilo- chercher à exploiter au mieux les don-
gie. Il lui faut en effet, tout d’abord, nées qu’elles fournissent. Or, par leur
découvrir de nouvelles molécules nature, les observations auxquelles on
répondant aux besoins de santé, ensuite, peut avoir accès par l’expérience sont
fabriquer les préparations destinées imprécises, entachées d’erreur, et aléa-
à les rendre disponibles aux utilisa- toires. C’est ainsi qu’il y a peu de trai-
teurs, et enfin, commercialiser ces tements qui soient efficaces à 100%
dernières afin de générer, in fine, un pour traiter des maladies comme le
bénéfice d’exploitation. Naturellement, cancer, et qu’on doive justifier l’inté-
ce dernier est destiné, d’une part à rêt d’une nouvelle médication en fonc-
rentabiliser les investissements anté- tion de taux de survie à douze ou
rieurs, et d’autre part à financer la vingt-quatre mois, plutôt que de comp-
recherche de produits nouveaux. ter les guérisons, cette notion perdant
d’ailleurs toute signification sur le
Au cours de ces différentes opé- long terme. Il faut alors raisonner,
rations, il est constamment nécessaire non pas sur des patients individuels,
de pouvoir apprécier les effets théra- mais sur des populations. Comme,
peutiques des nouveaux produits, et pour celles-ci, il n’est pas possible de
ceci à partir d’un ensemble d’expé- prévoir avec certitude le détail des

LA JAUNE ET LA ROUGE – AOÛT/SEPTEMBRE 2002 9


réactions des individus qui les com- des connaissances théoriques appro- tout en menant à des prévisions diver-
posent, on cherchera à mesurer l’in- fondies. On rencontre souvent l’une gentes sur les valeurs extrêmes qu’on
cidence globale des actes thérapeu- sans l’autre. Poursuivant la compa- doit s’attendre à observer par la suite.
tiques auxquelles elles sont soumises. raison entre la statistique et la méde- Dans cet exemple, le facteur crucial est
cine, il est tout autant dangereux de davantage le bon choix de la loi de
Le rôle de la statistique est ici essen- se faire soigner par des rebouteux que répartition des longueurs de bouchons
tiel. Aussi bien un mauvais choix du par des biologistes qui n’ont pas une que la façon dont on en ajuste les
critère de validation qu’une mauvaise expérience réelle des malades. paramètres à partir de l’expérience.
utilisation des outils mathématiques Une erreur dans les choix initiaux du
qu’elle met en œuvre peut aboutir à Quelques exemples modèle pourra avoir des conséquences
des décisions désastreuses. On court catastrophiques.
ainsi le risque de poursuivre le dévelop- Plutôt que de rester abstrait, je
pement d’un produit dangereux et donnerai quelques exemples pour Mon deuxième exemple vient de
inefficace, ou, inversement, d’arrêter illustrer mon propos. Le premier, l’industrie pharmaceutique. Les efforts
prématurément l’étude d’une molé- issu de l’industrie pétrolière, concerne qui doivent y être faits, entre l’in-
cule potentiellement riche en appli- les bouchons dans les écoulements vention de nouvelles molécules et leur
cations utiles. diphasiques (voir, par exemple, [2]). commercialisation, sont extraordinai-
Imaginons une plate-forme en pleine rement longs et coûteux. Il y a peu,
Une approche naïve mènerait à mer qui pompe dans un pipeline long la presse a largement fait écho au fait
croire que la statistique est un mono- de dizaines de kilomètres un mélange qu’une entreprise prospère pouvait
lithe parfait, au sens qu’il y aurait pour composé d’huile, d’eau et de gaz. aller à la limite du dépôt de bilan
chaque type d’expérience un traite- Sous certaines conditions, l’ensemble lorsque l’un de ses produits phares
ment statistique unique qui lui soit se sépare en deux composantes, l’une était accusé d’effets secondaires inat-
parfaitement adapté. Il n’en est mal- gazeuse, l’autre liquide, et l’écoulement tendus mettant en jeu la santé des
heureusement rien. Le plus souvent, alternera donc des bulles gazeuses consommateurs. À chaque étape du
on doit confronter les données d’ob- et des bouchons liquides, ces der- processus d’évaluation, des expé-
servation à de vastes catalogues de niers étant propulsés dans le conduit riences délicates doivent être menées
modèles mathématiques plus ou moins comme la balle dans le canon du pour décider si l’efficacité du produit
complexes, et entre lesquels il est dif- fusil. Il est alors d’une grande impor- existe ou non, quantifier ses effets
ficile de justifier a priori des préfé- tance de quantifier la longueur aléa- secondaires (et notamment sa toxi-
rences éventuelles. toire de ces bouchons afin d’adapter cité), et décider si l’ensemble de ces
au mieux l’appareillage de réception. caractéristiques justifie qu’on en pour-
D’une certaine manière, l’action Si ce dernier a une capacité insuffi- suive le développement jusqu’à son
du statisticien s’apparente alors à celle sante, il sera détérioré par l’arrivée terme. Il suffit parfois d’un mauvais
du médecin au chevet de son patient. intempestive d’un bouchon de trop emploi des statistiques pour que l’une
Comme tout bon praticien, son devoir grande longueur. Inversement, une de ces analyses mène à abandonner
est de bien interpréter les symptômes trop grande capacité du réservoir de à tort l’étude d’un produit qui aurait
variés portés à sa connaissance. Les réception serait coûteuse à l’excès au généré des bienfaits substantiels, ou
choix qu’il adoptera ensuite pourront point d’obérer le bénéfice d’exploitation inversement à investir à fonds per-
avoir des conséquences extrêmes allant de l’ensemble. dus dans des voies improductives.
de la guérison au décès. Avant tout,
il lui importe donc de formuler un Comment procède-t-on pour ajus- Il m’a été donné de participer au
bon diagnostic. Toutefois, on ne peut ter les paramètres d’intérêt dans un développement d’une molécule dont
pas se fier totalement à la seule expé- problème comme celui-ci? Il est clas- les effets remarquables pour le trai-
rience d’un homme de terrain et il est sique de faire usage d’une expérience tement des maladies cardiovasculaires
nécessaire de se livrer à toutes les véri- pilote où l’on ajuste, par des méthodes sont maintenant parfaitement connus.
fications possibles avant d’accepter statistiques standard, une loi de répar- Il s’agit du Clopidogrel de Sanofi-
ses conclusions. Il s’agit en effet de tition des longueurs de bouchons à Synthélabo. Je me souviens encore
distinguer l’information réelle qu’ap- partir d’un ensemble limité d’obser- d’une expérience menée sur plus de
portent les observations de l’infor- vations. On extrapole ensuite cette 10000 patients, et au cours de laquelle
mation implicite et subjective qui est loi de répartition pour prévoir les l’utilisation d’un modèle statistique
induite par les choix de modèle de caractéristiques de bouchons extrêmes, inadapté, imposé par un organisme
l’expert en charge de problème. Ceci ces derniers posant les problèmes de de santé publique étranger, avait failli
est loin d’être facile comme on pourra fonctionnement les plus sérieux. Or, mener à l’échec. Le problème était
le constater plus loin. De plus, la pra- c’est précisément là où le bât blesse : que l’organisme voulait admettre que
tique de la statistique est rendue d’au- des modèles différents peuvent à la les taux de mortalité des patients res-
tant plus difficile qu’elle se doit de fois s’ajuster fidèlement l’un et l’autre taient constants au cours de l’expé-
combiner une solide expérience avec aux données de l’expérience initiale, rience (rappelons que le taux de mor-

10 AOÛT/SEPTEMBRE 2002 – LA JAUNE ET LA ROUGE


talité T(x) d’un patient à l’instant x
correspond à une probabilité de décès Comparaison d’une courbe paramétrique et non paramétrique
T(x)dx dans l’intervalle de temps sur un même jeu de données
[x,x+dx], sachant que le patient est
encore vivant à l’instant x). Il se trouve
que le taux de mortalité pour les
patients traités avec la nouvelle molé-
cule décroissait avec le temps, ce qui
voulait dire que les malades étaient,
d’une certaine manière, guéris par ce
traitement. Inversement, les patients
recevant la médication classique à
base d’aspirine conservaient un taux
de mortalité constant dans le temps.
Ce phénomène, nouveau et inat-
tendu, a été découvert par l’emploi
de nouvelles techniques statistiques
(voir [3]). S’il n’avait pas été pris en
compte à temps, qui sait ce qui aurait
pu être déduit d’une étude de cette
ampleur analysée sous de mauvaises
hypothèses?
On peut en effet aboutir à des
conclusions totalement erronées par
l’emploi de modèles inadaptés. Pour Mesures d’émission de CO2 (en g/km) pour des véhicules particuliers légers
bien comprendre le problème, on essence de cylindrée comprise entre 1.4 et 2 litres ;
observera que, pour des taux de mor- en pointillé : courbe théorique ajustée (polynôme du second degré) ;
en trait plein : moyenne mobile.
talité T1 et T2 constants, il n’y a pas
d’ambiguïté à préférer le produit (1) propos aussi polémiques. Si je me sir entre ces différentes possibilités
au produit (2) si T1 < T2. Le pro- plais à les répéter ici, c’est qu’ils reflè- celle qui convient le mieux par un
blème est plus complexe lorsque, par tent un point de vue qui voudrait limi- critère unique, par exemple, en fai-
exemple, T1(x) dépend du temps x ter la statistique à l’ajustement des sant usage de techniques de type
et T2 est constant. En effet, dans ce cas, paramètres de modèles (on appelle Akaike (voir [1]), basées sur la théo-
il peut se faire qu’on observe, pour ceci la statistique paramétrique lorsque rie de l’information, et se présentant
certaines valeurs des temps x et y, des le modèle est caractérisé par un nombre comme des variantes de la théorie du
inégalités telles que T1(x) > T2 et fini de paramètres numériques). En maximum de vraisemblance, adap-
T1(y) < T2. Dans quel cas doit-on effet, s’il s’agissait seulement d’évaluer tées à un nombre de paramètres
alors préférer le produit (1) au produit un nombre fixé de paramètres réels, variable. Je prendrai un nouvel exemple
(2)? De plus, les méthodes d’estima- décrivant un modèle précis et spéci- pour appuyer ce point de vue, sans
tion adaptées au cas où les T1 et T2 fié, à partir d’observations répétées doute un peu iconoclaste.
sont constants donnent des résultats issues de ce dernier, la méthode du
sans signification par rapport à la com- maximum de vraisemblance fourni- Il y a une dizaine d’années, j’avais
paraison de T1 et T2 lorsque l’un de rait certainement des solutions qua- mis au point un algorithme destiné à
ces taux varie avec le temps. siment optimales dans la plupart des améliorer la prévision de séries finan-
cas. Il n’y aurait alors pas besoin d’al- cières en utilisant une modélisation
Premières constatations ler beaucoup plus loin dans l’ap- faisant usage de bruit blanc fraction-
prentissage de la statistique. naire. J’étais alors à New York, et je fus
Au printemps 2001, dans un débat invité, dans le cadre d’une collabora-
public à l’occasion d’un congrès alle- Or, c’est ignorer la réalité de la sta- tion industrielle, par une société de
mand à Hambourg, j’avais été choqué tistique que de limiter celle-ci à une services qui s’intéressait à ma méthode.
qu’un intervenant puisse affirmer de situation aussi simple. D’une part, on Quelle ne fut pas ma surprise de voir
bonne foi qu’il ne s’était pas passé dispose le plus souvent d’une quan- que cette société utilisait un Cray pour
grand-chose d’innovant en statistique tité de modèles candidats pour repré- mettre en compétition permanente
depuis l’invention du principe du senter un même phénomène, et dont les unes contre les autres toutes les
maximum de vraisemblance par Ronald le nombre de paramètres peut varier méthodes connues de prévision de
Fisher en 1922. Je m’étais vivement de un à l’infini. D’autre part, il n’est séries temporelles sur un certain
élevé, preuves à l’appui, contre des pas non plus réaliste de vouloir choi- nombre de cours de valeurs bour-

LA JAUNE ET LA ROUGE – AOÛT/SEPTEMBRE 2002 11


sières. Je m’intéressais à un modèle, Les plus brillantes innovations de pour parvenir à ce but. Nous avons
alors qu’il y en avait des centaines dis- la statistique au cours des dernières argué qu’il fallait manipuler la statis-
ponibles, au point qu’un utilisateur, décennies sont sans conteste dans le tique sans trop d’a priori, en essayant,
même averti, devait utiliser des com- domaine des méthodes non paramé- autant que faire se peut, tous les
paraisons expérimentales pour en faire triques, où il s’agit d’évaluer la struc- modèles possibles, et en choisissant
le tri, et même combiner toutes les pré- ture des phénomènes avec un mini- entre ceux-ci grâce à des analyses non
visions entre elles pour construire une mum d’hypothèses contraignantes. paramétriques menées en parallèle.
sorte de méta-analyse des cours finan- Le vocabulaire de la statistique englobe Il arrive, inversement, que les don-
ciers, en elle-même plus efficace que cha- sous l’appellation de non-paramé- nées soient surabondantes au point
cune des méthodes ainsi conjuguées. trique des modèles qui ne peuvent qu’il soit difficile d’en dégager une
pas être décrits simplement en fonc- structure quelconque. C’est le pro-
Lors d’une analyse statistique iso- tion d’un nombre fini de paramètres blème du “data mining”. Je ne parlerai
lée d’un ensemble de données, il n’est numériques. À titre d’exemple, dire toutefois pas ici de cette dernière situa-
certes pas possible de procéder, comme qu’une variable aléatoire suit une loi tion, qui mériterait en elle-même une
ci-dessus, à une validation dynamique de Laplace-Gauss est une hypothèse discussion séparée, en mentionnant
de modèles en compétition, à l’instar paramétrique, puisque cette loi est toutefois que notre analyse s’applique
de celle qui procéderait d’un ajuste- définie par sa moyenne et sa variance. aussi bien à ce cas.
ment sur des séries temporelles obser- À l’opposé, dire que cette variable a
vées en temps réel. Toutefois, le sta- sa loi de probabilité ayant une densité Notre conclusion générale est que
tisticien expert se trouve aujourd’hui continue est une hypothèse non para- les statistiques les plus utiles aux entre-
de plus en plus devant une multitude métrique, la loi étant ici définie par prises sont celles qui leur permettent
d’options en concurrence, et entre une fonction continue positive ou les bons choix de modèles. À partir
lesquelles il n’est pas toujours aisé de nulle d’intégrale égale à 1. Les outils du moment où un modèle est retenu,
choisir. Que doit-il faire? Je suis per- de la statistique non paramétrique le “ calage ” des paramètres est une
sonnellement convaincu qu’il lui faut sont, par leur nature même, ceux qui opération plus ou moins de routine,
explorer systématiquement toutes ces doivent être employés pour valider grâce, entre autres, à la méthode du
possibilités, plutôt que de se limiter des modèles plus précis mais en les- maximum de vraisemblance. Toutefois,
arbitrairement à l’une d’entre elles quels on n’a qu’une confiance limi- le risque associé à un mauvais modèle
comme on le voit faire le plus sou- tée au départ. Nous recommandons est souvent important, et tout doit
vent. Certes, ceci demande beaucoup donc d’utiliser systématiquement des être fait pour le réduire. Il faut donc
de travail, mais cela présente aussi méthodes non paramétriques en paral- disposer d’outils de validation appro-
l’avantage de limiter les risques d’un lèle aux méthodes classiques afin de priés, et c’est sur ces derniers que
mauvais choix. vérifier si leurs résultats sont en concor- devraient porter les efforts les plus
dance (voir, par exemple, [4]). importants. ■
On m’objectera que cette approche
risque de créer une confusion cer- Par ailleurs, l’emploi de techniques
taine, dans la mesure où des modèles de rééchantillonnage, telles celles du
différents pourront amener, en toute bootstrap (voir [5]), permettant d’uti-
logique, à des conclusions différentes. liser les données elles-mêmes pour Références bibliographiques
La statistique ne serait plus alors un évaluer la précision des estimations
précieux outil d’aide à la décision, en lieu et place des résultats asymp- [1] H. AKAIKE (1973). Information theory and
mais à l’inverse un facteur de désordre totiques de la théorie classique, devrait an extension of the maximal likelihood prin-
et de contradiction. J’en viens main- entrer dans les mœurs comme une ciple. Dans : Second Symposium on Information
tenant aux réponses que je voudrais technologie standard. Sait-on par Theory (B. N. Petrov et F. Czaki, eds.). Akademiai
apporter à la question posée en exergue. exemple que l’intervalle de confiance Kioado, Budapest.

La statistique utile aux entreprises est pour la moyenne, basé sur le boots- [2] M. BERNICOT, P. DEHEUVELS (1995). A uni-
précisément celle qui leur permet de trap, est bien souvent beaucoup plus
fied model for slug flow generation. Revue
de l’Institut Français du Pétrole. 50 219-236.
ne pas se tromper, c’est celle qui leur précis que l’intervalle de Student habi-
permet de bien choisir entre les pos- tuel? Un détail comme celui-ci devrait [3] P. DEHEUVELS, J. EINMAHL (2000). Functional
Limit laws for the Increments of Kaplan-Meier
sibilités qui leur sont offertes pour pour le moins éveiller l’attention. Product-Limit Processes and Applications.
l’interprétation des données. D’une Annals of Probability. 28 1301-1335.
part, il convient de ne pas se limiter Conclusion [4] P. DEHEUVELS, G. DERZKO (2002). Estimation
à un nombre trop restreint de modèles non paramétrique de la régression dichoto-
dans les analyses, c’est la conclusion Jusqu’ici, nous nous sommes limi- mique - application biomédicale. C. R. Acad.
de ce qui précède. D’autre part, il faut tés à l’étude des données rares ou pré- Sci. Paris, Ser. I 333. 1-5.

faire le bon choix entre les différentes cieuses, desquelles il importait de tirer [5] P. HALL (1992). The Bootstrap and Edgeworth
voies possibles, et ceci fera l’objet de le maximum de renseignements, sans Expansion. Springer, New York.
notre discussion finale. lésiner sur les efforts devant être faits

12 AOÛT/SEPTEMBRE 2002 – LA JAUNE ET LA ROUGE

Vous aimerez peut-être aussi