Vous êtes sur la page 1sur 159

Apprentissage Statistique

Apprentissage Statistique :
modélisation, prévision et data mining

P HILIPPE B ESSE & B ÉATRICE L AURENT

5ème année GMM - MMS

Équipe de Statistique et Probabilités


Institut de Mathématiques de Toulouse — UMR CNRS C5219

Département Génie Mathématique et Modélisation


Institut National des Sciences Appliquées de Toulouse — 31077 – Toulouse cedex 4.

1
Apprentissage Statistique

2
Apprentissage Statistique

Table des matières


• Statistique, Apprentissage, Big–Data–Mining page 5
• Erreur de prévision et risque page 18
• Sélection de variables et régularisation en régression multiple page 31
• Régression PLS, ACP et PLS parcimonieuses page 51
• Régression logistique page 62
• Modèles non paramétriques page 70
• Analyse discriminante décisionnelle page 86
• Arbres binaires de décision page 92
• Réseaux neuronaux page 101
• Agrégation de modèles page 109
• Machines à vecteurs supports page 121
• Imputation de données manquantes page 128
• En guise de conclusion page 138
• Annexes
• Déontologie scientifique et Statistique page 146
• Introduction au bootstrap page 157

Attention ce cours est dense, la lecture de ce document ne suffira pas à la bonne compréhension des outils qui y sont décrits de
façon synthétique. La présence aux cours et la participation active aux TDs sont indispensables à l’acquisition des compétences
incontournables pour une utilisation raisonnable et raisonnée des techniques d’apprentissage statistique.

3
Apprentissage Statistique

4
1 Statistique, Apprentissage, Big–Data–Mining

1 Introduction
Statistique, Apprentissage,
Big–Data–Mining 1.1 Un peu d’histoire
1940-70 – hOctets Il était une fois la Statistique : une question, (i.e. biolo-
gique), associée à une hypothèse expérimentalement réfutable, une ex-
Résumé périence planifiée avec n ≈ 30 individus observés sur p (moins de 10)
variables, un modèle linéaire supposé vrai, un test, une décision, une ré-
L’objet de ce cours est d’introduire, sous une forme homogène et
ponse.
synthétique, les techniques de modélisation statistique ou d’appren-
tissage supervisé utilisées le plus couramment en fouille de données 1970s – kO Les premiers outils informatiques se généralisant, l’analyse des
volumineuses ou de grande dimension (data mining, big data) pour données en France, (multivariate statistics ailleurs : Mardia et al. (1979)
l’aide à la décision dans des champs d’applications très divers : [5]) explore, prétendument sans modèle, des données plus volumineuses.
industriels, marketing, ou encore en relation avec des thématiques 1980s – MO En Intelligence Artificielle, les systèmes experts expirent, sup-
de recherche en Biologie, Épidémiologie... L’objectif principal est la plantés par l’apprentissage (machine learning) des réseaux de neurones.
modélisation pour la prévision et donc la recherche de modèles opti- La Statistique aborde des modèles non-paramétriques ou fonctionnels.
maux (parcimonieux) pour différentes méthodes de modélisation sta- 1990s – GO Premier changement de paradigme. Les données ne sont plus
tistique classique (modèles gaussiens et binomiaux, analyse discri- planifiées, elles sont préalablement acquises et basées dans des entrepôts
minante), moins classiques (ridge, pls, lasso, arbres binaires de dé- pour les objectifs usuels (i.e. comptables) de l’entreprise. L’aide à la déci-
cision) ou encore dites d’apprentissage (réseaux de neurones, agré- sion les valorise : From Data Mining to Knowledge Discovery (Fayyad et
gation de modèles, machines à vecteurs supports) issues du machine al., 1996)[2]. Les logiciels de fouille regroupent dans un même environ-
learning. nement des outils de gestions de données, des techniques exploratoires et
• Statistique, Apprentissage, Big–Data–Mining
de modélisation statistique). C’est l’avènement du marketing quantitatif
• Erreur de prévision et risque
et de la gestion de la relation client (GRC ou CRM).
• Sélection de variables et régularisation en régression multiple
• Régression PLS, ACP et PLS parcimonieuses 2000s –TO Deuxième changement de paradigme. Le nombre p de variables
• Régression logistique explose (de l’ordre de 104 à 106 ), notamment avec les biotechnologies
• Modèles non paramétriques omiques où p >> n. L’objectif de qualité de prévision l’emporte sur la
• Analyse discriminante décisionnelle réalité du modèle devenu “boîte noire”. Face au fléau de la dimension,
• Arbres binaires de décision Apprentissage Machine et Statistique s’unissent en Apprentissage Statis-
• Réseaux neuronaux tique (statistical learning, Hastie et al. 2001-2009)[3] : sélectionner des
• Agrégation de modèles modèles en équilibrant biais vs. variance ; minimiser conjointement er-
• Machines à vecteurs supports reurs d’approximation (biais) et erreur d’estimation (variance).
• Imputation de données manquantes 2010s – PO Troisième changement de paradigme. Dans les applications in-
• En guise de conclusion dustrielles, le e-commerce, la géo-localisation... c’est le nombre n d’in-
• Annexes dividus qui explose, les bases de données débordent, se structurent en
• Déontologie scientifique et Statistique nuages (cloud), les moyens de calculs se groupent (cluster), mais la puis-
• Introduction au bootstrap sance brute ne suffit plus à la voracité (greed) des algorithmes. Un troi-

Page 5 sur 159 06.2014


2 Statistique, Apprentissage, Big–Data–Mining

sième terme d’erreur est à prendre en compte : celle d’optimisation, in- sées sous la terminologie de Data Mining généralement traduit par fouille de
duite par la limitation du temps de calcul ou celle du volume / flux de données (voir Tufféry 2007 [6] pour un exposé “métier” plus détaillé). Cette
données considéré. La décision devient adaptative ou séquentielle. approche, dont la présentation est principalement issue du marketing spécia-
lisé dans la gestion de la relation client (GRC) (client relation management
1.2 Contenu ou CRM), trouve également des développements et applications industrielles
Les données volumineuses sont au cœur des problématiques émergentes de en contrôle de qualité ou même dans certaines disciplines scientifiques dès
recherche, en faisant notamment appel à des structures de données sophisti- lors que les ingénieurs et chercheurs sont confrontés à un volume de données
quées : graphes, fonctions, variétés. Chaque problème est porteur de sa propre important. C’est même l’afflux actuel de saisies automatiques de données is-
originalité ; ils ne seront pas abordés dans ce cours qui se limite aux articu- sues du monde industriel qui motive principalement l’émergence du Big Data
lations : Statistique, Apprentissage Machine, fouille de données et donc au parallèlement à l’explosion du e-commerce. Devant la complexité envisagée,
problème central de l’équilibre biais — variance. lorsque les modèles physiques font défaut, un problème industriel peut changer
de paradigme lorsque la modélisation déterministe atteint ses limites, les don-
Ainsi, le data mining est présenté comme la recherche d’informations perti- nées recueillies massivement sont analysées pour l’aide à la décision comme ce
nentes (des “pépites” d’information) pour l’aide à la décision et la prévision. Il fut le cas en marketing quantitatif avec la fouille de données du siècle dernier.
met en œvre des techniques statistiques et d’apprentissage machine en tenant
compte de la spécificité de grandes à très grandes dimensions des données. L’accroche publicitaire souvent citée par les éditeurs de logiciels (SAS) est :

La section 2 suivante introduit à la fouille de données tandis que la section Comment trouver un diamant dans un tas de charbon sans se salir
3 reprend ces objectifs dans le cadre général de la modélisation afin d’en élar- les mains.
gir les champs d’application. La section 4 décrit la stratégie très généralement
Nous proposons d’évaluer et d’expérimenter la réalité de cette annonce qui
mise en place pour optimiser choix de méthodes et choix de modèles ; la sec-
s’adresse à un marché en pleine expansion. Les entreprises sont en effet très
tion 5 décrit brièvement quelques exemples d’application et notamment ceux
motivées pour tirer parti et amortir, par une aide à la décision quantifiée, les
utilisés pour illustrer ce cours. Enfin, la section 6 liste rapidement les méthodes
coûts de stockage des téraoctets que leur service informatique s’emploie à ad-
qui sont abordées et les raisons qui ont conduit à ces choix.
ministrer.

2 Motivations du big data mining 2.2 Environnement

2.1 Origine Le contexte informationnel de la fouille de données est donc celui d’un sys-
tème de bases de données, classique relationnel ou non, dont la mise en place
Le développement des moyens informatiques et de calcul permet le stockage est assurée par le gestionnaire de données (data manager) en relation avec une
(bases de données), le traitement et l’analyse d’ensembles de données très vo- problématique :
lumineux. Plus récemment, le perfectionnement des logiciels et de leurs in- • gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir et
terfaces offrent aux utilisateurs, statisticiens ou non, des possibilités de mise anticiper au mieux les tendances du marché,
en œuvre très simples de ces méthodes. Cette évolution, ainsi que la popula- • suivi des fichiers clients d’une banque, d’une assurance, associés à des
risation de nouvelles techniques algorithmiques (réseaux de neurones, support données socio-économiques (INSEE), à l’annuaire, en vue de la constitu-
vector machine...) et outils graphiques, conduit au développement et à la com- tion d’une segmentation (typologie) pour cibler des opérations de marke-
mercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) ting ou des attributions de crédit. La gestion de la relation client (GRC ou
intégrant un sous-ensemble de méthodes statistiques et algorithmiques utili- CRM) vise à une individualisation ou personnalisation de la production et

Page 6 sur 159 06.2014


3 Statistique, Apprentissage, Big–Data–Mining

de la communication afin d’évacuer la notion de client moyen. sein d’un cluster. Les mots clefs et outils de cette architecture sont Hadoop et
• recherche, spécification puis ciblage de niches de marché les plus profi- Map Reduce, NoSQL. Hadoop est un projet de la fondation logicielle Apache
tables (banque) ou au contraire les plus risquées (assurance) ; (open source en java) destiné à faciliter la création d’applications distribuées
• suivi en ligne des paramètres de production (traçabilité) en contrôle de et échelonnables. Un algorithme, une méthode est dite échelonnable (scalable)
qualité pour détecter au plus vite l’origine d’une défaillance ; si le temps de calcul est divisé par le nombre de processeurs (nœuds) utilisés
• prospection textuelle (text mining) et veille technologique ; ce qui permet aux applications de travailler avec des milliers de nœuds et des
• web mining, comportement des internautes et e-commerce ; pétaoctets de données. Le principe, initié par Google et Yahoo, est de répartir
• ... les tâches parallèles (Map) puis d’intégrer (Reduce) tous les résultats obtenus.
Cet environnement se caractérise par Exemple très élémentaire : chaque nœud calcule la moyenne d’une variable
• une informatique hétérogène faisant intervenir des sites distants à travers avant de calculer la moyenne des moyennes. Bien entendu, toute méthode sta-
le réseau de l’entreprise (intranet) ou même des accès extérieurs (inter- tistique ou d’apprentissage n’est pas scalable ou au pris d’un algorithme sto-
net). Des contraintes d’efficacité, de fiabilité ou de sécurité conduisent à chastique plus sophistiqué. D’autre part les requêtes complexes comme celle
répartir, stocker l’information à la source plutôt qu’à la dupliquer systé- de SQL sont impossibles. D’autres systèmes dits NoSQL (not only SQL, Cas-
matiquement ou à la centraliser. sandra, MongoDB, Voldemort...), développés à l’origine par des grands sites
• L’incompatibilité logique des informations observées sur des échantillons comme Amazon, eBay, reposent également sur un système de fragmentation
différents ne présentant pas les mêmes strates, les mêmes codifications. (sharding) des données tout en autorisant des possibilités de requêtes inter-
• Des volumes et flux considérables de données issues de saisies automati- médiaires avec SQL. Bien entendu les principaux acteurs commerciaux histo-
sées et chiffrés en téra maintenant pétaoctets. riques comme (Oracle) prennent position de façon complémentaire ou concur-
• Contrairement à une démarche statistique traditionnelle (planification de rente avec ces systèmes émergents.
l’expérience), les données analysées sont stockées à d’autres fins (comp- Confronté à cette problématique, il appartient au statisticien data scientist
tabilité, contrôle de qualité...) et sont donc préalables à l’analyse. de
• La nécessité de ne pas exclure a priori un traitement exhaustif des don- • s’initier aux interfaces d’accès à une architecture Hadoop ou NoSQL, no-
nées afin de ne pas laisser échapper, à travers le crible d’un sondage, des tamment par l’utilisation d’outils comme Mahout ou RHadoop...
groupes de faibles effectifs mais à fort impact économique. • optimiser sa stratégie : sonder dans les données et se ramener à des mé-
thodes usuelles ou traiter les données de façon exhaustives uniquement
2.3 Big Data vs. Data Mining
avec une technique scalable. Comment intervient un erreur introduite par
La communication, les noms changent mais fondamentalement les mé- sondage par rapport à celle de la méthode utilisée ?
thodes restent. Le traitement des grandes masses de données, associé au "nou- • prendre en compte, ou non, les aspects temporels dus aux flux de don-
veau" métier de data scientist, occupe une grande place dans les médias no- nées : estimer des modèles sur une fenêtre glissante, adopter des algo-
tamment en relation avec les risques annoncés et réels du contrôle d’internet rithmes adaptatifs ?
par big brother. Beaucoup d’entreprises et de formations suivent le mouvement • Aborder de nouveaux (Scala, Clojure) anciens (basés sur Lisp) langages
en renommant les intitulés sans pour autant se placer dans le cadre de grandes de programmation pour développer ou redévelopper des méthodes d’ap-
masses de données nécessitant des traitements spécifiques. Celui-ci devient ef- prentissage directement parallélisables. C’est en effet ce que permettent
fectif à partir du moment où le volume et le flux de données imposent une ces langages fonctionnels par opposition aux langages objet (C, java...).
parallélisation des tâches : les données sont réparties en nœuds, chacun asso- Nécessairement limité, ce cours, niveau M2, ne peut aborder ces dernières
cié à un processeur ou calculateur relié aux autres par un réseau haut débit au questions. Il ne peut non plus aborder celles liées à la complexité des données

Page 7 sur 159 06.2014


4 Statistique, Apprentissage, Big–Data–Mining

industrielles ou issues de la recherche (biologique, médicale...) qui ouvrent digitalisée,


souvent sur des problèmes originaux. Il peut s’agir alors de traiter non plus des • prévoir le prix d’un stock dans 6 mois à partir de mesures de performance
tableaux ou matrices de données mais des saisies automatiques de courbes, de l’entreprise et de données économiques,
signaux spectres, images, graphes... De telles structures posent un problème • prévoir un taux de pollution atmosphérique en fonction de conditions mé-
préalable de base de représentation (fourier, splines, ondelettes...) fonction de téorologiques ,
la nature des données et de l’objectif recherché. Voir par exemple le scéna- • prévoir une courbe de consommation électrique pour un client EDF en
rio d’analyse de spectres RMN décomposés sur une base d’ondelettes pour la fonction de variables climatiques et de caractéristiques spécifiques à ce
détection de métabolites "biomarqueurs". client,
Il est important de noter que, s’il a une formation de base en Mathéma- • Gestion de la relation client (GRC ou CRM) et scoring en marketing
tiques et Statistique, le nouveau data scientist voit arriver avec une certaine quantitatif,
sérénité la vague ou le tsunami du Big Data. Certes un travail informatique • maintenance préventive à partir de relevés d’incidents,
amont, perpétuellement renouvelé face à l’obsolescence rapide tes technolo- • construire un modèle de substitution à un code numérique complexe qui
gies, est important pour stocker les données et rendre exécutable les méthodes permet de prédire une carte de concentration d’un polluant dans un sol un
mais, conceptuellement, la Mathématique nécessaire prend déjà en compte des an après un rejet accidentel en fonction de la carte initiale et des carac-
tailles et dimensions infinies pour les modèles considérés dans des espaces téristiques du sol (porosité, perméabilité...). L’objectif est de réaliser une
hilbertiens. Muni de ce bagage pérenne, il peut accompagner et suivre la re- analyse de sensibilité.
cherche en développement. Historiquement, la Statistique s’est beaucoup développée autour de ce type
de problèmes et a proposé des modèles incorporant d’une part des variables
explicatives ou prédictives et, d’autre part, une composante aléatoire ou bruit.
3 Apprentissage statistique Il s’agit alors d’estimer les paramètres du modèle à partir des observations
Un peu de recul permet d’inscrire la démarche de la fouille de données dans en contrôlant au mieux les propriétés et donc le comportement de de la partie
un contexte plus large et donc potentiellement plus propice à d’autres domaines aléatoire. Dans la même situation, la communauté informatique parle plutôt
d’application. d’apprentissage visant le même objectif ; apprentissage machine (ou machine
learning), reconnaissance de forme (pattern recognition) en sont les principaux
3.1 Objectif général mots-clefs.
L’objectif général est donc un objectif de modélisation qui peut se préciser
Dès qu’un phénomène, qu’il soit physique, biologique ou autre, est trop
en sous-objectifs à définir clairement préalablement à une étude car ceux-ci
complexe ou encore trop bruité pour accéder à une description analytique dé-
conditionnent en grande part les méthodes qui pourront être mises en œuvre :
bouchant sur une modélisation déterministe, un ensemble d’approches ont été
élaborées afin d’en décrire au mieux le comportement à partir d’une série d’ob- Modéliser pour
servations. Voici quelques exemples de problèmes d’apprentissage : explorer ou vérifier, représenter, décrire, les variables, leurs liaisons et posi-
• identifier les facteurs de risque d’un certain type de cancer, en fonction de tionner les observations de l’échantillon,
variables cliniques et démographiques,
• rechercher des gènes potentiellement impliqués dans une maladie à partir expliquer ou tester l’influence d’une variable ou facteur dans un modèle sup-
de données de biopuces ou plus généralement des bio-marqueurs pour un posé connu a priori,
diagnostic précoce, prévoir & sélectionner un meilleur ensemble de prédicteurs comme par
• identifier des chiffres manuscrits sur un code postal à partir d’une image exemple dans la recherche de bio-marqueurs,

Page 8 sur 159 06.2014


5 Statistique, Apprentissage, Big–Data–Mining

prévoir par une éventuelle meilleure “boîte noire” sans besoin d’interpréta- susceptible, au mieux selon un critère à définir, de reproduire Y ayant observé
tion explicite. X.
Des paramètres importants du problème sont les dimensions : n nombre
d’observations ou taille de l’échantillon et p nombre de variables observées sur Y = f (X) + ε
cet échantillon. Lorsque les méthodes statistiques traditionnelles se trouvent
mises en défaut pour de grandes valeurs de p, éventuellement plus grande que où ε symbolise le bruit ou erreur de mesure avec le parti pris le plus commun
n, les méthodes récentes d’apprentissage sont des recours pertinents car effi- que cette erreur est additive. En cas d’erreur multiplicative, une transformation
caces. logarithmique ramène au problème précédent.
Enfin, les stratégies de choix de modèle parmi un ensemble plus ou moins Dans le cas contraire, en l’absence d’une variable à expliquer, il s’agit alors
complexe, de choix de méthode, sont au cœur de la problématique de ce cours. d’apprentissage dit non-supervisé. L’objectif généralement poursuivi est la re-
L’étude de la fouille de données se focalise donc sur les pratiques ou méthodes cherche d’une typologie ou taxinomie des observations : comment regrouper
à l’interface de l’apprentissage machine et de la Statistique. Les développe- celles-ci en classes homogènes mais les plus dissemblables entre elles. C’est
ments méthodologiques à cette interface ont pris depuis le début du siècle la un problème de classification (clustering).
dénomination d’apprentissage statistique ; Hastie et al. (2009)[3] en proposent
un tour d’horizon assez exhaustif. Attention, l’anglais classification se traduit plutôt en français par discrimina-
tion ou classement (apprentissage supervisé) tandis que la recherche de classes
Attention, d’autres objectifs d’une fouille de données ou d’extensions de ces (clustering) (apprentissage non-supervisé) fait appel à des méthodes de clas-
techniques, ne sont pas pris en compte dans celui d’une modélisation au sens sification ascendante hiérarchique, des algorithmes de réallocation dynamique
statistique précédent et donc dans ce cours d’apprentissage statistique. Cela (kmeans) ou encore des cartes auto-organisatrices (Kohonen).
concerne la
• classification non-supervisée ou clustering traité par ailleurs et rappelé Dans ce cours, nous allons nous intéresser essentiellement à l’apprentissage
ci-dessous. supervisé, pour lequel on dispose d’un ensemble d’apprentissage constitué de
• recherche de règles d’associations ou problème du panier de la ménagère. données d’observations de type entrée-sortie : dn1 = {(x1 , y1 ), . . . , (xn , yn )}
Méthode qui consiste à identifié les co-occurences les plus fréquentes ou avec xi ∈ X quelconque (souvent égal à Rp ), yi ∈ Y pour i = 1 . . . n
significatives par un ensemble de règles logiques associant variables et L’objectif est de construire, à partir de cet échantillon d’apprentissage, un
valeurs de celles-ci. modèle, qui va nous permettre de prévoir la sortie y associée à une nouvelle
• Les Sytèmes de recommandation : ou modèles de bandits manchots pour entrée (ou prédicteur) x. La sortie y peut être quantitative (prix d’un stock,
déterminer et afficher sur un site de e-commerce les articles complémen- courbe de consommation électrique, carte de pollution ..) ou qualitative (sur-
taires susceptibles d’intéresser le visiteur. venue d’un cancer, reconnaissance de chiffres...).
sorties quantitatives sorties qualitatives
3.2 Problématiques Y ⊂ Rp Y fini
Supervisé vs. non-supervisé ↓ ↓
régression discrimination, classement,
Distinguons deux types de problèmes : la présence ou non d’une variable reconnaissance de forme
à expliquer Y ou d’une forme à reconnaître qui a été, conjointement avec X,
Nous parlerons de régression réelle lorsque Y ⊂ R et de la discrimination
observée sur les mêmes objets. Dans le premier cas il s’agit bien d’un pro-
binaire lorsque Y = {−1, 1}.
blème de modélisation ou apprentissage supervisé : trouver une fonction f

Page 9 sur 159 06.2014


6 Statistique, Apprentissage, Big–Data–Mining

Estimation vs. apprentissage


Tout au long de ce document, les termes de estimation et d’apprentissage
sont utilisés comme des synonymes ce qui est abusif tant que les objectifs
d’une étude n’ont pas été clairement explicités. Dans la tradition statistique, la
notion de modèle est centrale surtout avec une finalité explicative. Il s’agit alors
d’approcher la réalité, le vrai modèle, supposé exister, éventuellement basé sur
une théorie physique, économique, biologique... sous-jacente et la forme du
modèle est guidée par des indications théoriques et des critères d’ajustement ;
les décisions de validité, de présence d’effets sont basées sur des tests repo-
sant elles-mêmes sur des hypothèses probabilistes. L’interprétation du rôle de
chaque variable explicative est prépondérante dans la démarche.
En revanche, si l’objectif est essentiellement la prévision, il apparaît que
le meilleur modèle n’est pas nécessairement celui qui ajusterait le mieux le
vrai modèle. La théorie de l’apprentissage (Vapnik, 1999) montre alors que le
cadre théorique est différent et les majorations d’erreur requièrent une autre F IGURE 1 – Deuxième devise Shadok
approche. Les choix sont basés sur des critères de qualité de prévision visant
à la recherche de modèles parcimonieux, c’est-à-dire de complexité (nombre
Statistique, informatique et taille des données
de paramètres ou flexibilité limitée) dont l’interprétabilité passe au deuxième
plan. La deuxième devise (cf. figure 1) des Shadoks n’est pas une référence à Lorsque les dimensions du problèmes (n, p) sont raisonnables et que des
suivre en apprentissage statistique ! hypothèses relatives au modèle (linéarité) et aux distributions sont vérifiées
c’est-à-dire, le plus souvent, lorsque l’échantillon ou les résidus sont supposés
Discrimination vs. régression
suivre des lois se mettant sous la forme d’une famille exponentielle (gaus-
Le type des variables statistiques considérées diffèrent selon l’espace dans sienne, binomiale, poisson. . . ), les techniques statistiques de modélisation ti-
lequel elles prennent leurs valeur. Elles peuvent être qualitatives à valeurs dans rées du modèle linéaire général sont optimales (maximum de vraisemblance)
un ensemble de cardinal fini ou quantitatives à valeurs réelles voire fonction- et, surtout dans le cas d’échantillons de taille restreinte, il semble difficile de
nelles. Certaines méthodes d’apprentissage ou de modélisation s’adaptent à faire beaucoup mieux.
tout type de variables explicatives tandis que d’autres sont spécialisées. En- En revanche, dès que les hypothèses distributionnelles ne sont pas vérifiées,
fin, si Y à expliquer est qualitative, on parle de discrimination, classement dès que les relations supposées entre les variables ou la variable à modéliser
ou reconnaissance de forme tandis que si Y est quantitative on parle, par ha- ne sont pas linéaires ou encore dès que le volume des données (big data) est
bitude, d’un problème de régression. Dans ce cas encore, certaines méthodes important, d’autre méthodes viennent concurrencer l’approche statistique clas-
sont spécifiques (régression linéaire, analyse discriminante) tandis que d’autres sique.
s’adaptent sans modification profonde remettant en cause leur principe (ré-
Prenons un exemple simple : expliquer une variable quantitative Y par un
seaux de neurones, arbres de décision. . . ).
ensemble {X 1 , . . . , X p } de variables également quantitatives :

Y = f (X 1 , . . . , X p ) + ε.

Page 10 sur 159 06.2014


7 Statistique, Apprentissage, Big–Data–Mining

observées sur un échantillon (yi , xi ); i = 1, . . . , n de taille n. Si la fonction f choisir la plus pertinente. Cette comparaison repose sur une estimation d’erreur
est supposée linéaire et p petit, de l’ordre d’une dizaine ; le problème est bien (de régression ou de classement) qu’il est nécessaire de conduire avec soin.
connu et largement débattu dans la littérature. Dans le cas où la fonction f
n’est pas franchement linéaire et n grand, il est possible d’estimer précisément Choix de modèle : équilibre biais-variance
un nombre plus important de paramètres et donc d’envisager des modèles plus Tous les auteurs s’accordent pour souligner l’importance qu’il y a à
sophistiqués. Si on s’en tient au modèle gaussien usuel, même le cas le plus construire des modèles parcimonieux quelque soit la méthode utilisée. Toutes
simple d’un modèle polynomial devient vite problématique. En effet, lorsque les méthodes sont concernées : nombre de variables explicatives, de feuilles
la fonction f est linéaire, prenons p = 10, la procédure de choix de modèle dans un arbre ou de neurones dans une couche cachée. . . . Seuls les algorithmes
est confrontée à un ensemble de 210 modèles possibles et des algorithmes as- de combinaison de modèles (bagging, boosting) contournent cette étape au prix
tucieux permettent encore de s’en sortir. En revanche, considérer, pour esti- d’un accroissement sensible du volume des calculs et surtout de l’interprétabi-
mer f , un simple polynôme du deuxième voire troisième degré avec toutes lité des résultats obtenus.
ses interactions, amène à considérer un nombre considérable de paramètres et
L’alternative est claire, plus un modèle est complexe et donc plus il intègre
donc, par explosion combinatoire, un nombre astronomique de modèles pos-
de paramètres et plus il est flexible donc capable de s’ajuster aux données
sibles. D’autres méthodes doivent alors être considérées en prenant en compte
engendrant ainsi une erreur faible d’ajustement. En revanche, un tel modèle
nécessairement la complexité algorithmique des calculs. Ceci explique l’im-
peut s’avérer défaillant lorsqu’il s’agira de prévoir ou généraliser, c’est-à-dire
plication d’une autre discipline, l’informatique, dans cette problématique. Le
de s’appliquer à des données qui n’ont pas participé à son estimation.
souci de calculabilité l’emporte sur la définition mathématique du problème
qui se ramène à l’optimisation d’un critère d’ajustement de la fonction f sur L’exemple élémentaire de la figure 2 illustre ce point fondamental dans le
un ensemble de solutions plus ou moins riche. Ces méthodes ont souvent été cas d’un problème de discrimination dans R2 . Une frontière dont le modèle
développées dans un autre environnement disciplinaire : informatique, intel- "vrai" est quadratique est, à cause d’"erreurs de mesure" sous-ajustée par une
ligence artificielle. . . ; k plus proches voisins, réseaux de neurones, arbres de régression linéaire mais sur-ajustée par un polynôme de degré plus élevé ou
décisions, support vector machine deviennent des alternatives crédibles dès l’algorithme local des k plus proches voisins.
lors que le nombre d’observations est suffisant ou le nombre de variables très Ce problème s’illustre aussi facilement en régression classique. Ajouter des
important. variables explicatives dans un modèle ne peut que réduire l’erreur d’ajustement
(le R2 ) et réduit le biais si le “vrai” modèle est un modèle plus complet. Mais,
3.3 Stratégies de choix ajouter des variables fait rédhibitoirement croître la variance des estimateurs et
Choix de méthode donc celle des prévisions qui se dégradent, voire explosent, avec la multicoli-
néarité des variables explicatives. Un risque pour le modèle, ou erreur quadra-
Avec le développement du data mining, de très nombreux articles comparent tique de prévision, s’exprimant comme le carré du biais plus la variance, il est
et opposent les techniques sur des jeux de données publics et proposent des important d’optimiser le dosage entre biais et variance en contrôlant le nombre
améliorations incrémentales de certains algorithmes. Après une période fié- de variables dans le modèle (sa complexité) afin de minimiser le risque. Ces
vreuse où chacun tentait d’afficher la suprématie de sa méthode, un consensus remarques conduisent à la définition de critères de choix de modèle dont le Cp
s’est établi autour de l’idée qu’il n’y a pas de “meilleure méthode”. Chacune de Mallows fut un précurseur en régression suivi par d’autres propositions :
est plus ou moins bien adaptée au problème posé, à la nature des données ou Akaïke (AIC), Schwartz (BIC). . .
encore aux propriétés de la fonction f à approcher ou estimer. Sur le plan mé-
Parfois plus que celui de la méthode, le choix du bon modèle dans une classe
thodologique, il est alors important de savoir comparer des méthodes afin de
ou ensemble de modèles pour une méthode donnée est primordial. En consé-

Page 11 sur 159 06.2014


8 Statistique, Apprentissage, Big–Data–Mining

Enfin, pour aborder en toute généralité les situations les plus compliquées,
Vapnik (1999) a formalisé la théorie de l’apprentissage en introduisant une
notion particulière de dimension pour toute famille de modèles.

4 Stratégie de l’apprentissage statistique


4.1 Les données
Dans la majorité des problèmes rencontrés, des caractéristiques ou variables
X = (X 1 , . . . , X p ) dites explicatives ou prédictives ont été observées sur un
ensemble de n objets, individus ou unités statistiques. Un premier travail, sou-
vent fastidieux mais incontournable, consiste à mener une exploration statis-
tique de ces données : allure des distributions, présence de données atypiques,
corrélations et cohérence, transformations éventuelles des données, description
multidimensionnelle, réduction de dimension, classification. C’est l’objet d’un
F IGURE 2 – Sous-ajustement linéaire et sur-ajustement local (proches voisins) cours distinct d’exploration statistique tandis que ce cours décrit les outils de
d’un modèle quadratique. modélisation statistique ou encore d’apprentissage utilisables pour la modéli-
sation à fin de prévision d’une variable cible Y par les variables explicatives
ou prédictives X j .
quence, les problèmes d’optimisation considérés doivent mettre en œuvre un
critère qui prend en compte la complexité du modèle, c’est-à-dire la complexité L’enchaînement, éventuellement itératif, de ces étapes (exploration puis ap-
de l’espace ou de la classe dans lequel la solution est recherchée. prentissage) constitue le fondement de la fouille de données.
Pour comprendre la structure et bien appréhender le contenu de ce cours,
Choix de modèle : sélection vs. régularisation
il est important d’intégrer rapidement ce qu’est la stratégie à mettre en œuvre
Selon la méthode considérée, la complexité du modèle s’exprime de diffé- pour aboutir au bon apprentissage ou encore au bon modèle prédictif recherché
rentes façons. Simple lors d’une sélection de variable en régression linéaire, la à partir des données observées.
complexité est directement liée à la dimension de l’espace engendré et donc Attention, contrairement à une démarche statistique traditionnelle dans la-
au nombre de variables. Les choses se compliquent pour les modèles non- quelle l’observation des données est intégrée à la méthodologie (planification
linéaires lorsque, à dimension fixée, c’est la plus ou moins grande flexibilité de l’expérience), les données sont généralement préalables à l’analyse. Néan-
des solutions qui doit être pénalisée. moins il est clair que les préoccupations liées à leur analyse et à son objectif
C’est typiquement le cas en régression non-paramétrique ou fonctionnelle. doivent intervenir le plus en amont possible pour s’assurer quelques chances
Une pénalisation faisant intervenir la norme carrée de la dérivée seconde de succès.
contrôle la flexibilité d’un lissage spline. La “largeur de fenêtre” du noyau
contrôle également la régularité de la solution. En régression linéaire, si le 4.2 Les étapes de l’apprentissage
nombre et les variables sont déterminés, la version “ridge” de la régression Les traitements s’enchaînent de façon assez systématique selon le schéma
pénalise la norme carrée du vecteur des paramètres et restreint ainsi, par régu- suivant et quelque soit le domaine d’application :
larisation, l’espace des solutions pour limiter l’effet de la multicolinéarité.

Page 12 sur 159 06.2014


9 Statistique, Apprentissage, Big–Data–Mining

1. Extraction des données avec ou sans échantillonnage faisant référence 8. Ré-estimation du modèle avec la méthode, le modèle et sa complexité
à des techniques de sondage appliquées ou applicables à des bases de optimisée à l’étape précédente sur l’ensemble des données.
données. 9. Exploitation du modèle sur la base complète et de nouvelles données.
2. Exploration des données pour la détection de valeurs aberrantes ou seule- La conclusion de cette stratégie peut éventuellement être modifiée par la
ment atypiques, d’incohérences, pour l’étude des distributions des struc- construction d’un meilleur compromis entre les différentes méthodes testées
tures de corrélation, recherche de typologies, pour des transformations plutôt que de sélectionner la meilleure. Deux approches proposent cette dé-
des données. . . marche conduisant à une collaboration entre modèles : COBRA de Biau et al.
3. Partition aléatoire de l’échantillon (apprentissage, validation, test) en (2013)[1] et SuperLearner de van der Laan et al. (2007) [7]. La première re-
fonction de sa taille et des techniques qui seront utilisées pour estimer vient à exécuter une forme d’algorithme des k plus proches voisins avec une
une erreur de prévision en vue des étapes de choix de modèle, puis de définition très particulière de la distance tandis que la deuxième cherche, par
choix et certification de méthode. minimisation d’une estimateur d’erreur par validation croisée, une meilleure
combinaison convexe des prévisions. Ces deux approches sont développées
4. Pour chacune des méthodes considérées : modèle linéaire général (gaus-
dans la vignette consacrée à l’agrégation de modèles et testé dans un exemple
sien, binomial ou poissonien), discrimination paramétrique (linéaire ou
de données de criblage vituel de molécules.
quadratique) ou non paramétrique, k plus proches voisins, arbre, réseau
de neurones (perceptron), support vecteur machine, combinaison de mo-
dèles (bagging, boosting)... 5 Exemples
• estimer le modèle pour une valeur donnée d’un paramètre (ou plu-
En plus des exemples “pédagogiques” illustrant simplement les différentes
sieurs) de complexité : nombre de variables, de voisins, de feuilles, de
méthodes étudiées, d’autres exemples en “vraie grandeur” permettent d’en éva-
neurones, durée de l’apprentissage, largeur de fenêtre. . . ;
luer réellement l’efficacité mais aussi toute la complexité de mise en œuvre.
• optimiser ce paramètre (ou ces paramètres) en fonction de la technique
D’autres exemples sont encore plus concrètement proposés en travaux dirigés
d’estimation de l’erreur retenue : échantillon de validation, validation
ou sous formes de scénarios avec leur traitement informatique explicite.
croisée, approximation par pénalisation de l’erreur d’ajustement (cri-
tères Cp , AIC). 5.1 Banque, finance, assurance : Marketing
5. Comparaison des modèles optimaux obtenus (un par méthode) par esti-
mation de l’erreur de prévision sur l’échantillon test ou, si la présence L’objectif est une communication personnalisée et adaptée au mieux à
d’un échantillon test est impossible, sur le critère de pénalisation de l’er- chaque client. L’application la plus courante est la recherche d’un score estimé
reur (AIC d’Akaîke par exemple) s’il en existe une version pour chacune sur un échantillon de clientèle pour l’apprentissage puis extrapolé à l’ensemble
des méthodes considérées. en vue d’un objectif commercial :
• Appétence pour un nouveau produit financier : modélisation de la proba-
6. Itération éventuelle de la démarche précédente (validation croisée), si bilité de posséder un bien (contrat d’assurance...) puis application à l’en-
l’échantillon test est trop réduit, depuis (iii). Partitions aléatoires succes- semble de la base. Les clients, pour lesquels le modèle prédit la possession
sives de l’échantillon pour moyenner sur plusieurs cas l’estimation finale de ce bien alors que ce n’est pas le cas, sont démarchés (télé marketing,
de l’erreur de prévision et s’assurer de la robustesse du modèle obtenu. publipostage ou mailing, phoning,...) prioritairement.
7. Choix de la méthode retenue en fonction de ses capacités de prévision, de • Attrition ; même chose pour évaluer les risques de départ ou d’attrition
sa robustesse mais aussi, éventuellement, de l’interprétabilité du modèle (churn) des clients par exemple chez un opérateur de téléphonie. Les
obtenu. clients pour lesquels le risque prédit est le plus important reçoivent des

Page 13 sur 159 06.2014


10 Statistique, Apprentissage, Big–Data–Mining

incitations à rester. riable à prédire, dont l’évaluation nécessite souvent une analyse très coûteuse
• Risque pour l’attribution d’un crédit bancaire ou l’ouverture de certains voire une intervention chirurgicale, est connue sur l’échantillon nécessaire à
contrats d’assurance ; risque de faillite d’entreprises. l’estimation des modèles.
• ... Dans l’exemple étudié (breast cancer), il s’agit de prévoir le type de la tu-
L’exemple traité suit un schéma classique d’analyse de données bancaires. meur (bénigne, maligne) lors d’un cancer du sein à l’aide de p = 9 variables
Après la phase exploratoire, il s’agit de construire un score d’appétence de la explicatives biologiques observées sur n = 700 patientes.
carte Visa Premier dans l’idée de fidéliser les meilleurs clients. La variable à
prévoir est binaire : possession ou non de cette carte en fonction des avoirs et 5.4 Biologie : sélection de gènes
comportements bancaires décrits par p = 32 variables sur n = 825 clients.
Les techniques de microbiologie permettent de mesurer simultanément l’ex-
5.2 Environnement : pic d’ozone pression (la quantité d’ARN messager produite) de milliers de gènes dans
des situations expérimentales différentes, par exemple entre des tissus sains
L’objectif est de prévoir pour le lendemain les risques de dépassement de et d’autres cancéreux. L’objectif est donc de déterminer quels gènes sont les
seuils de concentration d’ozone dans les agglomérations à partir de données plus susceptibles de participer aux réseaux de régulation mis en cause dans
observées : concentrations en 03, NO3, NO2... du jour, et d’autres prédites par la pathologie ou autre phénomène étudié. Le problème s’énonce simplement
Météo-France : température, vent... Encore une fois, le modèle apprend sur les mais révèle un redoutable niveau de complexité et pose de nouveaux défis
dépassements observés afin de prévoir ceux à venir. au statisticien. En effet, contrairement aux cas précédents pour lesquels des
Il s’agit d’un problème de régression : la variable à prévoir est une concen- centaines voire des milliers d’individus peuvent être observés et participer à
tration mais elle peut aussi être considérée comme binaire : dépassement ou l’apprentissage, dans le cas des biopuces, seuls quelques dizaines de tissus
non d’un seuil. Il y a 8 variables explicatives dont une est déjà une prévision son analysés à cause essentiellement du prix et de la complexité d’une telle
de concentration d’ozone mais obtenue par un modèle déterministe de méca- expérience. Compte tenu du nombre de gènes ou variables, le problème de
nique des fluides (équation de Navier et Stockes). L’approche statistique vient discrimination est sévèrement indéterminé. D’autres approches, d’autres tech-
améliorer cette prévision en modélisant les erreurs et en tenant compte d’ob- niques sont nécessaires pour pallier à l’insuffisance des méthodes classiques
servations de concentration d’oxyde et dioxyde d’azote, de vapeur d’eau, de la de discrimination.
prévision de la température ainsi que de la force du vent. L’exemple concerne les expressions de gènes dans une expérience croisant
Cette étude est proposée en exemple ou en travaux dirigés mais pas sous la deux facteurs le régime alimentaire (5 niveaux) chez n = 40 souris de 2 géno-
forme d’un scénario car les données propriétés de MétéoFrance ne sont pas types. Il s’agit de mettre en évidence l’impact des facteurs sur les expressions
publiques. de p = 120 gènes puis d’expliquer un ensemble de q = 21 variables phénoty-
piques (concentrations d’acides gras) par ces mêmes expressions.
5.3 Santé : aide au diagnostic
5.5 Exemples industriels
Les outils statistiques sont largement utilisés dans le domaine de la santé.
Ils le sont systématiquement lors des essais cliniques dans un cadre législatif Données de spectrométrie
stricte mais aussi lors d’études épidémiologiques pour la recherche de facteurs
de risques dans des grandes bases de données ou encore pour l’aide au diagnos- depuis de très nombreuses années, l’industrie agroalimentaire est confron-
tic. L’exemple étudié illustre ce dernier point : il s’agit de prévoir un diagnostic tée à des problèmes de grande dimension pour l’analyse de données de spec-
à partir de tests biologiques et d’examens élémentaires. Bien entendu, la va- trométrie comme par exemple dans le proche infra-rouge (NIR). Sous l’ap-

Page 14 sur 159 06.2014


11 Statistique, Apprentissage, Big–Data–Mining

Criblage virtuel de molécules


Une stratégie classique de l’industrie pharmaceutique consiste à tester in si-
lico un nombre considérable de molécules avant de ne synthétiser que celles ju-
gées intéressantes pour passer aux étapes de recherche clinique in vitro puis in
vivo. Une propriété thérapeutique d’un ensemble de molécules d’apprentissage
(perméabilité de la paroi intestinale ou à la barrière sanguine du cerveau, adé-
quation à une cible donnée...) étant connue, un grand ensemble de caractéris-
tiques physico-chimiques sont évaluées, calculées par un logiciel spécifique :
ce sont des données dites QSAR Quantitative structure-activity relationship.
S’il est possible de raisonnablement prévoir la propriété thérapeutique à partir
des caractéristiques physico-chimiques, ce modèle est systématiquement ap-
pliqué à un grand ensemble de molécules virtuelles ; c’est le criblage ou sree-
ning virtuel de molécule. Deux jeux de données sont étudiés l’un illustrant
un problème de régression (blood brain barrier data) avec n = 208, p = 134
tandis que l’autre est un problème de discrimination à deux classes (multidrig
resistance reversal) avec n = 528, p = 342.
D’autres exemples sont cités à titre illustratif mais leur complexité, inhérente
à beaucoup de problèmes industriels, ne permet pas de les détailler à des fins
F IGURE 3 – Cookies : Spectres proche infrarouge (NIR) d’échantillons de pédagogiques.
pâtes à gâteaux. La couleur dépend du taux de sucre.
Industrie des semi-conducteurs : Détection de défaillance
Un procédé de fabrication de microprocesseurs comporte des centaines
d’étapes (photogravures, dépôts, cuissons, polissages, lavages...) dont tous les
paramètres, équipement et mesures physiques (températures, pressions...), sont
enregistrés dans une grande base de données permettant la traçabilité des pro-
pellation de Chimiométrie de très nombreuses méthodes et stratégies ont été
duits manufacturés. Le test électrique de chaque microprocesseur ne peut se
développées ou enrichies (i.e. la régression PLS) afin de prendre en compte la
faire qu’en fin de fabrication lorsque ceux-ci sont achevés. Il est évidement im-
spécificité des problèmes rencontrés par la discrétisation de spectres condui-
portant de pouvoir déterminer, lors de l’apparition d’une baisse du rendement
sant très généralement à un nombre de variables p > n. Dans un premier
et en utilisant les données de la base, l’équipement ou la fourniture responsable
exemples, il s’agit de modéliser, la teneur en sucre d’une pâte à gâteau (co-
de la défaillance afin d’y remédier le plus rapidement possible.
okies où n = 72, p = 700)) à partir des spectres (cf. figure 3) tandis que dans
un deuxième (Tecator ou n = 215, p = 100), c’est la teneur en matière grasse Airbus : Aide au pilotage
qui est recherchée. Ces questions sont considérées comme des problèmes de
calibration d’un appareil de mesure (le spectromètre) pour arriver à la quanti- Les graphes de la figure 4 tracent les enregistrements des commandes et
fication d’une mesure chimique dont l’évaluation classique est beaucoup plus positions d’un avion en vol. Ceux-ci mettent en évidence un phénomène de
coûteuse ou encore destructive. résonance entre l’appareil et le comportement du pilote qui est très dangereux

Page 15 sur 159 06.2014


12 Statistique, Apprentissage, Big–Data–Mining

pour la sécurité. L’objectif est de construire un modèle susceptible, en temps


réel, de détecter une telle situation afin d’y remédier par exemple en durcissant
les commandes de vol électriques. Le problème est très spécifique car les don-
nées, ou signaux, sont mesurées en temps réel et constituent des discrétisations
de courbes.
qm

10
6 Contenu
0 Il a fallu faire des choix dans l’ensemble des techniques proposées et leurs
nombreux avatars. La forme et le contenu sont guidés par les besoins expri-
0 2 4 6 8 10 12 més lors des stages réalisées par les étudiants du département Génie Mathé-
8 matique de l’INSA ou par les thèmes des collaborations industrielles et scien-
6 tifiques de l’équipe Statistique et Probabilités de l’Institut de Mathématiques
4 de Toulouse. Le lecteur peut se faire une idée du nombre très important de mé-
2
thodes et variantes concernées par l’apprentissage supervisée en consultant une
0 2 4 6 8 10 12 14
q aide en ligne de la librairie caret (Kuhn, 2008)[4] du logiciel R. Remarquons
10 que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab, KXEN,
0
SPAD, Statsoft. . . ) ou gratuits (R, Weka, Tanagra), performants et s’imposant
par des interfaces très conviviales (Enterprise Miner, Insightfull Miner, Cle-
mentine, Statistica Data Miner), contribuent largement à la diffusion, voire la
0 2 4 Neural 6
PIO detector 8 10 12
1 pénétration, de méthodes très sophistiquées dans des milieux qui seraient im-
perméables à une conceptualisation mathématique trop abstraite.
0.5
Chaque méthode ou famille de méthodes de modélisation et d’apprentissage
parmi les plus répandues, est présentée de façon plus ou moins succincte dans
0
0 2 4 6 8 10 12 un chapitre distinct avec un objectif de prévision. Une première vignette incon-
tournable est consacrée aux techniques d’estimation d’une erreur de prévision
ou d’un risque sur lesquelles reposent les choix opérationnels décisifs : de mo-
dèle, de méthode mais aussi l’évaluation de la précision des résultats escomp-
F IGURE 4 – Airbus : Pompage piloté révélé par l’observation des paramètres tés. La régression linéaire classique en statistique prend une place particulière
en temps réel. De (haut en bas) : manche, assiette, gouverne comparer avec la à titre pédagogique. Très antérieure aux autres, elle donne lieu a une bibliogra-
prévision qu’en fait un réseau de neurones. phie abondante. Conceptuellement plus simple, elle permet d’introduire plus
facilement les problématiques rencontrées comme celle du choix d’un modèle
par ses deux approches types : la sélection de variable ou la régularisation
(ridge, Lasso). Le modèle linéaire général fournit le cadre théorique néces-
saire à l’unification des régressions linéaire, loglinéaire et logistique ; cette
dernière reste toujours très utilisée en scoring. La présentation de l’analyse dis-

Page 16 sur 159 06.2014


13 Statistique, Apprentissage, Big–Data–Mining

criminante décisionnelle, paramétrique ou non paramétrique (dont les k plus nal of Statistical Software 28 (2008), no 5.
proches voisins), permet d’introduire également des notions de théorie bayé- [5] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
sienne de la décision. Les vignettes suivantes sont consacrées aux techniques Press, 1979.
algorithmiques : arbres binaires de décision (classification and regression trees
ou CART) et à celles plus directement issues de la théorie de l’apprentissage [6] S. Tufféry, Data Mining et Statistique décisionnelle : l’intelligence des
machine (machine learning) : réseau de neurones et perceptron, agrégation de données, Technip, 2007.
modèles (boosting, random forest), support vector machine (SVM). Enfin une [7] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statistical
vignette de conclusion tâche de synthétiser le panorama et propose une com- Applications in Genetics and Molecular Biology 6 :1 (2007).
paraison systématique des méthodes sur les différents jeux de données.
Le choix a été fait de conserver et expliciter, dans la mesure du possible,
les concepts originaux de chaque méthode dans son cadre disciplinaire tout
en tâchant d’homogénéiser notations et terminologies. L’objectif principal est
de faciliter la compréhension et l’interprétation des techniques des principaux
logiciels pour en faciliter une utilisation pertinente et réfléchie. Ce cours ne
peut être dissocié de séances de travaux dirigés sur ordinateur à l’aide de lo-
giciels (SAS, R...) pour traiter des données en vraie grandeur dans toute leur
complexité. La principale difficulté pratique est d’arriver à déterminer où faire
porter l’effort ou les efforts :
• la saisie, la gestion, la sélection des données et variables,
• la sélection des méthodes à comparer,
• l’optimisation des choix de modèles,
et ceci en fonction des méthodes considérées, de la structure des données, des
propriétés des variables notamment celle à modéliser.

Références
[1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Nonlinear Ag-
gregation Strategy, (2013), http://arxiv.org/abs/1303.2236.
[2] U. M. Fayyad, G. Piatetsky-Shapiro et P. Smyth, From data mining
to knowledge discovery : an overview, Advances in Knowledge Disco-
very and Data Mining (U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth et
R. Uthurusamy, réds.), AAAI Press/MIT Press, 1996, p. 1–34.
[3] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning :
data mining, inference, and prediction, Springer, 2009, Second edition.
[4] Max Kuhn, Building Predictive Models in R Using the caret Package, Jour-

Page 17 sur 159 06.2014


1 Qualité de prévision et risque

guer estimation du modèle et estimations du risque empirique.


Qualité de prévision et risque
2. une pénalisation de l’erreur d’ajustement ou d’estimation du modèle fai-
sant intervenir la complexité du modèle,
Résumé 3. un usage intensif du calcul (computational statistics) par la mise en œuvre
Définition et propriétés du risque ou erreur de prévision ou erreur de simulations (validation croisée).
de généralisation dans le cas de la régression et de la classifica-
tion. Décomposition biais / variance du risque. Critères de pénali- Le choix dépend de plusieurs facteurs dont la taille de l’échantillon initial,
sation et méthodes ou algorithmes d’estimation du risque empirique. la complexité du modèle envisagé, la variance de l’erreur, la complexité des
Choix du mode d’estimation en fonction du contexte (cas de la dis- algorithmes c’est-à-dire le volume de calcul admissible.
crimination ou de la régression), de la taille de l’échantillon et de Les travaux de Vapnik en théorie de l’apprentissage ont conduit à focaliser
l’objectif : optimisation du choix d’une méthode ou de celui de la l’attention sur la présence ou l’absence de propriétés théoriques basiques d’une
complexité d’un modèle dans une collection donnée. Estimation sur technique d’apprentissage ou de modélisation :
échantillons de validation ou de test, par critère pénalisé, par boots- consistance qui garantit la capacité de généralisation. Un processus d’appren-
trap, par validation croisée, courbe ROC en discrimination binaire. tissage est dit consistant si l’erreur sur l’ensemble d’apprentissage et l’er-
Retour au plan du cours reur sur un jeu de données test convergent en probabilité vers la même
limite lorsque la taille de l’échantillon d’apprentissage augmente.
1 Introduction vitesse de convergence. Une évaluation, quand elle est possible, de la vitesse
de convergence de l’estimation du risque lorsque la taille augmente, est
La performance du modèle issu d’une méthode d’apprentissage s’évalue une indication sur la façon dont la généralisation s’améliore et informe
par sa capacité de prévision dite encore de capacité de généralisation dans sur la nature des paramètres, comme le nombre de variables explicatives,
la communauté informatique. La mesure de cette performance est très impor- dont elle dépend.
tante puisque, d’une part, elle permet d’opérer une sélection de modèle dans
une famille associée à la méthode d’apprentissage utilisée et, d’autre part, elle contrôle Est-il possible, à partir d’un échantillon d’apprentissage de taille fini
guide le choix de la méthode en comparant chacun des modèles optimisés à donc sans considération asymptotique, de contrôler la capacité de géné-
l’étape précédente. Enfin, elle fournit, tous choix faits, une mesure de la qua- ralisation et donc de majorer le terme de risque ?
lité ou encore de la confiance que l’on peut accorder à la prévision en vue Une estimation du risque ou qualité de la prévision est donc un élément cen-
même, dans un cadre légal, d’une certification. tral de la mise en place de la stratégie du data mining, telle qu’elle est décrite
Une fois que la notion de modèle statistique ou règle de prévision est pré- dans l’introduction mais aussi dans beaucoup de disciplines concernées par la
cisée ainsi qu’une fonction dite perte associée, un risque ou erreur de géné- modélisation statistique. Le point important à souligner est que le “meilleur”
ralisation (ou erreur de prévision) est défini pour la recherche d’une règle de modèle en un sens prédictif n’est pas nécessairement celui qui ajuste le mieux
prévision optimale au sens où elle minimise le risque. En pratique, ce risque les données (cas de sur-ajustement) ni même le “vrai” modèle si la variance
nécessite d’être estimé (risque empirique) et différentes stratégies sont propo- des estimations est importante.
sées.
2 Risque, risque empirique
1. un partage de l’échantillon (apprentissage, validation, test) afin de distin-

Page 18 sur 159 06.2014


2 Qualité de prévision et risque

2.1 Modèle statistique règle de prévision f .


On suppose que dn est l’observation d’un n-échantillon D n =
{(X 1 , Y1 ), . . . , (X n , Yn )} d’une loi conjointe P sur X × Y, inconnue, et que Soit F l’ensemble des règles de prévision possibles. On dira que f ∗ est une
x est une observation de la variable X, (X, Y ) étant un couple aléatoire de loi règle optimale si
conjointe P indépendant de D n .
L’échantillon D n est appelé échantillon d’apprentissage. RP (f ∗ ) = inf RP (f ).
f ∈F
Une règle de prévision / régression ou discrimination (ou prédicteur) est une Une question naturelle qui se pose alors est : peut-on construire des règles
fonction (mesurable) f : X → Y qui associe la sortie f (x) à l’entrée x ∈ X . optimales ?
Pour mesurer la qualité de prévision, on introduit une fonction de perte :
2.2 Risque et règles optimales
D ÉFINITION 1. — Une fonction (mesurable) l : Y × Y → R+ est une fonction Régression et discrimination binaire
de perte si l(y, y) = 0 et l(y, y 0 ) > 0 pour y 6= y 0 .
D ÉFINITION 3. — On appelle fonction de régression la fonction η ∗ : X → Y
Si f est une règle de prévision, x une entrée, y la sortie qui lui est réellement définie par
associée, alors l(y, f (x)) mesure une perte encourue lorsque l’on associe à x η ∗ (x) = E[Y |X = x].
la sortie f (x).
En régression réelle : on définit les pertes Lp (p ≥ 1) Cas de la régression réelle :
l(y, y 0 ) = |y − y 0 |p . Y = R, l(y, y 0 ) = (y − y 0 )2 .

Si p = 1 on parle de perte absolue, si p = 2 de perte quadratique.


En discrimination binaire : Y = {−1, 1}
T HÉORÈME 4. — La fonction de régression η ∗ : x 7→ E[Y |X = x] vérifie :
0 0 2
|y − y | (y − y ) RP (η ∗ ) = inf RP (f ).
l(y, y 0 ) = 1y6=y0 = = . f ∈F
2 4

On va s’intéresser au comportement moyen de cette fonction de perte, il


Cas de la régression réelle :
s’agit de la notion de risque :
Y = R, l(y, y 0 ) = |y − y 0 |.
D ÉFINITION 2. — Étant donnée une fonction de perte l, le risque - ou l’erreur
de généralisation - d’une règle de prévision f est défini par

RP (f ) = E(X,Y )∼P [l(Y, f (X))]. T HÉORÈME 5. — La régle de régression définie par µ∗ (x) =
mediane[Y |X = x] vérifie :
Il est important de bien noter que, dans la définition ci-dessus, (X, Y ) est RP (µ∗ ) = inf RP (f ).
indépendant de l’échantillon d’apprentissage D n qui a permis de construire la f ∈F

Page 19 sur 159 06.2014


3 Qualité de prévision et risque

Cas de la discrimination binaire : 2.3 Algorithmes de prévision


Y = {−1, 1}, l(y, y 0 ) = 1y6=y0 . Définitions
D ÉFINITION 9. — Un algorithme de prévision est représenté par une ap-
plication (mesurable) fˆ : (X × Y)n → F qui à un ensemble d’apprentis-
sage dn = {(xi , yi ), 1 ≤ i ≤ n} associe une règle de prévision fˆ(dn ), ou
D ÉFINITION 6. — On appelle règle de Bayes toute fonction f ∗ de F telle que
pour tout x ∈ X , par une suite (fˆn )n≥1 d’applications (mesurables) telles que pour n ≥ 1,
fˆn : (X × Y)n → F.

P(Y = f (x)|X = x) = max P(Y = y|X = x).
y∈Y
D ÉFINITION 10. — Le risque moyen d’un algorithme de prévision fˆ est défini
T HÉORÈME 7. — Si f ∗ est une règle de Bayes, alors RP (f ∗ ) = par
inf R (f ). EDn ∼P ⊗n [RP (fˆ(D n ))].
f ∈F P

En particulier, la règle de Bayes définie par fη∗ (x) = 1η∗ (x)≥0 −


1η∗ (x)<0 = signe(η ∗ (x)) vérifie : D ÉFINITION 11. — Un algorithme de prévision est dit universellement consis-
tant si n o
RP (fη∗ ) = inf RP (f ). ∀P lim EDn ∼P ⊗n [RP (fˆn (D n ))] = inf RP (f ).
f ∈F n→+∞ f ∈F

De la régression réelle à la discrimination binaire Premiers exemples : Algorithmes par moyennes locales

On se place dans le cas où Y = {−1, 1}. Soit {Wn,i , 1 ≤ i ≤ n}Pune famille de poids positifs tels que pour tout
n
n ≥ 1, x, x1 , . . . , xn ∈ X , i=1 Wn,i (x, x1 , . . . , xn ) = 1.
T HÉORÈME 8. — Pour toute règle de régression η, si fη (x) = signe(η(x)), On définit η̂n et fη̂n tels que pour dn = {(x1 , y1 ), . . . , (xn , yn )},
alors
n
E(X,Y )∼P [1Y 6=fη (X) − 1Y 6=fη∗ (X) ] ≤ EX∼PX [|η(X) − η ∗ (X)|] X
1/2 η̂n (dn ) : x ∈ X 7→ Wn,i (x, x1 , . . . , xn )yi ,
≤ E(X,Y )∼P [(Y − η(X))2 − (Y − η ∗ (X))2 ] . i=1

et
Interprétation : si η est une "bonne" règle de régression au sens où son
risque quadratique est proche du risque quadratique minimum, alors fη est
une "bonne" règle de discrimination, au sens où son risque est lui aussi proche fη̂n (dn ) : x ∈ X 7→ signe(η̂n (dn )(x)).
du risque minimum.
Les théorèmes précédents fournissent des règles de prévision optimales D ÉFINITION 12. — Un algorithme de prévision par moyennage local est un
s’exprimant de façon formelle... mais qui dépendent de la loi P inconnue ! algorithme de la forme :
Il est donc nécessaire de construire des algorithmes de prévision qui ne dé- • η̂n en régression réelle,
n
pendent pas de P mais de l’ensemble d’apprentissage d . • fη̂n en discrimination binaire.

Page 20 sur 159 06.2014


4 Qualité de prévision et risque

On suppose maintenant que X = Rd , Y ⊂ R et E[Y 2 ] < +∞. Exemple 2 : Algorithme par noyau

T HÉORÈME 13. — [Stone 1977[11]] On suppose que quelle que soit la loi D ÉFINITION 17. — On appelle algorithme par noyau un algorithme par
marginale PX de X, moyennage local dont les poids sont de la forme :
  X n  
(i) ∃c > 0, ∀f : X → R+ telle que EPX [f (X)] < ∞, ∀n, xi − x xj − x
Pn Wn,i (x, x1 , . . . , xn ) = K  K ,
EP ⊗(n+1) [ i=1 Wn,i (X, X 1 , . . . , X n )f (X i )] ≤ cEPX [f (X)], h j=1
h
X
Pn 
(ii) ∀a > 0, EP ⊗(n+1) i=1 Wn,i (X, X 1 , . . . , X n )1kX i −Xk>a → 0, où K est une fonction (un noyau) à valeurs dans R+ , h un réel > 0 (largeur
XPn 2
 du noyau) avec la convention 0/0 = 0.
(iii) EP ⊗(n+1) i=1 Wn,i (X, X 1 , . . . , X n ) → 0. Alors,
X
• Si Y ⊂ R, l(y, y 0 ) = (y−y 0 )2 , (η̂n )n≥1 est universellement consistant, Noyaux usuels (X = Rd ) :
0
• Si Y = {−1, 1}, l(y, y ) = 1y6=y0 , (fη̂n )n≥1 est universellement consis- • noyau fenêtre K(x) = 1kxk≤1 ,
tant. • noyau gaussien K(x) = e−kxk ,
2

k.k étant la norme euclidienne sur Rd .


Exemple 1 : Algorithme des k plus proches voisins On note B(O, r) la boule euclidienne de X = Rd de centre O de rayon r.

D ÉFINITION 14. — On appelle algorithme des k plus proches voisins un al- T HÉORÈME 18. — [Devroye and Wagner (1980) [5], Spiegelman and Sacks
gorithme par moyennage local dont les poids vérifient : (1980) [10]] S’il existe 0 < r ≤ R et b tels que b1B(O,r) ≤ K ≤ 1B(O,R) ,
si (hn )n≥1 vérifie hn → 0 et nhdn → +∞ alors l’algorithme par noyau de
 largeur hn est universellement consistant.
1
 k si xi f ait partie des k p.p.v. de x
Wn,i (x, x1 , . . . , xn ) = dans {x1 , . . . , xn }
Exemple 3 : Algorithme par partition
0 sinon.

D ÉFINITION 19. — Etant donnée une partition V1 , V2 , . . . finie ou dé-


En cas d’égalité on utilise par exemple un tirage aléatoire. nombrable de X , pour x ∈ X , on note V (x) l’élément de la parti-
tion contenant x. On appelle algorithme par partition un algorithme par
T HÉORÈME 15. — Si X = Rd , (kn )n≥1 est une suite d’entiers tels que kn → moyennage local dont les poids sont de la forme : Wn,i (x, x1 , . . . , xn ) =
+∞ et kn /n → 0, alors l’algorithme des kn p.p.v. pour une distance associée 1xi ∈V (x)  nj=1 1xj ∈V (x) ,
P
à une norme quelconque de Rd est universellement consistant. avec la convention 0/0 = 0.

Dans le cas d’un nombre de p.p.v. kn aléatoire : il suffit que les hypothèses Les arbres de décision (CART) (Breiman et al. 1984)[2] font partie de cette
de convergence soient vérifiées en probabilité. classe d’algorithmes, de même que les estimateurs par polynômes locaux en
régression non paramétrique.
T HÉORÈME 16. — [Cover and Hart 1967[3]] L’algorithme du plus proche Soit B(O, r) la boule de centre O de rayon r pour une norme k.k quelconque
voisin (k = 1) n’est pas universellement consistant. de Rd , et diam(Vk,n ) = supx,x0 ∈X kx − x0 k.

Page 21 sur 159 06.2014


5 Qualité de prévision et risque

T HÉORÈME 20. — Soit (V1,n , V2,n , . . .)n≥1 une suite de partitions dénom- La minimisation du risque empirique est une idée bien développée depuis
brables de X = Rd . Si pour tout r > 0, les travaux de Vapnik (1999)[12].
• |{k, Vk,n ∩ B(O, r)}| 6= ∅}|/n → 0,
• supk,Vk,n ∩B(O,r) diam(Vk,n ) → 0, D ÉFINITION 22. — Etant donné un sous-ensemble F de F (un modèle),
alors l’algorithme par partition défini sur V1,n , V2,n , . . . est universellement l’algorithme de minimisation du risque empirique sur F est défini par :
consistant.
fˆF (D n ) ∈ argminf ∈F R
cn (f, D n ).

Le "fléau" de la dimension Dans le cas de F = F (ensemble de tous les prédicteurs possibles) :


Soit PX la loi uniforme sur l’hypercube unité de R . d • L’algorithme qui attribue la sortie Yi à une entrée x = X i , et une sortie
quelconque à une entrée x différente des X i .
Sélectionner une proportion p de données d’observation revient à sélection-
Ceci conduit au phénomène de sur-apprentissage : à éviter !
ner un hypercube de côté moyen p1/d . Dans le cas d = 10 :
p = 1% ⇒ p1/d = 0.63 ; p = 10% ⇒ p1/d = 0.80 (proche de 1 !). Le choix d’un modèle F "adéquat" est crucial et relève des méthodes de
sélection de modèles.
Ainsi, pour obtenir 10 % des données en dimension 10, on doit recouvrir Décomposition approximation/estimation (ou biais/variance)
80% du domaine de variation dans chaque direction. Il ne s’agit donc plus
d’une méthode "locale", inversement, si on impose à la méthode d’être locale, Soit f ∗ telle que RP (f ∗ ) = inf f ∈F RP (f ), f ∗ est appelé "oracle". L’objec-
ˆ n
la proportion p sera infime et il faudra une taille n considérable de l’échantillon tif est de déterminer un modèle F pour lequel le risque de l’estimateur fF (D )
pour espérer obtenir une ou des observations dans un voisinage très local. est proche de celui de l’oracle.

2.4 Minimisation du risque empirique


Définitions RP (fˆF (D n )) − RP (f ∗ ) =
n o n o
Comme nous l’avons vu précédemment, le risque d’une règle de prévision RP (fˆF (D n )) − inf RP (f ) + inf RP (f ) − RP (f ∗ )
f ∈F f ∈F
f est défini par RP (f ) = E(X,Y )∼P [l(Y, f (X))]. Les règles "optimales" au | {z } | {z }
sens de la minimisation du risque dépendent de P inconnue. Erreur d’estimation Erreur d’approximation
En l’absence de toute information ou hypothèse sur la loi P (cadre non pa- (Variance) (Biais)
ramétrique), il est naturel de remplacer P par Pn , mesure empirique associée % & (taille de F )
à D n , et de minimiser le risque empirique. Ces deux termes sont de natures différentes. Pour les évaluer, nous aurons
recours à des considérations issues respectivement de la statistique et de la
D ÉFINITION 21. — Le risque empirique (associé à D n = {(X i , Yi ), 1 ≤ i ≤ théorie de l’approximation.
n}) d’une règle de prévision f ∈ F est défini par La sélection d’un modèle F̂ parmi une collection de modèles C pour lequel
le risque de fˆF̂ (D n ) est proche de celui de l’oracle va s’obtenir par la minimi-
n
sation d’un critère pénalisé du type :
cn (f, D n ) = 1
X
R l(Yi , f (X i )).
n i=1
F̂ = argminF ∈C {R̂n (fˆF (D n ), D n ) + pen(F )}.

Page 22 sur 159 06.2014


6 Qualité de prévision et risque

La pénalité permet de pénaliser les modèles de "grande" taille, afin d’éviter le trois parties respectivement appelées apprentissage, validation et test :
sur-ajustement. Le choix optimal de la pénalité (selon les modèles statistiques
dn = dnAppr
1
∪ dnValid
2
∪ dnTest
3
,
considérés) est un sujet de recherche très actif en statistique.
Très généralement, plus un modèle (la famille des fonctions admissibles) avec n1 + n2 + n3 = n.
est complexe, plus il est flexible et peut s’ajuster aux données observées et 1. Rcn (fb(dn1 ), dn1 ) est minimisée pour déterminer l’estimateur fb(dn1 ),
Appr Appr Appr
donc plus le biais est réduit. En revanche, la partie variance augmente avec le un modèle étant fixé (par exemple un modèle de régression polynomiale
nombre de paramètres à estimer et donc avec cette complexité. L’enjeu, pour de degré 2).
minimiser le risque quadratique ainsi défini, est donc de rechercher un meilleur 2. Rcn (fb(dn1 ), dn2 ) sert à la comparaison des modèles au sein d’une
Appr Valid
compromis entre biais et variance : accepter de biaiser l’estimation comme par même famille afin de sélectionner celui qui minimise cette erreur, (par
exemple en régression ridge pour réduire plus favorablement la variance. exemple, on considère une famille de modèles polynomiaux de degrés
variés).
3 Estimation du risque 3. Rcn (fb, dn3 ) est utilisée pour comparer entre eux les meilleurs modèles de
Test
chacune des méthodes considérées (par exemple on compare le meilleur
3.1 Estimation de l’erreur d’estimation ou d’ajuste- estimateur polynomial au meilleur estimateur construit à partir de réseaux
ment de neurones).
Cette solution n’est acceptable que si la taille de l’échantillon initiale est im-
Le premier type d’estimation à considérer exprime la qualité d’ajustement
portante sinon :
du modèle sur l’échantillon observé. C’est justement, dans le cas quantitatif,
• la qualité d’ajustement est dégradée car n1 est trop faible,
ce critère qui est minimisé dans la recherche de moindres carrés. Ce ne peut
• la variance de l’estimation de l’erreur peut être importante et ne peut être
être qu’une estimation biaisée, car trop optimiste, de l’erreur de prévision ; elle
estimée.
est liée aux données qui ont servi à l’ajustement du modèle et est d’autant plus
Si la taille de l’échantillon est insuffisante, le point ii ci-dessus : la sélection de
faible que le modèle est complexe. Cette estimation ne dépend que de la partie
modèle est basée sur un autre type d’estimation de l’erreur de prévision faisant
"biais" de l’erreur de prévision et ne prend pas en compte la partie "variance"
appel soit à une pénalisation soit à des simulations.
de la décomposition.
Cette estimation est notée : 3.2 Estimation avec pénalisation
n Cp de Mallows
cn (fb(dn ), dn ) = 1
X
R l(yi , fb(dn )(xi )).
n i=1 Le Cp de Mallows (1973)[8] fut, historiquement, le premier critère visant
à une meilleure estimation de l’erreur de prévision que la seule considération
C’est simplement le taux de mal classés dans le cas qualitatif. Des critères de de l’erreur d’ajustement (ou le R2 ) dans le modèle linéaire. Il repose sur une
risque plus sophistiqués sont envisagés dans un contexte bayésien si des pro- mesure de la qualité sur la base d’un risque quadratique. L’erreur de prévision
babilités a priori sont connues sur les classes ou encore des coûts de mauvais se décompose en :
classement.
RcP (fb(dn )) = R
cn (fb(dn ), dn ) + Optim
La façon la plus simple d’estimer sans biais l’erreur de prévision consiste à
calculer le risque empirique sur un échantillon indépendant n’ayant pas parti- qui est l’estimation par re-substitution ou taux d’erreur apparent plus le biais
cipé à l’estimation du modèle. Ceci nécessite donc d’éclater l’échantillon en par abus d’optimisme. Il s’agit donc d’estimer cet optimisme pour apporter

Page 23 sur 159 06.2014


7 Qualité de prévision et risque

une correction et ainsi une meilleure estimation de l’erreur recherchée. Cette Une argumentation de type bayésien conduit à un autre critère BIC (Baye-
correction peut prendre plusieurs formes. Elle est liée à l’estimation de la va- sian Information Criterion, Schwarz, 1978[9]) qui cherche, approximative-
riance dans la décomposition en biais et variance de l’erreur ou c’est encore ment (asymptotiquement), le modèle associé à la plus grande probabilité
une pénalisation associée à la complexité du modèle. a posteriori. Dans le cas d’un modèle issu de la maximisation d’une log-
Son expression est détaillée dans le cas de la régression linéaire. On montre vraisemblance, il se met sous la forme :
(cf. Hastie et col. 2001), à des fins de comparaison qu’il peut aussi se mettre d
sous une forme équivalente : BIC = −2L + log(n) .
n

Cp = R cn (fb(dn ), dn ) + 2 d σ
b2
On montre, dans le cas gaussien et en supposant la variance connue que BIC
n est proportionnel à AIC avec le facteur 2 remplacé par log n. Ainsi, dès que
où d est le nombre de paramètres du modèles (nombre de variables plus un)), n > e2 ≈ 7, 4, BIC tend à pénaliser plus lourdement les modèles complexes.
n le nombre d’observations, σ b2 une estimation de la variance de l’erreur par Asymptotiquement, on montre que la probabilité pour BIC de choisir le bon
un modèle de faible biais. Ce dernier point est fondamental pour la qualité du modèle tend vers 1 lorsque n tend vers l’infini. Ce n’est pas le cas d’AIC ni du
critère, il revient à supposer que le modèle complet (avec toutes les variables) Cp qui tendent alors à choisir des modèles trop complexes. Néanmoins à taille
est le “vrai” modèle ou tout du moins un modèle peu biaisé afin de conduire à fini, petite, BIC risque de se limiter à des modèles trop simples.
une bonne estimation de σ 2 . Quelque soit le critère adopté, il est facile de choisir le modèle présentant le
plus faible AIC, AICc ou BIC parmi ceux considérés. Globalement, si l’estima-
AIC, AICc , BIC
tion du modèle découle d’une maximisation de la vraisemblance, estimation et
Contrairement au Cp associé à un risque quadratique, le critère d’informa- choix de modèle reviennent à minimiser un critère de vraisemblance pénalisée
tion d’Akaïke (1974)[1] (AIC) découle d’une expression de la qualité du mo- s’écrit sous la forme :
dèle basée sur la dissemblance de Kullback. Il se présente sous une forme
Crit = ψ(Vraisemblance) + Pénalisation(d)
similaire mais plus générale que le Cp de Mallows. Il s’applique en effet à tout
modèle estimé par maximisation d’une log-vraisemblance L et suppose que la où ψ est une fonction décroissante de la vraisemblance (− log) et la pénalisa-
famille de densités considérées pour modéliser la loi de Y contient la “vraie” tion une fonction croissante de la complexité du modèle.
densité de Y . Les critères ci-dessus ont pour la plupart été définis dans le cadre du modèle
Après quelques développements incluant de nombreuses approximations classique de régression multiple pour lequel il existe de nombreuses références
(estimation de paramètres par maximum de vraisemblance, propriétés asymp- et certains ont été généralisés ou adaptés à d’autres méthodes en étendant la
totiques, formule de Taylor), le critère d”Akaïke se met sous la forme : notion de nombre de degrés de libertés à des situations où le nombre de para-
d mètres du modèle n’est pas explicite (lissage ou régularisation).
AIC = −2L + 2 .
n Dimension de Vapnik-Chernovenkis
Dans le cas gaussien en supposant la variance connue, moindres carrés et dé-
viance coïncident, AIC est équivalent au Cp . Ce critère possède une version Cet indicateur mesure la complexité d’une famille de fonctions candidates à
plus raffinée (AICc ) dans le cas gaussien et plus particulièrement adaptée aux la définition un modèle de prévision. Cette complexité est basée sur le pouvoir
petits échantillons et asymptotiquement équivalente lorsque n est grand. séparateur de la famille de fonction.
n+d Considérons un échantillon (x1 , . . . , xn ) de Rp . Il existe 2n différentes ma-
AIC = −2L + . nières de séparer cet échantillon en deux sous-échantillons. Par définition,
n−d−2
Page 24 sur 159 06.2014
8 Qualité de prévision et risque

on dit qu’un ensemble F de fonctions hache ou mieux pulvérise (shatters) • L’inégalité de Vapnik, qui s’écrit sous une forme analogue à un intervalle
l’échantillon si les 2n séparations peuvent être construites par différents re- de confiance, permet de contrôler l’erreur de prévision ou risque. Avec
présentants de la famille de fonction F . Ainsi, par exemple, pour p = 2, les une probabilité 1 − ρ :
fonctions linéaires (droites) peuvent pulvériser 3 points mais pas 4. s
2n ρ
RP (fb(dn )) < Rcn (fb(dn ), dn ) + h(log( h ) + 1) − log 4 .
D ÉFINITION 23. — Un ensemble F de fonctions définies de Rp dans R est dit n
de VC dimension (Vapnik-Chernovenkis) h si : Il est important de souligner que cette inégalité ne fait pas intervenir le
• tout jeu de h vecteurs de Rp peut être pulvérisé. nombre de variables explicatives p mais le rapport n/h. Elle ne fait pas in-
• Aucun ensemble de h + 1 vecteurs ne peut être pulvérisé par cet ensemble tervenir non plus la loi conjointe inconnue du couple (Y, X). Le deuxième
de fonctions. terme est grand (mauvaise précision) lorsque le rapport n/h est faible dû
à une trop grande VC dimension et donc une famille de modèles trop
Exemples complexe.
• La VC dimension de l’ensemble des hyperplans dans Rp est p + 1. En pratique, il est important de minimiser simultanément les deux termes
• La VC dimension de l’ensemble des fonctions f (x, w) = sign(sin(w, x)) de l’inéquation. La stratégie à adopter est le principe de minimisation structu-
avec 0 < c < x < 1 où w est un paramètre libre, est infinie. rée du risque (SRM) qui consiste à faire de la VC dimension h une variable
• La VC dimension de l’ensemble des indicatrices linéaires contrôlée. Ayant défini une séquence ou structure de modèles emboîtés au sens
  de la VC dimension :
p
S1 ⊂ S2 ⊂ · · · ⊂ Sk avec : h1 < h2 < · · · < hk .
X
f (x, w) = sign  (wj xj ) + 1 avec kxk = 1
j=1 Il s’agit de trouver la valeur h rendant le risque minimum et donc fournissant
le meilleur compromis entre les deux termes de l’inégalité de Vapnik.
et satisfaisant la condition :
p
La complexité de la famille des modèles peut être contrôlée par différents
kwk =
2
X
2
wj ≤ C paramètres de la technique d’apprentissage considérée : le nombre de neurones
j=1
d’une couche dans un perceptron, le degré d’un polynôme, la contrainte sur les
paramètres comme en régression ridge, une largeur de fenêtre ou paramètre de
dépend de la constante C et peut prendre toutes les valeurs de 0 à p. lissage...
Attention, les VC dimensions ne sont pas égales au nombre de paramètres
libres et sont souvent difficiles à exprimer pour une famille de fonctions don- 3.3 Estimation par simulation
nées.
Validation croisée
Vapnik (1999)[12] prouve des résultats fondamentaux pour la théorie de
l’apprentissage : La validation croisée est d’un principe simple, efficace et largement utilisée
• Un processus d’apprentissage est consistant si et seulement si la famille pour estimer une erreur moyennant un surplus de calcul. L’idée est d’itérer l’es-
de modèles considérés a une VC dimension h finie. timation de l’erreur sur plusieurs échantillons de validation puis d’en calculer
• La majoration de la différence entre l’erreur d’apprentissage (ou par re- la moyenne. C’est indispensable pour réduire la variance et ainsi améliorer la
substitution ou erreur apparente) et l’erreur de prévision dépend du rap- précision lorsque la taille de l’échantillon initial est trop réduite pour en ex-
port entre la VC dimension h et la taille n de l’ensemble d’apprentissage. traire des échantillons de validation et test de taille suffisante.

Page 25 sur 159 06.2014


9 Qualité de prévision et risque

A LGORITHME 1 : Minimiser l’erreur estimée par validation croisée est une approche large-
1: Découper aléatoirement l’échantillon en K parts (K-fold) de tailles ap- ment utilisée pour optimiser le choix d’un modèle au sein d’une famille para-
proximativement égales selon une loi uniforme ; métrée. fb est défini par θb = arg minθ R
dCV (θ).
2: for k=1 à K do
Validation croisée généralisée (GCV)
3: mettre de côté l’une des partie,
4: estimer le modèle sur les K − 1 parties restantes, La validation croisée peut se trouver excessivement chronophage. Dans de
5: calculer l’erreur sur chacune des observations qui n’ont pas participé nombreux cas de régression, les valeurs ajustées sont fonction linéaire des ob-
à l’estimation servations : y
b = Hy avec H = (hi,j )n×n la “hat-matrix”. En régression
6: end for linéaire multiple, H = X(X 0 X)−1 X 0 et des formes similaires sont trou-
7: moyenner toutes ces erreurs pour aboutir à l’estimation par validation vées pour la régression spline ou la régression par noyau, la ridge ou encore la
croisée. régression LASSO. Pour de tels estimateurs linéaires, l’estimation leave-one-
out de l’erreur quadratique par validation croisée (PRESS) s’écrit :
Plus précisément, soit τ : {1, . . . , n} 7→ {1, . . . , K} la fonction d’indexa- n n
" #2
tion qui,pour chaque observation, donne l’attribution uniformément aléatoire 1 Xh (−i)
i2 1 X yi − fb(xi )
yi − f
b (xi ) = .
de sa classe. L’estimation par validation croisée de l’erreur de prévision est : n i=1 n i=1 1 − hii

n Une seule estimation de fb est requise mais le calcul de la diagonale de H


1X
R
dCV = l(yi , fb(−τ (i)) (xi )) peut être coûteux lorsque n ou p sont grands. Craven et Wahba (1979)[4] ont
n i=1
proposé, initialement dans le cas du lissage spline pour l’optimisation du para-
mètre de lissage, une approximation en approchant tous les hii par tr(H)/n.
où fb(−k) désigne l’estimation de f sans prendre en compte la kième partie de
l’échantillon. Bootstrap
Le choix de k entre 5 et 15, est couramment K = 10 par défaut dans les Cette section plus technique décrit des outils encore peu présents dans les
logiciels Splus, R. Historiquement, la validation croisée a été introduite avec logiciels commerciaux, elle peut être sautée en première lecture.
K = n (leave-one-out or “loo” cross validation) en régression linéaire. Ce L’idée, d’approcher par simulation (Monte Carlo) la distribution d’un es-
dernier choix n’est possible que pour n relativement petit à cause du volume timateur lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent,
des calculs nécessaires. D’autre part, l’estimation de l’erreur présente alors une lorsque l’on ne peut pas supposer qu’elle est gaussienne, est l’objectif même
variance importante car comme chaque couple de modèle partagent (n − 2) du bootstrap (Efron, 1982) [6].
observations, ceux-ci peuvent être très similaires donc très dépendants ; cette
dépendance accroît la variance. Intuitivement, cela revient à construire un “de- Le principe fondamental de cette technique de ré-échantillonnage est de sub-
sign” pas du tout optimal en planification expérimentale. En revanche, si K stituer, à la distribution de probabilité inconnue F , dont est issu l’échantillon
est petit (i.e. K = 5), la variance sera plus faible mais le biais (pessimiste) d’apprentissage, la distribution empirique Fn qui donne un poids 1/n à chaque
devient un problème dépendant de la façon dont la qualité de l’estimation se réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap
dégrade avec la taille de l’échantillon. L’optimisation de k qui correspond donc selon la distribution empirique Fn par n tirages aléatoires avec remise parmi
encore à un meilleur équilibre entre biais et variance, nécessite généralement les n observations initiales.
trop d’observations pour être pratiquée ; d’où le choix par défaut. Il est facile de construire un grand nombre d’échantillons bootstrap (i.e.

Page 26 sur 159 06.2014


10 Qualité de prévision et risque

B = 100) sur lesquels calculer l’estimateur concerné. La loi simulée de cet Estimateur out-of-bag
estimateur est une approximation asymptotiquement convergente sous des hy- La première s’inspire simplement de la validation croisée. Elle considère
pothèses raisonnables 1 de la loi de l’estimateur. Cette approximation fournit d’une part les observations tirées dans l’échantillon bootstrap et, d’autre part,
ainsi des estimations du biais, de la variance, donc d’un risque quadratique, et celles qui sont laissées de côté pour l’estimation du modèle mais retenue pour
même des intervalles de confiance (avec B beaucoup plus grand) de l’estima- l’estimation de l’erreur.
teur sans hypothèse (normalité) sur la vraie loi. Les grands principes de cette
n
approche sont rappelés dans l’annexe sur le bootstrap. 1X 1 X
R
doob = l(yi , fz∗b (xi ))
n i=1 Bi
b∈Ki
Estimateur naïf
où Ki est l’ensemble des indices b des échantillons bootstrap ne contenant pas
Soit z ∗ un échantillon bootstrap des données tiré selon la loi empirique F̂
la ième observation à l’issue des B simulations et Bi = |Ki | le nombre de ces
associée à l’échantillon d’apprentissage dn
échantillons ; B doit être suffisamment grand pour que toute observation n’ait
z ∗ = {(x∗1 , y1∗ ), . . . , (x∗n , yn∗ )}. pas été tirée au moins une fois ou bien les termes avec Ki = 0 sont supprimés.
L’estimation R oob résout le problème d’un biais optimiste auquel est
d
L’estimateur plug-in de l’erreur de prévision RP (fˆ(dn )) est donné par :
confrontée R [ Boot mais n’échappe pas au biais introduit pas la réduction tel
n qu’il est signalé pour l’estimation pas validation croisée RCV . C’est ce qui a
bn (fˆz∗ , dn ) = 1
X d
R l(yi , fˆz∗ (xi )) conduit Efron et Tibshirani (1997) [7] a proposer des correctifs.
n i=1

où fˆz∗ désigne l’estimation de f à partir de l’échantillon bootstrap. Estimateur .632-bootstrap


Il conduit à l’estimation bootstrap de l’erreur moyenne de prévision La probabilité qu’une observation soit tirée dans un échantillon bootstrap
EDn ∼P ⊗n [RP (fˆ(D n )] par est
1 1
" n # P [xi ∈ x∗b ] = 1 − (1 − )n ≈ 1 − ≈ 0, 632.
bn (fˆZ ∗ , d )] = E ∗ b
n 1 X n e
RBoot = EZ ∗ ∼Fb [R Z ∼F n l(yi , fZ ∗ (xi )) .
i=1
Très approximativement, la dégradation de l’estimation provoquée par le
bootstrap et donc la surévaluation de l’erreur sont analogues à celle de la va-
Cette estimation est approchée par simulation : lidation croisée avec K = 2. À la suite d’un raisonnement trop long pour
B n être reproduit ici, Efron et Tibshirani (1997) proposent de compenser excès
1 X1X d’optimisme du taux apparent d’erreur et excès de pessimisme du bootstrap
R
[ Boot = l(y ,
i zf ∗b (xi )).
B n i=1 out-of-bag par une combinaison :
b=1

L’estimation ainsi construite de l’erreur de prévision est généralement biaisée Rb.632 = 0, 368 × R bn (fˆ(dn ), dn ) + 0, 632 × R
boob .
par optimisme car, au gré des simulations, les mêmes observations (xi , yi )
apparaissent à la fois dans l’estimation du modèle et dans celle de l’erreur. 3.3.1 Remarques
D’autres approches visent à corriger ce biais.
• Toutes les estimations du risque empirique considérées (pénalisation, va-
1. Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations. lidation croisée, bootstrap) sont asymptotiquement équivalentes et il n’est

Page 27 sur 159 06.2014


11 Qualité de prévision et risque

pas possible de savoir laquelle concrètement sera, à n fini, la plus précise. une pondérations des observations ou encore l’introduction de coûts de mau-
Une large part d’arbitraire ou d’"expérience" préside donc le choix d’une vais classement dissymétriques afin de forcer le modèle à prendre en compte
estimation plutôt qu’une autre. une petite classe.
• Conceptuellement, le bootstrap est plus compliqué et pratiquement encore
peu utilisé. Néanmoins, cet outil joue un rôle central dans les algorithmes Discrimination à deux classes
récents de combinaison de modèles en association avec une estimation Dans le cas du problème le plus élémentaire à deux classes, d’autres critères
out-of-bag de l’erreur. Il ne peut être négligé. sont proposés afin d’évaluer plus précisément une qualité de discrimination. La
• L’estimateur .632-bootstrap pose des problèmes en situation de sur- plupart des méthodes vues (régression logistique), ou à venir dans les chapitre
ajustement aussi les mêmes auteurs ont proposé un rectificatif complé- qui suivent, évaluent, pour chaque individu i, un score ou une probabilité π bi
mentaire noté .632+bootstrap. que cette individu prenne la modalité Y = 1 (ou succès, ou possession d’un
• Comme le signale Vapnik, la résolution d’un problème de modélisation : actif, ou présence d’une maladie...). Cette probabilité ou ce score compris entre
régression ou discrimination à fin prédictive doit, dans la mesure du pos- 0 et 1 est comparé avec une valeur seuil s fixée a priori (en général 0, 5) :
sible, d’éviter de se ramener à un problème finalement beaucoup plus
complexe comme celui de l’estimation d’une densité multidimension- Si π
bi > s, ybi = 1 sinon ybi = 0.
nelle. C’est ainsi typiquement le cas en analyse discriminante non pa-
Pour un échantillon de taille n dont l’observation de Y est connue ainsi que
ramétrique.
les scores πbi fournis par un modèle, il est alors facile de construire la matrice
Ce qu’il faut retenir en conclusion, c’est que l’estimation d’une erreur de pré- dite de confusion croisant les modalités de la variable prédite au seuil s avec
vision est une opération délicate aux conséquences importantes. Il est donc celles de la variable observée dans une table de contingence :
nécessaire
• d’utiliser le même estimateur pour comparer l’efficacité de deux mé- Prévision Observation Total
thodes, Y =1 Y =0
• de se montrer très prudent, en dehors de tout système d’hypothèses pro- ybi = 1 n11 (s) n10 (s) n1+ (s)
babilistes, sur le caractère absolu d’une estimation dans l’objectif d’une ybi = 0 n01 (s) n00 (s) n0+ (s)
certification. Total n+1 n+0 n
Dans ces deux dernières situations, le recours à un échantillon test de bonne
taille est difficilement contournable alors qu’en situation de choix de modèle Dans une situation classique de diagnostic médical ou en marketing les
au sein d’une même famille, un estimateur (petit échantillon de validation, quantités suivantes sont considérées :
validation croisée) plus économique est adapté en supposant implicitement que • Vrais positifs les n11 (s) observations bien classées (b yi = 1 et Y = 1),
le biais induit est identique d’un modèle à l’autre. • Vrais négatifs les n 00 (s) observations bien classées yi = 0 et Y = 0),
(b
• Faux négatifs les n01 (s) observations mal classées (b yi = 0 et Y = 1),
3.4 Discrimination et courbe ROC • Faux positifs les n10 (s) observations mal classées (b yi = 1 et Y = 0),
n01 (s)+n10 (s)
Dans une situation de discrimination le seul critère de risque comme le taux • Le taux d’erreur : t(s) = n ,
d’erreur de classement n’est pas toujours bien adapté surtout, par exemple, • Le taux de vrais positifs ou sensibilité = nn11+1
(s)
ou taux de positifs pour
dans le cadre de classes déséquilibrées : un modèle trivial qui ne prédit jamais les individus qui le sont effectivement,
n (s)
une classe peu représentée ne commet pas un taux d’erreur supérieur au pour- • Le taux de vrais négatifs ou spécificité = n00+0 ou taux de négatifs pour
centage de cette classe. Cette situation est souvent délicate à gérer et nécessite les individus qui le sont effectivement,

Page 28 sur 159 06.2014


12 Qualité de prévision et risque

n00 (s) n10 (s)


• Le taux de faux positifs = 1 − Spécificité = 1 − n+0 = n+0 .
En revanche, en météorologie, d’autres taux sont utilisés :
n11 (s)
• Le taux de bonnes prévisions : H = n+1 (s) ,
n (s)
• Le taux de fausses alertes : F = n10+0 ,
• Le score de Pierce : PSS= H −F , compris entre −1 et 1, évalue la qualité
d’un modèle de prévision. Si ce score est supérieur à 0, le taux de bonnes
prévisions est supérieur à celui des fausses alertes et plus il est proche de
1, meilleur est le modèle.
Le score de Pierce a été conçu pour la prévision d’événements climatiques
rares afin de pénaliser les modèles ne prévoyant jamais ces événements (H =
0) ou encore générant trop de fausses alertes (F = 1). Le modèle idéal pré-
voyant tous les événements critiques (H = 1) sans fausse alerte (F = 0). Des
coûts de mauvais classement peuvent être introduits pour pondérer ce score.
Courbe ROC et AUC
Les notions de spécificité et de sensibilité proviennent de la théorie du si-
gnal ; leurs valeurs dépendent directement de celle du seuil s. En augmentant
s, la sensibilité diminue tandis que la spécificité augmente car la règle de déci-
sion devient plus exigeante ; un bon modèle associe grande sensibilité et grande
spécificité pour la détection d’un ”signal”. Ce lien est représenté graphique-
ment par la courbe ROC (Receiver Operating Caracteristic) de la sensibilité
(”probabilité” de détecter un vrai signal) en fonction de 1 moins la spécificité
(”probabilité” de détecter un faux signal) pour chaque valeur s du seuil. Notons
que la courbe ROC est une fonction monotone croissante :

n00 (s) n00 (s0 ) n11 (s) n11 (s0 ) F IGURE 1 – Données bancaires : Courbes ROC estimées sur l’échantillon test
1− <1− ⇒ s < s0 ⇒ < .
n+0 n+0 n+1 n+1 pour différentes méthodes de prévision ou de score d’appétence

La figure 1 donne un exemple de courbes ROC associée au score d’appétence


de la carte visa premier. Plus la courbe se rapproche du carré, meilleure est
la discrimination, correspondant à la fois à une forte sensibilité et une grande
spécificité. L’aire sous la courbe : AUC (area under curve) mesure la qualité de
discrimination du modèle tandis qu’une analyse de la courbe aide au choix du
seuil. Ainsi, dans l’exemple considéré, un seuil de 0, 6 ne pénalise pas énor-
mément le nombre de vrais positifs écartés tout en économisant des envois
publicitaires (faux positifs) par rapport à un seuil de 0, 5.

Page 29 sur 159 06.2014


13 Qualité de prévision et risque

L’aire sous la courbe est calculée en considérant toutes les paires (i, i0 ) for- [7] B. Efron et R. Tibshirani, Improvements on Cross-Validation : The .632+
mées d’un premier individu avec yi = 1 et d’un second avec yi0 = 0. Une paire Bootstrap Method, Journal of the American Statistical Association 92
est dite concordante si π
bi > πbi0 ; discordante sinon. Le nombre d’ex œquo est (1997), no 438, 548–560.
n+0 n+1 − nc − nd où nc est le nombre de paires concordantes et nd le nombre [8] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661–
de paires discordantes. Alors, 675.
nc + 0, 5(n+0 n+1 − nc − nd ) [9] G. Schwarz, Estimating the dimension of a model, Annals of Statistics 6
AUC = . (1978), 461–464.
n+0 n+1
[10] C. Spiegelman et J. Sacks, Consistent Window Estimation in Nonpara-
On montre par ailleurs (voir par exemple Tenenhaus 2007) que le numé- metric Regression, Annals of Statististics 8 (1980), 240–246.
rateur de cette expression est encore la Statistique de test de Mann-Whitney [11] M. Stone, An Asymptotic Equivalence of Choice of Model by Cross-
tandis que le coefficient de Gini, qui est le double de la surface entre la diago- Validation and Akaike’s Criterion, Journal of The Royal Statistical So-
nale et la courbe, vaut 2AUC − 1. ciety B 39 (1977), 44–47.
Attention, pour comparer des modèles ou méthodes de complexités diffé- [12] V.N. Vapnik, Statistical learning theory, Wiley Inter science, 1999.
rentes, ces courbes doivent être estimées sur un échantillon test. Elles sont
bien évidemment optimistes sur l’échantillon d’apprentissage. De plus, l’AUC
ne donne pas un ordre total pour classer des modèles car les courbes ROC
peuvent se croiser.

Références
[1] H. Akaïke, A new look at the statistical model identification, IEEE Tran-
sactions on Automatic Control 19 (1974).
[2] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and re-
gression trees, Wadsworth & Brooks, 1984.
[3] T. M. Cover et P. E. Hart, Nearest neighbor pattern classification, IEEE
Trans. Inform. Theory 13 (1967), 21–27.
[4] P Craven et G. Wahba, Smoothing Noisy Data with Spline Functions,
Technometrics 21 (1979), 215–223.
[5] L. P. Deveroye et T.J. Wagner, Distribution-Free Consistency Results in
Discrimination and Regression Function Estimation, Annals of Statistics
8 (1980), 231–239.
[6] B. Efron, The Jackknife, the Bootstrap and other Resampling Methods,
SIAM, 1982.

Page 30 sur 159 06.2014


1 Sélection de modèle dans le cas gaussien

que l’espérance de Y appartient au sous-espace de Rn engendré par


Sélection de modèle dans le cas {1, X 1 , . . . , X p } où 1 désigne le vecteur de Rn constitué de “1” . C’est-à-
dire que les (p + 1) variables aléatoires vérifient :
gaussien
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βp Xip + εi i = 1, 2, . . . , n
Résumé
avec les hypothèses suivantes :
Le modèle linéaire gaussien ou régression multiple est considéré
pour l’objectif de la prévision d’une variable quantitative par un 1. Les εi sont des termes d’erreur indépendants et identiquement distribués ;
ensemble de variables quantitatives ou quantitatives et qualitatives E(εi ) = 0, V ar(ε) = σ 2 I.
(analyse de covariance). Recherche d’un modèle parcimonieux assu-
2. Les termes X j sont supposés déterministes (facteurs contrôlés) ou bien
rant un bon équilibre entre la qualité de l’ajustement et la variance
l’erreur ε est indépendante de la distribution conjointe de X 1 , . . . , X p .
des paramètres afin de minimiser le risque empirique. Algorithmes On écrit dans ce dernier cas que :
(backward, forward, stepwise...) de sélection de modèle par sélection
de variables et minimisation de critères pénalisés (Cp , AIC, BIC). E(Y|X 1 , . . . , X p ) = β0 +β1 X 1 +β2 X 2 +· · ·+βp X p et V ar(Y|X 1 , . . . , X p ) = σ 2 .
Algorithmes de sélection de modèle par pénalisation (ridge, lasso,
elastic net). 3. Les paramètres inconnus β0 , . . . , βp sont supposés constants.
Retour au plan du cours
4. En option, pour l’étude spécifique des lois des estimateurs, une quatrième
hypothèse considère la normalité de la variable d’erreur ε (N (0, σ 2 I)).
1 Régression multiple Les εi sont alors i.i.d. de loi N (0, σ 2 ).

1.1 Modèle Les données sont rangées dans une matrice X(n × (p + 1)) de terme gé-
néral Xij , dont la première colonne contient le vecteur 1 (X0i = 1), et dans
Le modèle de régression linéaire multiple est l’outil statistique le plus ha- un vecteur Y de terme général Yi . En notant les vecteurs ε = [ε1 · · · εp ]0 et
bituellement mis en œuvre pour l’étude de données multidimensionnelles. Cas β = [β0 β1 · · · βp ]0 , le modèle s’écrit matriciellement :
particulier de modèle linéaire, il constitue la généralisation naturelle de la ré-
gression simple. Y = Xβ + ε.
Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène,
dépendante) est mise en relation avec p variables quantitatives X 1 , . . . , X p
dites explicatives (ou encore de contrôle, endogènes, indépendantes, régres- 1.2 Estimation
seurs). Conditionnellement à la connaissance des valeurs des X j , les paramètres
Les données sont supposées provenir de l’observation d’un échantillon sta- inconnus du modèle : le vecteur β et σ 2 (paramètre de nuisance), sont esti-
tistique de taille n (n > p + 1) de R(p+1) : més par minimisation des carrés des écarts (M.C.) ou encore, en supposant
j p (4.), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors
(x1i , . . . , xi , . . . , xi , yi ) i = 1, . . . , n. les mêmes expressions, l’hypothèse de normalité et l’utilisation de la vraisem-
blance conférant à ces derniers des propriétés complémentaires.
L’écriture du modèle linéaire dans cette situation conduit à supposer

Page 31 sur 159 06.2014


2 Sélection de modèle dans le cas gaussien

1.3 Estimation par M.C. 1.4 Propriétés


L’expression à minimiser sur β ∈ Rp+1 s’écrit : Les estimateurs des M.C. βb0 , βb1 , . . . , βbp sont des estimateurs sans biais :
n
X E(β)b = β, et, parmi les estimateurs sans biais fonctions linéaires des Yi ,
2
(Yi − β0 − β1 Xi1 − · · · − βp Xip )2 = kY − Xβk ils sont de variance minimum (théorème de Gauss-Markov) ; ils sont donc
i=1 “BLUE” : best linear unbiaised estimators. Sous hypothèse de normalité, les
= (Y − Xβ)0 (Y − Xβ) estimateurs du M.V. sont uniformément meilleurs (efficaces) et coïncident avec
ceux des M.C.
= Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ.
On montre que la matrice de covariance des estimateurs se met sous la forme
Par dérivation matricielle de la dernière équation on obtient les “équations
E[(β b − β)(βb − β)0 ] = σ 2 (X0 X)−1 ,
normales” :
X0 Y − X0 Xβ = 0 celle des prédicteurs est
0
dont la solution correspond bien à un minimum car la matrice hessienne 2X X E[(Yb − Xβ)(Y b − Xβ)0 ] = σ 2 H
est semi définie-positive.
Nous faisons l’hypothèse supplémentaire que la matrice X0 X est inversible, et celle des estimateurs des résidus est
c’est-à-dire que la matrice X est de rang (p + 1) et donc qu’il n’existe pas de E[ee0 ] = σ 2 (I − H)
colinéarité entre ses colonnes. En pratique, si cette hypothèse n’est pas vérifiée,
2
il suffit de supprimer des colonnes de X et donc des variables du modèle ou tandis qu’un estimateur sans biais de σ est fourni par :
une autre approche de réduction de dimension (régression ridge, Lasso, PLS 2 2
kek kY − Xβk SSE
...) est à mettre en oeuvre. b2 =
σ = = .
n−p−1 n−p−1 n−p−1
Alors, l’estimation des paramètres βj est donnée par :
b2 hii sont des estimations des variances des prédicteurs Ybi .
Ainsi, les termes σ
0 −1 0
β = (X X) X Y
b
La conséquence immédiate importante est que si la matrice X0 X est mal
conditionnée (déterminant proche de 0), son inversion fait apparaître des
et les valeurs ajustées (ou estimées, prédites) de Y ont pour expression :
termes très élevés sur la diagonale et conduit donc à des variances très im-
b = X(X0 X)−1 X0 Y = HY portantes des estimations des paramètres.
Y
b = Xβ

−1 1.5 Sommes des carrés


où H = X(X0 X) X0 est appelée “hat matrix” ; elle met un chapeau à Y.
Géométriquement, c’est la matrice de projection orthogonale dans Rn sur le SSE est la somme des carrés des résidus (sum of squared errors),
sous-espace Vect(X) engendré par les vecteurs colonnes de X. 2
2
SSE = Y − Y = kek .
b
On note
e=Y−Y
b = Y − Xβ
b = (I − H)Y
On définit également la somme totale des carrés (total sum of squares) par
le vecteur des résidus ; c’est la projection de Y sur le sous-espace orthogonal 2 2
SST = Y − Y1 = Y0 Y − nY

de Vect(X) dans Rn .

Page 32 sur 159 06.2014


3 Sélection de modèle dans le cas gaussien

et la somme des carrés de la régression (regression sum of squares) par suit une loi de Student à (n − p − 1) degrés de liberté. Cette statistique est
2 donc utilisée pour tester une hypothèse H0 : βj = a ou pour construire un
b 0 X0 Y − nY2 .

SSR = Y
b
− Y1 = Y
b 0Yb − nY2 = Y0 HY − nY2 = β intervalle de confiance de niveau 100(1 − α)% :
On vérifie alors : SST = SSR + SSE. bj2 .
βbj ± tα/2;(n−p−1) σ
1.6 Coefficient de détermination Attention, cette statistique concerne un coefficient et ne permet pas d’inférer
On appelle coefficient de détermination le rapport conjointement (cf. §3.4) sur d’autres coefficients car ils sont corrélés entre eux ;
de plus elle dépend des absences ou présences des autres variables X k dans le
SSR modèle. Par exemple, dans le cas particulier de deux variables X 1 et X 2 très
R2 =
SST corrélées, chaque variable, en l’absence de l’autre, peut apparaître avec un co-
qui est donc la part de variation de Y expliquée par le modèle de régression. efficient significativement différent de 0 ; mais, si les deux sont présentes dans
Géométriquement, c’est un rapport de carrés de longueur de deux vecteurs. le modèle, elles peuvent chacune apparaître avec des coefficients insignifiants.
C’est donc le cosinus carré de l’angle entre ces vecteurs : Y et sa projection Y
b
De façon plus générale, si c désigne un vecteur non nul de (p+1) constantes
sur Vect(X). réelles, il est possible de tester la valeur d’une combinaison linéaire c0 β des
Attention, dans le cas extrême où n = (p + 1), c’est-à-dire si le nombre de paramètres en considérant l’hypothèse nulle H0 : c0 β = a ; a connu. Sous
variables explicatives est grand comparativement au nombre d’observations, H0 , la statistique
R2 = 1. Ou encore, il est géométriquement facile de voir que l’ajout de va- c0 β
b −a
riables explicatives ne peut que faire croître le coefficient de détermination. −1
σ 2 c0 (X0 X) c)1/2
(b
La quantité R est appelée coefficient de corrélation multiple entre Y et les suit une loi de Student à (n − p − 1) degrés de liberté.
variables explicatives, c’est le coefficient de corrélation usuel entre Y et sa
prévision Y.
b Inférence sur le modèle

1.7 Inférence dans le cas gaussien Le modèle peut être testé globalement. Sous l’hypothèse nulle H0 : β1 =
β2 = . . . = βp = 0, la statistique
En principe, l’hypothèse optionnelle (4.) de normalité des erreurs est néces-
saire pour cette section. En pratique, des résultats asymptotiques, donc valides SSR/p MSR
=
pour de grands échantillons, ainsi que des études de simulation, montrent que SSE/(n − p − 1) MSE
cette hypothèse n’est pas celle dont la violation est la plus pénalisante pour la suit une loi de Fisher avec p et (n − p − 1) degrés de liberté. Les résultats sont
fiabilité des modèles. habituellement présentés dans un tableau “d’analyse de la variance” sous la
Inférence sur les coefficients forme suivante :
Source de Somme des
Pour chaque coefficient βj on note σ bj2 l’estimateur de la variance de βbj variation d.d.l. carrés Variance F
obtenu en prenant j-ème terme diagonal de la matrice σ b2 (X0 X)−1 . On montre
que la statistique Régression p SSR MSR=SSR/p MSR/MSE
βbj − βj Erreur n−p−1 SSE MSE=SSE/(n − p − 1)
Total n−1 SST
σ
bj

Page 33 sur 159 06.2014


4 Sélection de modèle dans le cas gaussien

Inférence sur un modèle réduit • linéarité du modèle : paramètres βj constant,


• absence de points influents : distance de Cook
Le test précédent amène à rejeter H0 dès que l’une des variables X j est
liée à Y. Il est donc d’un intérêt limité. Il est souvent plus utile de tester un
1
modèle réduit c’est-à-dire dans lequel certains coefficients, à l’exception de Di = (b b(i) )0 (b
y−y y−y
b(i) ),
s2 (p + 1)
la constante, sont nuls contre le modèle complet avec toutes les variables. En
ayant éventuellement réordonné les variables, on considère l’hypothèse nulle
H0 : β1 = β2 = . . . = βq = 0, q < p. • éventuellement la normalité des résidus.
Ces diagnostics obtenus par l’étude des résidus du modèle sont très classique
Notons respectivement SSRq , SSEq , Rq2 les sommes de carrés et le coef- en régression linéaire, ils ne sont pas repris ici afin de se focaliser sur ceux liés
ficient de détermination du modèle réduit à (p − q) variables. Sous H0 , la à la possible colinéarité des variables explicatives.
statistique
(SSR − SSRq )/q (R2 − Rq2 )/q En effet, l’estimation des paramètres ainsi que celle de leur écart-type (stan-
= dard error) nécessite le calcul explicite de la matrice (X0 X)−1 . Dans le cas dit
SSE/(n − p − 1) (1 − R2 )/(n − p − 1)
mal conditionné où le déterminant de la matrice X0 X n’est que légèrement dif-
suit une loi de Fisher à q et (n − p − 1) degrés de liberté. férent de 0, les résultats conduiront à des estimateurs de variances importantes.
Dans le cas particulier où q = 1 (βj = 0), la F -statistique est alors le carré Il s’agit donc de diagnostiquer ces situations critiques puis d’y remédier. Dans
de la t-statistique de l’inférence sur un paramètre et conduit donc au même les cas descriptif ou prédictif on supprime des variables à l’aide des procé-
test. dures de choix de modèle mais, pour un objectif explicatif nécessitant toutes
les variables, d’autres solutions doivent être envisagées : régression biaisée ou
1.8 Prévision pénalisée (ridge, lasso), régression sur composantes principales ou PLS.
Connaissant les valeurs des variables X j pour une nouvelle observation : VIF
x00= [x10 , x20 , . . . , xp0 ] appartenant au domaine dans lequel l’hypothèse de li-
néarité reste valide, une prévision, notée yb0 de Y ou E(Y) est donnée par : La plupart des logiciels proposent des diagnostics de colinéarité. Le plus
classique est le facteur d’inflation de la variance (VIF)
yb0 = βb0 + βb1 x10 + · · · + βbp xp0 .
1
Vj =
Les intervalles de confiance des prévisions de Y et E(Y), pour une valeur 1 − Rj2
x0 ∈ Rp et en posant v0 = (1|x00 )0 ∈ Rp+1 , sont respectivement

yb0 b(1 + v00 (X0 X)−1 v0 )1/2 ,


± tα/2;(n−p−1) σ où Rj2 désigne le coefficient de détermination de la régression de la variable
X j sur les autres variables explicatives ; Rj est alors un coefficient de corré-
yb0 ± tα/2;(n−p−1) σ b(v00 (X0 X)−1 v0 )1/2 . lation multiple, c’est le cosinus de l’angle dans Rn entre X j et le sous-espace
vectoriel engendré par les variables {X 1 , . . . , X j−1 , X j+1 , . . . , X p }. Plus
1.9 Diagnostics de colinéarité X j est “linéairement” proche de ces variables et plus Rj est proche de 1 ;
on montre alors que la variance de l’estimateur de βj est d’autant plus éle-
La validité d’un modèle de régression multiple dépend de la bonne vérifica-
vée. Évidemment, cette variance est minimum lorsque X j est orthogonal au
tion des hypothèses préalables :
sous-espace engendré par les autres variables.
• homoscédasticité : variance σ 2 des résidus constante,

Page 34 sur 159 06.2014


5 Sélection de modèle dans le cas gaussien

Conditionnement Modèle complet


De façon classique, les qualités numériques de l’inversion d’une matrice La procédure SAS/REG fournit les résultats classiques de la régression mul-
sont quantifiées par son indice de conditionnement. On note λ1 , . . . , λp les va- tiple.
leurs propres de la matrice des corrélations R rangées par ordre décroissant. Le Analysis of Variance
déterminant de R est égal au produit des valeurs propres. Ainsi, des problèmes Source DF
Sum of
Squares
Mean
Square F Value Prob>F
numériques, ou de variances excessives apparaissent dès que les dernières va- Model (1)
12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)
leurs propres sont relativement trop petites. L’indice de conditionnement est le Error
C Total
27
39
0.14951 (3)
0.70820 (4)
0.00554 (6)

rapport Root MSE


Dep Mean
0.07441 (9)
0.14275 (10)
R-square
Adj R-sq
0.7889 (12)
0.6951 (13)
C.V. 52.12940 (11)

κ = λ1 /λp
(1) degrés de liberté de la loi de Fisher du test global
(2) SSR
de la plus grande sur la plus petite valeur propre. (3) SSE ou déviance
(4) SST=SSE+SSR
En pratique, si κ < 100 on considère qu’il n’y a pas de problème. Celui-ci
(5) SSR/DF
devient sévère pour κ > 1000. Cet indice de conditionnement donne un aperçu (6) MSE=SSE/DF est l’estimation de σ 2
global des problèmes de colinéarité tandis que les VIF, les tolérances ou encore (7) Statistique F du test de Fisher du modèle global
l’étude des vecteurs propres associés au plus petites valeurs propres permettent (8) P (fp;n−p−1 > F ) ; H0 est rejetée au niveau α si P < α
d’identifier les variables les plus problématiques. (9) s =racine de MSE
(10) moyenne empirique de la variable à expliquée
1.10 Exemple (11) Coefficient de variation 100× (9)/(10)
(12) Coefficient de détermination R2
Les données sont extraites de Jobson (1991)[3] et décrivent les résultats 2
(13) Coefficient de détermination ajusté R0
comptables de 40 entreprises du Royaume Uni.
Parameter Estimates
Parameter Standard T for H0: Variance
RETCAP Return on capital employed Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation
(1) (2) (3) (4) (5) (6)
WCFTDT Ratio of working capital flow to total debt INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000
WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793
LOGSALE Log to base 10 of total sales WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500
LOGASST Log to base 10 of total assets GEARRAT
LOGSALE
1
1
-0.040436
0.118440
0.07677092
0.03611612
-0.527
3.279
0.6027
0.0029
0.45778579
0.10629382
2.18442778
9.40788501
CURRAT Current ratio LOGASST
...
1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805

QUIKRAT Quick ratio


NFATAST Ratio of net fixed assets to total assets (1) estimations des paramètres (βbj )
FATTOT Gross sixed assets to total assets (2) écarts-types de ces estimations σbj
PAYOUT Payout ratio (3) statistique T du test de Student de H0 : βj = 0
WCFTCL Ratio of working capital flow to total current liabilities (4) P (tn−p−1 > T ) ; H0 est rejetée au niveau α si P < α
GEARRAT Gearing ratio (debt-equity ratio) (5) 1 − R(j)2

CAPINT Capital intensity (ratio of total sales to total assets) (6) VIF=1/(1 − R(j) 2
)
INVTAST Ratio of total inventories to total assets
Ces résultats soulignent les problèmes de colinéarités. De grands “VIF” (fac-

Page 35 sur 159 06.2014


6 Sélection de modèle dans le cas gaussien

teurs d’inflation de la variance) sont associés à de grands écart-types des esti- On suppose que les moyennes conditionnelles E[Y|T ], c’est-à-dire calcu-
mations des paramètres. D’autre part les nombreux tests de Student non signifi- lées à l’intérieur de chaque cellule, sont dans le sous-espace vectoriel engendré
catifs montrent que trop de variables sont présentes dans le modèle. Cette idée par les variables explicatives quantitatives, ici X. Ceci s’écrit :
est renforcée par le calcul de l’indice de conditionnement : 8.76623/0.00125.
Yij = β0j + β1j Xij + εij ; j = 1, . . . , J; i = 1, · · · , nj
2 Analyse de covariance
où les εij sont i.i.d. suivant une loi centrée de variance σ 2 qui sera supposée
L’analyse de covariance se situe encore dans le cadre général du modèle li- N (0, σ 2 ) pour la construction des tests.
néaire et où une variable quantitative est expliquée par plusieurs variables à la Notons Y le vecteur des observations [Yij |i = 1, nj ; j = 1, J]0 mis en
fois quantitatives et qualitatives. Dans les cas les plus complexes, on peut avoir colonne, x le vecteur [X |i = 1, n ; j = 1, J]0 , ε = [ε |i = 1, n ; j = 1, J]0
ij j ij j
plusieurs facteurs (variables qualitatives) avec une structure croisée ou hiérar- le vecteur des erreurs, 1 les variables indicatrices des niveaux et 1 la colonne
j
chique ainsi que plusieurs variables quantitatives intervenant de manière li- de 1s. On note encore x.1 le produit terme à terme des deux vecteurs, c’est-
j
néaire ou polynomiale. Le principe général, dans un but explicatif ou décision- à-dire le vecteur contenant les observations de x sur les individus prenant le
nel, est toujours d’estimer des modèles “intra-groupes” et de faire apparaître niveau j de T et des zéros ailleurs.
(tester) des effets différentiels “inter-groupes” des paramètres des régressions.
Ainsi, dans le cas plus simple où seulement une variable parmi les explicatives La résolution simultanée des J modèles de régression est alors obtenue en
est quantitative, nous sommes amenés à tester l’hétérogénéité des constantes considérant globalement le modèle :
et celle des pentes (interaction) entre différents modèles de régression linéaire.
Y = Xβ + ε
Ce type de modèle permet donc, toujours avec un objectif prédictif, de s’in-
téresser à la modélisation d’une variable quantitative par un ensemble de va-
dans lequel X est la matrice n × 2J constituée des blocs [1j |X.1j ] ; j =
riables explicatives à la fois quantitatives et qualitatives. La possible prise en
1, . . . , J. L’estimation de ce modèle global conduit, par bloc, à estimer les
compte d’interactions complique singulièrement la procédure de sélection de
modèles de régression dans chacune des cellules.
variables.
Comme pour l’analyse de variance, les logiciels opèrent une reparamétri-
2.1 Modèle sation faisant apparaître des effets différentiels par rapport au dernier niveau
(SAS/GLM, SAS/INSIGHT) ou par rapport à un effet moyen (Systat), afin
Le modèle est explicité dans le cas élémentaire où une variable quantitative d’obtenir directement les bonnes hypothèses dans les tests. Ainsi, dans le pre-
Y est expliquée par une variable qualitative T à J niveaux et une variable mier cas, on considère la matrice de même rang (sans la Jème indicatrice)
quantitative, appelée encore covariable, X. Pour chaque niveau j de T , on
observe nj valeurs X1j , . . . , Xnj j de X et nj valeurs Y1j , . . . , Ynj j de Y ;
PJ X = [1|X|11 | · · · |1J−1 |x.11 | · · · |x.1J−1 ]
n = j=1 nj est la taille de l’échantillon.
En pratique, avant de lancer une procédure de modélisation et tests, une associée aux modèles :
démarche exploratoire s’appuyant sur une représentation en couleur (une par
modalité j de T) du nuage de points croisant Y et X et associant les droites de Yij = β0J + (β0j − β0J ) + β1J Xij + (β1j − β1J )Xij + εij ;
régression permet de se faire une idée sur les effets respectifs des variables : j = 1, . . . , J − 1; i = 1, . . . , nj .
parallélisme des droites, étirement, imbrication des sous-nuages.

Page 36 sur 159 06.2014


7 Sélection de modèle dans le cas gaussien

2.2 Tests cette stratégie, à laquelle peuvent contribuer des Analyses en Compo-
santes Principales, correspond des algorithmes de recherche (pas à pas)
Différentes hypothèses sont alors testées en comparant le modèle complet moins performants mais économiques en temps de calcul si p est grand.
Y = β0J 1 + (β01 − β0J )11 + · · · + (β0J−1 − β0J )1J−1 + β1J x + Attention, si n est petit, et la recherche suffisamment longue avec beau-
coup de variables explicatives, il sera toujours possible de trouver un
+ (β11 − β1J )x.11 + · · · + (β1J−1 − β1J )x.1J−1 + ε
“bon” modèle expliquant y ; c’est l’effet data mining dans les modèles
à chacun des modèles réduits : économétriques appelé maintenant data snooping.
Explicatif : Le deuxième objectif est sous-tendu par une connaissance a
(i) Y = β0J 1 + (β01 − β0J )11 + · · · + (β0J−1 − β0J )1J−1 + β1J x + ε priori du domaine concerné et dont des résultats théoriques peuvent vou-
(ii) Y = β0J 1 + (β01 − β0J )11 + · · · + (β0J−1 − β0J )1J−1 + ε loir être confirmés, infirmés ou précisés par l’estimation des paramètres.
(iii) Y = β0J 1 + β1J x + (β1j − β1J )x.11 + · · · + Dans ce cas, les résultats inférentiels précédents permettent de construire
+(β1J−1 − β1J )x.1J−1 + ε le bon test conduisant à la prise de décision recherchée. Utilisées hors de
ce contexte, les statistiques de test n’ont plus alors qu’une valeur indica-
(iv) Y = β0J 1 + ε tive au même titre que d’autres critères plus empiriques.
par un test de Fisher. Ceci revient à considérer les hypothèses suivantes : Prédictif : Dans le troisième cas, l’accent est mis sur la qualité des esti-
• H0i : pas d’interaction entre variables X et T, β11 = · · · = β1J , les droites mateurs et des prédicteurs qui doivent, par exemple, minimiser une er-
partagent la même pente β1J . reur quadratique moyenne. C’est la situation rencontrée en apprentissage.
• H0ii : β11 = · · · = β1J =0 (pas d’effet de x) Ceci conduit à rechercher des modèles parcimonieux c’est-à-dire avec un
• H0iii :β01 = · · · = β0J , les droites partagent la même constante à l’origine nombre volontairement restreint de variables explicatives. Le “meilleur”
β0J . modèle ainsi obtenu peut donner des estimateurs légèrement biaisés au
• H0iv les variables X et T n’ont aucun effet sur Y. profit d’un compromis pour une variance plus faible. Un bon modèle n’est
On commence donc par évaluer i, si le test n’est pas significatif, on regarde ii donc plus celui qui explique le mieux les données au sens d’une déviance
qui, s’il n’est pas non plus significatif, conduit à l’absence d’effet de la variable (SSE) minimale (ou d’un R2 max) au prix d’un nombre important de va-
X. De même, toujours si i n’est pas significatif, on s’intéresse à iii pour juger riables pouvant introduire des colinéarités. Le bon modèle est celui qui
de l’effet du facteur T . conduit aux prévisions les plus fiables.
Certes, le théorème de Gauss-Markov indique que, parmi les estimateurs
3 Choix de modèle par sélection de variables sans biais, celui des moindres carrés est de variance minimum. Néanmoins,
il peut être important de préférer un estimateur légèrement biaisé si le gain
3.1 Introduction en variance est lui plus significatif. C’est tout le problème de trouver un bon
équilibre entre biais et variance afin de minimiser un risque quadratique de
De façon un peu schématique, on peut associer la pratique de la modélisa- prévision. Nous allons illustrer ceci par un exemple très simple (mais pédago-
tion statistique à trois objectifs qui peuvent éventuellement être poursuivis en gique) en régression polynomiale : on représente ci-dessous un jeu de données
complémentarité. pour lesquelles Yi = f (xi ) + εi , i = 1, . . . , n et xi ∈ [0, 1]. On ajuste des
Descriptif : Il vise à rechercher de façon exploratoire les liaisons entre Y polynômes de degrés croissants sur ces données, le critère R2 augmente pour
et d’autres variables, potentiellement explicatives, X j qui peuvent être atteindre la valeur 1 pour le polynôme qui passe par toutes les observations.
nombreuses afin, par exemple d’en sélectionner un sous-ensemble. À L’ajustement du modèle mesuré par la R2 croît logiquement avec le nombre

Page 37 sur 159 06.2014


8 Sélection de modèle dans le cas gaussien

Régression linéaire simple Polynôme de degré 2 Polynôme de degré 5 Polynôme de degré 10

2.5

2.5
● ● ● ●



● ● ●

● ●
2

2.0

2.0
● ●

2
● ● ●

1.5

1.5
● ● ● ●

1

● ●


● ●
● ●

1.0

1.0

1
y

y
● ● ●
● ●

0.5

0.5
0

0.0

0.0
−1

−0.5

−0.5
● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x x x

F IGURE 1 – A gauche : y = β0 + β1 x + , R2 = 0.03, A droite : y = F IGURE 2 – A gauche : y = β0 +β1 x+. . .+β5 x5 +, R2 = 0.874,
β0 + β1 x + β2 x2 + , R2 = 0.73. A droite : y = β0 + β1 x + . . . + β10 x10 + , R2 = 1.

avec Y = (Y1 , . . . , Yn )0 , µ = (f (X1 ), . . . , f (Xn ))0 et  = (1 , . . . , n )0 .


de paramètres. Le risque quadratique moyen de l’estimateur µ b = Xβ b de µ est :
Le R2 ne peut-être un “bon” critère de sélection de modèles ; il ne peut
µ) = EY0 ,Y [kY0 − µ
R(b b k2 ],
servir qu’à comparer des modèles de même dimension car sinon conduit à
sélectionner le modèle le plus complexe, c’est-à-dire celui correspond au plus où Y0 est un vecteur de Rn indépendant de Y et de même loi que Y. On a
grand espace de projection, et conduit donc au sur-ajustement. alors, en utilisant le théorème de Cochran,
Il y a principalement deux façons de “biaiser” un modèle dans le but de
restreindre la variance : R(bµ) = nσ 2 + pσ 2 + kµ − ΠV (µ)k2 .
• en réduisant le nombre de variables explicatives et donc en simplifiant le
modèle (sélection ou pénalisation lasso), 2
• en contraignant les paramètres du modèle, en les rétrécissant (schrinkage), kµ − ΠV (µ)k représente le terme 2
de biais, il décroit lorsque l’espace V
en régression ridge qui opère une régularisation. croit (au sens de l’inclusion), pσ représente la variance de l’estimateur :
2
Commençons par décrire les procédures de sélection. E[kbµ − E(bµ )k ] et croit avec la dimension de V , nσ 2 correspond au risque de
l’oracle µ.
3.2 Etude du risque quadratique
On se place ici sur Y = Rn , muni de la norme euclidienne. On écrit le
modèle sous la forme : 3.3 Critères de sélection de variables
De nombreux critères de choix de modèle sont présentés dans la littérature
Y = µ + , sur la régression linéaire multiple. Citons le critère d’information d’Akaïke

Page 38 sur 159 06.2014


9 Sélection de modèle dans le cas gaussien

(AIC), celui bayésien de Sawa (BIC). . . Ils sont équivalents lorsque le nombre Ce coefficient s’exprime encore par
de variables à sélectionner, ou niveau du modèle, est fixé. Le choix du critère
est déterminant lorsqu’il s’agit de comparer des modèles de niveaux différents. (n − 1)MSE
1−
Certains critères se ramènent, dans le cas gaussien, à l’utilisation d’une expres- SST
sion pénalisée de la fonction de vraisemblance afin de favoriser des modèles ainsi dans la comparaison de deux modèles partageant la même SST, on ob-
parcimonieux. En pratique, les plus utilisés ou ceux généralement fournis par serve que R0 2 > R0 2j si et seulement si MSE<MSEj ; MSE et MSEj désignant
les logiciels sont les suivants. respectivement l’erreur quadratique moyenne du modèle complet et celle d’un
Statistique du F de Fisher modèle à j variables explicatives. Maximiser le R2 ajusté revient donc à mini-
miser l’erreur quadratique moyenne.
Ce critère, justifié dans le cas explicatif car basé sur une qualité d’ajuste-
ment est aussi utilisé à titre indicatif pour comparer des séquences de modèles Cas des variables ordonnées
emboîtés. La statistique partielle de Fisher est Nous avons considéré ci-dessus un modèle linéaire avec les p covariables
(1)
(SSR − SSRq )/q 2 2
(R − Rq ) n − p − 1 X , . . . , X (p) , mais on peut envisager d’autres estimateurs, et déterminer un
= critère pour sélectionner le "meilleur" estimateur de la collection considérée.
SSE/(n − p − 1) (1 − R2 ) q
Si on sait à priori que les variables X (1) , . . . , X (p) sont classées par ordre
dans laquelle l’indice q désigne les expressions concernant le modèle réduit d’importance, on peut envisager, pour tout m de 1 à p, l’estimateur linéaire
avec (p − q) variables explicatives. On considère alors que si l’accroissement fonction des m − 1 premières variables : X (1) , . . . , X (m−1) . En notant Vm le
(R2 − Rq2 ) est suffisamment grand : sous-espace vectoriel de Rn engendré par ces variables et le vecteur 1 de Rn ,
q et µ
b m l’estimateur associé : µ b m = ΠVm (Y), on obtient
R2 − Rq2 > Fα;q,(n−p−1) ,
(n − p − 1) µm ) = nσ 2 + mσ 2 + kµ − ΠVm (µ)k2 .
R(b
l’ajout des q variables au modèle est justifié.
On cherche à déterminer, parmi la collection d’estimateurs (b µm , m = 1, . . . p)
R2 et R2 ajusté un estimateur de risque minimal. Par Pythagore,
Le coefficient de détermination R2 = 1−SSE/SST, directement lié à la dé- R(bµm ) = nσ 2 + mσ 2 + kµk2 − kΠVm (µ)k2 .
viance (SSE) est aussi un indice de qualité mais qui a la propriété d’être mono-
tone croissant en fonction du nombre de variables. Il ne peut donc servir qu’à Puisque nσ 2 + kµk2 ne dépend pas du modèle considéré, minimiser R(b µm )
comparer deux modèles de même niveau c’est-à-dire avec le même nombre de équivaut à minimiser R0 (b µm ) = mσ 2 − kΠVm (µ)k2 .
variables. En notant que kΠVm (Y)k2 − mσ 2 est un estimateur sans biais de kΠVm (µ)k2 ,
En revanche, le R2 ajusté : on obtient un estimateur sans biais du risque R0 (b
µm ) :

2 n−1 SSE/(n − p − 1) b0 (b
R µm ) = −kΠVm (Y)k2 + 2mσ 2 .
R0 = 1 − (1 − R2 ) = 1 − .
n−p−1 SST/(n − 1)
Ceci conduit au critère CP de Mallows (1973)[5], qui consiste à sélectionner
dans lequel le rapport SSE/SST est remplacé par un rapport des estimations le modèle m qui minimise le critère
sans biais des quantités σ 2 et σy2 introduit une pénalisation liée au nombre de
paramètres à estimer. Crit(m) = −kΠVm (Y)k2 + 2mσ 2 .

Page 39 sur 159 06.2014


10 Sélection de modèle dans le cas gaussien

CP de Mallows Polynôme de degré 3

m
b = argminm=1,...,p Crit(m),
● ●

2

7

µ est alors estimé par µ bmb . On peut montrer (mais la démonstration est loin ●

6

1
d’être triviale !) que le risque de l’estimateur ainsi sélectionné est "proche" de

5
CP

y
celui de l’oracle. (cf Concentration inequalities and statistical applications, P.

0
4
Massart).

−1
Remarque : On peut estimer la variance σ 2 des variables i par kY − ●

2
● ●
● ●


ΠV (Y)k2 /(n − p − 1), cet estimateur est sans biais si Y obéit au modèle
● ●

2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

linéaire Y = Xβ + ε. k x

Un autre critère, classiquement utilisé, est le critère BIC, pour lequel le facteur
2 dans la pénalité est remplacé par log(n). F IGURE 3 – Cp de Mallow en fonction du degré du polynôme et modèle sélec-
tion de degré 3.
Cp de Mallows
Dans le cas général et évidemment le plus courant en pratique, les variables
“vrai” modèle complet est moins fiable qu’un modèle réduit donc biaisé mais
ne sont pas pré-ordonnées par importance. L’indicateur proposé par Mallows
d’estimation plus précise.
(1973)[5] est une estimation de l’erreur quadratique moyenne de prévision qui
s’écrit aussi comme la somme d’une variance et du carré d’un biais. L’erreur La figure 3 montre le comportement du Cp dans l’exemple de la régres-
quadratique moyenne de prévision s’écrit ainsi : sion polynomial. Ce critère décroît avec le biais jusqu’à un choix optimal de
dimension 3 avec de ré-augmenter avec la variance.
MSE(Ybi ) = Var(Ybi ) + [Biais(Ybi )]2
AIC, BIC et PRESS
puis après sommation et réduction : Dans le cas du modèle linéaire, et si la variance des observations est suppo-
n n n sée connue, le critère AIC (Akaïke’s Information criterion) est équivalent au
1 X bi ) = 1
X
bi ) + 1
X
critère Cp de Mallows.
MSE(Y Var(Y [Biais(Ybi )]2 .
σ 2 i=1 σ 2 i=1 σ 2 i=1
Le PRESS de Allen est l’introduction historique de la validation croisée
ou leave one out (loo). On désigne par Yb(i) la prévision de Yi calculée sans
En supposant que les estimations du modèle complet sont sans biais et en uti- tenir compte de la ième observation (Y , X 1 , . . . , X p ), la somme des erreurs
i i i
lisant des estimateurs de Var(Ybi ) et σ 2 , l’expression de l’erreur quadratique quadratiques de prévision (PRESS) est définie par
moyenne totale standardisée (ou réduite) pour un modèle à j variables expli-
catives s’écrit : n n
" #2
1 Xh (−i)
i2 1 X y i − fb(xi )
MSEj yi − fb (xi ) = .
Cp = (n − q − 1) − [n − 2(q + 1)] n i=1 n i=1 1 − hii
MSE
et définit la valeur du C de Mallows pour les q variables considérées. Il est et permet de comparer les capacités prédictives de deux modèles.
p
alors d’usage de rechercher un modèle qui minimise le Cp tout en fournissant La vignette sur Qualité de prévision et risque donne plus de détails sur ces
une valeur inférieure et proche de (q + 1). Ceci revient à considérer que le derniers critères.

Page 40 sur 159 06.2014


11 Sélection de modèle dans le cas gaussien

3.4 Algorithmes de sélection de variables 3.5 Sélection en analyse de covariance


Lorsque p est grand, il n’est pas raisonnable de penser explorer les 2p mo- Un modèle d’analyse de covariance pose des problèmes spécifiques de sélec-
dèles possibles afin de sélectionner le “meilleur” au sens de l’un des critères tion notamment par la prise en compte possible d’interactions entre variables
ci-dessus. Différentes stratégies sont donc proposées qui doivent être choisies dans la définition du modèle. La recherche d’un modèle efficace, donc parci-
en fonction de l’objectif recherché, de la valeur de p et des moyens de cal- monieux, peut conduire à négliger des interactions ou effets principaux lors-
cul disponibles ! deux types d’algorithmes sont résumés ci-dessous par ordre qu’une faible amélioration du R2 le justifie et même si le test correspondant
croissant de temps de calcul nécessaire c’est-à-dire par nombre croissant de apparaît comme significatif. L’utilisation du Cp est théoriquement possible
modèles considérés parmi les 2p et donc par capacité croissante d’optimalité. mais en général ce critère n’est pas calculé car d’utilisation délicate. En ef-
On donne pour chaque algorithme l’option selection à utiliser dans la pro- fet, il nécessite la considération d’un “vrai” modèle de référence ou tout du
cédure REG de SAS. moins d’un modèle de faible biais pour obtenir une estimation raisonnable de
la variance de l’erreur. En régression multiple (toutes les variables explicatives
Pas à pas quantitatives), le modèle complet est considéré comme étant celui de faible
Sélection (forward) À chaque pas, une variable est ajoutée au modèle. C’est biais mais analyse de covariance quels niveaux de complexité des interactions
celle dont la valeur p (“prob value”)associée à la statistique partielle du faut-il considérer pour construire le modèle complet jugé de faible biais ? Il st
test de Fisher qui compare les deux modèles est minimum. La procédure alors plus simple et plus efficace d’utiliser le critère AIC ou le PRESS ; AIC
s’arrête lorsque toutes les variables sont introduites ou lorsque p reste plus est systématiquement utilisé dans plusieurs logiciels comme R ou Enterprise
grande qu’une valeur seuil fixée par défaut à 0, 50. Miner de SAS.
Élimination (backward) L’algorithme démarre cette fois du modèle com- L’algorithme de recherche descendant est le plus couramment utilisé avec la
plet. À chaque étape, la variable associée à la plus grande valeur p est contrainte suivante :
éliminée du modèle. La procédure s’arrête lorsque les variables restant un effet principal n’est supprimé qu’à la condition qu’il n’apparaisse plus
dans le modèle ont des valeurs p plus petites qu’un seuil fixé par défaut à dans une interaction.
0, 10.
Voici, à titre d’exemple, une étape intermédiaire d’une sélection de variables
Mixte (stepwise) Cet algorithme introduit une étape d’élimination de va- pas à pas stepwize avec l’option both de la fonction StepAIC de R. A chaque
riable après chaque étape de sélection afin de retirer du modèle d’éven- étape, le critère AIC est évalué par suppression ou rajout de chacune des va-
tuels variables qui seraient devenues moins indispensables du fait de la riables. L’option minimisant le critère AIC est retenue avant de passer à l’étape
présence de celles nouvellement introduites. suivante. Le modèle ne comprend pas d’interactions.

Global
Step: AIC=-60.79
L’algorithme de Furnival et Wilson (1974)[2]est utilisé pour comparer tous lpsa ~ lcavol + lweight + age + lbph + svi + pgg45
les modèles possibles en cherchant à optimiser l’un des critères : R2 , R2 ajusté,
ou Cp de Mallows (rsquare, adjrsq, cp) choisi par l’utilisateur. Par Df Sum of Sq RSS AIC
souci d’économie, cet algorithme évite de considérer des modèles de certaines - pgg45 1 0.6590 45.526 -61.374
sous-branches de l’arborescence dont on peut savoir a priori qu’ils ne sont <none> 44.867 -60.788
pas compétitifs. En général les logiciels exécutant cet algorithme affichent le + lcp 1 0.6623 44.204 -60.231
(best=1) ou les meilleurs modèles de chaque niveau q. - age 1 1.2649 46.132 -60.092

Page 41 sur 159 06.2014


12 Sélection de modèle dans le cas gaussien

- lbph 1 1.6465 46.513 -59.293 8 0.769 0.7097.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT
9 0.776 0.7088.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
+ gleason 3 1.2918 43.575 -57.622 CURRAT
10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT
- lweight 1 3.5646 48.431 -55.373 QUIKRAT CURRAT
11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST
- svi 1 4.2503 49.117 -54.009 PAYOUT QUIKRAT CURRAT
12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT
- lcavol 1 25.4190 70.286 -19.248 INVTAST PAYOUT QUIKRAT CURRAT

Step: AIC=-61.37
lpsa ~ lcavol + lweight + age + lbph + svi Dans cet exemple, Cp et BIC se comportent de la même façon. Avec peu de
variables, le modèle est trop biaisé. Ils atteignent un minimum pour un modèle
à 4 variables explicatives puis croissent de nouveau selon la première bissec-
En effet, supprimer un effet principal alors que la variable est présente
trice. La maximisation du R2 ajusté conduirait à une solution beaucoup moins
dans une interaction ne change en rien le modèle car l’espace engendré par
parcimonieuse. On note par ailleurs que l’algorithme remplace WCFTCL par
l’ensemble des indicatrices sélectionnées reste le même ; la matrice X est
WCFTDT. Un algorithme par sélection ne peut pas aboutir à la solution opti-
construite sous contrainte de rang et retirer une colonne (effet principal) fait
male retenue.
automatiquement entrer une indicatrice d’interaction supplémentaire. Le mo-
dèle est inchangé mais l’interprétation plus compliquée car il ne s’agit plus de
décomposer un effet principal et ses interactions. 4 Régression régularisée ou pénalisée
C L’autre stratégie qui cherche à conserver l’ensemble ou tout du moins la
3.6 Exemple de sélection plupart des variables explicatives pose un problème de multicolinéarité. Il est
résolu par une procédure de régularisation.
Parmi les trois types d’algorithmes et les différents critères de choix, une
des façons les plus efficaces consiste à choisir les options du programme ci- 4.1 Régression ridge
dessous. Tous les modèles (parmi les plus intéressants selon l’algorithme de
Furnival et Wilson) sont considérés. Seul le meilleur pour chaque niveau, c’est- Modèle et estimation
à-dire pour chaque valeur p du nombre de variables explicatives sont donnés.
Il est alors facile de choisir celui minimisant l’un des critères globaux (Cp ou Ayant diagnostiqué un problème mal conditionné mais désirant conserver
BIC). toutes les variables, il est possible d’améliorer les propriétés numériques et la
variance des estimations en considérant un estimateur légèrement biaisé des
options linesize=110 pagesize=30 nodate nonumber; paramètres.
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST On se place dans le modèle linéaire
NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
/ selection=rsquare cp rsquare bic best=1;
run;
Y=X
eβe + ,
N = 40 Regression Models for Dependent Variable: RETCAP
R-sq. Adjust. C(p) BIC Variables in Model où
In R-sq (
. X1p
 
1
2
0.105 0.081 78.393 -163.2 WCFTCL
0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT
1 X1 X12
3 0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT  1 X1
2 X22 . X2p 
4 0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT X=
e  ,
5
6
0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
. . . . . 
7 0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT 1 Xn1 Xn2 . Xnp

Page 42 sur 159 06.2014


13 Sélection de modèle dans le cas gaussien


  
β0 β1 On obtient :
β1  β2  0 −1 0
    β
b
Ridge = (X X + λIp ) X Y.
 . ,
β=  . .
β=
e  
. . La solution est donc explicite et linéaire en Y.
βp βp Remarques :
1. X0 X est une matrice symétrique positive (pour tout vecteur u de Rp ,
On note X 0 = (1, 1, . . . , 1)0 , et X la matrice X
e privée de sa première co-
u0 (X0 X)u = kXuk2 ≥ 0. Il en résulte que pour tout λ > 0, X0 X + λIp
lonne. L’estimateur ridge est défini par un critère des moindres carrés, avec
est nécessaire inversible.
une pénalité de type L2 :
2. La constante β0 n’intervient pas dans la pénalité, sinon, le choix de l’ori-
D ÉFINITION 1. — L’estimateur ridge de β
e dans le modèle gine pour Y aurait une influence sur l’estimation de l’ensemble des para-
mètres. On obtient βb0 = Y, ajouter une constante à Y ne modifie pas les
Y=X
eβe + ,
βbj pour j ≥ 1.
est défini par : 3. L’estimateur ridge n’est pas invariant par renormalisation des vecteurs
  X (j) , il est préférable de normaliser les vecteurs avant de minimiser le
n p p critère.
(j)
X X X
β
b
Ridge = argminβ∈Rp+1
 (Yi − Xi βj )2 + λ βj2  ,
4. On montre que la régression ridge revient encore à estimer le modèle
i=1 j=0 j=1
par les moindres carrés sous la contrainte que la norme du vecteur β des
où λ est un paramètre positif, à choisir. paramètres ne soit pas trop grande :
n o
2 2
A noter que le paramètre β0 n’est pas pénalisé. β
b
Ridge = arg min kY − Xβk ; kβk < c .
β

P ROPOSITION 2. — L’estimateur ridge s’exprime aussi sous la forme : La régression Ridge conserve toutes les variables mais, contraignant la
  norme des paramètres βj , elle les empêche de prendre de trop grandes
β
c1
valeurs et limite ainsi la variance.
β2 
c
 
β Ridge = Ȳ ,  . = argminβ∈Rp kY(c) − X(c) βk2 + λkβk2 . Optimisation de la pénalisation
c0  
.
 
La figure 4 montre quelques résultats obtenus par la méthode ridge en fonc-
βcp
Ridge tion de la valeur de la pénalité λ = l sur l’exemple de la régression polyno-
miale. Plus la pénalité augmente et plus la solution obtenue est régulière ou
où X(c) désigne la matrice X recentrée (par colonnes) et Y(c) désigne le encore, plus le biais augmente et la variance diminue. Il y a sur-ajustement
vecteur Y recentré. avec une pénalité nulle : le modèle passe par tous les points mais oscille dan-
geureusement ; il y a sous-ajustement avec une pénalité trop grande.
On suppose désormais que X et Y sont centrés. On trouve l’estimateur ridge
en résolvant les équations normales qui s’expriment sous la forme : Comme dans tout problème de régularisation, le choix de la valeur du para-
mètre λ est crucial est déterminera le choix de modèle. La validation croisée
X0 Y = (X0 X + λIp )β. est généralement utilisée pour optimiser le choix car la lecture du graphique

Page 43 sur 159 06.2014


14 Sélection de modèle dans le cas gaussien

Régression Ridge, l=0 Régression Ridge, l=10^−7

20
● ●

● ●
2.5

2.5

10
● ●
2.0

2.0
● ●

t(x$coef)
● ●

0
1.5

1.5
● ●
● ●

−10
● ●
y

y
1.0

1.0
● ●
● ●

−20
0.5

0.5
0.0

0.0
0e+00 1e−04 2e−04 3e−04 4e−04 5e−04

x$lambda
−0.5

−0.5
● ●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x
F IGURE 5 – Chemin de régularisation en régression ridge en fonction du para-
Régression Ridge, l=10^−4 Régression Ridge, l=0.1 mètre de la pénalisation. A droite, régression polynomiale et à gauche, retour



sur capital).
2.5

2.5

● ●
2.0

2.0

● ●

● ●

(cf. figure 5) montrant l’évolution des paramètres en fonction du coefficient


1.5

1.5

● ●
● ●

ou chemins de régularisation ridge n’est pas suffisante pour déterminer une


● ●
y

y
1.0

1.0

● ●
● ●

valeur “optimale”.
0.5

0.5

Le principe de la validation croisée qui permet d’estimer sans biais une er-
0.0

0.0

reur de prévision est détaillé par ailleurs.


−0.5

−0.5

● ●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x Interprétation par la SVD


Régression Ridge, l=10 Régression Ridge, l=10^4

● ●
La décomposition en valeur singulière (SVD) de la matrice X donne une
● ●

nouvel éclairage sur la régression ridge, et permet de l’interpréter comme une


2.5

2.5

● ●

méthode de seuillage. La décomposition SVD de X s’écrit sous la forme :


2.0

2.0

● ●

● ●
1.5

1.5

● ●

X = UDV0 ,
● ●

● ●
y

y
1.0

1.0

● ●
● ●

où X est de taille n × p, U de taille n × n, D est une matrice "diagonale" de


0.5

0.5

taille n × p dont tous les éléments sont ≥ 0 et ordonnés par ordre décroissant,
0.0

0.0

et V est de taille p × p. De plus, les matrices U et V sont orthogonales :


−0.5

−0.5

● ●

0.0 0.2 0.4

x
0.6 0.8 1.0 0.0 0.2 0.4

x
0.6 0.8 1.0
UU0 = U0 U = In , VV0 = V0 V = Ip .
On a alors
0 −1 0 0
Xβb
Ridge = UD(D D + λIp ) D U Y.
F IGURE 4 – Pénalisation ridge du modèle polynomial On suppose n ≤ p. On note u(1) , . . . , u(n) les colonnes de la matrice U. En
notant d1 ≥ . . . ≥ dp ≥ 0 les éléments diagonaux de la matrice D, UD est la

Page 44 sur 159 06.2014


15 Sélection de modèle dans le cas gaussien

matrice de taille n × p dont la j-ème colonne est dj u(j) . On a alors On voit donc que la régression ridge seuille peu les premières composantes
principales (pour lesquelles dj est grand, et davantage les dernières compo-
p
!
2
X dj santes principales).
Xβb
Ridge = uj 2+λ (uj )0 Y.
d j
On associe à la procédure ridge la quantité df (λ) appelée nombre de degrés de
j=1
liberté effectifs dans la régression ridge et définie par :
Comparons cet estimateur à l’estimateur des moindres carrés (qui correspond p
à λ = 0) : X d2j
p df (λ) = .
X d2
j=1 j

Xβ b= uj (uj )0 Y.
j=1
Si λ = 0, df (λ) = p (pas de seuillage), si λ → ∞, df (λ) → 0, à la limite,
j 0
(u ) Y correspond à la j-ème composante de Y dans la base formée de tous les coefficients sont nuls.
u1 , . . . , un .
Dans le cas de  la régression ridge, on multiplie cette composante par le facteur
d2j / d2j + λ ∈]0, 1[, on dit que cette composante est seuillée. 4.2 Régression LASSO
Remarques : La régression ridge permet donc de contourner les problèmes de colinéarité
1) Plus λ est grand, plus les coefficients sont seuillés. même en présence d’un nombre important de variables explicatives ou prédic-
2) x 7→ x/(x + λ) est croissante de x pour x > 0. Les plus grands coefficients teurs (p > n). La principale faiblesse de cette méthode est liée aux difficultés
sont peu seuillés : si d2j >> λ, d2j / d2j + λ est proche de 1. Le seuil décroit d’interprétation car, sans sélection, toutes les variables sont concernées dans
lorsque j augmente puisque dj décroit. le modèle. D’autres approches par régularisation permettent également une sé-
On peut donner une interprétation en termes d’Analyse en composantes prin- lection, c’est le cas de la régression LASSO.
cipales. X étant centrée, X0 X/n est la matrice de variance-covariance empi-
rique des vecteurs qui composent la matrice X. Modèle et estimation

X0 X = VD0 DV0 , La méthode Lasso (Tibshirani, 1996)[8] correspond à la minimisation d’un


Pde type l1 (et non plus l2 comme
critère des moindres carrés avec une pénalité
où D0 D est la matrice diagonale des d2i . On note v1 , . . . , vp les vecteurs co- dans la régression ridge). On note kβk1 = pj=1 |βj |.
lonnes de Rp de la matrice V.
Soit v un vecteur de Rp de norme 1. D ÉFINITION 3. — L’estimateur Lasso de β dans le modèle

V ar(Xv) = (Xv)0 (Xv) = v 0 (X0 X)v, Y = Xβ + ,


ceci est maximal pour v = v1 et vaut d21 . est défini par :
z 1 = Xv1 est la première composante principale de la matrice X.  
Les vecteurs propres orthogonaux v 1 , . . . , v p sont les directions principales n p p
(j)
X X X
(ou directions de Karhunen Loeve) de X. Les variables z j = Xv j sont les βb
Lasso = argminβ∈Rp
 (Yi − Xi βj )2 + λ |βj | ,
composantes principales. On remarque que i=1 j=0 j=1

z j = Xv j = UDV0 v j = dj u(j) . où λ est un paramètre positif, à choisir.

Page 45 sur 159 06.2014


16 Sélection de modèle dans le cas gaussien

On peut montrer que ceci équivaut au problème de minimisation suivant : PLe logiciel R introduit une contrainte sous forme d’une borne relative pour
p
j=1 |βj | : la contrainte s’exprime sous la forme
2
β Lasso = argminβ,kβk1 ≤t (kY − Xβk ),
b
p p
(0)
X X
pour un t convenablement choisi. |βj | ≤ κ |β̂j |,
Comme dans le cas de la régression Ridge, le paramètre λ est un paramètre j=1 j=1

de régularisation :
• Si λ = 0, on retrouve l’estimateur des moindres carrés. où β̂ (0) est l’estimateur des moindres carrés et κ ∈ [0, 1].
• Si λ tend vers l’infini, on annule tous les β̂j , j = 1, . . . , p. Pour κ = 1 on retrouve l’estimateur des moindres carrés (pas de contrainte)
La solution obtenue est dite parcimonieuse (sparse en anglais), car elle com- et pour κ = 0, tous les β̂j , j ≥ 1, sont nuls (contrainte maximale).
porte beaucoup de coefficients nuls. Si la matrice X est orthogonale (X0 X =
Id), on obtient une solution explicite. Utilisation de la régression Lasso
La pénalisation est optimisée comme en régression ridge par validation croi-
P ROPOSITION 4. — Si X0 X = Ip , la solution de la minimisation en β du sée.
critère Lasso
Grâce à ses solutions parcimonieuses, cette méthode est surtout utilisée pour
kY − Xβk2 + 2λkβk1 sélectionner des variables dans des modèles de grande dimension ; on peut
est la suivante : pour tout j = 1, . . . , p, l’utiliser si p > n c’est-à-dire s’il y a plus de variables que d’observations. Bien
entendu, dans ce cas, les colonnes de la matrice X ne sont pas linéairement
βj = signe(βbj )(|βbj | − λ)1|βbj |≥λ , indépendantes. Il n’y a donc pas de solution explicite, on utilise des procédures
d’optimisation pour trouver la solution. Il faut néanmoins utiliser la méthode
0 avec précaution lorsque les variables explicatives sont corrélées. Pour que la
où β est l’estimateur des moindres carrés : β = X Y.
b b
méthode fonctionne, il faut néanmoins que le nombre de variables influentes
(correspondant à des βj différents de 0) ne dépasse pas n et que les variables
L’estimateur ainsi obtenu correspond à un seuillage doux (soft thresholding) non influentes ne soient pas trop corrélées à celles qui le sont.
de l’estimateur des moindres carrés. Les coefficients βbj sont remplacés par
Attention aux grandes ou “ultra grandes” dimensions : Verzalen (2012)[9] a
φλ (βbj ) où montré (risque minimax) que si
φλ : x 7→ signe(x)(|x| − λ)+ .
k p 1
Autre pénalisation log( ) >
n k 2
La méthode LASSO équivaut à minimiser le critère
où k est le nombre de coefficients non nuls, aucune méthode d’estimation et
n de sélection de variables n’est pertinente. Exemples en analyse de données
(1) (2) (p)
X
Crit(β) = (Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi )2 transcriptomiques :
i=1 • p = 5000 gènes et n = 40 microarrays, k = 4, n k
log( kp ) = 0.71,
Pp • p = 600 gènes et n = 40 microarrays, k = 4, n log( kp ) = 0.50.
k
sous la contrainte j=1 |βj | ≤ t, pour un t > 0.

Page 46 sur 159 06.2014


17 Sélection de modèle dans le cas gaussien

4.3 Elastic Net ont été retenus pour le nombre important de pics de pollution qui ont été dé-
tectés dans les périodes considérées (étés 2002, 2003, 2005). Un pic de pol-
La méthode Elastic Net permet de combiner la régression ridge et la régres- lution est défini ici par une concentration dépassant le seuil de 150µg/m3 .
sion Lasso, en introduisant les deux types de pénalités simultanément. Météo-France dispose déjà d’une prévision (MOCAGE), à partir d’um modèle
Le critère à minimiser est : physique basé sur les équations du comportement dynamique de l’atmosphère
n (Navier et Stockes). Cette prévision fait partie du dispositif d’alerte des pou-
(1) (2) (p) 2
X
(Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi ) voirs publics et prévoit donc une concentration de pollution à 17h locale pour
i=1 le lendemain. L’objet du travail est d’en faire une évaluation statistique puis

p p
 de l’améliorer en tenant compte d’autres variables ou plutôt d’autres prévi-
sions faites par Météo-France. Il s’agit donc d’intégrer ces informations dans
X X
2
+λ α  |βj | + (1 − α) βj
j=1 j=1
un modèle statistique global.
Les variables
• Pour α = 1, on retrouve la méthode LASSO.
• Pour α = 0, on retrouve la régression Ridge. Certaines variables de concentration ont été transformées afin de rendre sy-
Il ya dans ce dernier cas deux paramètres à optimiser par validation croisée. métrique (plus gaussienne) leur distribution.
O3-o Concentration d’ozone effectivement observée ou variable à prédire,
4.4 Sélection par réduction de dimension
03-pr prévision "mocage" qui sert de variable explicative ;
Le principe de ces approches consiste à calculer la régression sur un en- Tempe Température prévue pour le lendemain,
semble de variables orthogonales deux à deux. celles-ci peuvent être obtenues
vmodule Force du vent prévue pour le lendemain,
à la suite d’une analyse en composantes principales ou décomposition en va-
leur singulière de la matrice X : C’est la régression sur les composantes prin- lno Logarithme de la concentration observée en monoxyde d’azote,
cipales associées aux plus grandes valeurs propres. lno2 Logarithme de la concentration observée en dioxyde d’azote,
L’autre approche ou régression PLS (partial least square consiste à recher- rmh20 Racine de la concentration en vapeur d’eau,
cher itérativement une composante linéaire des variables de plus forte cova- Jour Variable à deux modalités pour distinguer les jours "ouvrables" (0) des
riance avec la variable à expliquer sous une contrainte d’orthogonalité avec les jours "fériés-WE" (1).
composantes précédentes.
Station Une variable qualitative indique la station concernée : Aix-en-
Ce deux méthodes sont développées dans une vignette spécifique. Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques.
Modèle physique
5 Exemples
Les graphiques de la figure 6 représente la première prévision de la concen-
5.1 Prévision de la concentration d’ozone tration d’ozone observée, ainsi que ses résidus, c’est-à-dire celle obtenue par
Les données le modèle physique MOCAGE. Ces graphes témoignent de la mauvaise qua-
lité de ce modèle : les résidus ne sont pas répartis de façon symétrique et les
Les données proviennent des services de Météo-France et s’intéresse à la deux nuages présentent une légère forme de "banane" signifiant que des com-
prévision de la concentration en Ozone dans 5 stations de mesure ; ces sites posantes non linéaires du modèle n’ont pas été prises en compte. D’autre part,

Page 47 sur 159 06.2014


18 Sélection de modèle dans le cas gaussien

s_rmh2o 135.88280 50.69567 2.680 0.00747 **


jour1 -0.34561 1.85389 -0.186 0.85215
stationAls 9.06874 3.37517 2.687 0.00733 **

100
stationCad 14.31603 3.07893 4.650 3.76e-06 ***
stationPla 21.54765 3.74155 5.759 1.12e-08 ***
250
Valeurs observees

50
stationRam 6.86130 3.05338 2.247 0.02484 *
TEMPE 4.65120 0.23170 20.074 < 2e-16 ***

Résidus
150

0
Residual standard error: 27.29 on 1028 degrees of freedom

−100 −50
Multiple R-Squared: 0.5616, Adjusted R-squared: 0.5569
50

F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16


0

0 50 100 200 300 0 50 100 200 300


A l’exception de la variable indiquant la nature du jour, l’ensemble des coef-
Valeurs predites Valeurs predites ficients sont jugés significativement différent de zéro mais la qualité de l’ajus-
tement est faible (R2 ).
F IGURE 6 – Ozone : prévision et résidus du modèle MOCAGE de Météo- Modèle avec interaction
France pour 5 stations.
La qualité d’ajustement du modèle précédent n’étant pas très bonne, un autre
modèle est considéré en prenant en compte les interactions d’ordre 2 entre les
la forme d’entonnoir des résidus montrent une forte hétéroscédasticité. Cela variables. Compte tenu de la complexité du modèle qui un découle, un choix
signifie que la variance des résidus et donc des prévisions croît avec la valeur. automatique est lancé par élimination successive des termes non significatifs
En d’autre terme, la qualité de la prévision se dégrade pour les concentrations (algorithme backward). Le critère optimisé est celui (AIC) d’Akaïke. Plusieurs
élevées justement dans la zone "sensible". interactions ont été éliminées au cours de la procédure mais beaucoup sub-
sistent dans le modèle. Attention, les effets principaux lno2, vmodule ne
Modèle sans interaction
peuvent être retirés car ces variables apparaissent dans une interaction. En re-
Un premier modèle est estimé avec R : vanche on peut s’interroger sur l’opportunité de conserver celle entre la force
du vent et la concentration de dioxyde d’azote.
fit.lm=lm(O3-o~O3-pr+vmodule+lno2+lno+s-rmh2o+
jour+station+TEMPE,data=donne) Df Deviance Resid. Df Resid. Dev F Pr(>F)
NULL 1039 1745605
O3_pr 1 611680 1038 1133925 969.9171 < 2.2e-16 ***
station 4 39250 1034 1094674 15.5594 2.339e-12 ***
Il introduit l’ensemble des variables explicatives mais sans interaction. Les vmodule
lno2
1
1
1151
945
1033
1032
1093523
1092578
1.8252 0.1769957
1.4992 0.2210886
résultats numériques sont fournis ci-dessous. s_rmh2o 1 24248 1031 1068330 38.4485 8.200e-10 ***
TEMPE 1 248891 1030 819439 394.6568 < 2.2e-16 ***
O3_pr:station 4 16911 1026 802528 6.7038 2.520e-05 ***
O3_pr:vmodule 1 8554 1025 793974 13.5642 0.0002428 ***
Coefficients: O3_pr:TEMPE 1 41129 1024 752845 65.2160 1.912e-15 ***
Estimate Std. Error t value Pr(>|t|) station:vmodule 4 7693 1020 745152 3.0497 0.0163595 *
station:lno2 4 12780 1016 732372 5.0660 0.0004811 ***
(Intercept) -4.99738 7.87028 -0.635 0.52559 station:s_rmh2o 4 19865 1012 712508 7.8746 2.997e-06 ***
O3_pr 0.62039 0.05255 11.805 < 2e-16 *** station:TEMPE 4 27612 1008 684896 10.9458 1.086e-08 ***
vmodule:lno2 1 1615 1007 683280 2.5616 0.1098033
vmodule -1.73179 0.35411 -4.891 1.17e-06 *** vmodule:s_rmh2o 1 2407 1006 680873 3.8163 0.0510351 .
lno2:TEMPE 1 4717 1005 676156 7.4794 0.0063507 **
lno2 -48.17248 6.19632 -7.774 1.83e-14 *** s_rmh2o:TEMPE 1 42982 1004 633175 68.1543 4.725e-16 ***
lno 50.95171 5.98541 8.513 < 2e-16 ***

Page 48 sur 159 06.2014


19 Sélection de modèle dans le cas gaussien

Les données
Les données originales sont dues à Osbone et al. (1984) [6] et ont été sou-
100

100
vent utilisées pour la comparaison de méthodes (Stone et al. 1990 [7], Brown
et al. 2001 [1], Krämer et al. 2008 [4]). Elles sont accessibles dans R au sein de
50

50
la librairie ppls. Les mesures ont été faites sur deux échantillons, l’un de taille
Résidus

Résidus
40 prévu pour l’apprentissage, l’autre de taille 32 pour les tests. Pour chacun
0

0
de ces 72 biscuits, les compositions en lipides, sucre, farine, eau, sont mesu-
−100 −50

−100 −50
rées par une approche classique tandis que le spectre est observé sur toutes les
longueurs d’ondes entre 1100 et 2498 nanomètres, régulièrement espacés de 2
0 50 100 200 300 0 50 100 200 300
nanomètres. Nous avons donc 700 valeurs observées, ou variables potentielle-
ment explicatives, par échantillon de pâte à biscuit.
Valeurs predites Valeurs predites
Résultats par régression pénalisée

F IGURE 7 – Ozone : Résidus des modèles linéaire et quadratique. Typiquement, cette étude se déroule dans un contexte de très grande dimen-
sion avec p >> n. L’étude détaillée de ces données fait l’objet d’un scénario
avec le logiciel R.
Ce sont surtout les graphes de la figure 7 qui renseignent sur l’adéquation des Voici quelques résultats partiels concernant les méthodes de régression par
modèles. Le modèle quadratique fournit une forme plus "linéaire" des résidus régression ridge et régression LASSO. La comparaison globale des résultats
et un meilleur ajustement avec un R2 de 0,64 mais l’hétéroscédasticité reste des différentes approches de modélisation est reportée en conclusion.
présente, d’autres approches s’avèrent nécessaires afin de réduire la variance
liée à la prévision des concentrations élevées.
Références
5.2 Données de spectrométrie NIR
[1] P.J. Brown, T. Fearn et M. Vannucci, Bayesian Wavelet Regression on
Objectif Curves with Applications to a Spectroscopic Calibration Problem, Jour-
nal of the American Statistical Society 96 (2001), 398–408.
Ce type de problème se rencontre en contrôle de qualité sur une chaîne
[2] G. M. Furnival et R. W. Wilson, Regression by leaps and bounds, Techno-
de fabrication agroalimentaire, ici des biscuits (cookies). Il est nécessaire de
metrics 16 (1974), 499–511.
contrôler le mélange des ingrédients avant cuisson afin de s’assurer que les
proportions en lipides, sucre, farine, eau, sont bien respectées. Il s’agit de sa- [3] J.D. Jobson, Applied Multivariate Data Analysis, t. I : Regression and ex-
voir s’il est possible de dépister au plus tôt une dérive afin d’intervenir sur perimental design, Springer-Verlag, 1991.
les équipements concernés. Les mesures et analyses, faites dans un laboratoire [4] Nicole Krämer, Anne Laure Boulesteix et Gerhard Tutz, Penalized Partial
classique de chimie, sont relativement longues et coûteuses ; elles ne peuvent Least Squares with applications to B-spline transformations and functio-
être entreprises pour un suivi régulier ou même en continue de la production. nal data, Chemometrics and Intelligent Laboratory Systems 94 (2008),
Dans ce contexte, un spectromètre en proche infrarouge (NIR) mesure l’absor- 60–69.
bance c’est-à-dire les spectres dans les longueurs d’ondes afin de construire un [5] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661–
modèle de prévision de la concentration en sucre. 675.

Page 49 sur 159 06.2014


20 Sélection de modèle dans le cas gaussien

[6] B. G. Osborne, T. Fearn, A. R. Miller et S. Douglas, Application of Near


Infrared Reflectance spectroscopy to the compositional analysis of biscuits
and biscuit doughs, J. Sci. Food Agric. 35 (1984), 99–105.
[7] M. Stone et R. J. Brooks, Continuum regression : cross-validated sequen-
tially constructed prediction embracing ordinary least squares, partial
least squares and principal components regression, Journal of The Royal
Statistical Society B 52 (1990), 237–269.
[8] R. Tibshirani, Regression shrinkage and selection via the lasso, J. Royal.
Statist. Soc B 58 (1996), 267–288.
[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-high-
dimensional phenomenons, Electron. J. Statistics 6 (2012), 38–90, http:
//arxiv.org/pdf/1008.0526.pdf.

F IGURE 8 – Cookies : Régression ridge ; chemin de régularisation des para-


mètres et optimisation de la pénalisation.

F IGURE 9 – Cookies : Régression lasso ; chemin de régularisation des para-


mètres et optimisation de la pénalisation.

Page 50 sur 159 06.2014


1 Composantes principales et régressions PLS parcimonieuses

X 1 , . . . , X p par un sous-ensemble de variables Z 1 , . . . , Z r deux à deux ortho-


Composantes principales et régressions gonales et combinaisons linéaires des variables X 1 , . . . , X p . Avec r = p il n’y
a pas de réduction de dimension et le même ajustement qu’en régression clas-
PLS parcimonieuses sique est obtenu : même espace de projection engendré. Les variables Z 1 , . . . ,
Z p sont simplement les composantes principales associées des variables X 1 ,
. . . , X p obtenues par l’analyse en composantes principales ou encore la dé-
Résumé
composition en valeurs singulières de la matrice X. Pour éviter les problèmes
L’introduction de pénalisations en norme L1 induit une sélection de d’unité et l’influence d’une hétérogénéité des variances, les variables sont cen-
variables “optimale” en régression. Même si, numériquement, ce trées et réduites. C’est donc l’ACP réduite qui est calculée.
Pp
n’est pas indispensable pour les méthodes de régression ou projec- La première composante Z 1 = j
j=1 αj X est de variance maximale la
tion sur composantes orthogonales avec réduction de dimension, le première valeur propre λ1 de l amatrice des corrélations avec αj2 = 1. Tan-
P
même type de pénalisation est introduit afin de simplifier la construc- dis que Z m est combinaison linéaire de variance maximale λj et orthogonale
tion des composantes et donc leur interprétation lorsque le nombre à Z 1 , . . . , Z m−1 .
de variables est important. Cette démarche conduit à la définition de
La PCR considère un prédicteur de la forme :
versions parcimonieuses de l’Analyse en Composantes Principales
et de la régression PLS pour différents objectifs : exploration, com- r
X
P CR
paraison ou intégration de deux jeux de données en version régres- Ŷ = θ̂m Z m
sion ou canonique, analyse discriminante PLS. m=1

Retour au plan du cours avec


hZ m , Y i
θ̂m =
1 Introduction kZ m k2
obtenu par une procédure classique de régression.
1.1 Objectif Le choix r = p redonne l’estimateur des moindres carrés car le même espace
L’intérêt principal des méthodes de cette vignette réside dans leur capacité est engendré tandis que r < p élimine les composantes de variances nulles ou
à prendre en compte des données de grande dimension et même de très grande très faibles et donc résout par là les problèmes de colinéarité même dans les
dimension lorsque le nombre de variables p est largement plus grand que le cas extrêmes où (p > n). Le choix de r est optimisé de façon classique par
nombre d’individus n : p >> n. La sélection de variables devient inefficace validation croisée.
et même ingérable par les algorithmes usuels. La construction d’un modèle Bien évidemment, l’interprétation des composantes est rendu difficile si p
de régression requiert alors une pénalisation (ridge, lasso, elastic net) ou une est grand. La PCR est à rapprocher de la régression ridge qui seuille les co-
réduction de dimension : régression sur composantes principales ou régression efficients des composantes principales tandis que la PCR annule ceux d’ordre
PLS. supérieur à r.

1.2 Régression sur composantes principales Le principal Problème posée par la PCR est que les premières composantes,
associées aux plus grandes valeurs propres, ne sont pas nécessairement corré-
La régression sur composantes principales ou PCR est simple par son prin- lées avec Y et ne sont donc pas nécessairement les meilleures candidates pour
cipe et sa mise en œuvre. L’objectif est de “résumer” l’ensemble des variables résumer ou modéliser Y .

Page 51 sur 159 06.2014


2 Composantes principales et régressions PLS parcimonieuses

Cette remarque justifie les développements de la régression PLS ou partial grand nombre, les composantes obtenues sont difficilement exploitables. C’est
least square. pourquoi il a été proposé (Lê Cao et al. 2008[5], 2009[4], 2011[3]) de coupler
les deux approches : pénalisation L1 de type Lasso pour une sélection des va-
1.3 Régression PLS riables utilisées dans la construction des composantes orthogonales. Cette dé-
La régression PLS (partial least square) est une méthode ancienne marche passe par l’utilisation d’un algorithme parcimonieux (Shen et Huang,
(Wold, 1966)[10] largement utilisée, notamment en chimiométrie dans l’agro- 2008)[7] de SVD (décomposition en valeur singulière). Celui-ci permet, à la
alimentaire, lors de l’analyse de données spectrales (Near Infra-Red ou HPLC) fois, de définir des versions parcimonieuses de l’ACP et aussi de la PLS en
discrètisées et donc toujours de grande dimension. La régression PLS s’avère remarquant que l’algorithme de la PLS peut être défini comme une succession
concrètement une méthode efficace qui justifie son emploi très répandu mais de premières étapes de SVD.
présente le défaut de ne pas se prêter à une analyse statistique traditionnelle L’objectif principal est donc la construction de versions parcimonieuses (en
qui exhiberait les lois de ses estimateurs. Elle est ainsi restée un marge des anglais sparse) des différentes méthodes de régression PLS. Aux résultats
approches traditionnelles de la Statistique mathématique. numériques, éventuellement de prévision, s’ajoutent des représentations gra-
Différentes version de régression PLS sont proposées en fonction de l’ob- phiques en petite dimension très utiles pour aider à l’interprétation.
jectif poursuivi ; voir Tenenhaus (1998)[8] pour une présentation détaillée :
PLS1 Une variable cible Y quantitative est à expliquer, modéliser, prévoir par
2 Régression PLS
p variables explicatives quantitatives X j . Quelques rappels pour introduire cette méthode largement employée pour
PLS2 Version canonique. Mettre en relation un ensemble de q variables quan- traiter les situations présentant une forte multicolinéarité et même lorsque le
titatives Y k et un ensemble de p variables quantitatives X j . nombre d’observations est inférieur au nombre de variables explicatives.
PLS2 Version régression. Chercher à expliquer, modéliser un ensemble de q 2.1 Régression PLS1
variables Y k par un ensemble de p variables explicatives quantitatives
Xj. Une variable cible Y quantitative est à expliquer, modéliser, prévoir par p
PLS-DA Version discriminante. Cas particulier du cas précédent. La variable variables explicatives quantitatives X j . Comme pour la régression sur com-
Y qualitative à q classes est remplacée par q variables indicatrices (dummy posantes principales, le principe est de rechercher un modèle de régression
variables) de ces classes. linéaire sur un ensemble de composantes orthogonales construites à partir de
combinaisons linéaires des p variables explicatives centrées X j . Dans le cas
Une application utile de la PLS2 en version canonique s’opère, par exemple de la PLS, la construction des composantes est optimisée pour que celles-ci
en Biologie à haut débit, dans la comparaison de deux plates-formes ou deux soient les plus liées à la variable Y à prédire au sens de la covariance empi-
technologies de mesures sur le même échantillon : Affymetrix vs. Agilent ou rique, alors que les composantes principales ne visent qu’à extraire une part de
encore entre les résultats obtenus par séquençage (RNA Seq) et biopuces. Tou- variance maximale sans tenir compte d’une variable cible.
jours en Biologie, la PLS2 en version régression permet d’intégrer des jeux de
Soit X(n × p) la matrice des variables explicatives centrées avec n pouvant
données observées à des niveaux différents sur le même échantillon : expliquer
être inférieur à p. On cherche une matrice U de coefficients ou pondérations
par exemple un ensemble de métabolites ou de phénotypes par des transcrits.
(loading vectors) définissant les r composantes Ξh (ou variables latentes) par
Dans un objectif seulement prévisionnel, l’approche PLS s’avère plutôt effi- combinaisons linéaires des variables Xj :
cace mais, si l’objectif est aussi la recherche d’une interprétation, c’est-à-dire
nécessairement la recherche des variables les plus pertinentes parmi un très Ξ = XU.

Page 52 sur 159 06.2014


3 Composantes principales et régressions PLS parcimonieuses

La matrice U est solution du problème suivant :


lpsa
2
Pour h = 1, . . . , r, uh = arg max Cov(Y, Ξh )
u
= arg max u0 X0 YY0 Xu

1.1
u
Avec = u0h uh 1
et ξ 0h ξ h = u0 X0 YY Xu = 0
0, pour ` = 1 . . . , h − 1.

1.0
RMSEP
La matrice U est obtenue par la démarche itérative de l’algorithme 1 ; il

0.9
suffit ensuite de calculer la régression de Y sur les r variables ξ h centrées,
appelées variables latentes ainsi construites. Le choix du nombre de compo-
santes r est optimisé par validation croisée.

0.8
A LGORITHME 1 : Régression PLS1
X matrice des variables explicatives centrées, 0 2 4 6 8 10
Calcul de la matrice U des coefficients. number of components
for h = 1 à r do
X0 Y
uh = X ,
k 0Y k F IGURE 1 – Données cancer : optimisation du nombre de composantes en
ξ h = Xuh PLS1
Déflation de X : X = X − ξh ξh0 X
end for lpsa lpsa, 6 comps, validation


● ●

0.5

Exemple de PLS1 sur les données de cancer de la prostate

4
● ●
● ● ●
● ●

0.4
● ●
●●
●● ●

La figure 1 donne l’estimation par validation croisée (10-fold) de l’erreur regression coefficient
● ●

●● ● ●

●●

0.3
● ●

3

de prévision en fonction de la dimension tandis que la figure 2 (gauche) est ● ● ● ● ●

predicted
● ●●
● ● ●
● ●
● ●
●●
0.2

une aide à l’interprétation. Les loadings sont les coefficients ou importance ●




●●


●●


● ● ● ●
● ●

des variables sur la première composante PLS. Le graphe de droite de la figure ●● ●

2
0.1

● ●
● ● ● ● ● ●


●●

2 indique simplement la plus ou moins bonne qualité de l’ajustement avec un ●




0.0


● ●
● ● ●

choix de 6 composantes PLS.




1

● ●
● ●
−0.1



● ●

2.2 Régression PLS2 lcav lwei age lbph svi1 lcp gl7 gl8 gl9 pg45 0 1 2 3 4 5

variable measured
6 composantes PLS

Définition
L’algorithme précédent de PLS1 se généralise à une variable à expliquer Y F IGURE 2 – Données cancer : Coefficient (loadings) des variables sur la pre-
multidimensionnelle (PLS2) : Mettre en relation ou chercher à expliquer, mo- mière composante et qualité de l’ajustement avec 6 composantes.

Page 53 sur 159 06.2014


4 Composantes principales et régressions PLS parcimonieuses

déliser un ensemble de q variables Y k par un ensemble de p variables explica- 12 . . . . p ξ ω 12 . . . . . q


1 1
tives X j . Le critère à optimiser devient une somme des carrés des covariances 2 2

entre une composante et chacune des variables réponses. Plusieurs variantes .


X
.

de la régression PLS multidimensionnelle ont été proposées ; le même critère


.
.
.
.
Y
est optimisé mais sous des contraintes différentes. La version “canonique” (par n n
ξ1ξ 2 ξ H ω1 ω2 ωH
référence à l’analyse canonique de deux ensembles de variables), où les deux u1 v1
u2 v2
ensembles de données jouent des rôles symétriques, diffère de la version “ré- U uH V vH
gression” (un paquet de variable expliqué par un autre) par l’étape dite de dé-
c1 d1
flation de l’algorithme général de PLS. c2 d2
C cH
D dH
Dans les deux cas, la PLS se définit par la recherche (cf. 3) de :
• variables latentes ξ h et ω h , (h = 1, . . . , r)
F IGURE 3 – PLS2 : les matrices X and Y sont successivement décomposées en
ξ 1 = Xu1 et ω 1 = Yv1 ensembles de coefficients (loading vectors) (u1 , . . . , ur ), (v1 , . . . , vr ) et en-
sembles de variables latentes (ξ1 , . . . , ξr ), (ω 1 , . . . , ω r ), où r est la dimension
solutions de recherchée ou nombre de composantes.
max cov(Xu, Yv),
||u||=||v||=1
Algorithme
• puis itérations sous contraintes d’orthogonalité par déflations de X et Y.
• Les vecteurs de coefficients (uh , vh )h=1,...,r sont appelés vecteurs loa- Historiquement, la régression PLS est construite par l’algorithme NIPALS
dings. (Non linear Iterative PArtial Least Square algorithm) (cf. 2) dans lequel chaque
Tous ces vecteurs sont schématisés dans la figure 3. itération h, h = 1, . . . , r de l’algorithme décompose X et Y en faisant inter-
Deux types de déflation sont considérés, l’un faisant jouer un rôle symé- venir une étape de déflation spécifique à l’objectif.
trique entre les variables (mode canonique), tandis que l’autre suppose que les Cet algorithme, en itérant des régressions partielles, présente de nombreux
variables X sont expliquées par celles Y . La régression PLS est à rapprocher avantages. Il n’est pas nécessaire d’inverser une matrice comme en analyse
de l’analyse canonique des corrélations qui s’utilise dans le même contexte de canonique ; de plus il accepte des données manquantes et même propose, par
deux variables multidimensionnelles X et Y à mettre en relation. La différence la PLS, une méthode d’imputation de celles-ci.
vient du critère optimisé en analyse canonique qui est la corrélation entre les
variables latentes plutôt que la covariance : A LGORITHME 2 : NIPALS
X et Y matrices des données centrées
max cor(Xu, Yv). Initialiser ω 1 par la première colonne de Y
||u||=||v||=1
for h = 1 à r do
Cette optimisation requiert l’inversion des matrices X0 X et Y0 Y. Ces inver- while Convergence pas atteinte do
sions sont impossibles en cas de colinéarité des variables et donc évidemment uh = X0 ω h /ω 0h ω h
si n < p ou n < q. Une version régularisée ou ridge de l’analyse canonique uh = uh /u0h uh est le vecteur loading associé à X
rend les calculs possibles (Gonzales et al. 2008) mais les interprétations restent ξ h = Xuh est la variable latente associée à X
difficiles pour des grandes valeurs de p ou q. vh = Y0 ξ h /(ξ 0h ξ h )

Page 54 sur 159 06.2014


5 Composantes principales et régressions PLS parcimonieuses

vh = vh /vh0 vh est le vecteur loading associé à Y Néanmoins, la perspective de gérer les données manquantes ou encore celle de
ω h = Y0 vh est la variable latente associée à Y réaliser les calculs sans avoir à stocker des matrices p × p pour p très grand,
end while rend l’algorithme NIPALS tout à fait pertinent même s’il est numériquement
ch = X0 ξ/ξ 0 ξ régression partielle de X sur ξ moins performant.
dh = Y0 ω/ω 0 ω régression partielle de Y sur ω
Résidus X ← X − ξc0 ou déflation PLS mode Régression vs. canonique
Résidus Y ← Y − ωd0 ou déflation Deux modes de déflation sont proposés selon que les variables jouent un rôle
end for symétrique ou que les variables X sont supposées expliquées par celles Y .
• Mode “canonique” : Xh = Xh−1 − ξ h c0 h et Yh = Yh−1 − ω h d0 h
Le nombre r d’itérations est à fixer ou “optimiser” par l’utilisateur tandis • Mode “régression” : Xh = Xh−1 − ξ h c0 h et Yh = Yh−1 − ξ h v0 h
que la convergence de chaque étape h est analogue à celle, relativement rapide La PLS en mode canonique poursuit donc le même objectif que l’analyse
(moins d’une dizaine d’itérations), d’un algorithme de puissance itérée. En canonique des corrélations en rendant les calculs possibles même si p > n car
effet, à la convergence, les vecteurs vérifient : la PLS ne nécessite pas l’inversion des matrices de corrélation. Toujours avec le
même objectif de rendre possible les calculs, des versions régularisées (norme
YY0 XX0 u = λu L2 ) de l’analyse canonique ont été proposées de façon analogue à la régression
Y0 XX0 Yω = λω ridge. Néanmoins, cette approche conduit à des graphiques et interprétations
0 0
XX YY v = λv difficiles lorsque p est grand.
X0 YY0 Xξ = λξ PLS-DA ou discrimination PLS
où u, ω, v et ξ sont donc les vecteurs propres respectifs des matrices La régression PLS peut facilement s’adaptée au cas de la classification su-
YY0 XX0 , Y0 XX0 Y, XX0 YY0 , X0 YY0 X associés à la même plus grande pervisée, ou analyse discriminante décisionnelle (PLS-Discriminant Analysis),
valeur propre λ. L’étape de déflation permet donc de calculer successivement dans lequel p variables quantitatives X j expliquent une variable qualitative
les vecteurs propres associés aux valeurs propres décroissantes. Y à m modalités. Il suffit de générer le paquet des m variables indicatrices
En résumé, ou dummy variables Y k et d’exécuter l’algorithme PLS2 (mode régression)
• La régression PLS2 gère des données incomplètes, bruitées, colinéaires en considérant comme quantitatives ces variables indicatrices. Le choix du
ou de très grande dimension nombre de dimensions peut être optimisé en minimisant l’erreur de prévision
• calcule les variables latentes ξ h et ω h qui renseignent (graphes) sur les des classes par validation croisée.
similarités et/ou dissimilarités des observations,
• et les vecteurs loading uh et vh qui renseignent sur l’importance des va-
2.3 Représentations graphiques
riables Xj et Yk , Les représentations graphiques des individus, comme celles des variables
• trace les Graphes illustrant les covariations des variables. initiales, sont analogues à celles obtenues en analyse canonique.
• Les variables initiales sont représentées par leurs coefficients sur les va-
Variante de l’algorithme
riables latentes ;
Une autre approche consiste à calculer directement les vecteurs propres de • les individus par leurs valeurs sur les composantes de X (ou de Y ) comme
la matrice X0 YY0 X ou encore et c’est équivalent, les valeurs et vecteurs sin- en ACP.
guliers de la décomposition en valeurs singulières (SVD) de la matrice X0 Y.

Page 55 sur 159 06.2014


6 Composantes principales et régressions PLS parcimonieuses

3 Méthodes parcimonieuses uold = u?h avec vh? et vh? de norme 1


while Pas de convergence de unew et vnew do
3.1 Objectif vnew = gλ (M0 h−1 uold )
unew = M0 h−1 vnew /||Mh−1 vnew ||
La régression PLS est une régression sur composantes orthogonales qui ré- uold = unew , vold = vnew
sout efficacement les problèmes de multicolinéarité ou de trop grand nombre end while
de variables en régression comme en analyse canonique. La contre partie, ou vnew = vnew /||vnew ||
prix à payer, est l’accroissement souvent rédhibitoire de la complexité de l’in- Mh = Mh−1 − δh unew vnew 0
terprétation des résultats. En effet, chaque composante est obtenue par combi- end for
naison linéaire d’un nombre pouvant être très important de l’ensemble des p
variables.
L’algorithme peut adopter différents types de fonction de pénalisation, celle
Pour aider à l’interprétation, l’objectif est donc de limiter, ou contraindre,
retenue est une fonction de seuillage “doux” avec
le nombre de variables participant à chaque combinaison linéaire. La façon
simple de procéder est d’intégrer une contrainte de type Lasso dans l’al- gλ (y) = sign(y)(|y| − λ)+ .
gorithme PLS2. Plusieurs approches on été proposées, celle décrite ci-après
s’avère rapide et efficace.
3.3 Sparse PLS
3.2 Sparse SVD
Ayant remarqué qu’un étape h de PLS2 est la première étape de la décom-
La démarche adoptée est issue d’une construction d’une version parcimo- position en valeur singulière de la matrice Mh = X0 h Yh , la version parcimo-
nieuse de l’ACP proposée par Shen et Huang (2008)[7]. Considérant que nieuse de la PLS2 est simplement construite en itérant r fois l’algorithme de
l’ACP admet pour solution la décomposition en valeurs singulières (SVD) de sparse SVD (s-SVD) qui cherche à résoudre :
la matrice centrée X̄, la sparse PCA (s-PCA) est basée sur un algorithme qui
résout le problème : min ||Mh − uh vh0 ||2F + Pλ1 (uh ) + Pλ2 (vh .
uh ,vh

min ||M − uv0 ||2F + Pλ (v) Comme pour l’algorithme de sparse-SVD, une pénalisation de type L1
u,v
(λ||v||1 ) conduit à l’annulation des paramètres les plus petits pour ne laisser
où le vecteur v contient les paramètres des combinaisons linéaires des va- qu’un ensemble restreint de paramètres non-nuls dont l’effectif dépend direc-
riables initiales. Une pénalisation de type L1 (λ||v||1 ) conduit à l’annulation tement des valeurs λ et λ de pénalisation.
1 2
des paramètres les plus petits pour ne laisser qu’un ensemble restreint de para-
mètres non-nuls dont l’effectif dépend directement de la valeur λ de la pénali- Plus précisément, l’algorithme adopte pour pénalisation des fonctions de
sation. seuillage “doux” composante par composante avec
p
A LGORITHME 3 : sparse SVD X
Pλ1 (uh ) = sign(uhj )(|uhj | − λ1 )+
Décomposer M = U∆V0 j=1
M0 = M q
X
for h de 1 à r do Pλ2 (vh ) = sign(vhj )(|vhj | − λ2 )+ .
Fixer vold = δh vh? j=1

Page 56 sur 159 06.2014


7 Composantes principales et régressions PLS parcimonieuses

Entre deux étapes de s-SVD, les matrices Xh et Yh subissent une déflation


(mode régression ou canonique) avant de passer à l’étape suivante.
Cette démarche soulève des questions délicates d’optimisation du nombre
r de dimensions et celle des valeurs des paramètres de la fonction de pénali-
sation. En mode régression (PLS2 ou PLS-DA) il est possible d’optimiser ces
choix en minimisant des erreurs de prévision estimées par validation croisée.
En mode canonique, le “degré” de parcimonie comme le nombre de dimen-
sions doivent être fixés a priori par l’utilisateur. Plus concrètement, ce sont
souvent des choix a priori qui sont opérés en fonction de l’objectif de l’uti-
lisateur : recherche de peu de variables assimilées, par exemple, à des bio-
marqueurs ou de “beaucoup” de variables dans le cadre d’une tentative de
compréhension globale de la structure des données. De même, le nombre de
composantes r est choisi avec une valeur réduite afin de construire des repré-
F IGURE 4 – Cookies : Optimisation du nombre de composante en régression
sentations graphiques r ≤ 3 plus élémentaire pour aider à l’interprétation.
PLS par validation croisée et graphe des résidus calculés sur l’échantillon test.
En résumé, ce sont donc les capacités d’interprétation d’un problème qui
guident concrètement le choix à moins qu’un objectif de construction d’un
meilleur modèle de prévision conduisent à une optimisation par validation sont calculés pour l’échantillon test afin d’obtenir le graphe des résidus.
croisée.
Dans le cas particulier de PLS-DA, la sélection de variables s’opère sur le 4.2 sPLS de données simulées
seul ensemble des variables X et donc un seul paramètre λ est à régler. Le modèle de simulation est celui proposé par (Chun et Keles, 2010)[2]. Les
Attention, les variables latentes successivement calculées perdent leur pro- données générées permettent de voir le rôle de la pénalisation dans la sélection
priété de stricte orthogonalité du fait de la pénalisation. Cela ne s’est pas avéré des variables en PLS mode canonique. Elles sont constituées de
gênant sur les quelques premières dimensions et donc composantes calculées • n = 40, p = 5000 (X var.), q = 50 (Y var.)
en pratique. • 20 variables X et 10 variables Y d’effet µ1
• 20 variables X et 20 variables Y d’effet µ2
4 Exemples 4.3 Analyse canonique par sPLS2
4.1 PLS1 de données de spectrométrie NIR Les données (NCI) concernent 60 lignées cellulaires de tumeurs. L’objectif
est de comparer deux plate-formes. Sur la première (cDNA chip) ont été obser-
Les données (cookies) sont celles étudiées par régression pénalisée. Comme vées les expressions de p = 1375 gènes tandis que sur la 2ème (Affymetrix) ce
pour les autres techniques, le paramètre de complexité, ici le nombre de com- sont q = 1517 gènes qui sont concernés. Une grande majorité des gènes, sont
posantes, est optimisé par validation croisée. Le graphe de la figure 4 montre communs aux deux tableaux X(60 × 1375) et Y(60 × 1517).
l’évolution de l’erreur quadratique (ou risque) d’apprentissage (en noir) et de
Les deux technologies de mesure d’expression des gènes conduisent-elles à
celle estimée par validation croisée (en rouge).
des résultats globalement comparables pour l’étude de ces lignées cellulaires
Une fois la dimension optimale déterminée, les prévisions des taux de sucre cancéreuses ?

Page 57 sur 159 06.2014


8 Composantes principales et régressions PLS parcimonieuses

dim 1 dim 1
CO RE OV BR PR CNS LEU ME
7 8 6 8 2 9 6 8
0 20 40 60 80 100 0 20 40 60 80 100

dim 2 dim 2
TABLE 1 – Effectifs des répartitions des échantillons des lignées cellulaires en
0 20 40 60 80 100 0 20 40 60 80 100
8 types de cancer et 3 types de cellules : épithéliales, mésenchymales, méla-
dim 3 dim 3 nomes

0 20 40 60 80 100 0 20 40 60 80 100

4.4 Recherche de bio-marqueurs par sPLS-DA


F IGURE 5 – Effet de la pénalisation sur les vecteurs “loading” associés à la Les données
matrice X ; PLS à gauche et sPLS à droite.
Les qualités prédictives de la sPLS-DA peuvent-être comparées avec celles
des autres méthodes abordées dans ce cours, notamment celles d’agrégation
(ω2 , ξ2 )

de modèles. Lê Cao et al. (2011)[3] ont mené cette comparaison systématique


sur un ensemble de jeux de données publiques dont des données relatives à la
discrimination de 5 types de cancer du cerveau. Les expressions de p = 6144
gènes sont observés sur n = 90 individus.
7860
H460
La question est donc de savoir si la mesure des expressions d’une sélection
de gènes est pertinente pour aider à diagnostiquer ces différents types de can-
cer. Les gènes les plus discriminants au sens de la régressions sPLS-DA sont
(ω1 , ξ 1 )
représentés par leur coefficients (loadings ) dans la base des deux premières
composantes (figure 7). Le réseau (figure 8) est celui des gènes connus dans la
littérature pour intervenir sur ces pathologies.
Parmi les gènes sélectionnés par la sPLS-DA (figure 7), une couleur parti-
BR
CNS culière est attribuée à ceux déjà connus et présents dans le réseau.
CO
LE
ME
NS
5 Robustesse d’une sélection
OV
PR
RE
5.1 Principe
Le grand nombre de variables au regard de la taille de l’échantillon sou-
lève quelques doutes quand à la robustesse ou la stabilité d’une sélection de
F IGURE 6 – Les “individus “lignées cellulaires” sont représentées dans les variables au sein d’un modèle ; n’est-elle pas finalement qu’un artefact lié à
deux espaces : (ξ 1 , ω 1 ) vs. (ξ 2 , ω 2 ). La longueur de chaque vecteur souligne l’échantillon observé ?
l’impact de la technologie utilisée sur chaque type de cellule.
Bach (2008)[1] d’une part, Meinshausen et Bülhmann (2008)[6] d’autre part

Page 58 sur 159 06.2014


9 Composantes principales et régressions PLS parcimonieuses

1.0

BARD1
PTMA
Midkine
CIP4
0.5

U30255_at

X53777_at PEA15
MLLT3
D31764_at
M83233_at D12676_at
Cyclin D1 X68836_at
Comp 2

M74089_at LRRC16A
TNFRSF1A M31520_at
STAB1 INSM1
0.0

U76272_at
U56833_at
U85267_at MAB21L1
X78520_at
D89667_at
L00205_at
CD97 X16560_at AP3B2
Y00764_atM28213_s_at U30521_at
STMN2
U21858_at Neuronatin
HG384.HT384_at
M20471_at M33653_at NDF1
Z50022_at
D79998_at
X63578_rna1_at
PON2
−0.5

ALDOC
PGHD
BTN2A2
SORL1 BAD
PEA15 GRM4
SIRPA SCN1B
−1.0

−1.0 −0.5 0.0 0.5 1.0

Comp 1

F IGURE 7 – Représentation des individus dans les deux premières compo- F IGURE 8 – Représentation (Gene Go software) en réseau des gènes déjà iden-
santes tifiés comme liés à ces pathologies de tumeurs cérébrales.

Page 59 sur 159 06.2014


10 Composantes principales et régressions PLS parcimonieuses

ont proposé des stratégies pour évaluer cette stabilité, éventuellement l’opti-
miser en les utilisant pour régler le paramètre de pénalisation. Ils partent de la
même idée : étudier les occurrences ou non des sélections des variables dans
un modèle pour une pénalisation donnée sur des échantillons bootstrap (Bach,
2008)[1] ou sur des sous-échantillons aléatoires (Meinshausen et Bülhmann,
2010)[6]. Ils étudient ces stratégies dans le cas du modèle linéaire avec pénali-
sation Lasso et montrent dans ce cas des propriétés asymptotiques de conver-
gence vers la bonne sélection. Bach (2008)[1] s’intéresse à la sélection obtenue
par intersection de toutes les sélections sur chacun des échantillons bootstrap
tandis que Meinshausen et Bülhmann (2010)[6] compte le nombre de fois où
une variables est sélectionnée pour une valeur donnée de la pénalisation.

5.2 Exemple Brain − dim 1


Le graphique de la figure 9 est obtenu en synthétisant les stratégies précé-

1.0
dentes. Sur chacun des 50 échantillons bootstrap, une sPLS-DA est calculée
pour différentes valeurs de la pénalisation. On ne s’intéresse ici qu’à la pre-
mière composante (h = 1). Dans ce cas de seuillage doux, la pénalisation

0.8
revient à fixer le nombre de variables intervenant dans la construction de la
première variable latente. La probabilité d’occurrence d’une variable ou gène
est tout simplement estimée par le ratio du nombre de fois où elle a été sé-

0.6
probability
lectionnée. Quelques variables ou gènes apparaissent assez systématiquement
sélectionnés,principalement 4 d’entre eux. Il apparaît que les données obser-
vées ne peuvent garantir la sélection que d’un nombre restreint de gènes. Ce

0.4
constat serait à rapprocher du résultat théorique de Verzelen (2012)[9] dans le
cas du modèle gaussien. Celui-ci met en évidence qu’un problème de ultra-
haute dimension se manifeste si

2k log(p/k) 1 0.2
> .
n 2
0.0

Avec les effectifs (n=90, p=6144) de l’exemple présenté, cette contrainte, dans 5 10 15 20 25 30 35 40 45 50 100 200 500 1

le cas gaussien, signifierait qu’il est illusoire de vouloir sélectionner plus de 6 number of selected variables
gènes. Pour un tout autre modèle, c’est aussi ce que nous signifie le graphique.
Seule la considération d’un petit nombre de gènes dont la sélection est relati- F IGURE 9 – Probabilités de sélection des différentes variables (gènes) sur la
vement stable sur les différents échantillons bootstrap est raisonnable sur ces première composante en fonction de la valeur de la pénalisation en sPLS-DA.
données compte tenu de la faible taille de l’échantillon.

Page 60 sur 159 06.2014


11 Composantes principales et régressions PLS parcimonieuses

Références
[1] F. Bach, Bolasso : model consistent Lasso estimation through the boots-
trap, Proceedings of the Twenty-fifth International Conference on Ma-
chine Learning (ICML) (2008), 33–40.
[2] H. Chun et S. Keles, Sparse partial least squares regression for simulta-
neous dimension reduction and variable selection, Journal of the Royal
Statistical Society : Series B 72 (2010), 3–25.
[3] K. A. Lê Cao, S. Boistard et P. Besse, Sparse PLS Discriminant Ana-
lysis : biologically relevant feature selection and graphical displays for
multiclass problems, BMC Bioinformatics 12 (2011), no 253.
[4] K. A. Lê Cao, P.G.P Martin, C. Robert-Granié et P. Besse, Sparse Cano-
nical Methods for Biological Data Integration : application to a cross-
platform study, BMC Bioinformatics 10 (2009), no 34.
[5] K. A. Lê Cao, D. Rossouw, C. Robert-Granié et P. Besse, A sparse PLS
for variable selection when integrating Omics data, Statistical Applica-
tions in Genetics and Molecular Biology 7 (2008), no 35.
[6] N. Meinshausen et P. Bühlmann, Stability selection, Journal of the Royal
Statistical Society : Series B 72 (2008), 417–473.
[7] H. Shen et J.Z. Huang, Sparse principal component analysis via regulari-
zed low rank matrix approximation, Journal of Multivariate Analysis 99
(2008), 1015–1034.
[8] M. Tenenhaus, La régression PLS : théorie et applications, Technip,
1998.
[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-high-
dimensional phenomenons, Electron. J. Statistics 6 (2012), 38–90,
http://arxiv.org/pdf/1008.0526.pdf.
[10] H. Wold, Multivariate analysis, Academic Press,, 1966.

Page 61 sur 159 06.2014


1 Régression logistique ou modèle binomial

la plupart des usages des méthodes de cette famille : estimation par maximi-
Régression logistique ou modèle sation de la vraisemblance, statistiques de test suivant asymptotiquement des
lois du chi-deux, calcul des résidus, observations influentes, critère pénalisé
binomial (AIC) d’Akaïke[?] pour la sélection de modèle. Néanmoins, certaines spéci-
ficités méritent d’être soulignées pour un meilleur usage de même qu’il est
important de rappeler que d’autres méthodes peuvent conduire à de meilleure
Résumé
prévision, donc de meilleurs scores et que c’est souvent un bon investissement
Rappels sur la régression logistique ou modèle binomial du modèle que de faire évouer ses habitudes.
linéaire général. Définition de la notion de rapport de cote utile
dans l’interprétation du rôle des paramètres ; modèle pour une va- 2 Odds et odds ratio
riable binomiale ou une variable binaire 0, 1) de Bernoulli ; estima-
tion, propriétés et difficultés spécifiques à ce modèle ; extension à la Une première section définit quelques notions relatives à l’étude de la liaison
modélisation d’une variable polytomique ou ordinale. Les lois des entre variables qualitatives. Elles sont couramment utilisées dans l’interpréta-
observations sont discrètes et associées à des dénombrements : bi- tion des modèles de régression logistique.
nomiale, multinomiale. Choix de modèle en régression logistique et
exemples. Une variable
Retour au plan du cours Soit Y une variable qualitative à J modalités. On désigne la chance (ou
odds 1 de voir se réaliser la j-ème modalité plutôt que la kème par le rapport
1 Introduction πj
Ωjk =
Historiquement, la régression logistique ou régression binomiale fut la pre- πk
mière méthode utilisée, notamment en marketing pour le scoring et en épi-
où πj est la probabilité d’apparition de la j-ème modalité. Cette quantité est
démiologie, pour aborder la modélisation d’une variable binaire binomiale
estimée par le rapport nj /nk des effectifs observés sur un échantillon. Lorsque
(nombre de succès pour ni essais) ou de Bernoulli (avec ni = 1) : posses-
la variable est binaire et suit une loi de Bernouilli de paramètre π, l’odds est le
sion on non d’un produit, bon ou mauvais client, décès ou survie d’un patient,
rapport π/(1 − π) qui exprime une cote ou chance de gain.
absence ou présence d’une pathologie...
Par exemple, si la probabilité d’un succès est 0.8, celle d’un échec est 0.2.
Bien connue dans ces types d’application et largement répandue, la régres-
L’odds du succès est 0.8/0.2=4 tandis que l’odds de l’échec est 0.2/0.8=0.25.
sion logistique conduit à des interprétations pouvant être complexes mais ren-
On dit encore que la chance de succès est de 4 contre 1 tandis que celle d’échec
trées dans les usages pour quantifier, par exemple, des facteurs de risque liés
est de 1 contre 4.
à une pathologie, une faillite... Cette méthode reste donc celle la plus utilisée
même si, en terme de qualité prévisionnelle, d’autres approches sont suscep- 2.1 Table de contingence
tibles, en fonction des données étudiées, d’apporter de bien meilleurs résultats.
Il est donc important de bien maîtriser les différents aspects de la régression On considère maintenant une table de contingence 2 × 2 croisant deux va-
logistiques dont l’interprétation des paramètres, la sélection de modèle par sé- riables qualitatives binaires X 1 et X 2 . les paramètres de la loi conjointe se
lection de variables ou par régularisation (LASSO).
1. Il n’existe pas, même en Québécois, de traduction consensuelle de “odds” qui utilise néan-
Cas particulier de modèle linéaire général, la régression logistique reprend moins souvent le terme “cote”.

Page 62 sur 159 06.2014


2 Régression logistique ou modèle binomial

mettent dans une matrice :   équipement, faillite d’une entreprise, bon ou mauvais client. . . . Les modèles
π11 π12 de régression précédents adaptés à l’explication d’une variable quantitative ne
π21 π22 s’appliquent plus directement car le régresseur linéaire usuel Xβ ne prend pas
où πij = P [{X = i} et {X = j}] est la probabilité d’occurrence de chaque des valeurs simplement binaires. L’objectif est adapté à cette situation en cher-
1 2

combinaison. chant à expliquer les probabilités


• Dans la ligne 1, l’odds que la colonne 1 soit prise plutôt que la colonne 2 π = P (Z = 1) ou 1 − π = P (Z = 0),
est :
π11 ou plutôt une transformation de celles-ci, par l’observation conjointe des va-
Ω1 = .
π12 riables explicatives. L’idée est en effet de faire intervenir une fonction réelle
• Dans la ligne 2, l’odds que la colonne 1 soit prise plutôt que la colonne 2 monotone g opérant de [0, 1] dans R et donc de chercher un modèle linéaire de
est : la forme :
π21
Ω2 = . g(πi ) = x0i β.
π22
On appelle odds ratio (rapport de cote) le rapport Il existe de nombreuses fonctions, dont le graphe présente une forme sig-
Ω1 π11 π22 moïdale et qui sont candidates pour remplir ce rôle, trois sont pratiquement
Θ= = . disponibles dans les logiciels :
Ω2 π12 π21
probit : g est alors la fonction inverse de la fonction de répartition d’une loi
Ce rapport prend la valeur 1 si les variables sont indépendantes, il est supérieur
normale, mais son expression n’est pas explicite.
à 1 si les sujets de la ligne 1 ont plus de chances de prendre la première colonne
que les sujets de la ligne 2 et inférieur à 1 sinon. log-log avec g définie par
Exemple : supposons qu’à l’entrée dans une école d’ingénieurs, 7 garçons g(π) = ln[− ln(1 − π)]
sur 10 sont reçus tandis que seulement 4 filles sur 10 le sont. L’odds des gar- mais cette fonction est dissymétrique.
çons est alors de 0.7/0.3=2.33 tandis que celle des filles est de 0.4/0.6=0.67.
logit est définie par
L’odds ratio est de 2.33/0.67=3.5. La chance d’être reçu est 3.5 plus grande
pour les garçons que pour les filles. π ex
g(π) = logit(π) = ln avec g −1 (x) = .
L’odds ratio est également défini pour deux lignes (a, b) et deux colonnes 1−π 1 + ex
(c, d) quelconques d’une table de contingence croisant deux variables à J et Plusieurs raisons, tant théoriques que pratiques, font préférer cette dernière
K modalités. L’odds ratio est le rapport solution. Le rapport π/(1 − π), qui exprime une “cote”, est l’odds et la ré-
gression logistique s’interprète donc comme la recherche d’une modélisation
Ωa πac πbd b abcd = nac nbd . linéaire du “log odds” tandis que les coefficients de certains modèles expriment
Θabcd = = estimé par l’odds ratio empirique Θ
Ωb πad πbc nad nbc des “odds ratio” c’est-à-dire l’influence d’un facteur qualitatif sur le risque (ou
la chance) d’un échec (d’un succès) de Z.
3 Régression logistique Cette section se limite à la description de l’usage élémentaire de la régres-
3.1 Type de données sion logistique. Des compléments concernant l’explication d’une variable qua-
litative ordinale (plusieurs modalités), l’intervention de variables explicatives
Cette section décrit la modélisation d’une variable qualitative Z à 2 moda- avec effet aléatoire, l’utilisation de mesures répétées donc dépendantes, sont à
lités : 1 ou 0, succès ou échec, présence ou absence de maladie, panne d’un rechercher dans la bibliographie.

Page 63 sur 159 06.2014


3 Régression logistique ou modèle binomial

3.2 Modèle binomial Remarques


On considère, pour i = 1, . . . , I, différentes valeurs fixées x1i , . . . , xqi des 1. La matrice X issue de la planification expérimentale est construite avec
variables explicatives X 1 , . . . , X q . Ces dernières pouvant être des variables les mêmes règles que celles utilisées dans le cadre de l’analyse de co-
quantitatives ou encore des variables qualitatives, c’est-à-dire des facteurs issus variance mixant variables explicatives quantitatives et qualitatives. Ainsi,
d’une planification expérimentale. les logiciels gèrent avec plus ou moins de clarté le choix des variables
indicatrices et donc des paramètres estimables ou contrastes associés.
Pour chaque groupe, c’est-à-dire pour chacune PI des combinaisons de valeurs 2. Attention, La situation décrite précédemment correspond à l’observation
ou facteurs, on réalise ni observations (n = i=1 ni ) de la variable Z qui se
de données groupées. Dans de nombreuses situations concrètes et sou-
mettent sous la forme y1 /n1 , . . . , yI /nI où yi désigne le nombre de “succès”
vent dès qu’il y a des variables explicatives quantitatives, les observations
observés lors des ni essais. On suppose que toutes les observations sont indé-
xi sont toutes distinctes. Ceci revient donc à fixer ni = 1; i = 1, . . . , I
pendantes et qu’à l’intérieur d’un même groupe, la probabilité πi de succès est
dans les expressions précédentes et la loi de Bernouilli remplace la loi
constante. Alors, la variable Yi sachant ni et d’espérance E(Yi ) = ni πi suit
binomiale. Certaines méthodes ne sont alors plus applicables et les com-
une loi binomiale B(ni , πi ) dont la fonction de densité s’écrit :
  portements asymptotiques des distributions des statistiques de test ne sont
ni yi plus valides, le nombre de paramètres tendant vers l’infini.
P (Y = yi ) = π (1 − πi )(ni −yi ) .
yi i 3. Dans le cas d’une variable explicative X dichotomique, un logiciel
comme SAS fournit, en plus de l’estimation d’un paramètre b, celle des
On suppose que le vecteur des fonctions logit des probabilités πi appartient
odds ratios ; b est alors le log odds ratio ou encore, eb est l’odds ratio (le
au sous-espace vect{X 1 , . . . , X q } engendré par les variables explicatives :
rapport de cote). Ceci s’interprète en disant que Y a eb fois plus de chance
logit(πi ) = x0i β i = 1, . . . , I de succès (ou de maladie comme par un exemple un cancer du poumon)
quand X = 1 (par exemple pour un fumeur).
ce qui s’écrit encore
0
4. Attention dans SAS, la procédure LOGISTIC adopte une paramétrisation
exi β (−1, 1) analogue à celle de la procédure CATMOD mais différente de
πi = 0 i = 1, . . . , I.
1 + exi β celle des modules GENMOD ou SAS/Insight (0, 1). Ceci explique les
différences observées dans l’estimation des paramètre d’une procédure
Le vecteur des paramètres est estimé par maximisation de la log-
à l’autre mais les modèles sont identiques/ Mêmes exprimés dans des
vraisemblance. Il n’y a pas de solution analytique, celle-ci est obtenue par des
bases différentes, les espaces engendrés par les vecteurs des indicatrices
méthodes numériques itératives (par exemple Newton Raphson) dont certaines
sélectionnées sont les mêmes.
reviennent à itérer des estimations de modèles de régression par moindres car-
rés généralisés avec des poids et des métriques adaptés à chaque itération. 3.3 Régressions logistiques polytomique et ordinale
L’optimisation fournit une estimation b de β, il est alors facile d’en déduire
3.3.1 Généralisation
les estimations ou prévisions des probabilités πi :
0 La régression logistique adaptée à la modélisation d’une variable dichoto-
exi b
π
bi = 0 mique se généralise au cas d’une variable Y à plusieurs modalités ou polyto-
1 + ex i b mique. Si ces modalités sont ordonnés, on dit que la variable est qualitative
et ainsi celles des effectifs ordinale. Ces types de modélisation sont très souvent utilisés en épidémiologie
ybi = ni π
bi . et permettent d’évaluer ou comparer des risques par exemples sanitaires. Des

Page 64 sur 159 06.2014


4 Régression logistique ou modèle binomial

estimations d’odds ratio ou rapports de cotes sont ainsi utilisés pour évaluer et sur cette échelle dépendent chacune de tous les effectifs, ce qui peut conduire
interpréter les facteurs de risques associés à différents types (régression poly- à une plus grande stabilité des mesures qui en découlent.
tomique) ou seuils de gravité (régression ordinale) d’une maladie ou, en mar-
keting, cela s’applique à l’explication, par exemple, d’un niveau de satisfaction Proportionnalité des rapports de cote
d’un client. Il s’agit de comparer entre elles des estimations de fonctions logit. Si les variables indépendantes sont nombreuses dans le modèle ou si la va-
Dans une situation de data mining ou fouille de données, ce type d’approche riable réponse Y comporte un nombre élevé de niveaux, la description des
se trouve lourdement pénalisé lorsque, à l’intérieur d’un même modèle polyto- fonctions logit devient fastidieuse. La pratique consiste plutôt à déterminer un
mique ou ordinal, plusieurs types de modèles sont en concurrence pour chaque coefficient global b (mesure d’effet) qui soit la somme pondérée des coeffi-
fonction logit associée à différentes modalités. Différents choix de variables, cients bj . Ceci revient à faire l’hypothèse que les coefficients sont homogènes
différents niveaux d’interaction rendent trop complexe et inefficace cette ap- (idéalement tous égaux), c’est-à-dire à supposer que les rapports de cotes sont
proche. Elle est à privilégier uniquement dans le cas d’un nombre restreint de proportionnels. C’est ce que calcule implicitement la procédure LOGISTIC de
variables explicatives avec un objectif explicatif ou interprétatif. SAS appliquée à une variable réponse Y ordinale en estimant un seul para-
mètre b mais k − 1 termes constants correspondant à des translations de la
Logits cumulatifs fonctions logit.
À titre illustratif, explicitons le cas simple d’une variable Y à k modalités La procédure LOGISTIC fournit le résultat du test du score sur l’hypothèse
ordonnées expliquée par une seule variable dichotomique X. Notons πj (X) = H0 de l’homogénéité des coefficients βj .
Pk
P (Y = j|X) avec j=1 πj (X) = 1. Pour une variable Y à k modalités, il Le coefficient b mesure donc l’association du facteur X avec la gravité de la
faut, en toute rigueur, estimer k − 1 prédicteurs linéaires : maladie et peut s’interpréter comme suit : pour tout seuil de gravité choisi sur
Y , la cote des risques d’avoir une gravité supérieure à ce seuil est eb fois plus
gj (X) = αj + βj X pourj = 1, . . . , k − 1 grande chez les exposés (X = 1) que chez les non exposés (X = 0).
et, dans le cas d’une variable ordinale, la fonction lien logit utilisée doit tenir
compte de cette situation particulière. 4 Choix de modèle
Dans la littérature, trois types de fonction sont considérées dépendant de
4.1 Recherche pas à pas
l’échelle des rapports de cote adoptée :
• échelle basée sur la comparaison des catégories adjacentes deux à deux, Principalement deux critères (test du rapport de vraisemblance et test de
• sur la comparaison des catégories adjacentes supérieures cumulées, Wald), sont utilisés de façon analogue au test de Fisher du modèle linéaire
• et enfin sur la comparaison des catégories adjacentes cumulées. gaussien. Ils permettent de comparer un modèle avec un sous-modèle et d’éva-
Pour k = 2, les trois situations sont identiques. C’est le dernier cas qui est le luer l’intérêt de la présence des termes complémentaires. On suit ainsi une
plus souvent adopté ; il conduit à définir les fonctions des “logits cumulatifs” stratégie descendante à partir du modèle complet. L’idée est de supprimer, un
de la forme : terme à la fois, la composante d’interaction ou l’effet principal qui apparaît
πj+1 + · · · + πk comme le moins significatif au sens du rapport de vraisemblance ou du test
log pourj = 1, . . . , k − 1. de Wald. Les tests présentent une structure hiérarchisée. SAS facilite cette re-
π1 + · · · + πj
cherche en produisant une décomposition (Type III) de ces indices permettant
Pour un seuil donné sur Y , les catégories inférieures à ce seuil, cumulées, sont de comparer chacun des sous-modèles excluant un des termes avec le modèle
comparées aux catégories supérieures cumulées. Les fonctions logit définies les incluant tous.

Page 65 sur 159 06.2014


5 Régression logistique ou modèle binomial

Attention, du fait de l’utilisation d’une transformation non linéaire (logit), DEBIT


4
même si des facteurs sont orthogonaux, aucune propriété d’orthogonalité ne
peut être prise en compte pour l’étude des hypothèses. Ceci impose l’élimina- 3
tion des termes un par un et la ré-estimation du modèle. D’autre part, un terme
principal ne peut être supprimé que s’il n’intervient plus dans des termes d’in-
2
teraction.

4.2 Critère 1

L’approche précédente favorise la qualité d’ajustement du modèle. Dans un 0


but prédictif, certains logiciels, comme Splus/R ou Enterpirse Miner, proposent 0 1 2 3 4
d’autres critères de choix (AIC, BIC). Une estimation de l’erreur de prévision
VOLUME
par validation croisée est aussi opportune dans une démarche de choix de mo-
DILAT 0 1
dèle.

4.3 Pénalisation F IGURE 1 – Dilatation : Nuage des modalités de Y dans les coordonnées des
variables explicatives.
Des versions Lasso, elastic-net, PLS... de la régression logistique ont été
proposées. Elles sont utilisées comme dans le cadre du modèle linéaire gaus-
sien. proc logistic data=sasuser.debvol;
model dilat=l_debit l_volume;
5 Exemples run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
5.1 Exemple élémentaire avec SAS run;
Les données The LOGISTIC Procedure
Intercept
Intercept and
On étudie l’influence du débit et du volume d’air inspiré sur l’occurrence Criterion Only Covariates Chi-Square for Covariates
AIC 56.040 35.216 .
(codée 1) de la dilatation des vaisseaux sanguins superficiels des membres in- SC 57.703 40.206 .
férieurs. Un graphique élémentaire représentant les modalités de Y dans les Score -2 LOG L 54.040
.
29.216(1)
.
24.824 with 2 DF (p=0.0001)
16.635 with 2 DF (p=0.0002)
coordonnées de X 1 × X 2 est toujours instructif. Il montre une séparation rai- Parameter(2) Standard Wald(3) Pr > Standardized Odds
sonnable et de bon augure des deux nuages de points. Dans le cas de nom- Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 2.8782 1.3214 4.7443 0.0294 . .
breuses variables explicatives quantitatives, une analyse en composantes prin- L_DEBIT 1 -4.5649 1.8384 6.1653 0.0130 -2.085068 0.010
L_VOLUME 1 -5.1796 1.8653 7.7105 0.0055 -1.535372 0.006
cipales s’impose. Les formes des nuages représentés, ainsi que l’allure des
distributions (étudiées préalablement), incitent dans ce cas à considérer par la Cette procédure fournit des critères de choix de modèle dont la déviance
suite les logarithmes des variables. Une variable un ne contenant que des “1” (1), le vecteur b des paramètres (2) et les statistiques des tests (3) comparant
dénombrant le nombre d’essais est nécessaire dans la syntaxe de genmod. Les le modèle excluant un terme par rapport au modèle complet tel qu’il est décrit
données sont en effet non groupées. dans la commande.
Criteria For Assessing Goodness Of Fit

Page 66 sur 159 06.2014


6 Régression logistique ou modèle binomial

Criterion DF Value Value/DF sexe Sfem vs Shom 1.873 1.786 1.964


Deviance 36 29.2156 0.8115 (1) alcool A_bu vs Ajeu 2.707 2.512 2.918
Scaled Deviance 36 29.2156 0.8115 (2) ceinture Cnon vs Coui 1.244 1.162 1.332
Pearson Chi-Square 36 34.2516 0.9514 (3)
Scaled Pearson X2 36 34.2516 0.9514
Log Likelihood . -14.6078 .
5.3 Cancer du sein
Analysis Of Parameter Estimates
Parameter DF Estimate (4) Std Err ChiSquare (5) Pr>Chi
INTERCEPT 1 -2.8782 1.3214 4.7443 0.0294 Les données (Wisconsin BreastCancer Database) sont dispo-
L_DEBIT 1 4.5649 1.8384 6.1653 0.0130
L_VOLUME 1 5.1796 1.8653 7.7105 0.0055 nibles dans la librairie mlbench du logiciel R. Elles servent très souvent de
SCALE (6) 0 1.0000 0.0000 . .
base de référence à des comparaisons de techniques d’apprentissage. Les va-
riables considérées sont :
(1) Déviance du modèle par rapport au modèle saturé. Cl.thickness Clump Thickness
(2) Déviance pondérée si le paramètre d’échelle est différent de 1 en cas de sur-dispersion.
(3) Statistique de Pearson, voisine de la déviance, comparant le modèle au modèle saturé . Cell.size Uniformity of Cell Size
(4) Paramètres du modèle. Cell.shape Uniformity of Cell Shape
(5) Statistique des tests comparant le modèle excluant un terme par rapport au modèle complet.
(6) Estimation du paramètre d’échelle si la quasi-vraisemblance est utilisée. Marg.adhesion Marginal Adhesion
Epith.c.size Single Epithelial Cell Size
5.2 Régression logistique ordinale Bare.nuclei Bare Nuclei
On étudie les résultats d’une étude préalable à la législation sur le port de Bl.cromatin Bland Chromatin
la ceinture de sécurité dans la province de l’Alberta à Edmonton au Canada Normal.nucleoli Normal Nucleoli
(Jobson, 1991). Un échantillon de 86 769 rapports d’accidents de voitures ont Mitoses Mitoses
été compulsés afin d’extraire une table croisant : Class "benign" et "malignant".
1. Etat du conducteur : Normal ou Alcoolisé La dernière variable est celle à prédire, les variables explicatives sont ordi-
2. Sexe du conducteur nales ou nominales à 10 classes. Il reste 683 observations après la suppression
de 16 présentant des valeurs manquantes.
3. Port de la ceinture : Oui Non
Ce jeu de données est assez particulier car plutôt facile à ajuster. Une esti-
4. Gravité des blessures : 0 : rien à 3 : fatales
Les modalités de la variable à expliquer concernant la gravité de l’accident mation utilisant toutes les variables conduit à des messages critiques indiquant
sont ordonnées. Mais dans cet exemple, l’hypothèse H0 de proportionnalité des un défaut de convergence et des probabilités exactement ajustées. En fait le
rapports de cote est rejetée. Le problème est alors simplifié en regroupant les modèle s’ajuste exactement aux données en utilisant toutes les variables aussi
conséquences d el’accident en seulement 2 modalités avec ou sans séquelles. l’erreur de prévision nécessite une estimation plus soignée. Une séparation
Standard Wald
entre un échantillon d’apprentissage et un échantillon test ou une validation
Parameter
Intercept Gr0
DF
1
Estimate
1.8699
Error
0.0236
Chi-Square
6264.9373
Pr > ChiSq
<.0001
croisée permet une telle estimation.
Intercept Gr1 1 2.8080 0.0269 10914.3437 <.0001
Intercept Gr2 1 5.1222 0.0576 7917.0908 <.0001 On trouve alors qu’un modèle plus parcimonieux et obtenu par une dé-
sexe Sfem 1 -0.3118 0.0121 664.3353 <.0001
alcool A_bu 1 -0.5017 0.0190 697.0173 <.0001 marche descendante, de sorte que les paramètres soient significatifs au sens
ceinture Cnon 1 -0.1110 0.0174 40.6681 <.0001
d’un test du Chi2, conduit à des erreurs de prévision plus faibles sur un échan-
Test de score pour l’hypothèse des cotes proportionnelles
Khi-2 DDL Pr > Khi-2 tillon test indépendant qu’un modèle ajustant exactement les données. La qua-
33.3161 6 <.0001
lité de l’ajustement du modèle se résume sous la forme d’une matrice de confu-
Modèle élémentaire GrO vs. GrN
sion évaluant les taux de bien et mal classés sur l’échantillon d’apprentissage
Estimations des rapports de cotes
Effet Valeur estimée IC de Wald à 95 % tandis que l’erreur de prévision est estimée à partir de l’échantillon test.

Page 67 sur 159 06.2014


7 Régression logistique ou modèle binomial

# erreur d’ajustement On peut s’interroger sur l’intérêt de la présence de la variable vmodule qui
benign malignant rend plus faible la prévision de l’erreur au sens d’Akaïke mais dont le coef-
FALSE 345 6
TRUE 13 182
ficient n’est pas significatif au sens du test du Chi-deux ; ce critère étant lié à
une qualité d’ajustement. L’erreur estimée sur l’échantillon test ne permet pas
# erreur de prévision de départager ces modèles car les matrices de transition similaires conduisent
benign malignant à la même estimation du taux d’erreur de 11,5% tandis que la même erreur est
FALSE 84 5
TRUE 2 46
de 13,2% pour le modèle MOCAGE. Un modèle de régression logistique fai-
sant intervenir les interactions d’ordre 2 et optimisé par algorithme descendant
aboutit à une erreur de 10,6% tandis que le modèle quantitatif de régression
Le taux d’erreur apparent estimé sur l’échantillon d’apprentissage est de
quadratique du chapitre précédent conduit à une erreur de 10,1% avec le même
3,5% (0% avec le modèle complet) tandis que le taux d’erreur estimé sans biais
protocole et les mêmes échantillons d’apprentissage et de test.
sur l’échantillon test est de 5,1% (5,8 avec le modèle complet). Ces estimations
demanderont à être affinées afin de comparer les méthodes entre elles. Matrices de confusion de l’échantillon test pour différents modèles :
0 1 0 1 0 1 0 1

5.4 Pic d’ozone FALSE 163 19


TRUE 5 21
FALSE 162 18
TRUE 6 22
FALSE 163 17
TRUE 5 23
FALSE 160
TRUE 8
13
27
logistique sans vmodule avec vmodule avec interactions quantitatif

Plutôt que de prévoir la concentration de l’ozone puis un dépassement éven-


tuel d’un seuil, il pourrait être plus efficace de prévoir directement ce dépas- Notons que les erreurs ne sont pas "symétriques" et sont affectées du même
sement en modélisant la variable binaire associée. Attention toutefois, ces dé- biais : tous ces modèles "oublient" systématiquement plus de dépassements de
passements étant relativement peu nombreux (17%), il serait nécessaire d’en seuils qu’ils n’en prévoient à tort. Une analyse plus poussée de l’estimation
accentuer l’importance par l’introduction d’une fonction coût ou une pondé- de l’erreur de prévision est évidemment nécessaire. À ce niveau de l’étude, ce
ration spécifique. Ceci est un problème général losqu’il s’agit de prévoir des qui est le plus utile au météorologue, c’est l’analyse des coefficients les plus
phénomènes rares : un modèle trivial ne les prévoyant jamais ne commettrait significativement présents dans la régression quadratique, c’est-à-dire avec les
finalement qu’une erreur relative faible. Ceci revient à demander au spécialiste interactions. Ils fournissent des indications précieuses sur les faiblesses ou in-
de quantifier le risque de prévoir un dépassement du seuil à tort par rapport à suffisances de leur modèle physique.
celui de ne pas prévoir ce dépassement à tort. Le premier à des conséquences
économiques et sur le confort des usagers par des limitations de trafic tandis 5.5 Données bancaires
que le 2ème a des conséquences sur l’environnement et la santé de certaines
populations. Ce n’est plus un problème "statistique". Il s’agit de modéliser une variable binaire représentant la possession ou non
de la carte visa premier en fonction du comportement bancaire d’un client. Cet
La recherche descendante d’un meilleur modèle au sens du critère d’Akaïke exemple est typique de la construction d’un score d’appétence en marketing
conduit au résultat ci-dessous. quantitatif. Comme dans l’exemple précédent, la possession de ce type de pro-
duit est rare aussi, un échantillon spécifique, non représentatif, a été construit
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 831 744.34
en sur-représentant cette possession.
O3_pr 1 132.89 830 611.46 9.576e-31 Plusieurs stratégies peuvent être mises en œuvre sur ces données selon les
vmodule 1 2.42 829 609.04 0.12
s_rmh2o 1 33.71 828 575.33 6.386e-09
transformations et codages réalisés sur les variables qualitatives. Elles sont ex-
station 4 16.59 824 558.74 2.324e-03 plorées dans le scénario afférent. La stratégie adoptée ici consiste à rechercher
TEMPE 1 129.39 823 429.35 5.580e-30 un “meilleur” modèle à l’aide de la procédure SAS/STAT logistic en as-

Page 68 sur 159 06.2014


8 Régression logistique ou modèle binomial

sociation avec l’un des trois algorithmes de sélection (forward, backward ou


stepwise).
La sélection de variables ainsi retenue est ensuite utilisée avec la procédure
genmod aux sorties plus explicites qui est également mise en œuvre dans le
module SAS Enterprise Miner. Le taux apparent d’erreur est évalué à partir du
même échantillon d’apprentissage et donc de manière nécessairement biaisée
par optimisme. Il mesure la qualité d’ajustement du modèle illustrée par la
matrice de confusion de l’échantillon ci-dessous associé à un taux d’erreur de
11,5%.

YVAR1(CARVPR) PREDY
Frequency|
Percent | 0| 1| Total
---------+--------+--------+
0 | 659 | 53 | 712
| 61.65 | 4.96 | 66.60
---------+--------+--------+
1 | 70 | 287 | 357
| 6.55 | 26.85 | 33.40
---------+--------+--------+
Total 729 340 1069
68.19 31.81 100.00

Il est notable, sur cet exemple (voir le scénario sur ces données), de trou-
ver un bien meilleur résultat (meilleure prévision de 11.5% au lieu de 16%)
lorsque les variables quantitatives sont découpées en classes et donc rendues
qualitatives. Intuitivement, nous pourrions penser que découper des variables
quantitatives en classes conduit à une “perte d’information” et donc à un moins
bon modèle. Cette intuition est fausse sur cet exemple, le découpage en classe
conduit en fait à un modèle plus flexible (plus de paramètres) fonctionnant
comme une approximation rudimentaire par fonctions étagées de transforma- F IGURE 2 – Données bancaires : estimation sur l’échantillon test de la courbe
tions non linéaires des variables explicatives. Plus flexible (approximativement ROC associée à la régression logistique.
non-linéaire) mais sans être trop complexe, le modèle obtenu fournit, sur ce
exemple, de meilleures prévisions et donc un meilleur score.
Dans ce type d’application, il est très classique d’estimer la courbe ROC sur
l’échantillon test afin de calibrer le seuil en fontion des objectifs du service
marketing plutôt que de le laisser par défaut à 0, 5.

Page 69 sur 159 06.2014


1 Apprentissage non paramétrique en régression

Apprentissage non paramétrique en 2 Estimation par des polynômes par mor-


ceaux.
régression
Dans ce chapitre, on suppose que les Xi appartiennent à un compact de R,
que l’on peut supposer égal à [0, 1].
Résumé
2.1 Estimation par des constantes par morceaux
Différentes méthodes d’estimation non paramétriques en régression
sont présentées. Tout d’abord les plus classiques : estimation par des On peut estimer la fonction f par une fonction constante par morceaux sur
polynômes, estimation sur des bases de splines, estimateurs à noyau une partition de [0, 1]. (Ces estimateurs sont les analogues en régression des
et par projection sur des bases orthonormées (Fourier, ondelettes). estimateurs par histogramme en densité, on les appelle régressogrammes).
Des contrôles du risque quadratique et des calculs de vitesses de On découpe [0, 1] en D intervalles de même taille :
convergences sont effectués. Nous présentons également les modèles
additifs généralisés ainsi que les arbres de régression CART et la Ik,D = 1]k/D,(k+1)/D] , k = 0, . . . , D − 1.
méthode KRLS (kernel regression least square).
Il est naturel d’estimer la fonction f sur l’intervalle Ik,D par la moyenne des
Retour au plan du cours valeurs de Yi qui sont telles que Xi ∈ Ik,D , soit pour tout x ∈ Ik,D , on pose

1 Introduction
P
ˆ i,Xi ∈Ik,D Yi
fD (x) =
]{i, Xi ∈ Ik,D }
On se place dans le cadre d’un modèle de régression :
si ]{i, Xi ∈ Ik,D } 6= 0 et
Yi = f (X i ) + εi , i = 1, . . . n.
fˆD (x) = 0 si ]{i, Xi ∈ Ik,D } = 0.
Nous supposerons que les variables X i appartiennent à Rd , les Yi sont réelles.
• Soit les X i sont déterministes, et nous supposerons les variables εi sont On peut aussi écrire fˆ (x) sous la forme
D
i.i.d., centrées, de variance σ 2 .
Pn
ˆ Yi 1Xi ∈Ik,D
• Soit les X i sont aléatoires et nous supposerons les variables εi indépen- fD (x) = Pi=1 n .
i=1 1Xi ∈Ik,D
dantes des X i , i.i.d., centrées, de variance σ 2 .
On suppose dans la suite que D < n, si pour tout i, Xi = i/n, ceci entraîne
En l’absence de toute hypothèse sur la fonction de régression f , nous que pour tout k, ]{i, Xi ∈ Ik,D } 6= 0.
sommes dans un cadre non paramétrique. Nous allons proposer plusieurs types
Cet estimateur correspond à l’estimateur des moindres carrés de f sur le
de méthodes d’apprentissage pour la fonction f : l’ estimation par des splines,
modèle paramétrique des fonctions constantes par morceaux sur les intervalles
les estimateurs à noyaux et les estimateurs par projection sur des bases or-
I :
thonormées, notamment des bases d’ondelettes. Nous verrons également une k,D D
méthode qui permet de contourner le fléau de la dimension dans le cas des
X
SD = {f (x) = ak 1x∈Ik,D }.
modèles additifs, enfin nous introduirons les arbres CART. k=1

Page 70 sur 159 06.2014


2 Apprentissage non paramétrique en régression

En effet, si on cherche à minimiser • Si D est de l’ordre de n, on a un seul point Xi par intervalle Ik,D et
!2 on estime f par Yi sur chaque intervalle Ik,D . On a une fonction très
n D D
X X X X irrégulière, qui reproduit simplement les observations. On fait alors du
h(a1 , . . . , aD ) = Yi − ak 1Xi ∈Ik,D = (Yi − ak )2 , sur-ajustement.
i=1 k=1 k=1 i,Xi ∈Ik,D
(1) • Si D = 1, on estime f sur [0, 1] par la moyenne de toutes les observations
la minimisation est obtenue pour Yi . Si f est très loin d’être une fonction constante, l’estimateur sera mal
P
Yi ajusté.
i,Xi ∈Il,D
âl = , ∀l.
]{i, Xi ∈ Il,D } Il faut donc trouver un bon compromis entre ces deux situations extrêmes
pour le choix de D.
2.2 Polynômes par morceaux
2.4 Performances de l’estimateur.
L’estimation par des polynômes par morceaux de degré m sur la partition
définie par les intervalles Ik,D , 1 ≤ k ≤ D correspond à la minimisation du Nous allons majorer le risque quadratique de l’estimateur, pour un choix
critère : convenable de D, dans le cas où la fonction de régression f est Lipschitzienne :
!2 on suppose que f est dans la classe de fonctions
Xn XD
Yi − (ak,0 + ak,1 Xi + . . . + ak,m Xim )1Xi ∈Ik,D S1,R = {f ∈ L2 ([0, 1]), ∀x, y ∈ [0, 1], |f (x) − f (y)| ≤ R|x − y|}.
i=1 k=1
D
X X T HÉORÈME 1. — Dans le modèle
= (Yi − ak,0 − ak,1 Xi − . . . − ak,m Xim )2 .
i
k=1 i,Xi ∈Ik,D Yi = f ( ) + εi , i = 1, . . . , n,
n
Sur tout intervalle Ik,D , on ajuste un polynôme de degré m, par la méthode l’estimateur
Pn
des moindres carrés en minimisant le critère : Yi 1Xi ∈Ik,D
fˆD (x) = Pi=1
n ,
i=1 1Xi ∈Ik,D
X
(Yi − ak,0 − ak,1 Xi − . . . − ak,m Xim )2 .
i,X ∈I
avec
i k,D
D = D(n) = [(nR2 )1/3 ]
Il s’agit simplement d’un modèle linéaire en les paramètres (ak,0 , . . . , ak,m ), vérifie
il y a donc une solution explicite. Le problème du choix des paramètres D et 2
sup Ef [kfˆD − f k22 ] ≤ C(σ)R 3 n− 3 .
2

m se pose. f ∈S1,R

2.3 Ajustement des paramètres Bien entendu, ce résultat est purement théorique, car en pratique, on ne sait pas
Revenons au cas de l’estimation par des constantes par morceaux, et consi- si la fonction f appartient à la classe S1,R . Nous verrons à la Section 10 des
dérons le problème du choix du paramètre D. On peut alors distinguer deux méthodes pratiques de choix de D par validation croisée.
cas extrêmes : Démonstration. —

Page 71 sur 159 06.2014


3 Apprentissage non paramétrique en régression

• Calcul de l’espérance Puisque Xi = i/n, on remarque aisément que ]{i, Xi ∈ Ik,D } ≥ [n/D] ≥
Pour tout x ∈ Ik,D , n/(2D) si on suppose D ≤ n/2. Ceci implique :
2σ 2 D
P
f (Xi )
L(fˆD , f ) ≤ + R2 D−2 .
 
i,Xi ∈Ik,D
Ef fˆD (x) = . n
]{i, Xi ∈ Ik,D }
P Il reste à choisir D pour optimiser ce risque quadratique. En posant
i,Xi ∈Ik,D (f (Xi ) − f (x))
 
Ef fˆD (x) − f (x) = . D = [(nR2 )1/3 ],
]{i, Xi ∈ Ik,D }
Si on fait l’hypothèse que f ∈ S1,R alors pour x et Xi dans le même et on obtient 2 2
intervalle Ik,D , |x − Xi | ≤ 1/D, ce qui implique |f (x) − f (Xi )| ≤ L(fˆD , f ) ≤ C(σ)R 3 n− 3 .
RD−1 . Ainsi
  R
|Biais(fˆD (x))| = |Ef fˆD (x) − f (x)| ≤ .
D 3 Estimation sur des bases de splines
• Calcul de la variance
Nous supposons ici que les Xi appartiennent R. Les estimateurs de la
Var(fˆD (x)) = Ef [(fˆD (x) − Ef (fˆD (x)))2 ] section précédente ne sont pas continus, pour obtenir des estimateurs qui sont
σ2 des polynômes par morceaux et qui ont des propriétés de régularité, on utilise
= . les bases de splines.
]{i, Xi ∈ Ik,D }
On utilise comme critère pour mesurer les performances de notre estimateur
le risque L2 ([0, 1], dx) c’est-à-dire 3.1 Splines linéaires et cubiques
Z 1
L(fD , f ) = Ef [ (fˆD (x) − f (x))2 dx].
ˆ
0 f (x) = β0 + β1 x + β2 (x − a)+ + β3 (x − b)+ + β4 (x − c)+ + . . . +
On a aussi où 0 < a < b < c . . . sont les points qui déterminent les intervalles de la
Z 1
L(fˆD , f ) = Ef [(fˆD (x) − f (x))2 ]dx. partition (appelés les nœuds).
0
Or,
f (x) = β0 + β1 x si x ≤ a
 2
Ef [(fˆD (x) − f (x))2 ] = Ef [ fˆD (x) − Ef (fˆD (x)) + Ef (fˆD (x)) − f (x) ] = β0 + β1 x + β2 (x − a)+ si a ≤ x ≤ b
= β0 + β1 x + β2 (x − a)+ + β3 (x − b)+ si b ≤ x ≤ c
= Ef [(fˆD (x) − Ef (fˆD (x)))2 ] + [Ef (fˆD (x)) − f (x)]2
La fonction f est continue, si on veut imposer plus de régularité (par exemple
= Var(fˆD (x)) + Biais2 (fˆD (x))
f de classe C 2 ), on utilise des splines cubiques.
σ2
≤ + R2 D−2 . f (x) = β0 +β1 x+β2 x2 +β3 x3 +β4 (x−a)3+ +β5 (x−b)3+ +β4 (x−c)3+ +. . . +
]{i, Xi ∈ Ik,D }

Page 72 sur 159 06.2014


4 Apprentissage non paramétrique en régression

La fonction (x − a)3 s’annule ainsi que ses dérivées d’ordre 1 et 2 en a donc 3.2 Méthodes de régularisation
f est de classe C 2 .
Pour éviter les problèmes de bords, on impose souvent des contraintes supplé- On se place dans un modèle de régression : Yi = f (Xi ) + i , 1 ≤ i ≤ n.
mentaires aux splines cubiques, notamment la linéarité de la fonction sur les On Pn parmi les fonctions f splines naturels de nœuds en les Xi
minimise
deux intervalles correspondant aux extrémités. (f (x) = k=1 θk Nk (x)) le critère pénalisé :
On se place sur [0, 1]. ξ0 = 0 < ξ1 < . . . < ξK < 1. n Z 1
X
C(f, λ) = (Yi − f (Xi ))2 + λ (f 00 (t))2 dt,
K 0
X i=1
f (x) = β0 + β1 x + β2 x2 + β3 x3 + θk (x − ξk )3+ .
k=1 R1
où λ > 0. En notant Ωl,k = 0 Nk00 (x)Nl00 (x)dx et Ni,j = Nj (Xi ), le critère
à minimiser est
On impose f 00 (0) = f (3) (0) = 0, f 00 (ξK ) = f (3) (ξK ) = 0. On en déduit :
C(θ, λ) = kY − N θk2 + λθ∗ Ωθ.
K K
La solution est :
X X
β2 = β3 = 0, θk (ξK − ξk ) = 0, θk = 0.
k=1 k=1 θ̂ = (N ∗ N + λΩ)−1 N ∗ Y

et
K
X n
f (x) = β0 + β1 x + θk [(x − ξk )3+ − (x − ξK )3+ ] fˆ(x) =
X
θ̂k Nk (x). (2)
k=1
k=1
K−1
X (x − ξk )3+ − (x − ξK )3+
= β0 + β1 x + θk (ξK − ξk )[ ]
(ξK − ξk )
k=1
T HÉORÈME 2. — On note
(x−ξk )3+ −(x−ξK )3+ PK−1
On pose γk = θk (ξK − ξk ) et dk (x) = (ξK −ξk ) . k=1 γk = 0. Z 1
F = {f, C 2 ([0, 1]), f 002 (t)dt < +∞}.
0
K−2
X
f (x) = β0 + β1 x + γk (dk (x) − dK−1 (x)). On se donne n ≥ 2, 0 < X1 < . . . < Xn < 1 et (y1 , . . . , yn ) ∈ Rn . Pour
k=1
f ∈ F, et λ > 0, on note
On obtient la base de splines naturels : n
X Z 1
C(f, λ) = (Yi − f (Xi ))2 + λ (f 00 (t))2 dt.
N1 (x) = 1, N2 (x) = x, ∀1 ≤ k ≤ K − 2, Nk+2 (x) = dk (x) − dK−1 (x). i=1 0

On doit choisir la position et le nombre de nœuds. Pour tout λ > 0, il existe un unique minimiseur dans F de C(f, λ), qui est la
fonction définie en (2).

Page 73 sur 159 06.2014


5 Apprentissage non paramétrique en régression

4 Estimateurs à noyau
Remarque : on utilise plus généralement des noyaux réguliers, ce qui
On considère le modèle permet d’obtenir des estimateurs réguliers.
Exemples de noyaux en dimension 1 :
Yi = f (X i ) + εi , i = 1, . . . , n (3) -Le noyau triangulaire K(x) = (1 − |x|)1
|x|≤1 .
1 −x2 /2
où les X i appartiennent à Rd , les εi sont i.i.d. centrées de variance σ 2 , les X i -Le noyau gaussien K(x) = 2π e .

3 2
et les εi sont indépendantes. -Le noyau parabolique K(x) = 4 (1 − x )1|x|≤1 .

4.1 Définition des estimateurs a noyau.


d
4.2 Propriétés des estimateurs à noyau.
RD ÉFINITION
2
R On appelle noyau une fonction K : R → R telle que
3. —
K < +∞ et K = 1. Pour simplifier les calculs, on se place dans un modèle où les Xi sont aléa-
toires, de loi uniforme sur [0, 1], et on considère l’estimateur défini en (4).
D ÉFINITION 4. — On se donne un réel h > 0 (appelé fenêtre) et un noyau K.
On appelle estimateur à noyau de f dans le modèle (3) associé au noyau K et T HÉORÈME 5. — On suppose que f ∈ Σ(β, R) définie par
à la fenêtre h la fonction fˆh définie par : n
l (l) (l) α
o
Σ(β, R) = f ∈ C ([0, 1]), ∀x, y ∈ [0, 1], |f (x) − f (y)| ≤ R|x − y| ,
Pn x−X i

Yi K
fˆh (x) = Pi=1n
h
x−X i
 . où β = l + α avec l entier et α ∈]0, 1].
i=1 K h
R les hypothèses suivantes sur K :
On fait
d H1 R uj K(u)du = 0 pour j = 1, . . . , l.
Dans le cas où les X i sont de loi uniforme sur [0, 1] , on trouve aussi la défi-
H2 |u|β |K(u)|du < +∞.
nition suivante :
En choisissant h de sorte que h ≈ (nR2 )−1/(1+2β) , on obtient, ∀f ∈ Σ(β, R),
n  
1 X x − Xi
fˆh (x) =
Z 1 
Yi K . (4) 2 2β
d
nh i=1 h Ef (fh (x) − f (x)) ≤ C(β, σ, ksk∞ )R 1+2β n− 1+2β .
ˆ 2
0

Si par exemple d = 1 et K(u) = (1/2)1|u|≤1 , fˆh (x) est la moyenne des Yi Démonstration. —
tels que |X i − x| ≤ h. Il s’agit d’un estimateur constant par morceaux.
Cas extrêmes : Calcul du biais : en notant Kh = (1/h)K(./h),
Supposons d = 1 et les Xi équirépartis sur [0, 1]. Z 1
-Si h = 1/n, l’estimateur est très irrégulier et reproduit simplement les ˆ
Ef (fh (x)) = f (y)Kh (x − y)dy = f ? Kh (x).
observations. 0
n
-Si h ≥ 1, pour tout x, fˆh (x) = i=1 Yi /n.
P
R
On a alors, puisque K = 1,
Il faut donc, ici encore chercher une valeur de h qui réalise un bon
Z
E (
f h
ˆ
f (x)) − f (x) = (f (x − uh) − f (x))K(u)du.
compromis entre le terme de biais et le terme de variance.

Page 74 sur 159 06.2014


6 Apprentissage non paramétrique en régression

On utilise un développement de Taylor :

(uh)2 (−uh)l
f (x − uh) = f (x) − f 0 (x)uh + f 00 (x) + . . . + f (l) (x − τ uh) 1 2 x−y
Z
2 l! E[ε2i Kh2 (x − Xi )] = σ2 K ( )dy
h2 h
σ2
Z
avec 0 ≤ τ ≤ 1. En utilisant l’hypothèse H1,
= K 2.
h
(−uh)l
Z
Ef (fˆh (x)) − f (x) = f (l) (x − τ uh) K(u)du Il en résulte que
l! 1
Z
(−uh)l V ar(fˆh (x)) ≤ C(kf k∞ , σ) .
= (f (l) (x − τ uh) − f (l) (x)) K(u)du. nh
l! Puisque

Puisque f ∈ Σ(β, R), et en utilisant l’hypothèse H2, on obtient


Z 1  Z 1  
Ef ˆ 2
(fh (x) − f (x)) dx = Biais2 (fˆh (x)) + V ar(fˆh (x)) dx,
Z 0 0
1
|Ef (fˆh (x)) − f (x)| ≤ Rτ α hβ |u|β |K(u)|du.
l! on obtient
Z 1   
1
Calcul de la variance : Ef (fˆh (x) − f (x))2 dx ≤ C(β, σ, kf k∞ ) R2 h2β + .
0 nh
n
1 X En choisissant h de sorte que
V ar(fˆh (x)) = V ar(Yi Kh (x − Xi )).
n2 i=1
1
n R2 h2β ≈ ,
1 X nh
≤ Es [Yi2 Kh2 (x − Xi )]
n2 i=1
c’est-à-dire h ≈ (nR2 )−1/(1+2β) , on obtient le résultat souhaité.
n
1 X
= E[f 2 (Xi )Kh2 (x − Xi ) + ε2i Kh2 (x − Xi )].
n2 i=1 5 Estimation ponctuelle par des polynômes
locaux
De plus,
Dans la section 2, nous nous étions donné une partition à priori, elle ne
x−y
Z
2 1 dépendait pas des observations. L’estimation de la fonction de régression en
E[f (Xi )Kh2 (x − Xi )] = f (y) 2 K 2 (
2
)dy
h h un point x était construite à partir des observations pour lesquelles Xi était
Z
1 dans le même intervalle de la partition que x, ce qui conduit à des estimateurs
= f 2 (x − uh) K 2 (u)du
h irréguliers. Une idée naturelle est d’estimer la fonction de régression en un
point x à partir des observations pour lesquelles Xi est "proche" de x. Plus
Z
1
≤ kf k2∞ K 2. généralement, on introduit une fonction de poids (wi (x)) construite à partir
h
Page 75 sur 159 06.2014
7 Apprentissage non paramétrique en régression

d’un noyau : wi (x) = K((Xi − x)/h) qui va attribuer un poids plus important régression linéaire locale. On peut expliciter la valeur de â0 (x) à partir d’un
aux observations pour lesquelles Xi est "proche" de x, et on minimise (en a) critère des moindres carrés pondérés : soit Xx la matrice
la somme des carrés pondérée : −x)p 
1 X1 − x . . . (X1p!

n (X2 −x)p 
 1 X2 − x . . .
X 
wi (x)(Yi − a)2 . p! 
Xx =  . .
 
i=1
. . .
 
 . . . . 
La solution est donnée par (Xn −x)p
1 Xn − x . . . p!
Pn
wi (x)Yi
a = fˆn (x) = Pi=1n , (5) Soit Wx la matrice diagonale de i-ème élément sur la diagonale wi (x). On a
i=1 wi (x) alors :
n
ce qui correspond à l’estimateur à noyau de la fonction de régression ! On peut X w (x)(Y −a −a (X −x)−. . .− ap (X −x)p )2 = (Y −X a)∗ W (Y −X a).
i i 0 1 i i x x x
généraliser la formule ci-dessus en remplaçant la constante a par un polynôme i=1 p!
de degré p : on se donne un point x en lequel on souhaite estimer la fonction
de régression. Pour u dans un voisinage de x, on considère le polynôme Minimiser l’expression ci-dessus conduit à l’estimateur des moindres carrés
pondérés :
ap p â(x) = (Xx∗ Wx Xx )−1 Xx∗ Wx Y,
Px (u, a) = a0 + a1 (u − x) + . . . + (u − x) .
p!
et l’estimateur par polynômes locaux au point x correspond à fˆn (x) = â0 (x),
On cherche à estimer la fonction de régression au voisinage de x par le poly- c’est-à-dire au produit scalaire du vecteur Y avec la première ligne de la ma-
nôme Px (u, a) où le vecteur a = (a0 , . . . ap ) est obtenu par minimisation de trice (Xx∗ Wx Xx )−1 Xx∗ Wx . On obtient le théorème suivant :
la somme des carrés pondérée :
T HÉORÈME 6. — L’estimateur par polynômes locaux au point x est
n
X ap n
wi (x)(Yi − a0 − a1 (Xi − x) − . . . − (Xi − x)p )2 . ˆn (x) =
X
i=1
p! f li (x)Yi
i=1
La solution obtenue est le vecteur â(x) = (â0 (x), . . . âp (x)), l’estimateur local où l(x)∗ = (l (x), . . . , l (x)),
1 n
de la fonction de régression f est
l(x)∗ = e∗1 (Xx∗ Wx Xx )−1 Xx∗ Wx ,
âp (x)
fˆn (u) = â0 (x) + â1 (x)(u − x) + . . . + (u − x)p . avec e∗1 = (1, 0, . . . , 0).
p!
n
Au point x, où l’on souhaite réaliser l’estimation, on obtient : E(fˆn (x)) =
X
li (x)f (Xi )
ˆ i=1
fn (x) = â0 (x).
X n
Attention, cet estimateur ne correspond pas à celui que l’on obtient en (5), Var(fˆn (x)) = σ 2 li2 (x).
qui correspond à p = 0 (c’est l’estimateur à noyau). Si p = 1, on parle de i=1

Page 76 sur 159 06.2014


8 Apprentissage non paramétrique en régression

6 Estimateurs par projection appelé estimateur par projection.

On se place dans le modèle Exemple de la base Fourier On note (φj , j ≥ 1) la base trigonomé-
trique de L2 ([0, 1]) :
Yi = f (Xi ) + εi , i = 1, . . . , n. (6)
φ1 (x) = 1[0,1] ,
2
Soit (φj , j ≥ 1) une base orthonormée de L ([0, 1]). On se donne D ≥ 1 et √
φ2k (x) = 2 cos(2πkx) ∀k ≥ 1
on pose √
SD = Vect{φ1 , . . . , φD }. φ2k+1 (x) = 2 sin(2πkx) ∀k ≥ 1.
On obtient pour tout D ≥ 1, l’estimateur
On note fD la projection orthogonale de f sur SD dans L2 ([0, 1]) :
D n
1 XX
D fˆD (x) = Yi φj (Xi )φj (x).
n j=1 i=1
X
fD = hf, φj iφj ,
j=1
Nous allons énoncer les performances de l’estimateur, lorsque la fonction de
où régression f appartient à une classe de fonctions périodiques, régulières.
Z 1
θj = hf, φj i = f (x)φj (x)dx. D ÉFINITION 7. — Soit L > 0 et β = l + α avec l ∈ N et α ∈]0, 1]. On définit
0 la classe Σper (β, R) par
Il est naturel d’estimer θj par n
Σper (β, R) = f ∈ C l ([0, 1]), ∀j = 0, . . . , l, f (j) (0) = f (j) (1),
n
1X o
θ̂j = Yi φj (Xi ). ∀x, y ∈ [0, 1], |f (l) (x) − f (l) (y)| ≤ R|x − y|α .
n i=1
T HÉORÈME 8. — Dans le modèle
En effet, si les Xi sont déterministes,
i
n Yi = f ( ) + εi , i = 1, . . . , n,
1X n
E(θ̂j ) = f (Xi )φj (Xi ),
n i=1 où les εi sont i.i.d. de loi N (0, σ 2 ), l’estimateur fˆD défini pour tout x ∈ [0, 1]
par :
D X n
et si f φj est régulière et les Xi équirépartis sur [0, 1], ceci est proche de θj . Si
ˆD (x) = 1
X
les Xi sont aléatoires, de loi uniforme sur [0, 1], on a f Yi φj (Xi )φj (x)
n j=1 i=1
E(θ̂j ) = θj . avec D = [(nR2 )1/(1+2β) ], vérifie pour tout β > 1, R > 0,
  −2 2β
On introduit alors l’estimateur sup Ef kfˆD − f k22 ≤ C(β, σ)R 1+2β n 1+2β .
f ∈Σper (β,R)
D
X
fˆD (x) = θ̂j φj (x), Nous introduisons, dans le chapitre suivant, la définition des bases d’onde-
j=1 lettes, qui sont utilisées en particulier si la fonction à estimer est très irrégulière.

Page 77 sur 159 06.2014


9 Apprentissage non paramétrique en régression

R1
7 Bases d’ondelettes et estimation par α = 0 f (x)φ(x)dx est appelé "coefficient d’échelle" et les βj,k =
R1
seuillage 0
f (x)ψj,k (x)dx sont appelés "détails". On appelle approximation de f au
niveau de résolution J la fonction
Dans ce chapitre, on s’intéresse à l’estimation de fonctions spatialement in-
homogènes, c’est-à-dire qui peuvent être très régulières dans certaines zones X 2X
J−1 j
−1
puis très irrégulières (présentant des pics) dans certaines parties de l’espace. fJ = αφ(x) + βj,k ψj,k (x).
Les bases d’ondelettes sont des bases orthonormées, qui sont bien adaptées j=0 k=0
pour l’estimation de fonctions de ce type. Nous supposerons ici que les Xi
appartiennent à [0, 1], mais nous traiterons également en TP des exemples en
dimension 2 dans le cadre du traitement d’images. Cette expression comporte 2J coefficients. Comme l’espace engendré par les
fonctions (φ, ψj,k , 0 ≤ j ≤ J − 1, 0 ≤ k ≤ 2j − 1) est l’espace des fonc-
7.1 Bases d’ondelettes tions constantes par morceaux sur les intervalles de longueur 1/2J , c’est-à-dire
l’espace engendré par les fonctions (φJ,k , 0 ≤ k ≤ 2J − 1), on a aussi
Base de Haar
La base de Haar est la base d’ondelettes la plus simple. L’ondelette père (ou J
2X −1
fonction d’échelle) est définie par fJ = αJ,k φJ,k (x),
φ(x) = 1 si x ∈ [0, 1[, k=0

= 0 sinon. R1
où αJ,k = 0
f (x)φJ,k (x)dx.
L’ondelette mère (ou fonction d’ondelette) est définie par
ψ(x) = −1 si x ∈ [0, 1/2], La base de Haar est simple à définir, les fonctions sont à support com-
= 1 si x ∈]1/2, 1]. pact, néanmoins cette base fournit des approximations qui ne sont pas
régulières. Il existe d’autres bases d’ondelettes à la fois à support compact
Pour tout j ∈ N, k ∈ N, on pose et régulières, par exemple les ondelettes de Daubechies (voir Daubechies
(1992) : Ten Lectures on wavelets).
φj,k (x) = 2j/2 φ(2j x − k), ψj,k (x) = 2j/2 ψ(2j x − k).

7.2 Estimation d’une fonction de régression avec des


T HÉORÈME 9. — Les fonctions (φ, ψj,k , j ∈ N, k ∈ {0, . . . , 2j − 1}) forment ondelettes
une base orthonormée de L2 ([0, 1]).
Les ondelettes sont bien adaptées pour l’analyse des signaux recueillis sur
Il résulte de ce théorème que l’on peut développer une fonction de L2 ([0, 1]) une grille régulière, dyadique. On les utilise en traitement du signal et de
dans cette base : l’image. On considère le modèle
j
∞ 2X
X −1
f (x) = αφ(x) + βj,k ψj,k (x). k
j=0 k=0
Yk = f ( ) + k , k = 1, . . . , N = 2J ,
N
Page 78 sur 159 06.2014
10 Apprentissage non paramétrique en régression

On considère les N = 2J premières fonctions d’une base d’ondelettes sur Débruitage par approximation linéaire :
[0, 1] : (φ, ψj,k , 0 ≤ j ≤ J − 1, 0 ≤ k ≤ 2j − 1). On note W la matrice N ∗ N
On approxime la fonction de régression f par projection orthogonale de f

φ(1/N ) ψ0,0 (1/N ) . . . ψJ−1,2J −1 (1/N )
 sur VJ0 :
j
 . . . .  JX0 −1 2X −1
1  
f = αφ + βj,k ψj,k ,
W = √  φ(i/N ) ψ0,0 (i/N ) . . . ψJ−1,2J −1 (i/N ) 
  J0
N . . . .  j=0 k=0

φ(N/N ) ψ0,0 (N/N ) . . . ψJ−1,2J −1 (N/N )


ce qui correspond à regarder seulement les 2J0 premiers coefficients d’onde-
J0
Dans le cas de la base de Haar, W est une matrice orthogonale (la base est lettes. Pour estimer fJ0 , dans θ̂, on ne garde que les 2 premiers coefficients,
orthonormée pour le produit scalaire discret). On note W ∗ la transposée de W les autres sont annulés, cela forme le vecteur noté θ̂J0 , puis on reconstruit le
et signal débruité :

θ̂ = W Y, ŶJ0 = (W ∗ )−1 θ̂J0 .

la tranformée en ondelettes du vecteur Y . La fonction de régression f est alors estimée par


Il s’agit de l’estimateur des moindres carrés de θ dans le modèle Y = W θ + ε
si W est orthogonale. 1
fˆJ0 (x) = √ (φ(x), ψ0,0 (x), . . . , ψJ−1,2J −1 (x))θ̂J0 .
N
N N
1 X l 1 X l l
θ̂j,k = √ ψj,k ( )Yl = √ ψj,k ( )f ( ) + ˜l JX j
0 −1 2X −1
N l=1 N N l=1 N N
fˆJ (x) = α̂φ(x) + β̂j,k ψj,k (x)
√ 0
≈ N βj,k + ˜l j=0 k=0

où où θ̂J0 = N (α̂, β̂j,k , j = 0, . . . J0 − 1, k = 0, . . . , 2j − 1, 0, . . . , 0). Il faut
choisir le paramètre J0 de manière optimale.
N
1 X l
˜l = √ ψj,k ( )l Débruitage par approximation non linéaire via le seuillage :
N l=1 N
N
La méthode de seuillage consiste à minimiser en θ ∈ RN le critère pénalisé
2 X
σ 2 l avec une pénalité de type l1 :
∼ N (0, ψj,k ( )).
N N
l=1
C(θ) = kY − W θk2 + 2λkθk1 ,
2 PN
Dans le cas de la base de Haar, σN 2 l 2
l=1 ψj,k ( N ) = σ . On peut reconstruire PN
le signal à partir de sa transformée en ondelettes par la transformation inverse : avec kθk1 = i=1 |θi |. Nous supposerons ici que la matrice W est orthogo-
nale, ce qui permet de trouver une solution explicite.
Y = (W ∗ )−1 θ̂.
C(θ) = kY k2 + kW θk2 − 2hY, W θi + 2λkθk1 ,
Y = W θ̂dans le cas de la base de Haar. = kY k2 + kθk2 − 2θ∗ W ∗ Y + 2λkθk1 .

Page 79 sur 159 06.2014


11 Apprentissage non paramétrique en régression


Minimiser C(θ) équivaut à minimiser en θ En notant θ̃ = N (α̃, β̃j,k , j = 0, . . . , J − 1, k = 0, . . . 2j−1 ), on obtient
C 0 (θ) = kθk2 − 2θ∗ W ∗ Y + 2λkθk1 J−1
X 2X
j
−1
N
X N
X N
X fˆN (x) = α̃φ(x) + β̃j,k ψj,k (x).
= −2 θi θ̂i + 2λ |θi | + θi2 . j=0 k=0
i=1 i=1 i=1
En pratique, il faut choisir le seuil λ, on prend généralement λ =
Ceci est minimal si pour tout i, θi est du même signe que θ̂i . On a donc θi θ̂i = p
σ 2 log(N ).
|θi ||θˆi |.
N N N N
1 X l l
θ̂ = W ∗ Y = √ ψj,k ( )f ( ) + ˜l
X X X
0
C (θ) = −2 |θi ||θ̂i | + 2λ |θi | + θi2 N l=1 N N
i=1 i=1 i=1
N 
X N
2 X avec
= |θi | − (|θ̂i | − λ) − (|θ̂i | − λ)2 . ˜ = W ∗  ∼ NN (0, σ 2 IN ).
i=1 i=1
On peut montrer que
Minimiser ce critère en θ équivaut à minimiser
 
p
N 
X 2 E sup |˜
i | ≈σ 2 log(N ).
|θi | − (|θ̂i | − λ) . 1≤i≤N
i=1 p
Les coefficients qui sont inférieurs à σ 2 log(N ) sont considérés comme du
La solution est donc :
bruit et sont annulés. Ces méthodes de seuillages fournissent des estimateurs
|θ̃i | = |θ̂i | − λ si |θ̂i | ≥ λ permettant d’estimer des signaux très irréguliers (notamment des fonctions
avec des pics).
= 0 si |θ̂i | ≤ λ

θ̃i = signe(θ̂i )(|θ̂i | − λ)1|θ̂i |≥λ . 8 Modèles additifs généralisés


Il s’agit du seuillage dit "doux" (soft thresholding), on applique une fonction
Les méthodes d’estimation présentées précédemment vont se heurter au
continue à θ̂i . Le seuillage dur ("soft thresholding") consiste à poser
fléau de la dimension. Sous certaines hypothèses de structure sur la fonction
θ̃i = θ̂i 1|θ̂i |≥λ . de régression, on peut contourner ce problème. Nous allons nous intéresser ici
à des fonctions de régression additives. Nous nous plaçons dans le modèle
on reconstruit le signal débruité :
Yi = f (X i ) + εi ,
Ỹ = W θ̃.
où les εi sont i.i.d. centrées de variance σ 2 , et les X i ∈ Rd . Nous supposons
La fonction de régression f est estimée par
que la fonction de régression f est additive, c’est-à-dire que
1
fˆN (x) = √ (φ(x), ψ0,0 (x), . . . , ψJ−1,2J −1 (x))θ̃. f (X i,1 , . . . , X i,d ) = α + f1 (X i,1 ) + . . . + fd (X i,d ).
N
Page 80 sur 159 06.2014
12 Apprentissage non paramétrique en régression

Pour assurer l’unicité d’une telle écriture, on impose que • fˆj minimise
Z  2
fj (xj )dxj = 0, ∀j = 1, . . . , d. n
X X Z
R Yi − α̂ − fˆk (Xi,k ) − fj (Xi,j ) + λj (fj00 )2 (xj )dxj ,
i=1 k6=j
Nous allons décrire dans ce chapitre une méthode d’estimation des compo-
santes de ce modèle additif, il s’agit des modèles GAM (Generalized Additive Pn
• fˆj := fˆj − n1 i=1 fˆj (Xi,j ).
Models). Nous supposerons que chacune des fonctions unidimensionnelles est
estimée à l’aide de Splines comme dans la section 3.2. On introduit alors le
Arrêt lorsque toutes les fonctions fˆj sont "stabilisées".
critère pénalisé :
Le même algorithme peut être utilisée avec d’autres méthodes d’ajustement
2
que les splines : estimateurs par polynômes locaux, à noyaux, par projection ..

Xn Xd
Crit(α, f1 , f2 , . . . , fp ) =  Yi − α − fj (Xi,j ) Les modèles additifs généralisés sont une extension des modèles linéaires,
i=1 j=1 les rendant plus flexibles, tout en restant facilement interprétables. Ces mo-
d Z dèles sont très largement utilisés en modélisation statistique, néanmoins, en
très grande dimension, il est difficile de les mettre en œuvre, et il sera utile de
X
00 2
+ λj (fj ) (xj )dxj ,
j=1
les combiner à un algorithme de sélection (pour réduire la dimension).

où les λj ≥ 0 sont des paramètres de régularisation. On peut montrer que la 9 Kernel Regression Least Square
solution de la minimisation de ce critère est un modèle de additif de splines
cubiques, chaque fonction fˆj étant un spline cubique de la variable xj , dont Un exemple élémentaire de machine à noyau.
les nœuds correspondent aux valeurs différentes des Xi,j , i = 1, . . . n. Pour • L’objectif est ici de présenter une méthode qui fournit des prédicteurs non
garantir l’unicité du minimiseur, on impose les contraintes linéaires.
n • Le point commun avec les méthodes présentées précédemment est qu’il
X
∀j = 1, . . . , d, fj (Xi,j ) = 0. s’agit d’une méthode de régularisation basée sur un critère des moindres
i=1 carrés pénalisés.
Pn • On note (Xi , Yi )1≤i≤n les observations, avec Xi ∈ Rp , Yi ∈ R.
Sous ces conditions, on obtient α̂ = i=1 Yi /n, et si la matrice des variables • On se donne un noyau k défini sur Rp , symétrique, semi-défini positif :
d’entrées Xi,j n’est pas singulière, on peut montrer que le critère est stric-
n
tement convexe, et admet donc un unique minimiseur. L’algorithme suivant, X
appelé algorithme de backfitting, converge vers la solution : k(x, y) = k(y, x); ci cj k(Xi , Xj ) ≥ 0.
i,j=1

Algorithme de backfitting pour les modèles GAM : • Exemples de noyaux sur Rp :


– Linéaire :
Pn k(Xi , Xj ) = Xi 0 Xj = hXi , Xj i
1. Initialisation : α̂ = i=1 Yi /n, fˆj = 0 ∀j.
2. Pour l = 1 à N iter – Polynomial :
Pour j = 1 à d k(Xi , Xj ) = (Xi 0 Xj + 1)d

Page 81 sur 159 06.2014


13 Apprentissage non paramétrique en régression

– Gaussien : • La méthode fournit des estimateurs non linéaires pour les noyaux polyno-

−kXi − Xj k 2
 miaux ou gaussiens par exemple.
k(Xi , Xj ) = exp . • Un intérêt important de la méthode précédente est la possibilité de géné-
σ2
ralisation à des prédicteurs Xi qui ne sont pas nécessairement dans Rp
• On cherche un prédicteur de la forme
mais qui peuvent être de nature complexe (graphes, séquence d’ADN ..)
n
X dès lors que l’on sait définir un noyau k(x, y) symétrique et semi-défini
f (x) = cj k(Xj , x), c ∈ Rn . positif agissant sur ces objets.
i=1
• Ceci fait appel à la théorie des RKHS Reproducing Kernel Hilbert Spaces
• On note K la matrice définie par K i,j = k(Xi , Xj ). ou Espaces de Hilbert à noyau reproduisant.
• La méthode consiste à minimiser pour f de la forme ci-dessus le critère
des moindres carrés pénalisés : 10 Arbres de régression CART
n
X
(Yi − f (Xi ))2 + λkf k2K , Les méthodes basées sur les arbres reposent sur une partition de l’espace
i=1 des variables d’entrée, puis on ajuste un modèle simple (par exemple un mo-
où dèle constant) sur chaque élément de la partition. On suppose que l’on a un
n
X échantillon de taille n : (X i , Yi )1≤i≤n avec X i ∈ Rd et Yi ∈ R. L’algo-
kf k2K = ci cj k(Xi , Xj ). rithme CART permet de définir, à partir de l’échantillon d’apprentissage, une
i,j=1 partition automatique de l’espace des variables d’entrées X i . Supposons que
• De manière équivalente, on minimise pour c ∈ Rn le critère l’espace où varient les X i soit partitionné en M régions, notées R1 , . . . RM .
On introduit la classe F des fonctions constantes par morceaux sur chacune
kY − Kck2 + λc0 Kc.
des régions :
• La solution est explicite : M
X
ĉ = (K + λIn )−1 Y. F = {f, f (x) = cm 1x∈Rm }.
m=1
• On obtient le prédicteur
L’estimateur des moindres carrés de la fonction de régression f sur la classe F
n
X minimise le critère
fˆ(x) = ĉj k(Xj , x). XM
j=1 (Yi − f (X i ))2 ,
m=1
Ŷ = Kĉ.
parmi les fonctions f ∈ F . La solution est
• Avec le noyau correspondant au produit scalaire, on retrouve un estima-
teur linéaire : M
X
0
K = XX , ĉ = (XX + λIn ) 0 −1
Y, fˆ(x) = ĉm 1x∈Rm ,
m=1
n
X
fˆ(x) = ĉj hXj , xi. où ĉm est la moyenne des observations Yi pour lesquelles X i ∈ Rm . Pour
j=1 construire la partition, CART procède de la manière suivante : étant donné

Page 82 sur 159 06.2014


14 Apprentissage non paramétrique en régression

une variable de séparation X (j) et un point de séparation s, on considère les on peut montrer qu’elle contient l’arbre Tλ .
demi-espaces
Le paramètre de régularisation λ doit à son tour être calibré pour réaliser un
R1 (j, s) = {X = (X (1) , . . . , X (d) )/X (j) ≤ s} et R2 (j, s) = {X/X (j) > s}.
bon compromis entre le biais et la variance de l’estimateur ainsi obtenu, ou de
La variable de séparation X (j) et un point de séparation s sont choisis de ma- manière équivalente entre un bon ajustement aux données et une taille pas trop
nière à résoudre importante pour l’arbre. La méthode de validation croisée, décrite en annexe,
X X peut être utilisée.
min[ (Yi − ĉ1 )2 + (Yi − ĉ2 )2 ].
j,s
i,X i ∈R1 (j,s) i,X i ∈R2 (j,s) Annexe : Choix d’un paramètre de lissage par
Ayant déterminé j et s, on partitionne les données en les deux régions corres- validation croisée
pondantes, puis on recommence la procédure de séparation sur chacune des
deux sous-régions, et ainsi de suite sur chacune des sous-régions obtenues. La Dans le cas des estimateurs à noyaux, et pour les estimateurs par polynômes
taille de l’arbre est un paramètre à ajuster, qui va gouverner la complexité du locaux, on doit choisir la fenêtre h ; pour les estimateurs constants par mor-
modèle : un arbre de trop grande taille va conduire à un sur-ajustement (trop ceaux (ou polynômes par morceaux), ainsi que pour les estimateurs par pro-
grande variance), au contraire un arbre de petite taille va mal s’ajuster à la jection, on doit choisir un paramètre D (nombre de morceaux de la partition ou
fonction de régression (biais trop élevé). Il est donc nécessaire de choisir une dimension de l’espace de projection sur lequel on réalise l’estimation), pour les
taille "optimale" de manière adaptative à partir des observations. La stratégie arbres CART, on doit choisir le paramètre λ de la procédure d’élaguage. Dans
adoptée consiste à construire un arbre de grande taille, puis à l’élaguer en intro- ce chapitre, nous allons décrire la méthode de validation croisée, qui est une
duisant un critère pénalisé. On dira que T est un sous-arbre de T0 si T peut être méthode possible pour choisir ces paramètres, ce qui correspond à sélectionner
obtenu en élaguant T0 , c’est-à-dire en réduisant le nombre de nœuds de T0 . On un estimateur dans une collection d’estimateurs.
note |T | le nombre de nœuds terminaux de l’arbre T et Rm , m = 1, . . . |T |, la Notons λ le paramètre à choisir. Soit fˆn,λ l’estimateur de la fonction de
partition correspondant à ces nœuds terminaux. On note Nm le nombre d’ob- régression f associé à ce paramètre λ. On considère l’erreur quadratique
servations pour lesquelles X i ∈ Rm . On a donc moyenne :
n
!
1 1X ˆ
(fn,λ (X i ) − f (X i ))2 .
X
ĉm = Yi , R(λ) = E
Nm n i=1
i,X i ∈Rm

Idéalement, on souhaiterait choisir λ de manière à minimiser R(λ), mais cette


et on introduit le critère
quantité dépend de la fonction inconnue f .
|T |
X X Une première idée est d’estimer R(λ) par l’erreur d’apprentissage :
Cλ (T ) = (Yi − ĉm )2 + λ|T |.
m=1 i,X i ∈Rm n
1X
(Yi − fˆn,λ (X i ))2 ,
Pour tout λ, on peut montrer qu’il existe un unique arbre minimal Tλ qui n i=1
minimise le critère Cλ (T ). Pour trouver l’arbre Tλ , on supprime par étapes
successives le nœud interne de l’arbre T qui réduit le moins le critère mais cette quantité sous-estime R(λ) et conduit à un sur-ajustement. Ceci est
P P 2 ˆ
m i,X i ∈Rm (Yi − ĉm ) . Ceci donne une succession de sous-arbres, dont dû au fait que l’on utilise les mêmes données pour construire l’estimateur fn,λ

Page 83 sur 159 06.2014


15 Apprentissage non paramétrique en régression

(qui est construit pour bien s’ajuster à l’échantillon d’apprentissage) et pour es- On obtient donc E(R̂(λ)) ' σ 2 + R(λ).
timer l’erreur commise par cet estimateur. Pour avoir une meilleure estimation Le calcul de R̂(λ) peut s’avérer long, mais dans certains cas, il n’est pas
du risque, on doit construire l’estimateur du risque avec des observations qui nécessaire de recalculer n fois un estimateur de la fonction de régression. Pour
n’ont pas été utilisées pour construire l’estimateur fˆn,λ . Idéalement, si on avait la plupart des méthodes traitées dans ce chapitre, l’estimateur correspond à un
assez d’observations, on pourrait les séparer en un échantillon d’apprentissage algorithme de moyennes locales, c’est-à-dire est de la forme
et un échantillon test. Ce n’est généralement pas le cas, et on souhaite utiliser
l’ensemble des données d’apprentissage pour la construction de l’estimateur. n
X
On va alors avoir recours à la validation croisée. On partitionne l’échantillon fˆn,λ (x) = Yj lj (x),
d’apprentissage en V blocs, notés B1 , . . . BV , de tailles à peu près identiques. j=1
(−v)
Pour tout v de 1 à V , on note fˆn,λ l’estimateur obtenu en supprimant de Pn
avec j=1 lj (x) = 1, et on peut montrer que
l’échantillon d’apprentissage les données appartenant au bloc Bv .
n
(−i) (−i)
X
D ÉFINITION 10. — On définit le score de validation croisée V -fold par : fˆn,λ (x) = Yj lj (x),
N j=1
1 X (−v(i))
CV = R̂(λ) = (Yi − fˆn,λ (X i ))2 , avec
N i=1
(−i)
(−v(i)) lj (x) = 0 si j = i
où fˆn,λ est l’estimateur de f obtenu en enlevant les observations du bloc
qui contient l’observation i. lj (x)
= P si j 6= i.
k6=i lk (x)
Le principe de la validation croisée est de choisir une valeur λ̂ de λ qui mi-
nimise la quantité R̂(λ). Un cas particulier correspond à la validation croisée
leave-one-out, obtenue quand on considère n blocs, chacun réduits à une ob- T HÉORÈME 12. — Sous les hypothèses ci-dessus concernant l’estimateur, le
servation. score de validation croisée leave-one-out est égal à :
D ÉFINITION 11. — Le score de validation croisée leave-one-out est défini n
!2
par : 1X Yi − fˆn,λ (X i )
CV = R̂(λ) = .
1X
n
(−i)
n i=1 1 − li (X i )
CV = R̂(λ) = (Yi − fˆn,λ (X i ))2 ,
n i=1
On trouve également dans les logiciels une définition légèrement différente :
(−i)
où fˆn,λ est l’estimateur de f obtenu en enlevant l’observation (X i , Yi ).
D ÉFINITION 13. — On appelle score de validation croisée généralisée la
L’idée de la validation croisée leave-one-out vient du calcul suivant :
quantité :
(−i) (−i) !2
E((Yi − fˆn,λ (X i ))2 ) = E((Yi − f (X i ) + f (X i ) − fˆn,λ (X i ))2 ) n
1 X Yi − fˆn,λ (X i )
GCV (λ) = ,
(−i)
= σ 2 + E((f (X i ) − fˆn,λ (X i ))2 ) n i=1 1 − ν/n
Pn
' σ 2 + E((f (X i ) − fˆn,λ (X i ))2 ). où ν/n = i=1 li (X i )/n.

Page 84 sur 159 06.2014


16 Apprentissage non paramétrique en régression

Dans cette définition, li (X i ) est remplacé par la moyenne des li (X i ). En pra-


tique, les deux méthodes donnent généralement des résultats assez proches. En
utilisant l’approximation (1 − x)−2 ≈ 1 + 2x pour x proche de 0, on obtient :
n
1X 2ν σ̂ 2
GCV (λ) ≈ (Yi − fˆn,λ (X i ))2 + ,
n i=1 n

1
Pn ˆ
où σ̂ 2 = n
2
i=1 (Yi − fn,λ (X i )) . Cela correspond au critère Cp de Mallows.

Page 85 sur 159 06.2014


Analyse Discriminante Décisionnelle

où Sr est appelée variance intraclasse (within) ou résiduelle :


Analyse Discriminante Décisionnelle m X
X
Sr = Xr 0 DXr = wi (xi − g` )(xi − g` )0 ,
`=1 i∈Ω`
Résumé
et Se la variance interclasse (between) ou expliquée :
m
Une variable qualitative Y à m modalités est modélisé par p va- 0 0 X
riables quantitatives X j , j = 1, . . . , p. L’objectif est la prévision Se = G DG = X e DX e = w` (g` − x)(g` − x)0 .
`=1
de la classe d’un ou de nouveaux individus sur lesquels les va-
riables X j , j = 1, . . . , p sont également observés. Différents mo-
dèles d’analyse discriminante décisionnelle sont considérés : règle
2 Règle de décision issue de l’AFD
linéaire et quadratique de décision dans le cas gaussien, règle non
2.1 Cas général : m quelconque
paramétrique et k plus proches voisins.
D ÉFINITION 1. — On affectera l’individu x à la modalité de Y minimisant :
Retour au plan du cours
d2S−1 (x, g` ), ` = 1, . . . , m.
r

1 Introduction Cette distance se décompose en


2
Il s’agit de la modélisation d’une variable qualitative Y à m modalités par d2S−1 (x, g` ) = kx − g` kS−1r
= (x − g` )0 S−1
r (x − g` )
r
j
p variables quantitatives X , j = 1, . . . , p observées sur un même échantillon et le problème revient donc à maximiser
Ω de taille n. L’objectif de l’analyse discriminante décisionnelle déborde le
1 0 −1
simple cadre descriptif de l’analyse factorielle discriminante (AFD). Disposant g`0 S−1
r x − g` Sr g` .
j
d’individus sur lesquels on a observé les X mais pas Y , il s’agit de décider 2
de la modalité T` de Y (ou de la classe correspondante) de ces individus. On Il s’agit bien d’une règle linéaire en x car elle peut s’écrire : A` x + b` .
parle aussi de problème d’affectation. L’ADD s’applique donc également à la
2.2 Cas particulier : m=2
situation précédente de la régression logistique (m = 2) mais aussi lorsque le
nombre de classes est plus grand que 2. Dans ce cas, la dimension r de l’AFD vaut 1. Il n’y a qu’une seule valeur
Pour cela, on va définir et étudier dans ce chapitre des règles de décision propre non nulle λ1 , un seul vecteur discriminant v 1 et un seul axe discriminant
1
(ou d’affectation) et donner ensuite les moyens de les évaluer sur un seul in- ∆1 . Les 2 barycentres g1 et g2 sont sur ∆1 , de sorte que v est colinéaire à
dividu ; x = (x1 , . . . , xp ) désigne les observations des variables explicatives g1 − g2 .
sur cet individu, {g` ; ` = 1, . . . , m} les barycentres des classes calculés sur L’application de la règle de décision permet d’affecter x à T1 si :
l’échantillon et x le barycentre global. 1 0 −1 1 0 −1
La matrice de covariance empirique se décompose en g10 S−1 0 −1
r x − g1 Sr g1 > g2 Sr x − g2 Sr g2
2 2
c’est-à-dire encore si
0 −1 g1 + g2
(g1 − g2 )0 S−1
r x > (g1 − g2 ) Sr .
S = Se + Sr . 2

Page 86 sur 159 06.2014

1
Analyse Discriminante Décisionnelle

Remarque 3.3 Coûts inconnus


La règle de décision liée à l’AFD est simple mais elle est limitée et insuffi- L’estimation des coûts n’est pas du ressort de la Statistique et, s’ils ne sont
sante notamment si les variances des classes ne sont pas identiques. De plus, pas connus, on suppose simplement qu’ils sont tous égaux. La minimisation
elle ne tient pas compte de l’échantillonnage pour x : tous les groupes n’ont du risque ou règle de Bayes revient alors à affecter tout x à la classe la plus
pas nécessairement la même probabilité d’occurrence. probable c’est-à-dire à celle qui maximise la probabilité conditionnelle a pos-
teriori : P [T` | x]. Par le théorème de Bayes, on a :
3 Règle de décision bayésienne P [T` et x] P [T` ].P [x | T` ]
P [T` | x] = =
P [x] P [x]
3.1 Introduction Pm
avec le principe des probabilités totales : P [x] = `=1 P [T` ].P [x | T` ].
Dans cette optique, on considère que la variable Y , qui indique le groupe Comme P [x] ne dépend pas de `, la règle consistera à choisir T` maximisant
d’appartenance d’un individu, prend ses valeurs dans {T1 , . . . , Tm } et est mu-
nie d’une loi de probabilité π1 , . . . , πm . Les probabilités π` = P [T` ] repré- P [T` ].P [x | T` ] = π` .P [x | T` ];
sentent les probabilités a priori des classes ou groupes ω` . On suppose que les P [x | T` ] est la probabilité d’observer x au sein de la classe T` . Pour une loi
vecteurs x des observations des variables explicatives suivent, connaissant leur discrète, il s’agit d’une probabilité du type P [x = xlk | T` ] et d’une densité
classe, une loi de densité f (x | T` ) pour une loi continue. Dans tous les cas nous utiliserons la notation
f` (x) = P [x | T` ] f` (x).
par rapport à une mesure de référence 1 . La règle de décision s’écrit finalement sous la forme :
3.2 Définition δ(x) = arg max π` f` (x).
`=1,...,m
Une règle de décision est une application δ de Ω dans {T1 , . . . , Tm } qui,
à tout individu, lui affecte une classe connaissant x. Sa définition dépend du 3.4 Détermination des a priori
contexte de l’étude et prend en compte la Les probabilités a priori π` peuvent effectivement être connues a priori :
– connaissance ou non de coûts de mauvais classement, proportions de divers groupes dans une population, de diverses maladies. . . ;
– connaissance ou non des lois a priori sur les classes, sinon elles sont estimées sur l’échantillon d’apprentissage :
– nature aléatoire ou non de l’échantillon. n`
On désigne par c` | k le coût du classement dans T` d’un individu de Tk . Le π
b` = w` = (si tous les individus ont le même poids)
n
risque de Bayes d’une règle de décision δ exprime alors le coût moyen :
à condition qu’il soit bien un échantillon aléatoire susceptible de fournir des
m m Z
X X estimations correctes des fréquences. Dans le cas contraire il reste à considérer
Rδ = πk c` | k fk (x)dx
{x | δ(x)=T` } tous les π` égaux.
k=1 `=1

où {x | δ(x)=T` } fk (x)dx représente la probabilité d’affecté x à T` alors qu’il 3.5 Cas particuliers
R

est dans Tk . – Dans le cas où les probabilités a priori sont égales, c’est par exemple le
1. La mesure de Lebesgues pour des variables réelles, celle de comptage pour des variables cas du choix de probabilités non informatives, la règle de décision bayé-
qualitatives sienne revient alors à maximiser f` (x) qui est la vraisemblance, au sein
Page 87 sur 159 06.2014

2
Analyse Discriminante Décisionnelle

de T` , de l’observation x. La règle consiste alors à choisir la classe pour par la moyenne empirique de x dans la classe l pour l’échantillon d’apprentis-
laquelle cette vraisemblance est maximum. sage et Σ` par la matrice de covariance empirique S∗Rl :
– Dans le cas où m = 2, on affecte x à T1 si :
1 X
f1 (x) π2 S∗Rl = (xi − g` )(xi − g` )0
> n` − 1
f2 (x) π1 i∈Ω`

faisant ainsi apparaître un rapport de vraisemblance. D’autre part, l’intro- pour ce même échantillon.
duction de coûts de mauvais classement différents selon les classes amène
à modifier la valeur limite π2 /π1 . 4.2 Homoscédasticité
Finalement, il reste à estimer les densités conditionnelles f` (x). Les diffé- On suppose dans ce cas que les lois de chaque classe partagent la même
rentes méthodes d’estimation considérées conduisent aux méthodes classiques structure de covariance Σ` = Σ. Supprimant les termes indépendants de l, le
de discrimination bayésienne objets des sections suivantes. critère à maximiser devient
1
4 Règle bayésienne avec modèle normal ln(π` ) − µ0` Σ−1 0 −1
` µ` + µ` Σ` x
2
On suppose dans cette section que, conditionnellement à T` , x = qui est cette fois linéaire en x. Les moyennes µ sont estimées comme pré-
`
(x1 , . . . , xp ) est l’observation d’un vecteur aléatoire gaussien N (µ` , Σ` ) ; µ` cédemment tandis que Σ est estimée par la matrice de covariance intraclasse
p
est un vecteur de R et Σ` une matrice (p × p) symétrique et définie-positive. empirique :
La densité de la loi, au sein de la classe T` , s’écrit donc : m
1 XX
  S∗R = (xi − g` )(xi − g` )0 .
1 1 0 −1 n−m
f` (x) = √ exp − (x − µ` ) Σ` (x − µ` ) . `=1 i∈Ω`
2π(det(Σ` ))1/2 2
Si, de plus, les probabilités π` sont égales, après estimation le critère s’écrit :
L’affectation de x à une classe se fait en maximisant π` .f` (x) par rapport à l
soit encore la quantité : 1 0 ∗−1
x` 0 S∗−1
R x − x` SR x` .
2
1 1
ln(π` ) − ln(det(Σ` )) − (x − µ` )0 Σ−1 ` (x − µ` ).
2 2 On retrouve alors le critère de la section 2 issu de l’AFD.

4.1 Hétéroscédasticité 4.3 Commentaire


Dans le cas général, il n’y a pas d’hypothèse supplémentaire sur la loi de Les hypothèses : normalité, éventuellement l’homoscédasticité, doivent être
x et donc les matrices Σ` sont fonction de `. Le critère d’affectation est alors vérifiées par la connaissance a priori du phénomène ou par une étude préalable
quadratique en x. Les probabilités π` sont supposées connues mais il est né- de l’échantillon d’apprentissage. L’hypothèse d’homoscédasticité, lorqu’elle
cessaire d’estimer les moyennes µ` ainsi que les covariances Σ` en maximi- est vérifiée, permet de réduire très sensiblement le nombre de paramètres à es-
sant, compte tenu de l’hypothèse de normalité, la vraisemblance. Ceci conduit timer et d’aboutir à des estimateurs plus fiables car de variance moins élevée.
à estimer la moyenne Dans le cas contraire, l’échantillon d’apprentissage doit être de taille impor-
µ
c` = g` tante.
Page 88 sur 159 06.2014

3
Analyse Discriminante Décisionnelle

5 Règle bayésienne avec estimation non pa- h est appelé largeur de fenêtre ou paramètre de lissage ; plus h est grand, plus
l’estimation fb de f est régulière. Le noyau K est choisi centré en 0, unimodal
ramétrique et symétrique. Les cas les plus usuels sont la densité gaussienne, celle uniforme
sur [−1, 1] ou triangulaire : K(x) = [1 − |x|]1[−1,1] (x). La forme du noyau
5.1 Introduction
n’est pas très déterminante sur la qualité de l”estimation contrairement à la
En Statistique, on parle d’estimation non paramétrique ou fonctionnelle valeur de h.
lorsque le nombre de paramètres à estimer est infini. L’objet statistique à es-
Application à l’analyse discriminante
timer est alors une fonction par exemple de régression y = f (x) ou encore
une densité de probabilité. Dans ce cas, au lieu de supposer qu’on a affaire à La méthode du noyau est utilisée pour calculer une estimation non paramé-
une densité de type connu (normale) dont on estime les paramètres, on cherche trique de chaque densité f` (x) qui sont alors des fonctions définies dans Rp .
une estimation fb de la fonction de densité f . Pour tout x de R, f (x) est donc Le noyau K ∗ dont donc être choisi multidimensionnel et
estimée par fb(x).  
1 X ∗ x − xi
Cette approche très souple a l’avantage de ne pas nécessiter d’hypothèse f` (x) =
b K .
n` hp h
particulière sur la loi (seulement la régularité de f pour de bonnes propriétés i∈Ω `

de convergence), en revanche elle n’est applicable qu’avec des échantillons de Un noyau multidimensionnel peut être défini à partir de la densité usuelle de
grande taille d’autant plus que le nombre de dimensions p est grand (curse of lois : multinormale Np (0, Σp ) ou uniforme sur la sphère unité ou encore par
dimensionality). produit de noyaux unidimensionnels :
Dans le cadre de l’analyse discriminante, ces méthodes permettent d’estimer Yp

directement les densités f` (x). On considère ici deux approches : la méthode K (x) = K(xj ).
du noyau et celle des k plus proches voisins. j=1

5.2 Méthode du noyau 5.3 k plus proches voisins


Estimation de densité Cette méthode d’affectation d’un vecteur x consiste à enchaîner les étapes
Soit y1 , . . . , yn n observations équipondérées d’une v.a.r. continue Y de décrites dans l’algorithme ci-dessous.
densité f inconnue. Soit K(y) (le noyau) une densité de probabilité unidi-
mensionnelle (sans rapport avec f ) et h un réel strictement positif. On appelle Algorithme des k plus proches voisins (k-nn)
estimation de f par la méthode du noyau la fonction 1. Choix d’un entier k : 1 ≥ k ≥ n.
n   2. Calculer les distances dM (x, xi ) , i = 1, . . . , n où M est la métrique
1 X y − yi
fb(y) = K . de Mahalanobis c’est-à-dire la matrice inverse de la matrice de variance
nh i=1 h
(ou de variance intraclasse).
Il est immédiat de vérifier que 3. Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances
sont les plus petites.
Z +∞
4. Compter les nombres de fois k1 , . . . , km que ces k observations appa-
∀y ∈ R, f (y) ≥ 0 et
b fb(y)dy = 1; raissent dans chacune des classes.
−∞
Page 89 sur 159 06.2014

4
Analyse Discriminante Décisionnelle

TABLE 1 – Cancer : estimations des taux d’erreurs de prévision obtenus par TABLE 2 – Ozone : estimations des taux d’erreurs de prévision obtenus par
différents types d’analyse discriminante différents types d’analyse discriminante
Méthode apprentissage validations croisée test Méthode apprentissage validations croisée test
linéaire 1,8 3,8 3,6 linéaire 11,9 12,5 12,0
kNN 2,5 2,7 2,9 quadratique 12,7 14,8 12,5

5. Estimer localement les densités conditionnelles par TABLE 3 – Banque : estimations des taux d’erreurs de prévision obtenus par
différents types d’analyse discriminante
k` Méthode apprentissage validations croisée test
fb` (x) = ;
kVk (x) linéaire 16,5 18,3 18
quadratique 17,8 22,0 30
où Vk (x) est le volume de l’ellipsoïde {z|(z − x)0 M(z − x) = kNN 23,5 29,8 29
dM (x, x(k) )}.

Pour k = 1, x est affecté à la classe du plus proche élément.


Comme toute technique, celles présentées ci-dessus nécessitent le réglage 6.2 Concentration d’ozone
d’un paramètre (largeur de fenêtre ou nombre de voisins considérés). Ce choix
s’apparente à un choix de modèle et nécessite le même type d’approche à sa- Dans cet exemple aussi, deux variables sont qualitatives : le type de jour à
voir l’optimisation d’un critère (erreur de classement, validation croisée. 2 modalités ne pose pas de problème mais remplacer la station par un entier
est plutôt abusif. D’ailleurs, la méthode des plus proches voisins ne l’acceptent
pas, une transformation des données serait nécessaire.
6 Exemples
6.3 Carte visa
6.1 Cancer du sein
Comme pour les données sur le cancer, les données bancaires posent un
Par principe, l’analyse discriminante s’applique à des variables explicatives problème car elles associent différents types de variables. Il est possible de le
quantitatives. Ce n’est pas le cas des données qui sont au mieux ordinales. Il contourner, pour celles binaires, en considérant quantitative, l’indicatrice de
est clair que construire une fonction de discrimination comme combinaison de la modalité (0 ou 1). Pour les autres, certaines procédures (DISQUAL pour
ces variables n’a guère de sens. Néanmoins, en s’attachant uniquement à la discrimination sur variables qualitatives) proposent de passer par une analyse
qualité de prévision sans essayer de construire une interprétation du plan ou de factorielle multiple des correspondances pour rendre tout quantitatif mais ceci
la surface de discrimination, il est d’usage d’utiliser l’analyse discriminante de n’est pas implémenté de façon standard dans les logiciels d’origine américaine.
façon "sauvage". Les résultats obtenus sont résumés dans le tableau 1. L’ana-
Pour l’analyse discriminante, R ne propose pas de sélection automatique de
lyse discriminante quadratique, avec matrice de variance estimée pour chaque
variable mais inclut une estimation de l’erreur par validation croisée. Les résul-
classe n’a pas pu être calculée. Une des matrices n’est pas inversible.
tats trouvés sont résumés dans le tableau 3. Seule une discrimination linéaire
Page 90 sur 159 06.2014

5
Analyse Discriminante Décisionnelle

F IGURE 1 – Banque : Deux exécutions de l’optimisation du choix de k par


validation croisée.

semble fournir des résultats raisonnables, la recherche d’une discrimination


quadratique n’apporte rien pour ces données. De son côté, SAS propose une
sélection automatique (procédure stepdisc) mais les résultats obtenus ne sont
pas sensiblement meilleurs après sélection.
Le choix de k dans la méthode des k plus proches voisins est souvent déli-
cat ; chaque exécution de l’estimation de l’erreur par validation croisée conduit
à des résultats aléatoires et très différents et k “optimal” oscille entre 10 et 30
(fig. 1) !

Page 91 sur 159 06.2014

6
1 Arbres binaires de décision

à déterminer une séquence de nœuds.


Arbres binaires de décision • Un nœud est défini par le choix conjoint d’une variable parmi les explica-
tives et d’une division qui induit une partition en deux classes. Implicite-
ment, à chaque nœud correspond donc un sous-ensemble de l’échantillon
Résumé auquel est appliquée une dichotomie.
Méthodes de construction d’arbres binaires de décision, modélisant • Une division est elle-même définie par une valeur seuil de la variable
une discrimination (classification trees) ou une régression (regres- quantitative sélectionnée ou un partage en deux groupes des modalités si
sion trees). Principes et algorithmes de construction des arbres, cri- la variable est qualitative.
tères d’homogénéité et construction des nœuds, élagage pour l’ob- • À la racine ou nœud initial correspond l’ensemble de l’échantillon ; la
tention d’un modèle parcimonieux. procédure est ensuite itérée sur chacun des sous-ensembles.
L’algorithme considéré nécessite :
Retour au plan du cours
1. la définition d’un critère permettant de sélectionner la “meilleure” divi-
sion parmi toutes celles admissibles pour les différentes variables ;
1 Introduction
2. une règle permettant de décider qu’un nœud est terminal : il devient ainsi
Complémentaires des méthodes statistiques plus classiques : analyse discri- une feuille ;
minante, régression linéaire, les solutions obtenues sont présentées sous une 3. l’affectation de chaque feuille à l’une des classes ou à une valeur de la
forme graphique simple à interpréter, même pour des néophytes, et consti- variable à expliquer.
tuent une aide efficace pour l’aide à la décision. Elles sont basées sur un dé-
Le point (ii) est le plus délicat. Il correspond encore à la recherche d’un mo-
coupage, par des hyperplans parallèles aux axes, de l’espace engendré par les
dèle parcimonieux. Un arbre trop détaillé, associé à une sur-paramétrisation,
variables explicatives. Nommées initialement partitionnement récursif ou seg-
est instable et donc probablement plus défaillant pour la prévision d’autres ob-
mentation, les développements importants de Breiman et col. (1984)[1] les
servations. La contribution majeure de Breiman et col. (1984)[1] est justement
ont fait connaître sous l’acronyme de CART : Classification and Regression
une stratégie de recherche d’arbre optimal. Elle consiste à
Tree ou encore de C4.5 (Quinlan, 1993) dans la communauté informatique.
L’acronyme correspond à deux situations bien distinctes selon que la variable 1. construire l’arbre maximal Amax ,
à expliquer, modéliser ou prévoir est qualitative (discrimination ou en anglais 2. ordonner les sous-arbres selon une séquence emboîtée suivant la décrois-
classification) ou quantitative (régression). sance d’un critère pénalisé de déviance ou de taux de mal-classés,
3. puis à sélectionner le sous-arbre optimal ; c’est la procédure d’élagage.
2 Construction d’un arbre binaire Tous ces points sont détaillés ci-dessous.
2.1 Principe 2.2 Critère de division
Les données sont constituées de l’observation de p variables quantitatives Une division est dite admissible si aucun des deux nœuds descendants qui
ou qualitatives explicatives X j et d’une variable à expliquer Y qualitative à m en découlent n’est vide. Si la variable explicative est qualitative ordinale avec
modalités {T` ; ` = 1 . . . , m} ou quantitative réelle, observées sur un échan- m modalités, elle fournit (m − 1) divisions binaires admissibles. Si elle est
tillon de n individus. seulement nominale le nombre de divisions passe à 2(m−1) − 1. Une variable
La construction d’un arbre de discrimination binaire (cf. figure 2.1) consiste quantitative se ramène au cas ordinal.

Page 92 sur 159 06.2014


2 Arbres binaires de décision



Parmi toutes les divisions admissibles du nœud k, l’algorithme retient celle
qui rend la somme D(k+1) + D(k+2) des désordres des nœuds fils minimales.
Revenu < 10000 @ Revenu > 10000
@ Ceci revient encore à résoudre à chaque étape k de construction de l’arbre :
@
@ max Dk − (D(k+1) + D(k+2) )
{divisions deX j ;j=1,p}
 @ 
@
Graphiquement, la longueur de chaque branche peut être représentée propor-


tionnellement à la réduction de l’hétérogénéité occasionnée par la division.
Sexe=H @ Sexe=F Age < 50 @ Age > 50
@
@
@
@ 2.3 Règle d’arrêt
@
@ @ 
@ La croissance de l’arbre s’arrête à un nœud donné, qui devient donc ter-
Tj T` Tj

minal ou feuille, lorsqu’il est homogène c’est-à-dire lorsqu’il n’existe plus de
partition admissible ou, pour éviter un découpage inutilement fin, si le nombre
d’observations qu’il contient est inférieur à une valeur seuil à choisir en général
entre 1 et 5.
F IGURE 1 – Exemple élémentaire d’arbre de classification.
2.4 Affectation
Dans le cas Y quantitative, à chaque feuille est associée une valeur : la
Attention, l’algorithme tend à favoriser la sélection de variables explicatives moyenne des observations associées à cette feuille. Dans le cas qualitatif,
avec beaucoup de modalités car celles-ci offrent plus de souplesse dans la chaque feuille ou nœud terminal est affecté à une classe T` de Y en consi-
construction de deux sous groupes. Ces variables sont à utiliser avec parci- dérant le mode conditionnel :
monie car susceptibles de favoriser un sur-apprentissage ; il est souvent préfé- • celle la mieux représentée dans le nœud et il est ensuite facile de compter
rable de réduire le nombre de modalités par fusion de modalités comme c’est le nombre d’objets mal classés ;
classique en analyse des correspondances multiple. • la classe a posteriori la plus probable au sens bayésien si des probabilités
a priori sont connues ;
Le critère de division repose sur la définition d’une fonction d’hétérogénéité • la classe la moins coûteuse si des coûts de mauvais classement sont don-
ou de désordre explicitée dans la section suivante. L’objectif étant de partager nés.
les individus en deux groupes les plus homogènes au sens de la variable à
expliquer. L’hétérogénéité d’un nœud se mesure par une fonction non négative
qui doit être 3 Critères d’homogénéité
1. nulle si, et seulement si, le nœud est homogène : tous les individus appar- Deux cas sont à considérer, les arbres de régression ou de classification.
tiennent à la même modalité ou prennent la même valeur de Y .
2. Maximale lorsque les valeurs de Y sont équiprobables ou très dispersées. 3.1 Y quantitative
La division du nœud k crée deux fils, gauche et droit. Pour simplifier, ils On considère le cas plus général d’une division en J classes. Soit nP individus
J
sont notés (k + 1) et (k + 2) mais une re-numérotation est nécessaire pour et une partition en J classes de tailles nj ; j = 1, . . . , J avec n = j=1 nj .
respecter la séquence de sous-arbres qui sera décrite dans la section suivante. On numérote i = 1, . . . , nj les individus de la jème classe. Soit µij (resp.yij )

Page 93 sur 159 06.2014


3 Arbres binaires de décision

la valeur “théorique” (resp. l’observation) de Y sur l’individu (i, j) : le ième Sous hypothèse gaussienne :
de la jème classe. L’hétérogénéité de la classe j est définie par :
Yij = µ.j + uij avec + uij ∼ N (0, σ 2 ),
nj nj
X X
Dj = (µij − µ.j )2 avec µ.j = µij . la log-vraisemblance
i=1 i=1
J nj
L’hétérogénéité de la partition est définie par : n 1 XX
log L = Cste − log(σ 2 ) − 2 (yij − µ.j )2
2 2σ j=1 i=1
J nj
J X
X X
D= Dj = (µij − µ.j )2 ;
est rendue maximale pour
j=1 j=1 i=1
J nj
c’est l’inertie intra (homogène à la variance intraclasse) qui vaut D = 0 si et n 1 XX
Lµ = sup log L = Cste − log(σ 2 ) − 2 (yij − y.j )2 .
seulement si µij = µ.j pour tout i et tout j. µ 2 2σ j=1 i=1
La différence d’hétérogénéité entre l’ensemble non partagé et l’ensemble
partagé selon la partition J est Pour le modèle saturé (une classe par individu) : yij = µij + uij , cet optimum
devient :
J X nj J X nj J nj n
X
2
X
2 1 XX Ls = sup log L = Cste − log(σ 2 ).
∆ = (µij − µ.. ) − (µij − µ.j ) où µ.. = µij . µ 2
j=1 i=1 j=1 i=1
n j=1 i=1
La déviance (par rapport au modèle saturé) s’exprime alors comme :
XJ
= nj (µ.. − µ.j )2 ; Dµ = 2σ 2 (Ls − Lµ ) = D. b
j=1
Le raffinement de l’arbre est donc associé à une décroissance, la plus rapide
c’est encore homogène à la variance inter classe ou “désordre” des barycentres
possible, de la déviance. C’est l’optique retenue dans le logiciel Splus. On peut
qui vaut ∆ = n1 n2 ((µ.1 − µ.2 )2 pour J = 2 dans le cas qui nous intéresse.
encore dire que la division retenue est celle qui rend le test de Fisher (analyse
L’objectif, à chaque étape, est de maximiser ∆ c’est-à-dire de trouver la de variance), comparant les moyennes entre les deux classes, le plus significatif
variable induisant une partition en 2 classes associée à une inertie (variance) possible.
intraclasse minimale ou encore qui rend l’inertie (la variance) interclasse la
plus grande. 3.2 Y qualitative
Les quantités sont estimées : Dans ce cas, il existe plusieurs fonctions d’hétérogénéité, ou de désordre
nj d’un nœud. Ce peut être le nombre de mal classés, un critère défini à partir de
(1) la notion d’entropie ou encore à partir de la concentration de Gini. Un dernier
X
Dj par D
cj = (yij − y.j )2
i=1
critère est basé sur la statistique de test du χ2 . En pratique, il s’avère que
J nj
J X le choix du critère importe moins que celui du niveau d’élagage. Le premier
X X
D par D
b = D
cj = (yij − y.j )2 . (2) critère (entropie) est souvent préféré (Splus) car il s’interprète encore comme
j=1 j=1 i=1 un terme de déviance mais d’un modèle multinomial cette fois.

Page 94 sur 159 06.2014


4 Arbres binaires de décision

Critère d’entropie tégories de paramètre :


On considère une variable à expliquer qualitative, Y à m modalités ou caté- m
X
gories T numérotées ` = 1, . . . , m. L’arbre induit une partition pour laquelle pk = (p1k , . . . , pmk ), avec p`k = 1.
n+k désigne l’effectif de la kème classe ou kème nœud. Soit `=1

m
X Pour ce modèle, la logvraisemblance :
p`k = P [T` | k] avec p`k = 1
`=1 K X
X m
log L = Cste + n`k log(p`k )
la probabilité qu’un élément du k-ième nœud appartienne à la `-ième classe. k=1 `=1
Le désordre du k-ième nœud, défini à partir de l’entropie, s’écrit avec la
est rendue maximale pour
convention 0 log(0) = 0. :
m K X
m
X n`k
Lµ = sup log L = Cste +
X
Dk = −2 n+k p`k log(p`k ) n`k log .
p`k n+k
`=1 k=1 `=1

tandis que l’hétérogénéité ou désordre de la partition est encore : Pour le modèle saturé (une catégorie par objet), cet optimum prend la valeur de
la constante et la déviance (par rapport au modèle saturé) s’exprime comme :
K
X K X
X m
D= Dk = −2 n+k p`k log(p`k ). K X
X m
n`k
k=1 k=1 `=1 D = −2 n`k log = D.
b
n+k
k=1 `=1
Cette quantité est positive ou nulle, elle est nulle si et seulement si les proba-
bilités p`k ne prennent que des valeurs 0 sauf une égale à 1 correspondant à Comme pour l’analyse discriminante décisionnelle, les probabilités condi-
l’absence de mélange. tionnelles sont définies par la règle de Bayes lorsque les probabilités a priori
Désignons par n`k l’effectif observé de la `-ième classe dans le k-ième π` d’appartenance à la `-ième classe sont connues. Dans le cas contraire, les
nœud. Un nœud Pm k de l’arbre représente un sous-ensemble de l’échantillon d’ef- probabilités de chaque classe sont estimées sur l’échantillon et donc les pro-
fectif n+k = `=1 n`k . babilités conditionnelles s’estiment simplement par des rapports d’effectifs :
Les quantités sont estimées : p`k est estimée par n`k /n+k . Enfin, il est toujours possible d’introduire, lors-
qu’ils sont connus, des coûts de mauvais classement et donc de se ramener à
m la minimisation d’un risque bayésien.
ck = −2
X n`k n`k
Dk parD n+k log (3)
n+k n+k Remarques :
`=1
K K X m
• La
Pmfonction d’entropie peut être remplacée par l’indice de Gini 1 −
X
ck = −2
X n `k p
`=1 `k
2
qui conduit à une autre définition de l’hétérogénéité également
D par D b = D n`k log . (4)
n+k utilisée mais qui ne s’interprète pas en terme de déviance d’un modèle
k=1 k=1 `=1
comme dans le cas de l’entropie. Les résultats sont en général assez simi-
Considérons, pour chaque classe ou nœud k, un modèle multinomial à m ca- laires.

Page 95 sur 159 06.2014


5 Arbres binaires de décision

• La fonction d’hétérogénéité dans le cas de l’arbre de régression revient où Dk (A) est le nombre de mal classés ou la déviance ou le coût de mauvais
à chercher la division rendant le test de Fisher le plus significatif. De classement de la kème feuille de l’arbre A.
façon analogue, l’algorithme CHAID (CHi-square Automatic Interaction La construction de la séquence d’arbres emboîtés repose sur une pénalisa-
Detector) utilise la statistique d’un test du Chi-deux afin de définir la fonc- tion de la complexité de l’arbre :
tion d’hétérogénéité. Cette option de l’algorithme est implémentée dans
les logiciels SAS et SPSS. C(A) = D(A) + γK.
• Une variante de l’algorithme permet de prendre en compte des observa-
tions avec données manquantes de certaines variables explicatives. Il suf- Pour γ = 0, Amax = AK minimise C(A). En faisant croître γ, l’une des
fit de déterminer pour chaque nœuds une séquence ordonnée de divisions divisions de AK , celle pour laquelle l’amélioration de D est la plus faible
possibles. Au moment de calculer une prévision, si une donnée manque (inférieure à γ), apparaît comme superflue et les deux feuilles obtenues sont
pour l’application d’une division ou règle de décision, la division sui- regroupées (élaguées) dans le nœud père qui devient terminal ; AK devient
vante est prise en compte jusqu’à ce qu’une décision soit prise à chacun AK−1 .
des noœuds rencontrés.
Le procédé est itéré pour la construction de la séquence emboîtée :

4 Élagage Amax = AK ⊃ AK−1 ⊃ · · · A1

Dans des situations complexes, la démarche proposée conduit à des arbres où A1 , le nœud racine, regroupe l’ensemble de l’échantillon.
extrêmement raffinés et donc à des modèles de prévision très instables car Un graphe représente la décroissance ou éboulis de la déviance (ou du taux
fortement dépendants des échantillons qui ont permis leur estimation. On se de mal classés) en fonction du nombre croissant de feuilles dans l’arbre ou,
trouve donc dans une situation de sur-ajustement à éviter au profit de modèles c’est équivalent, en fonction de la valeur décroissante du coefficient de pénali-
plus parcimonieux donc plus robuste au moment de la prévision. Cet objectif sation γ.
est obtenu par une procédure d’élagage ou (pruning) de l’arbre.
Le principe de la démarche, introduite par Breiman et col. (1984)[1], 4.2 Recherche de l’arbre optimal
consiste à construire une suite emboîtée de sous-arbres de l’arbre maximum
Les procédures d’élagage diffèrent par la façon d’estimer l’erreur de prédic-
par élagage successif puis à choisir, parmi cette suite, l’arbre optimal au sens
tion. Le graphe précédemment obtenu peut se lire comme un éboulis de valeur
d’un critère. La solution ainsi obtenue par un algorithme pas à pas n’est pas
propre. Quand l’amélioration du critère est jugé trop petite ou négligeable,
nécessairement globalement optimale mais l’efficacité et la fiabilité sont pré-
on élague l’arbre au nombre de feuilles obtenues. L’évaluation de la déviance
férées à l’optimalité.
ou du taux de mauvais classement estimé par re-substitution sur l’échantillon
4.1 Construction de la séquence d’arbres d’apprentissage est biaisée (trop optimiste). Une estimation sans biais est obte-
nue par l’utilisation d’un autre échantillon (validation) ou encore par validation
Pour un arbre A donné, on note K le nombre de feuilles ou nœuds terminaux croisée. La procédure de validation croisée présente dans ce cas une particula-
de A ; la valeur de K exprime la complexité de A. La mesure de qualité de rité car la séquence d’arbres obtenue est différente pour chaque estimation sur
discrimination d’un arbre A s’exprime par un critère l’un des sous-échantillons. L’erreur moyenne n’est pas, dans ce cas, calculée
K pour chaque sous-arbre avec un nombre de feuilles donné mais pour chaque
sous-arbre correspondant à une valeur fixée du coefficient de pénalisation. À
X
D(A) = Dk (A)
k=1
la valeur de γ minimisant l’estimation de l’erreur de prévision, correspond

Page 96 sur 159 06.2014


6 Arbres binaires de décision

ensuite l’arbre jugé optimal dans la séquence estimée sur tout l’échantillon conséquence de la structure hiérarchique : une erreur de division en début
d’apprentissage. d’arbre est propagée tout au long de la construction.
Le principe de sélection d’un arbre optimal est donc décrit dans l’algorithme • De plus le découpage de l’espace des solutions par un ensemble d’hyper-
ci-dessous. plans parallèles aux axes conduit à des solutions très abruptes, sans pos-
sibilité de lisser les “angles”. Le bagging est présenté plus loin comme
A LGORITHME 1 : Sélection d’arbre ou élagage une solution pour réduire la variance d’un arbre et lisser le découpage en
hyperplans.
Construction de l’arbre maximal Amax .
• Plusieurs variantes on été proposées puis abandonnées : arbres ternaires
Construction de la séquence AK . . . A1 d’arbres emboîtés.
plutôt que binaires, règle de décision linéaire plutôt que dichotomique.
Estimation sans biais (échantillon de validation ou validation croisée) des
La première renforce inutilement l’instabilité alors que si une décision
déviances D(AK ), . . . , D(A1 ).
ternaire est indispensable, elle est la succession de deux divisions binaires.
Représentation de D(Ak ) en fonction de k ou de γ.
La deuxième rend l’interprétation trop complexe donc le modèle moins
Choix de k rendant D(Ak ) minimum.
utile.

4.3 Remarques pratiques 5 Exemples


• Ces méthodes sont surtout efficaces que pour des tailles d’échantillons
5.1 Cancer du sein
importantes et elles sont très calculatoires. Les deux raisons : modèle gra-
phique de décision simple à interpréter, puissance de calcul nécessaire, Un arbre de discrimination est estimé sur l’échantillon d’apprentissage,
suffisent à expliquer leur popularité récente. élagué par validation croisée et représenté dans la figure 2. La prévision de
• Elles ne requièrent pas d’hypothèses sur les distributions des variables et l’échantillon test par cet arbre conduit à la matrice de confusion :
semblent particulièrement adaptées au cas où les variables explicatives
sont nombreuses. En effet, la procédure de sélection des variables est in- predq.tree benign malignant
tégrée à l’algorithme construisant l’arbre et les interactions sont prises en benign 83 5
compte. Il est ainsi fréquent d’associer arbre et régression logistique. Les malignant 3 46
premières division d’un arbre sont utilisées pour construire une variable
synthétique intégrée à une régression logistique afin de sélectionner les avec un taux d’erreur estimé à 5,8%.
quelques interactions apparaissant comme les plus pertinentes.
• En classification, la recherche de division est par ailleurs invariable par 5.2 Concentration d’ozone
transformation monotone des variables explicatives quantitatives. Cela Arbre de régression
confère une certaine robustesse vis-à-vis de possibles valeurs atypiques.
• La définition d’un arbre nécessite en dernier lieu une optimisation délicate Un arbre de régression est estimé pour prévoir la concentration d’ozone.
de la complexité par élagage afin d’éviter le sur-ajustement. La librairie rpart du logiciel R prévoit une procédure d’élagage par valida-
• Cet algorithme suivant une stratégie pas à pas hiérarchisée, peut, comme tion croisée afin d’optimiser le coefficient de pénalisation. L’arbre (figure 3)
dans le cas du choix de modèle en régression, passer à coté d’un opti- montre bien quelles sont les variables importantes intervenant dans la prévi-
mum global ; il se montre par ailleurs très instable et donc sensible à des sion. Mais, compte tenu de la hiérarchisation de celles-ci, due à la structure
fluctuations d’échantillon. Cette instabilité ou variance de l’arbre est une arborescente du modèle, cette liste n’est pas similaire à celle mise en évidence

Page 97 sur 159 06.2014


7 Arbres binaires de décision

benign
|
358/188

Cell.shape=1,2
Cell.shape=3,4,5,6,7,8,9,10

benign malignant
318/4 40/184

Bare.nuclei=1,2
Bare.nuclei=3,4,5,6,7,8,9,10

benign malignant
32/20 8/164

Epith.c.size=1,2,3
Epith.c.size=4,5,6,7,8,9,10

benign malignant
30/1 2/19

F IGURE 2 – Cancer : arbre de décision élagué par validation croisée (R).

dans le modèle gaussien. On voit plus précisément ici la complexité des inter-
actions entre la prédiction par MOCAGE et l’effet important de la température
dans différentes situations. Les résidus de l’échantillon test du modèle d’arbre
de régression prennent une structure particulière (figure 4) car les observations
communes à une feuille terminale sont affectées de la même valeur. Il y a donc
une colonne par feuille. La précision de l’ajustement peut s’en trouver altérée
(R2 = 0, 68) mais il apparaît que ce modèle est moins soumis au problème
d’hétéroscédasticité très présent dans le modèle gaussien.
Arbre de discrimination
Un modèle est estimé afin de prévoir directement le dépassement d’un seuil.
F IGURE 3 – Ozone : arbre de régression élagué par validation croisée (R).
Il est de complexité similaire à l’arbre de régression mais ne fait pas jouer
le même rôle aux variables. La température remplace la prévision MOCAGE
de l’ozone comme variable la plus importante. Les prévisions de dépassement
de seuil sur l’échantillon test sont sensiblement moins bonnes que celle de la
régression, les taux sont de 14,4% avec l’arbre de régression et de 14,5% direc-
tement avec l’arbre de discrimination. Les matrices de confusion présentent les
mêmes biais que les modèles de régression en omettant un nombre important

Page 98 sur 159 06.2014


8 Arbres binaires de décision

100
250
Valeurs observees

50
Résidus
150

0
−100 −50
50
0

0 50 100 200 300 0 50 100 200 300

Valeurs predites Valeurs predites F IGURE 5 – Banque : choix du nombre de feuilles par échantillon de valida-
tion.
F IGURE 4 – Ozone : Valeurs observées et résidus de l’échantillon test.
le découpage de l’échantillon en trois parties apprentissage, validation et test.
L’élagage de l’arbre estimé sur l’échantillon d’apprentissage est optimisé pour
de dépassements. minimiser l’erreur estimée sur l’échantillon de validation. C’est le graphique
de la figure 5. La librairie rpart de R propose d’optimiser l’élagage par va-
5.3 Carte Visa Premier lidation croisée. L’arbre ainsi obtenu est représenté dans la figure 6 Cet arbre
conduit à la matrice de confusion suivante sur l’échantillon test avec un taux
L’étude des données bancaires s’intéresse soit aux données quantitatives d’erreur estimé à 8%.
brutes soient à celles-ci après découpage en classes des variables quantita-
tives. Ce découpage rend des services en régression logistique car le modèle vistest Cnon Coui
construit s’en trouve plus flexible : plus de paramètres mais moins de degrés Cnon 127 6
de liberté, comme l’approximation par des indicatrices (des classes) de trans- Coui 10 57
formations non linéaires des variables. Il a été fait "à la main" en prenant les
quantiles comme bornes de classe ; C’est un usage courant pour obtenir des
classes d’effectifs égaux et répartit ainsi au mieux la précision de l’estima- Références
tion des paramètres mais ce choix n’est pas optimal au regard de l’objectif
de prévision. Dans le cas d’un modèle construit à partir d’un arbre binaire, il [1] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and regres-
est finalement préférable de laisser faire celui-ci le découpage en classe c’est- sion trees, Wadsworth & Brooks, 1984.
à-dire de trouver les valeurs seuils de décision. C’est la raison pour laquelle,
l’arbre est préférablement estimé sur els variables quantitatives et qualitatives
initiales.
Le module SAS/STAT ne fournit pas d’estimation d’arbre de décision, il faut
faire appel au module SAS Enterprise Miner. Celui-ci, par principe, propose

Page 99 sur 159 06.2014


9 Arbres binaires de décision

Endpoint = CARVP

Cnon
569/294
|

MOYRVL< 3.02
MOYRVL>=3.02
Cnon Coui
475/90 94/204

RELAT>=5.5 DMVTPL>=2.602
RELAT< 5.5 DMVTPL< 2.602
Cnon Coui Coui Coui
462/61 13/29 93/121 1/83

FACANL< 11.44 AGER< 26DMVTPL< 2.674


FACANL>=11.44 AGER>=26 DMVTPL>=2.674
Cnon Coui Cnon CnonCoui Coui
457/51 5/10 8/0 70/17
5/29 23/104

DMVTPL>=2.602 FACANL< 11.32


DMVTPL< 2.602 FACANL>=11.32
Cnon Cnon Cnon Coui
381/28 76/23 67/10 3/7

DMVTPL< 1.199
DMVTPL>=1.199
Cnon Coui
76/3 0/20

F IGURE 6 – Banque : arbre de décision élagué par validation croisée dans R.

Page 100 sur 159 06.2014


1 Réseaux de neurones

exemple, des résultats d’examens, d’analyses de sang, de salive pour des


Réseaux de neurones applications biomédicales de choix d’un antibiotique,
• un moteur d’inférence chargé d’appliquer les règles expertes sur la base
de faits afin d’en déduire de nouveaux faits jusqu’à la réalisation d’un
Résumé objectif comme l’élaboration du traitement d’un infection bactérienne.
Définition et caractéristiques des réseaux de neurones ou percep- Face aux difficultés rencontrées lors de la modélisation des connaissances d’un
trons multicouches spécifiques pour la régression et la discrimina- expert humain, au volume considérable des bases de connaissance qui en dé-
tion ou classification supervisée. Structure, fonction de transfert, es- coulaient et au caractère exponentiel de la complexité des algorithmes d’infé-
timation du gradient par rétro-propagation et algorithmes d’appren- rence mis en jeu, cette approche s’est éteinte avec les années 80. En effet, il a
tissage des poids en contrôlant le sur-ajustement par régularisation. été montré que les systèmes basés sur le calcul des prédicats du premier ordre
conduisaient à des problèmes N P complets.
Retour au plan du cours
L’essor technologique et quelques avancées théoriques :
• estimation du gradient par rétro-propagation de l’erreur (Hopkins, 1982),
1 Introduction • analogie de la phase d’apprentissage avec les modèles markoviens de sys-
tèmes de particules de la mécanique statistique (verres de spin) par (Hop-
1.1 Historique field, 1982),
Nous nous intéressons ici à une branche de l’Informatique fondamentale au début des années 80 ont permis de relancer l’approche connexioniste. Celle-
qui, sous l’appellation d’Intelligence Artificielle, a pour objectif de simuler ci a connu au début des années 90 un développement considérable si l’on
des comportements du cerveau humain. Les premières tentatives de modélisa- considère le nombre de publications et de congrès qui lui ont été consacrés
tion du cerveau sont anciennes et précèdent même l’ère informatique. C’est en mais aussi les domaines d’applications très divers où elle apparaît. Sur de nom-
1943 que Mc Culloch (neurophysiologiste) et Pitts (logicien) ont proposé les breux objectifs, justement ceux propres au data mining, les réseaux neuronaux
premières notions de neurone formel. Ce concept fut ensuite mis en réseau avec ne rentrent pas nécessairement en concurrence avec des méthodes statistiques
une couche d’entrée et une sortie par Rosenblatt en 1959 pour simuler le fonc- bientôt centenaires mais apportent un point de vue complémentaire qu’il est
tionnement rétinien et tacher de reconnaître des formes. C’est l’origine du per- important de considérer.
ceptron. Cette approche dite connexioniste a atteint ses limites technologiques, Finalement, la motivation initiale de simulation du cortex cérébral a été ra-
compte tenu de la puissance de calcul de l’époque, mais aussi théoriques au pidement abandonné alors que les méthodes qui en découlaient ont trouvé leur
début des années 70. propre intérêt de développement méthodologique et leurs champs d’applica-
L’approche connexioniste à connaissance répartie a alors été supplantée par tions.
l’approche symbolique ou séquentielle qui promouvait les systèmes experts à
connaissance localisée. L’objectif était alors d’automatiser le principe de l’ex-
1.2 Réseaux de neurones
pertise humaine en associant trois concepts : Un réseau neuronal est l’association, en un graphe plus ou moins complexe,
• une base de connaissance dans laquelle étaient regroupées “toutes” les d’objets élémentaires, les neurones formels. Les principaux réseaux se dis-
connaissances d’experts humains sous forme de propositions logiques élé- tinguent par l’organisation du graphe (en couches, complets. . . ), c’est-à-dire
mentaires ou plus élaborées en utilisant des quantificateurs (logique du leur architecture, son niveau de complexité (le nombre de neurones, présence
premier ordre). ou non de boucles de rétroaction dans le réseau), par le type des neurones (leurs
• une base de faits contenant les observations du cas à traiter comme, par

Page 101 sur 159 06.2014


2 Réseaux de neurones

La fonction d’activation opère une transformation d’une combinaison affine


des signaux d’entrée, α0 étant appelé le biais du neurone. Cette combinaison
affine est déterminée par un vecteur de poids [α0 , . . . , αp ] associé à chaque
neurone et dont les valeurs sont estimées dans la phase d’apprentissage. Ils
x1 constituent “la mémoire” ou “connaissance répartie” du réseau.
Q
x2 P Q Les différents types de neurones se distinguent par la nature f de leur fonc-
Q
PPQs
tion d’activation. Les principaux types sont :
xj
q
P
- Σ | f -y
• linéaire f est la fonction identité,
.. • sigmoïde f (x) = 1/(1 + ex ),
. 
3
• seuil f (x) = 1[0,+∞[ (x),
xp 
 p
• radiale f (x) = 1/2π exp(−x2 /2),
• stochastiques f (x) = 1 avec la probabilité 1/(1 + e−x/H ), 0 sinon (H
intervient comme une température dans un algorithme de recuit simulé),
F IGURE 1 – Représentation d’un neurone formel. • ...
Les modèles linéaires et sigmoïdaux sont bien adaptés aux algorithmes d’ap-
prentissage impliquant (cf. ci-dessous) une rétro-propagation du gradient car
leur fonction d’activation est différentiable ; ce sont les plus utilisés. Le mo-
fonctions de transition ou d’activation) et enfin par l’objectif visé : apprentis- dèle à seuil est sans doute plus conforme à la “réalité” biologique mais pose
sage supervisé ou non, optimisation, systèmes dynamiques. des problèmes d’apprentissage. Enfin le modèle stochastique est utilisé pour
des problèmes d’optimisation globale de fonctions perturbées ou encore pour
1.3 Neurone formel les analogies avec les systèmes de particules. On ne le rencontre pas en data
mining.
De façon très réductrice, un neurone biologique est une cellule qui se carac-
térise par
• des synapses, les points de connexion avec les autres neurones, fibres ner-
2 Perceptron multicouche
veuses ou musculaires ; Nous ne nous intéresserons dans ce cours qu’à une structure élémentaire
• des dentrites, les “entrées” du neurones ;
de réseau, celle dite statique ne présentant pas de boucle de rétroaction et
• l’axone, la “sortie” du neurone vers d’autres neurones ou fibres muscu-
dans un but d’apprentissage supervisé. Tant les systèmes dynamiques, avec
laires ; boucle de rétroaction, que les réseaux dit “cartes de Kohonen” ou cartes auto-
• le noyau qui active la sortie en fonction des stimulations en entrée.
organisatrices ne sont pas abordés. Ces derniers sont en fait des algorithmes de
Par analogie, le neurone formel est un modèle qui se caractérise par un état classification non-supervisée.
interne s ∈ S, des signaux d’entrée x1 , . . . , xp et une fonction d’activation
2.1 Architecture
 
p
X Le perceptron multicouche (PMC) est un réseau composé de couches suc-
s = h(x1 , . . . , xp ) = f α0 + αj xj  = f (α0 + α0 x). cessives. Une couche est un ensemble de neurones n’ayant pas de connexion
j=1

Page 102 sur 159 06.2014


3 Réseaux de neurones

entre eux. Une couche d’entrée lit les signaux entrant, un neurone par entrée
xj , une couche en sortie fournit la réponse du système. Selon les auteurs, la
couche d’entrée qui n’introduit aucune modification n’est pas comptabilisée.
Une ou plusieurs couches cachées participent au transfert. Un neurone d’une
couche cachée est connecté en entrée à chacun des neurones de la couche pré-
cédente et en sortie à chaque neurone de la couche suivante.

2.2 Fonction de transfert


x1 - Par souci de cohérence, les mêmes notations ont été conservées à tra-
HH
LJ vers les différents chapitres. Ainsi, les entrées d’un réseau sont encore no-
LJ HHH tées X1 , . . . , Xp comme les variables explicatives d’un modèle tandis que les
LJ j Σ|f
H poids des entrées sont des paramètres α, β à estimer lors de la procédure
*

L J 

@
d’apprentissage et que la sortie est la variable Y à expliquer ou cible du mo-

L J
@
x2 - 
 L J
H @ dèle.
J HH

L
J
J LH J
@ Un perceptron multicouche réalise donc une transformation des variables
.. @
-y d’entrée :
* Σ|f

J L HH j^
J - Σ|f
R
@
.
J 




 Y = φ(X1 , . . . , Xp ; α)

J L
xj
..
-

HH J
L

L . où α est le vecteur contenant chacun des paramètres αjk` de la jème entrée
H
HJ L du kème neurone de la `ème couche ; la couche d’entrée (` = 0) n’est pas
.. paramétrée, elle ne fait que distribuer les entrées sur tous les neurones de la
* Σ|f

HH J^
jJL
.
 couche suivante.


xp - 

Un théorème dit d”approximation universelle” montre que cette structure
élémentaire à une seule couche cachée est bien suffisante pour prendre en
compte les problèmes classiques de modélisation ou apprentissage statistique.
En effet, toute fonction régulière peut être approchée uniformément avec une
précision arbitraire et dans un domaine fini de l’espace de ses variables, par un
réseau de neurones comportant une couche de neurones cachés en nombre fini
F IGURE 2 – Exemple de perceptron multicouche élémentaire avec une couche possédant tous la même fonction d’activation et un neurone de sortie linéaire.
cachée et une couche de sortie.
De façon usuelle et en régression (Y quantitative), la dernière couche est
constituée d’un seul neurone muni de la fonction d’activation identité tandis
que les autres neurones (couche cachée) sont munis de la fonction sigmoïde.
En classification binaire, le neurone de sortie est muni également de la fonc-
tion sigmoïde tandis que dans le cas d’une discrimination à m classes (Y qua-
litative), ce sont m neurones avec fonction sigmoïde, un par classe, qui sont
considérés en sortie.

Page 103 sur 159 06.2014


4 Réseaux de neurones

Ainsi, en régression avec un perceptron à une couche cachée de q neurones équations dites de rétro-propagation :
et un neurone de sortie, cette fonction s’écrit :
ski = f 0 (α0k xi )βk δi

y = φ(x; α, β) = β0 + β 0 z dont les termes sont évaluée sen deux passes. Une passe “avant”, avec les va-
avec zk = f (αk0 + αk 0 x); k = 1, . . . , q. leurs courantes des poids, l’application des différentes entrées xi au réseau
permet de déterminer les valeurs ajustées φ(x
b i ). La passe “retour” permet en-
2.3 Apprentissage suite de déterminer les δi qui sont “rétro-propagés” afin de calculer les ski et
ainsi obtenir les évaluations des gradients.
Supposons que l’on dispose d’une base d’apprentissage de taille n d’obser-
vations (x1i , . . . , xpi ; yi ) des variables explicatives X 1 , . . . , X p et de la variable 2.3.2 Algorithmes d’optimisation
à prévoir Y . Considérons le cas le plus simple de la régression avec un réseau Sachant évaluer les gradients, différents algorithmes, plus ou moins sophis-
constitué d’un neurone de sortie linéaire et d’une couche à q neurones dont tiqués, sont implémentés. Le plus élémentaire est une utilisation itérative du
les paramètres sont optimisés par moindres carrés. Ceci se généralise à toute gradient : en tout point de l’espace des paramètres, le vecteur gradient de Q
fonction perte dérivable et donc à la discrimination à m classes. pointe dans la direction de l’erreur croissante. Pour faire décroître Q il suffit
L’apprentissage est l’estimation des paramètres αj=0,p;k=1,q et βk=0,q par donc de se déplacer en sens contraire. Il s’agit d’un algorithme itératif modi-
minimisation de la fonction perte quadratique (ou d’un fonction d’entropie en fiant les poids de chaque neurone selon :
classification) :
n n
X X 2 n
Q(α, β) = Qi = [yi − φ(x; α, β)] . (r+1) (r)
X ∂Qi
βk = βk − τ (r)
i=1 i=1
i=1 ∂βk
Différents algorithmes d’optimisation sont proposés, ils sont généralement ba- n
∂Qi
(r+1) (r)
X
sés sur une évaluation du gradient par rétro-propagation. αkp = αkp − τ (r)
.
i=1 ∂αkp
2.3.1 Rétro-propagation de l’erreur
Il s’agit donc dévaluer la dérivée de la fonction côut en une observation
et par rapport aux différents paramètres. Soit zki = f (αk0 + αk 0 xi ) et A LGORITHME 1 : Rétro propagation élémentaire du gra-
z i = {z1i , . . . , zqi }. Les dérivées partielles de la fonction perte quadratique dient
s’écrivent : Initialisation
∂Qi Les poids bjk` par tirage aléatoire selon une loi uniforme sur [0, 1].
= −2(yi − φ(xi ))(β 0 z i )zki = δi zki Normaliser dans [0, 1] les données d’apprentissage.
∂βk
∂Qi while Q > errmax ou niter<itermax do
= −2(yi − φ(xi ))(β 0 z i )βk f 0 (α0k xi )xip = ski xip . Ranger la base d’apprentissage dans un nouvel ordre aléatoire.
∂αkj
for chaque élément i = 1, . . . , n de la base do
Les termes δi et ski sont respectivement les termes d’erreur du modèle cou- Calculer ε(i) = yi −φ(x1i , . . . , xpi ; (b)(i−1)) en propageant les entrées
rant à la sortie et sur chaque neurone caché. Ces termes d’erreur vérifient les vers l’avant.

Page 104 sur 159 06.2014


5 Réseaux de neurones

L’erreur est “rétro-propagée” dans les différentes couches afin d’af- 1. les variables d’entrée et la variable de sortie ; leur faire subir comme pour
fecter à chaque entrée une responsabilité dans l’erreur globale. toutes méthodes statistiques, d’éventuelles transformations.
Mise à jour de chaque poids bjk` (i) = bjk` (i − i) + ∆bjk` (i) 2. L’architecture du réseau : le nombre de couches cachées (en général
end for une ou deux) qui correspond à une aptitude à traiter des problèmes de
end while non-linéarité, le nombre de neurones par couche cachée. Ces deux choix
conditionnent directement le nombre de paramètres (de poids) à estimer
Le coefficient de proportionnalité τ est appelé le taux d’apprentissage. Il et donc la complexité du modèle. Ils participent à la recherche d’un bon
peut être fixe, à déterminer par l’utilisateur, ou encore varier en cours d’exé- compromis biais/variance c’est-à-dire à l’équilibre entre qualité d’appren-
cution selon certaines heuristiques. Il paraît en effet intuitivement raisonnable tissage et qualité de prévision.
que, grand au début pour aller plus vite, ce taux décroisse pour aboutir à un
réglage plus fin au fur et à mesure que le système s’approche d’une solution. 3. Trois autres paramètres interviennent également sur ce compromis : le
nombre maximum d’itérations, l’erreur maximum tolérée et un terme
Bien d’autres méthodes d’optimisation ont été adaptées à l’apprentissage
éventuel de régularisation (decay). En renforçant ces critères on améliore
d’un réseau : méthodes du gradient avec second ordre utilisant une approxi-
la qualité de l’apprentissage ce qui peut se faire au détriment de celle de
mation itérative de la matrice hessienne (algorithme BFGS, de Levenberg-
la prévision.
Marquardt) ou encore une évaluation implicite de cette matrice par la méthode
dite du gradient conjugué. La littérature sur le sujet propose quantités de re- 4. Le taux d’apprentissage ainsi qu’une éventuelle stratégie d’évolution de
cettes destinées à améliorer la vitesse de convergence de l’algorithme ou bien celui-ci.
lui éviter de rester collé à une solution locale défavorable. D’autres heuris- En pratique, tous ces paramètres ne peuvent être réglés simultanément par
tiques proposent d’ajouter un terme d’inertie afin d’éviter des oscillations de l’utilisateur. Celui-ci est confronté à des choix concernant principalement le
l’algorithme. contrôle du sur-apprentissage : limiter le nombre de neurones ou la durée d’ap-
D’autres algorithmes encore sont des versions adaptatives. Lorsque de nou- prentissage ou encore augmenter le coefficient de pénalisation de la norme des
velles observations sont proposées une à une au réseau. Dans ce dernier type paramètres. Ceci nécessite de déterminer un mode d’estimation de l’erreur :
d’algorithme, des propriétés de dynamique markovienne (processus ergodique échantillon validation ou test, validation croisée ou bootstrap. Ces choix sont
convergeant vers la mesure stationnaire) impliquent une convergence presque souvent pris par défaut dans la plupart des logiciels commerciaux. Il est im-
sûre : la probabilité d’atteindre une précision fixée a priori tend vers 1 lorsque portant d’en connaître les implications.
la taille de l’échantillon d’apprentissage tend vers l’infini.
Durée de l’apprentissage
On pourra se reporter à l’abondante littérature sur le sujet (Haykin, 1994)[1]
pour obtenir des précisions sur les algorithme d’apprentissage et leurs nom- La stratégie la plus simple (SAS Enterprise Miner) consiste à considéré un
breuses variantes. Il est important de rappeler la liste des choix qui sont laissés échantillon indépendant de validation et à arrêter l’apprentissage lorsque l’er-
à l’utilisateur. En effet, même si les logiciels proposent des valeurs par défaut, reur sur cet échantillon de validation commence à se dégrader tandis que celle
il est fréquent que cet algorithme connaisse quelques soucis de convergence. sur l’échantillon d’apprentissage ne peut que continuer à décroître.

2.4 Contrôle de la complexité Nombre de neurones

Choix des paramètres Le nombre de couches reste restreint car toute fonction continue d’un com-
pact de RP dans Rq peut être approchée avec une précision arbitraire par un
L’utilisateur doit donc déterminer réseau à une couche cachée en adaptant le nombre de neurones. Le contrôle

Page 105 sur 159 06.2014


6 Réseaux de neurones

de la complexité du modèle ou plus généralement d’un sur-apprentissage peut 3 Exemples


être déterminé en optimisant le nombre de neurones par minimisation d’une
estimation de l’erreur de prévision par exemple par validation croisée. Les réseaux de neurones étant des boîtes noires, les résultats fournis ne sont
guère explicites et ne conduisent donc pas à des interprétations peu informa-
Régularisation tives du modèle. Seule une étude des erreurs de prévisions et, dans le cas d’une
Une option importante car efficace pour éviter le sur-apprentissage consiste régression, une étude des résidus, permet de se faire une idée de la qualité du
à introduire une terme de pénalisation ou régularisation, comme en régression modèle.
ridge, dans le critère à optimiser. Celui-ci devient alors : Q(θ) + γkθk2 . 3.1 Cancer du sein
Le paramètre γ (decay) doit être réglé par l’utilisateur ; plus il est impor-
tant et moins les paramètres ou poids peuvent prendre des valeurs “chaoti- La prévision de l’échantillon test par un réseau de neurones conduit à la
ques” contribuant ainsi à limiter les risques de sur-apprentissage. Une stratégie matrice de confusion ci-dessous et donc une erreur estimée de 3%.
simple et sans doute efficace, surtout si la taille de l’échantillon ne permet pas benign malignant
de prendre en compte une partie validation, consiste à introduire un nombre FALSE 83 1
plutôt grand de neurones puis à optimiser le seul paramètre de régularisation TRUE 3 50
(decay) par validation croisée.
3.2 Concentration d’ozone
2.5 Remarques
La comparaison des résidus (figure 3 montre que le problème de non-
Les champs d’application des PMC sont très nombreux : discrimination, linéarité qui apparaissait sur les modèles simples (MOCAGE, régression li-
prévision d’une série temporelle, reconnaissance de forme. . . Ils sont en géné- néaire) est bien résolu et que ces résidus sont plutôt moins étendus, mais le
ral bien explicités dans les documentations des logiciels spécialisés. phénomène d’hétéroscédasticité est toujours présent quelque soit le nombre de
Les critiques principales énoncées à l’encontre du PMC concernent les dif- neurones utilisés. Il a été choisi relativement important (10) et conduit donc
ficultés liés à l’apprentissage (temps de calcul, taille de l’échantillon, localité à un bon ajustement (R2 = 0, 77) mais devra être réduit pour optimiser la
de l’optimum obtenu) ainsi que son statut de boîte noir. En effet, contraire- prévision.
ment à un modèle de discrimination ou un arbre, il est a priori impossible de L’optimisation des paramètres d’un réseau de neurones est instable comme
connaître l’influence effective d’une entrée (une variable) sur le système dès pour les proches voisins car chaque exécution de l’estimation de l’erreur par
qu’une couche cachée intervient. Néanmoins, des techniques de recherche de validation croisée fournit des résultats différents. Elle est en plus très com-
sensibilité du système à chacune des entrées permettent de préciser les idées et, pliquée par le nombre de paramètres à optimiser : nombre de neurones sur la
éventuellement de simplifier le système en supprimant certaines des entrées. couche (size), pénalisation (decay), nombre d’itérations. Une fonction de la
En revanche, ils possèdent d’indéniables qualités lorsque l’absence de linéa- librairie e1071 permet de faire varier à la fois la taille et la pénalisation et
rité et/ou le nombre de variables explicatives rendent les modèles statistiques fournit des graphiques élégants (figure 4) mais les exécutions sont très longues
traditionnelles inutilisables. Leur flexibilité alliée à une procédure d’apprentis- et les résultats pas toujours pertinents. Le plus efficace semble être de fixer
sage intégrant la pondération (le choix) des variables comme de leurs interac- “assez grands” la taille (nombre de neurones) et le nombre d’itérations pour se
tions peuvent les rendre très efficaces. focaliser sur le seul réglage de la pénalisation.
Comme pour les arbres de décision, les réseaux de neurones ne proposent
pas de modèles très efficaces sur cet exemple. Les taux d’erreur de prévision

Page 106 sur 159 06.2014


7 Réseaux de neurones

1.0
100

0.8
250
Valeurs observees

True positive rate


50

0.6
Résidus
150

0.4
−100 −50
_ logit
0 50

0.2
_ nnetr
_ nnetq

0.0
0 50 100 200 300 0 50 100 200 300

Valeurs predites Valeurs predites 0.0 0.2 0.4 0.6 0.8 1.0

False positive rate

F IGURE 3 – Ozone : Valeurs observées et résidus de l’échantillon test en fonc-


tion des valeurs prédites par un réseau de 10 neurones F IGURE 5 – Ozone : courbes ROC pour la régression logistique et les réseaux
de neurones.

du dépassement du seuil sont de 14,4% à partir du modèle quantitatif et de


Performance of ‘nnet’ 15,6% avec une prévision directement qualitative. Les courbes ROC estimées
3.0 sur l’échantillon test permettent de comparer les méthodes. Dans ce cas et
680
pour l’échantillon test concerné, la méthode la plus efficace (figure 5) pour
2.5 675 prévoir le dépassement du pic d’ozone est un réseau de neurone modélisant la
670
concentration plutôt que la prévision directe du dépassement (logit ou réseau
decay

2.0 qualitatif).
665

1.5 660 3.3 Données bancaires


655 Une fonction de la librairie e1071, pratique mais très chronophage, pro-
1.0
pose une automatisation de l’optimisation des paramètres (decay, nombre de
2.0 2.5 3.0 3.5 4.0
neurones). Elle produit une carte de type contour permettant d’évaluer "à l’œil"
size les valeurs optimales. La prévision de l’échantillon test par ce réseau de neu-
rones conduit à la matrice de confusion ci-dessous et donc une erreur estimée
de 21,5% :
F IGURE 4 – Ozone : optimisation des paramètres (pénalisation et nombre de
neurones) par validation croisée. pred.vistest FALSE TRUE
FALSE 110 16

Page 107 sur 159 06.2014


8 Réseaux de neurones

TRUE 27 47

Références
[1] T.J. Haykin, Neural network, a comprehensive foundation, Prentice-Hall,
1994.

Page 108 sur 159 06.2014


1 Agrégation de modèles

Agrégation de modèles 2 Famille de modèles aléatoires


2.1 Bagging
Résumé Principe et algorithme

Les algorithmes décrits sont basés sur des stratégies adaptatives Soit Y une variable à expliquer quantitative ou qualitative, X 1 , . . . , X p les
(boosting) ou aléatoires (bagging, random forest) permettant d’amé- variables explicatives et φ(x) un modèle fonction de x = {x1 , . . . , xp } ∈ Rp .
liorer l’ajustement par une combinaison ou agrégation d’un grand On note n le nombre d’observations et
nombre de modèles tout en évitant le sur-ajustement. Définitions, op-
timisation et principes d’utilisation de ces algorithmes. z = {(x1 , y1 ), . . . , (xn , yn )}

Retour au plan du cours un échantillon de loi F .


L’espérance φ(.) = EF (φbz ) de l’estimateur définie sur l’échantillon z, est
1 Introduction un estimateur sans biais de variance nulle. Considérons B échantillons indé-
pendants notés {zb }b=1,B et construisons une agrégation des modèles dans le
Deux types d’algorithmes sont abordés. Ceux reposants sur une construc- cas où la variable à expliquer Y est :
tion aléatoires d’une famille de modèles : bagging pour bootstrap aggrega- bB (.) = 1 PB φbz (.),
• quantitative : φ B b=1 b n
ting (Breiman 1996)[2] et les forêts aléatoires (random forests) de Breiman o
• qualitative : bB (.) = arg maxj card b | φbz (.) = j .
φ
(2001)[4] qui propose une amélioration du bagging spécifique aux modèles b

définis par des arbres binaires (CART). Ceux basés sur le boosting (Freund et Dans le premier cas, il s’agit d’une simple moyenne des résultats obtenus pour
Shapiro,1996)[5] et qui reposent sur une construction adaptative, déterministe les modèles associés à chaque échantillon, dans le deuxième, un comité de
ou aléatoire, d’une famille de modèles. Ces algorithmes se sont développés modèles est constitué pour voter et élire la réponse la plus probable. Dans ce
à la frontière entre apprentissage machine (machine learning) et Statistique. dernier cas, si le modèle retourne des probabilités associées à chaque modalité
De nombreux articles comparatifs montrent leur efficacité sur des exemples comme en régression logistique ou avec les arbres de décision, il est aussi
de données simulées et surtout pour des problèmes réels complexes (voir par simple de calculer des moyennes de ces probabilités.
exemple Ghattas, 2000)[9] tandis que leurs propriétés théoriques sont un thème Le principe est élémentaire, moyenner les prévisions de plusieurs modèles
de recherche toujours actif. indépendants permet de réduire la variance et donc de réduire l’erreur de pré-
Les principes du bagging ou du boosting s’appliquent à toute méthode de vision.
modélisation (régression, CART, réseaux de neurones) mais n’ont d’intérêt, et Cependant, il n’est pas réaliste de considérer B échantillons indépendants.
réduisent sensiblement l’erreur de prévision, que dans le cas de modèles in- Cela nécessiterait généralement trop de données. Ces échantillons sont donc
stables, donc plutôt non linéaires. Ainsi, l’utilisation de ces algorithmes n’a remplacés par B réplications d’échantillons bootstrap obtenus chacun par n
guère de sens avec la régression multilinéaire ou l’analyse discriminante. Ils tirages avec remise selon la mesure empirique Fb. Ceci conduit à l’algorithme
sont surtout mis en œuvre en association avec des arbres binaires comme mo- ci-dessous.
dèles de base. En effet, l’instabilité déjà soulignés des arbres apparaît alors
comme une propriété essentielle à la réduction de la variance par agrégation A LGORITHME 1 : Bagging
de modèles.
Soit x0 à prévoir et

Page 109 sur 159 06.2014


2 Agrégation de modèles

z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon • temps de calcul important pour évaluer un nombre suffisant d’arbres jus-
for b = 1 à B do qu’à ce que l’erreur de prévision out-of-bag ou sur un échantillon valida-
Tirer un échantillon bootstrap z∗b . tion se stabilise et arrêt si elle tend à augmenter ;
Estimer φbzb (x0 ) sur l’échantillon bootstrap. • nécessiter de stocker tous les modèles de la combinaison afin de pouvoir
end for utiliser cet outil de prévision sur d’autres données,
PB
Calculer l’estimation moyenne φbB (x0 ) = B1 b=1 φbzb (x0 ) ou le résultat • l’amélioration de la qualité de prévision se fait au détriment de l’inter-
du vote. prétabilité. Le modèle finalement obtenu devient une boîte noire comme
dans le cas du perceptron.

Utilisation 2.2 Forêts aléatoires


Il est naturel et techniquement facile d’accompagner ce calcul par une esti- Dans les cas spécifique des modèles CART (arbres binaires), Breiman
mation bootstrap out-of-bag de l’erreur de prévision. Elle est une mesure de la (2001)[4] propose une amélioration du bagging par l’ajout d’une “randomi-
qualité de généralisation du modèle et permet de prévenir une éventuelle ten- sation”. L’objectif est donc de rendre plus “indépendants” les arbres de l’agré-
dance au sur-ajustement. C’est, pour éviter un biais, la moyenne des erreurs de gation en ajoutant du hasard dans le choix des variables qui interviennent dans
prévision commises par chaque estimateur ; chacune des erreurs étant estimée les modèles. Cette approche semble plus particulièrement fructueuse dans des
sur les observations qui n’ont pas été sélectionnées par l’échantillon bootstrap situations hautement multidimensionnelles, c’est-à-dire lorsque le nombre de
correspondant. variables explicatives p est très important. C’est le cas lorsqu’il s’agit, par
exemple, de discriminer des courbes, spectres, signaux, biopuces.
En pratique, CART est souvent utilisée comme méthode de base pour
construire une famille de modèles c’est-à-dire d’arbres binaires. L’effet obtenu Plus précisément, la variance de la moyenne de B variables i.i.d., chacune
2 2
par “moyennage” d’arbres est un lissage du pavage de l’espace des observa- de variance σ , est σ /B. Si les variables sont identiquement distribuées mais
tions pour la construction des règles de décision. Trois stratégies d’élagage avec une corrélation ρ des variables prises deux à deux, la variance de la
sont possibles : moyenne devient :
1. laisser construire et garder un arbre complet pour chacun des échantillons, 1−ρ 2
ρσ 2 + σ .
2. construire un arbre d’au plus q feuilles, B
3. construire à chaque fois l’arbre complet puis l’élaguer par validation croi- Comme dans le cas indépendant, le 2ème terme décroît avec B mais le premier
sée. limite considérablement l’avantage du bagging. C’est ce qui motive principa-
La première stratégie semble en pratique un bon compromis entre volume des lement la “randomisation” introduite dans l’algorithme ci-dessous.
calculs et qualité de prévision. Chaque arbre est alors affecté d’un faible biais
Algorithme
et d’une grande variance mais la moyenne des arbres réduit avantageusement
celle-ci. En revanche, l’élagage par validation croisée pénalise lourdement les A LGORITHME 2 : Forêts aléatoires
calculs sans gain substantiel de qualité. Soit x0 à prévoir et
Cet algorithme a l’avantage de la simplicité, il s’adapte et se programme z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon
facilement quelque soit la méthode de modélisation mise en œuvre. Il pose for b = 1 à B do
néanmoins quelques problèmes : Tirer un échantillon bootstrap z∗b

Page 110 sur 159 06.2014


3 Agrégation de modèles

Estimer un arbre sur cet échantillon avec randomisation des variables : que les variables sont très nombreuses. Plusieurs critères sont ainsi proposés
la recherche de chaque nœud optimal est précédé d’un tirage aléatoire pour évaluer l’importance de la jème variable.
d’un sous-ensemble de m prédicteurs. • Le premier (Mean Decrease Accuracy repose sur une permutation aléa-
end for PB toire des valeurs de cette variable. Il consiste à calculer la moyenne sur
Calculer l’estimation moyenne φbB (x0 ) = B1 b=1 φbzb (x0 ) ou le résultat les observations out-of-bag de la décroissance de leur marge lorsque la va-
du vote. riable est aléatoirement perturbée. La marge est ici la proportion de votes
pour la vraie classe d’une observation moins le maximum des proportions
des votes pour les autres classes. Il s’agit donc d’une mesure globale mais
Paramètres de l’algorithme indirecte de l’influence d’une variable sur la qualité des prévisions. Plus
La stratégie d’élagage peut, dans le cas des forêts aléatoires, être plus élé- la prévision est dégradée par la permutation des valeurs d’une variable,
mentaire qu’avec le bagging en se limitant à des arbres de taille q relativement plus celle-ci est importante.
réduite voire même triviale avec q = 2 (stump). En effet, avec le seul bag- • Le deuxième (Mean Decrease Gini) est local, basé sur la décroissance
ging, des arbres limités à une seule fourche risquent d’être très semblables d’entropie ou encore la décroissance de l’hétérogénéité définie à partir du
(fortement corrélés) car impliquant les mêmes quelques variables apparaissant critère de Gini. L’importance d’une variable est alors une somme pondé-
comme les plus explicatives. Dans la stratégie par défaut de l’algorithme, c’est rée des décroissances d’hétérogénéité induites lorqu’elle est utilisée pour
simplement le nombre minimum d’observation par mœuds qui limite la taille définir la division associée à un nœud.
de l’arbre, il est fixé à par défaut à 5. Ce sont donc des arbres plutôt complets • Le troisième, qui n’a pas été retenu par Breiman, est plus rudimentaire, il
qui sont considérés, chacun de faible biais mais de variance importante. s’intéresse simplement à la fréquence de chacune des variables apparais-
sant dans les arbres de la forêt.
La sélection aléatoire d’un nombre réduit de m prédicteurs potentiels à Selon Breiman les deux premiers sont très proches, l’importance d’une va-
chaque étape de construction d’un arbre, accroît significativement la variabilité riable dépend donc se sa fréquence d’apparition mais aussi des places qu’elle
en mettant en avant nécessairement d’autres variables. Chaque modèle de base occupe dans chaque arbre. Ces critères sont pertinents pour une discrimina-
est évidemment moins performant mais, l’union faisant la force, l’agrégation tion de deux classes ou, lorsqu’il y a plus de deux classes, si celles-ci sont
conduit finalement à de bons résultats. Le nombre m de variables tirées aléa- relativement équilibrées. Dans le cas contraire, c’est-à-dire si une des classes
toirement peut, selon les exemples traités, être un paramètre sensible avec des est moins fréquente et plus difficile à discriminer, l’expérience montre que le
choix par défaut pas toujours optimaux : troisième critère relativement simpliste présente un avantage : il donne une cer-

• m = p dans un problème de classification, taine importance aux variables qui sont nécessaires à la discrimination d’une
• m = p/3 dans un problème de régression. classe difficile alors que celles-ci sont négligées par les deux autres critères.
L’évaluation itérative de l’erreur out-of-bag permet de contrôler le nombre B
d’arbres de la forêt de de même qu’éventuellement optimiser le choix de m.
3 Famille de modèles adaptatifs
Interprétation
3.1 Principes du Boosting
Comme pour tout modèles construit par agrégation ou boîte noire, il n’y a
pas d’interprétation directe. Néanmoins des informations pertinentes sont ob- Le boosting diffère des approches précédentes par ses origines et ses prin-
tenues par le calcul et la représentation graphique d’indices proportionnels à cipes. L’idée initiale, en apprentissage machine, était d’améliorer les compé-
l’importance de chaque variable dans le modèle agrégé et donc de sa participa- tences d’un faible classifieur c’est-à-dire celle d’un modèle de discrimination
tion à la régression ou à la discrimination. C’est évidemment d’autant plus utile

Page 111 sur 159 06.2014


4 Agrégation de modèles

dont la probabilité de succès sur la prévision d’une variable qualitative est lé- toutes les versions, ce chapitre en propose un choix arbitraire.
gèrement supérieure à celle d’un choix aléatoire. L’idée originale de Schapire
de 1990 a été affinée par Freund et Schapire (1996)[5] qui ont décrit l’algo- 3.2 Algorithme de base
rithme original AdaBoost (Adaptative boosting) pour la prévision d’une va- Décrivons la version originale du boosting pour un problème de discrimi-
riable binaire. De nombreuses études ont ensuite été publiées pour adapter cet nation élémentaire à deux classes en notant δ la fonction de discrimination à
algorithme à d’autres situations : k classes, régression, paramètre de schrin- valeurs dans {−1, 1}. Dans cette version, le modèle de base retourne l’identité
kage et rendre compte de ses performances sur différents jeux de données. Ces d’une classe, il est encore nommé Adaboost discret. Il est facile de l’adapter
tests ont montré le réel intérêt pratique de ce type d’algorithme pour réduire à des modèles retournant une valeur réelle comme une probabilité d’apparte-
sensiblement la variance (comme le bagging) mais aussi le biais de prévision nance à une classe.
comparativement à d’autres approches. En effet, comme les arbres sont identi-
quement distribués par bagging, l’espérance de B arbres est la même que l’es-
A LGORITHME 3 : AdaBoost (adaptive boosting)
pérance d’un arbre. Cela signifie que le biais d’arbres agrégés par bagging est
le même que celui d’un seul arbre. Ce n’est plus le cas avec le boosting. Cet Soit x0 à prévoir et
algorithme est même considéré comme la meilleure méthode ”off-the-shelf” z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon
c’est-à-dire ne nécessitant pas un long prétraitement des données ni un réglage Initialiser les poids w = {wi = 1/n ; i = 1, . . . , n}.
fin de paramètres lors de la procédure d’apprentissage. for m = 1 à M do
Estimer δm sur l’échantillon pondéré par w.
Le boosting adopte le même principe général que le bagging : construction Calculer le taux d’erreur apparent :
d’une famille de modèles qui sont ensuite agrégés par une moyenne pondéré
Pn
des estimations ou un vote. Il diffère nettement sur la façon de construire la fa- wi 1{δm (xi ) 6= yi }
mille qui est dans ce cas récurrente : chaque modèle est une version adaptative Ep = i=1 Pn
b .
i=1 wi
du précédent en donnant plus de poids, lors de l’estimation suivante, aux obser-
vations mal ajustées ou mal prédites. Intuitivement, cet algorithme concentre
donc ses efforts sur les observations les plus difficiles à ajuster tandis que Calculer les logit : cm = log((1 − Ebp )/Ebp ).
l’agrégation de l’ensemble des modèles permet d’échapper au sur-ajustement. Calculer les nouvelles pondérations :

Les algorithmes de boosting proposés diffèrent par différentes caractéris- wi ← wi . exp [cm 1{δm (xi ) 6= yi }] ; i = 1, . . . , n.
tiques :
• la façon de pondérer c’est-à-dire de renforcer l’importance des observa- end for hP i
tions mal estimées lors de l’itération précédente, Résultat du vote : φbM (x0 ) = signe
M
m=1 cm δm (x0 ) .
• leur objectif selon le type de la variable à prédire Y : binaire, qualitative
à k classes, réelles ;
• la fonction perte, qui peut être choisie plus ou moins robuste aux valeurs Les poids de chaque observations sont initialisés à 1/n pour l’estimation
atypiques, pour mesurer l’erreur d’ajustement ; du premier modèle puis évoluent à chaque itération donc pour chaque nou-
• la façon d’agréger, ou plutôt pondérer, les modèles de base successifs. velle estimation. L’importance d’une observation wi est inchangée si elle est
La littérature sur le sujet présente donc de très nombreuses versions de cet bien classée, elle croît sinon proportionnellement
algorithme et il est encore difficile de dire lesquelles sont les plus efficaces et PM au défaut d’ajustement du
modèle. L’agrégation finale des prévisions : m=1 cm δm (x0 ) est une com-
si une telle diversité est bien nécessaire. Il serait fastidieux de vouloir expliciter binaison pondérée par les qualités d’ajustement de chaque modèle. Sa valeur

Page 112 sur 159 06.2014


5 Agrégation de modèles

absolue appelée marge est proportionnelle à la confiance que l’on peut attri- 3.4 Pour la régression
buer à son signe qui fournit le résultat de la prévision. Attention, un contrôle
doit être ajouté en pratique pour bien vérifier que le “classifieur” de base est Différentes adaptations du boosting ont été proposées pour le cas de la ré-
bien faible mais pas mauvais à savoir que cm garde bien des valeurs positives ; gression, c’est-à-dire lorsque la variable à prédire est quantitative. Voici l’al-
que le taux d’erreur apparent ne soit pas supérieur à 50%. gorithme de Drucker (1997) dans la présentation de Gey et Poggi (2002)[8]
qui en étudient les performances empiriques en relation avec CART. Freund et
Ce type d’algorithme est largement utilisé avec un arbre (CART) comme Schapire (1996) ont proposé Adaboost.R avec le même objectif tandis que le
modèle de base. De nombreuses applications montrent que si le “classifieur point de vue de Friedman (2002)[6] est décrit plus loin dans l’algorithme 5.
faible” est un arbre trivial à deux feuilles (stump), AdaBoost fait mieux qu’un
arbre sophistiqué pour un volume de calcul comparable : autant de feuilles
dans l’arbre que d’itérations dans AdaBoost. Hastie et col. (2001)[10] discutent A LGORITHME 4 : Boosting pour la régression
la meilleure stratégie d’élagage applicable à chaque modèle de base. Ils le Soit x0 à prévoir et
comparent avec le niveau d’interaction requis dans un modèle d’analyse de z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon
variance. Le cas q = 2 correspondant à la seule prise en compte des effets Initialiser p par la distribution uniforme p = {pi = 1/n ; i = 1, . . . , n}.
principaux. Empiriquement ils recommandent une valeur comprise entre 4 et for m = 1 à M do
8. Tirer avec remise dans z un échantillon z∗m suivant p.
De nombreuses adaptations ont été proposées à partir de l’algorithme ini- Estimer φbm sur l’échantillon z∗m .
tial. Elles font intervenir différentes fonctions pertes offrant des propriétés de Calculer à partir de l’échantillon initial z :
robustesse ou adaptées à une variable cible Y quantitative ou qualitative à plu-  
sieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002)[11] lm (i) = Q yi , φbm (xi ) i = 1, . . . , n; (Q : fonction perte)
liste une bibliographie détaillée. n
X
Ec
m = pi lm (i);
3.3 Version aléatoire i=1

À la suite de Freund et Schapire (1996)[5], Breiman (1998)[3] développe wi = g(lm (i))pi . (g continue non décroissante)
aussi, sous le nom d’Arcing (adaptively resample and combine), une version
aléatoire, et en pratique très proche, du boosting. Elle s’adapte à des classifieurs
pour lesquels il est difficile voire impossible d’intégrer une pondération des Calculer les nouvelles probabilités : pi ← Pnwi wi .
i=1
observations dans l’estimation. Ainsi plutôt que de jouer sur les pondérations, end for
à chaque itération, un nouvel échantillon est tiré avec remise, comme pour le Calculer φ(x
b 0 ) moyenne ou médiane des prévisions φbm (x0 ) pondérées par
bootstrap, mais selon des probabilités inversement proportionnelles à la qualité des coefficients log( β1m ).
d’ajustement de l’itération précédente. La présence des observations difficiles
à ajuster est ainsi renforcée pour que le modèle y consacre plus d’attention.
L’algorithme adaboost précédent est facile à adapter en ce sens en regardant Précisions :
celui développé ci-dessous pour la régression et qui adopte ce point de vue. • Dans cet algorithme la fonction perte Q peut être exponentielle, quadra-
tique ou, plus robuste, la valeur absolue. Le choix usuel de la fonction
quadratique est retenu par Gey et Poggi (2002)[8].
• Notons Lm = supi=1,...,n lm (i) le maximum de l’erreur observée par le

Page 113 sur 159 06.2014


6 Agrégation de modèles

modèle φbm sur l’échantillon initial. La fonction g est définie par : φbm (x) = φbm−1 (x)+cm δ(x; γm ) est alors une amélioration de l’ajustement
1−lm (i)/Lm précédent.
g(lm (i)) = βm (1)
Dans le cas d’adaboost pour l’ajustement d’une fonction binaire, la fonction
Ec
m perte utilisée est Q(y, φ(x)) = exp[−yφ(x)]. il s’agit donc de résoudre :
avec βm = . (2)
Lm − Ec m n
X h i
• Comme pour AdaBoost discret, une condition supplémentaire est ajoutée (cm , γm ) = arg min exp −yi (φbm−1 (xi ) + cδ(xi ; γ)) ;
(c,γ)
à l’algorithme. Il est arrêté ou réinitialisé à des poids uniformes si l’erreur i=1
n
se dégrade trop : si Ecm < 0.5L m . X
L’algorithme génère M prédicteurs construits sur des échantillons bootstrap = arg min wim exp [−cyi δ(xi ; γ)]
(c,γ)
z∗m dont le tirage dépend de probabilités p mises à jour à chaque itération. i=1
m
Cette mise à jour est fonction d’un paramètre βm qui est un indicateur de la avec wi = exp[−yi φbm−1 (xi )];
performance, sur l’échantillon z, du m-ième prédicteur estimé sur l’échantillon m
z∗m . La mise à jour des probabilités dépend donc à la fois de cet indicateur wi ne dépendant ni de c ni de γ, il joue le rôle d’un poids fonction de la
global βm et de la qualité relative lm (i)/Lm de l’estimation du i-ème individu. qualité de l’ajustement précédent. Quelques développements complémentaires
L’estimation finale est enfin obtenue à la suite d’une moyenne ou médiane des montrent que la solution du problème de minimisation est obtenue en deux
prévisions pondérées par la qualité respective de chacune de ces prévisions. étapes : recherche du classifieur optimal puis optimisation du paramètre cm .
Gey et Poggi (2002)[8] conseille la médiane afin de s’affranchir de l’influence Xn
de prédicteurs très atypiques. γm = arg min 1{yi 6= δ(xi ; γ)},
γ
i=1
3.5 Modèle additif pas à pas 1 1 − Ebp
cm = log
Le bon comportement du boosting par rapport à d’autres techniques de dis- 2 Ep
crimination est difficile à expliquer ou justifier par des arguments théoriques.
À la suite d’une proposition de Breiman en 1999 (rapport technique) de consi- avec Ebp erreur apparente de prévision tandis que les wi sont mis à jour avec :
dérer le boosting comme un algorithme global d’optimisation, Hastie et col. (m) (m−1)
(2001)[10] présentent le boosting dans le cas binaire sous la forme d’une ap- wi = wi exp[−cm ].
proximation de la fonction φ par un modèle additif construit pas à pas :
On montre ainsi qu’adaboost approche φ pas à pas par un modèle additif en
XM utilisant une fonction perte exponentielle tandis que d’aubres types de boosting
φ(x)
b = cm δ(x; γm ) sont définis sur la base d’une autre fonction perte :
m=1
AdaBoost Q(y, φ(x)) = exp[−yφ(x)],
est cette combinaison où cm est un paramètre, δ le classifieur (faible) de base LogitBoost Q(y, φ(x)) = log (1 + exp[−2yφ(x)],
2
fonction de x et dépendant d’un paramètre γm . Si Q est une fonction perte, il 2 2
s’agit, à chaque étape, de résoudre : L Boost Q(y, φ(x)) = (y − φ(x)) /2.
n
D’autres fonctions pertes sont envisageables pour, en particulier, un algo-
rithme plus robuste face à un échantillon d’apprentissage présentant des er-
X
(cm , γm ) = arg min Q(yi , φbm−1 (xi ) + cδ(xi ; γ));
(c,γ)
i=1
reurs de classement dans le cas de la discrimination ou encore des valeurs

Page 114 sur 159 06.2014


7 Agrégation de modèles

atypiques (outliers) dans le cas de la régression. Hastie et col. (2001)[10] com- sont ensuite optimisés pour chacune des régions Rjm définies par l’arbre de
parent les intérêts respectifs de plusieurs fonctions pertes. Celles jugées ro- régression ajustant les résidus. Un algorithme de discrimination est similaire
bustes (entropie en discrimination, valeur absolue en régression) conduisent à calculant autant de probabilités que de classes à prévoir.
des algorithmes plus compliqués à mettre en œuvre.
Sur-ajustement et régularisation
3.6 Boosting, gradient adaptatif et arbres Dans le dernier algorithme, le nombre d’itérations peut être contrôlé par
Algorithme un échantillon de validation. Comme pour d’autres méthodes (perceptron), il
suffit d’arrêter la procédure lorsque l’erreur estimée sur cet échantillon arrive
Dans le même esprit d’approximation adaptative, Friedman (2002)[6] a pro- à se dégrader. Une possibilité complémentaire consiste à ajouter un coefficient
posé sous l’acronyme MART (multiple additive regression trees) puis sous ν de rétrécissement (shrinkage comme en régression ridge). Compris entre 0
celui de GBM (gradient boosting models) une famille d’algorithmes basés sur et 1, celui-ci pénalise l’ajout d’un nouveau modèle dans l’agrégation et ralentit
une fonction perte supposée différentiable notée Q. Le principe de base est le l’ajustement.
même que pour Adaboost, construire une séquence de modèles de sorte que
Jm
chaque étape, chaque modèle ajouté à la combinaison, apparaisse comme un X
φbm (x) = φbm−1 (x) + ν γjm 1{x ∈ Rjm }
pas vers une meilleure solution. La principale innovation est que ce pas est
j=1
franchi dans la direction du gradient de la fonction perte lui-même approché
par un arbre de régression. L’algorithme ci-dessous décrit le cas de la régres- Il joue le rôle du coefficient decay du perceptron) et, si sa valeur est petite
sion, il peut être adapté à celui de la classification. (< 0, 1) cela conduit à accroître le nombre d’arbres mais entraîne générale-
ment une amélioration de la qualité de prévision. Le boosting est un algorithme
A LGORITHME 5 : Gradient Tree Boosting pour la régression qui peut effectivement converger exactement, donc éventuellement vers une si-
Soit x0 à prévoir Pn tuation de sur-apprentissage. En pratique, cette convergence peut être rendue
Initialiser φb0 = arg minγ i=1 Q(yi , γ) suffisamment lente pour être mieux contrôlée.
for m = 1 à M do h i Interprétation
Calculer ri m = − δQ(y i ,φ(xi ))
δφ(xi ) ,
φ=φm−1
Ajuster un arbre de régression aux rm i donnant les feuilles ou régions L’interprétabilité des arbres de décision sont une des raisons de leur succès.
terminales Rjm ; j = 1, . . . , Jm . Leur lecture ne nécessite pas de compétences particulières en statistique. Cette
for m = 1 à M do propriété est évidemment perdue par l’agrégation d’arbres ou de tout autre
P
Calculer γjm = arg minγ xi ∈Rjm Q(yi , φm−1 + γ).
b modèle. Néanmoins, surtout si le nombre de variables est très grand, il est
end for important d’avoir une indication de l’importance relative des variables entrant
Mise à jour : φ (x) = φ (x) +
PJm
γ 1{x ∈ R }. dans la modélisation.
m m−1 jm jm
b b
j=1
end for Des critères d’importance des variables sont néanmoins faciles à calculer
Résultat : φbM (x0 ). comme dans le cas des forêts aléatoires.
Performances
L’algorithme est initialisé par un terme constant c’est-à-dire encore un arbre
à une feuille. Les expressions du gradient reviennent simplement à calculer En résumé, le boosting est susceptible de réduire la variance comme le bag-
les résidus rmj du modèle à l’étape précédente. Les termes correctifs γjm ging et également le biais par agrégation, il donne généralement de meilleurs

Page 115 sur 159 06.2014


8 Agrégation de modèles

résultats. De leur côté les forêts aléatoires basées sur des modèles de faible réseaux de neuronnes.
biais (arbres complets) permettent de réduire significativement la variance et • la deuxième construit une combinaison linéaire convexe (super learner
conduisent donc à des résultats compétitifs avec le boosting. Van der Laan et al. (2007)[12]) ou une régression locale, à partir des mo-
Chaque problème, chaque jeu de données présente des spécificités et il est dèles précédents (COBRA de Biau et al. (2013)[1]).
difficile d’anticiper sur le choix d’une meilleure méthode, seule la comparaison
4.1 Super learner
des erreurs sur des échantillons tests permet d’optimiser le choix. Ainsi, dans
le cas d’un très grand nombre p de variables où seules quelques unes sont Le principe de l’approche proposée par van der Laan et al. (2007) [12] est
pertinentes, les forêts aléatoire peinent à les extraire, surtout évidemment si m simple, il s’agit de calculer une combinaison convexe ou moyenne pondérée
est fixé trop petit. C’est en revanche dans cette situation que le boosting peut de plusieurs prévisions obtenues par plusieurs modèles. Les paramètres de la
s’avérer plus performant. combinaison sont optimisés en minimisant un critère de validation croisée. La
La dernière version de boosting (GBM) adaptant et approchant le gradient méthode est implémentée dans la librairie SuperLearner de R où toutes
par un arbre peut s’avérer très performante surtout lorsque le coefficient de les combinaisons de méthodes ne sont pas possibles, seule une liste prédéfinie
régularisation ou schrinkage est bien réglé. Néanmoins cette approche perd en est implémentée à cette date (juin 2014) : glm, random forest, gbm,
simplicité du fait du nécessiare réglage de plusieurs paramètres (choix de la mars, svm. Son emploi est illustré dans le scénario d’analyse de données
fonction perte, de la profondeur des arbres, du coefficient de régularisation...). (QSAR) issues de criblage virtuel de molécules.

Logiciels 4.2 COBRA


Le bagging est très facile à programmer dans R mais il existe une librairie Biau et al. (2013)[1] proposent de combiner une collection de m fonctions
(ipred) qui en propose des implémentations efficaces. L’algorithme de boos- de régression fbk (k = 1, m) en tenant compte de la proximité entre les données
ting, ou plutôt la version de Friedman et col. (2000)[7] a été développée et d’apprentissage avec l’observation à prévoir. Plus précisément, la prévision
interfacée avec R dans la librairie gbm tandis que Friedman fait commerciali- en ybx est obtenue à partir de m prévisions comme la moyenne non pondérée
ser ses outils par la société Salford System. Schapire diffuse lui le logiciel Boost des observations yi dont les prévisions par α ∗ m machines (α entre 0 et 1)
texter sur sa page pour des utilisations non commerciales. Les forêts aléatoires sont dans les boules de rayon ε centrées en chaque fbk (xi ). Ils montrent que,
(Breiman, 2001)[4], sont estimées par un programme écrit en fortran interfacé asymptotiquement, cette combinaison d’estimateurs fait au moins aussi bien,
avec R et distribuées avec la librairie randomForest de R. D’autres versions au sens du risque quadratique ou erreur L2 de prévision, que la meilleure des
de cet algorithmes sont disponibles dans R. fonctions de régression de la collection.
D’autres implémentations sont accessibles dans des boîtes à outils mathlab. Principe

4 Super “apprenti” en régression La principale originalité de COBRA par rapport aux techniques d’agréga-
tion de modèles précédentes, est que cette méthode n’opère pas une moyenne
D’autres stratégies ont été proposées dans l’optique d’une prévision “bru- de prévisions mais une moyenne d’observations : celles les plus proches des
te”en régression, sans sélection de variables ou objectif d’interprétation du prévisions d’une famille de modèles ou de m machines. COBRA opère donc
modèle. Elles procèdent en deux principales étapes : une forme de régression non-paramétrique avec une fonction noyau ou une no-
• la première consiste à estimer un ensemble de modèles variés appartenant tion de voisinage très complexe car elle dépend des prévisions d’une famille de
à celles des méthodes, de la régression au boosting en passant par les machines. Biau et al. (2013) explique le principe par un exemple jouet repris

Page 116 sur 159 06.2014


9 Agrégation de modèles

dans la figure 1.
Connaissant un ensemble d’apprentissage (xi , yi ), les quantités f1 et f2 sont
estimées. La prévision en x0 est construite de la façon suivante. Une sélections
des observations est opérée, ce sont celles qui vérifient pour un seuil ε choisi :

m = 1, 2 : |fm (xi ) − f m(x0 )| ≤ ε.

La simple moyenne des observations sélectionnées par unanimité fournit la


prévision. Ce principe d’unanimité peut être relâché en acceptant qu’une pro-
portion réduite α des M machines satisfassent la contrainte sur les observa-
tions.
Sous des hypothèse que les machines sont bornées, Biau et al. (2013)
montrent que le risque “collectif” est borné par le plus petit risque de toutes
2
les machines plus un terme d’ordre `−2 M +2 .
Illustration
Comme pour le Super learner cette approche est testée dans le scénario
d’analyse de données (QSAR) issues de criblage virtuel de molécules. La li-
brairie R COBRA implémente cette méthode en proposant une procédure d’op-
timisation des paramètres α et ε. Tout type de modèle de régression peut être
inclus dans la procédure COBRA, il est conseillé d’en utiliser des très “variés”
linéaires et surtout non linéaires afin d’optimiser les chances du succès.
Bien entendu, même les faibles capacités d’interprétation de certains mé-
thodes comme random forest avec les critères d’importance de variables ne
sont plus dconservées.
F IGURE 1 – COBRA : De gauche à droite et de bas en haut : L’ensemble d’ap-
5 Exemples prentissage (Y fonction de X) ; il faut prévoir la valeur sur la ligne pointillée.
Les estimations de chaque observation par deux machines (rouge et verte). Une
5.1 Cancer du sein tolérance (±ε à optimiser) détermine les observations retenues pour chaque
La prévision de l’échantillon test par ces algorithmes conduit aux matrices machine autour de la valeur à prévoir. La prévision est la moyenne (en bleu)
de confusion : des observations (en noir) sélectionnées pour toutes les machines à l’étape
précédente.
bagging(ipred) adaboost(gbm) random forest
benign malignant benign malignant benign malignant
benign 83 3 84 1 83 0
malignant 3 48 2 50 3 51

Page 117 sur 159 06.2014


10 Agrégation de modèles

250

100
Valeurs observees
3.0

50
150
4
2.0

Résidus
Err.test
Err.app

0
3

50
1.0

−50
0
2
0.0

0 50 100 200 300

−100
5 10 15 5 10 15
0 50 100 150 200 250 300
Valeurs predites
Valeurs predites

F IGURE 3 – Ozone : Valeurs observées et résidus de l’échantillon test en fonc-


tion des valeurs prédites par une forêt aléatoire
F IGURE 2 – Cancer : Évolution des taux d’erreur (%) sur les échantillons
d’apprentissage et de test en fonction du nombre d’arbres dans le modèle avec
adaboost. même échantillon test et d’autres expérimentations sont nécessaires pour dé-
partager, ou non, les différentes méthodes. Il semble que, à travers plusieurs
et, respectivement, des erreurs estimées de 4,4 et 2,2% pour cet exemple et exemples, l’amélioration apportée à la prévision par des algorithmes d’agré-
avec les échantillons (apprentissage et test) tirés. gation de modèles soit nettement plus probante dans des situations difficiles
c’est-à-dire avec beaucoup de variables explicatives et des problèmes de mul-
Il est remarquable de noter l’évolution des erreurs d’ajustement et de test sur ticolinéarité.
cet exemple (figure 2) en fonction du nombre d’arbres estimés par adaboost. Comme les réseaux de neurones, les algorithmes d’agrégation de modèles
L’erreur d’apprentissage arrive rapidement à 0 tandis que celle de test continue sont des boîtes noires. Néanmoins dans le cas des forêts, les critères d’impor-
à décroître avant d’atteindre un seuil. Cet algorithme est donc relativement tance donnent des indications sur le rôle de celles-ci. Les voici ordonnées par
robuste au sur-apprentissage avant, éventuellement, de se dégrader pour des ordre croissant du critère basé sur celui de Gini pour la construction des arbres.
raisons, sans doute, de précision numérique. Ce comportement à été relevé
dans beaucoup d’exemples dans la littérature. jour station lno lno2 vmodule s_rmh2o O3_pr TEMPE
2.54 13.58 21.78 23.33 24.77 31.19 43.87 67.66
5.2 Concentration d’ozone
Malgré une bonne prévision quantitative, la prévision du dépassement de
seuil reste difficile pour l’algorithme des forêts aléatoires. Par une régression Les variables prépondérantes sont celles apparues dans la construction d’un
ou une discrimination, le taux d’erreur obtenu est le même (12,5%) sur le seul arbre.

Page 118 sur 159 06.2014


11 Agrégation de modèles

Cnon Coui
Cnon 126 11
0.24

0.25
Coui 10 53
0.20

0.20
tandis que les coefficients d’importance :
Err.oob

Err.test
0.16

0.15
QSMOY FACANL RELAT DMVTPL QCREDL MOYRVL
20.97 26.77 29.98 36.81 40.31 50.01
0.12

0.10
0 100 200 300 400 500 0 100 200 300 400 500

Index Index mettent en évidence les variables les plus discriminantes. De son côté, le boos-
ting (sans schrinkage) fournit des résultats tout à fait comparables avec un taux
d’erreur de 11%.
F IGURE 4 – Banque : Évolution du taux de mal classés estimés "out-of-bag"
et sur l’échantillon test en fonction du nombre d’arbres intervenant dans la Références
combinaison de modèles.
[1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Non-
linear Aggregation Strategy, (2013), http://arxiv.org/abs/
1303.2236.
5.3 Données bancaires
[2] L. Breiman, Bagging predictors, Machine Learning 26 (1996), no 2, 123–
Les arbres, qui acceptent à la fois des variables explicatives qualitatives et 140.
quantitatives en optimisant le découpage des variables quantitatives, se prêtent [3] , Arcing classifiers, Annals of Statistics 26 (1998), 801–849.
bien au traitement des données bancaires. on a vu qu’un seul arbre donnait des
résultats semble-t-il très corrects. Naturellement les forêts constitués d’arbres [4] , Random forests, Machine Learning 45 (2001), 5–32.
se trouvent également performantes sur ces données en gagnant en stabilité et [5] Y. Freund et R.E. Schapire, Experiments with a new boosting algorithm,
sans trop se poser de problème concernant l’optimisation de paramètres. Les Machine Learning : proceedings of the Thirteenth International Confe-
TPs décrivent également les résultats proposés par les algorithmes de bagging rence, Morgan Kaufman, 1996, San Francisco, p. 148–156.
et de boosting sur les arbres en faisant varier certains paramètres comme le [6] J. H. Friedman, Stochastic gradient boosting, Computational Statisrics
shrinkage dans le cas du boosting. and Data Analysis 38 (2002), .
Les graphiques de la figure 4 montrent bien l’insensibilité des forêts au sur- [7] J. H. Friedman, H. Hastie et R. Tibshirani, Additive logistic regression : a
apprentissage. Les taux d’erreurs estimés, tant par bootstrap (out-of-bag), que statistical view of boosting, The Annals of Statistics 28 (2000), 337–407.
sur un échantillon test, se stabilisent au bout de quelques centaines d’itérations.
Il est même possible d’introduire dans le modèle toutes les variables quanti- [8] S. Gey et J. M. Poggi, Boosting and instabillity for regression trees, Rap.
tatives et qualitatives, avec certaines dupliquées, en laissant l’algorithme faire tech. 36, Université de Paris Sud, Mathématiques, 2002.
son choix. Cet algorithme conduit à un taux d’erreur de 10,5% sur l’échantillon [9] B. Ghattas, Agrégation d’arbres de classification, Revue de Statistique
test avec la matrice de confusion : Appliquée 48 (2000), no 2, 85–98.

Page 119 sur 159 06.2014


12 Agrégation de modèles

[10] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical lear-


ning : data mining, inference, and prediction, Springer, 2009, Second
edition.
[11] R. Schapire, The boosting approach to machine learning. An overview,
MSRI workshop on non linear estimation and classification, 2002, p. .
[12] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statis-
tical Applications in Genetics and Molecular Biology 6 :1 (2007).

Page 120 sur 159 06.2014


1 Machines à vecteurs supports

ce développement, est d’éviter de substituer à l’objectif initial : la discrimina-


Machines à vecteurs supports tion, un ou des problèmes qui s’avèrent finalement plus complexes à résoudre
comme par exemple l’estimation non-paramétrique de la densité d’une loi mul-
tidimensionnelle en analyse discriminante.
Résumé
Le principe de base des SVM consiste de ramener le problème de la discri-
Recherche d’un hyperplan, dit de marge optimale (vaste), pour la mination à celui, linéaire, de la recherche d’un hyperplan optimal. Deux idées
séparation de deux classes dans un espace hilbertien défini par ou astuces permettent d’atteindre cet objectif :
un noyau reproduisant associé au produit scalaire de cet espace. • La première consiste à définir l’hyperplan comme solution d’un problème
Estimation de l’hyperplan dans le cas linéaire et séparable ; les d’optimisation sous contraintes dont la fonction objectif ne s’exprime
contraintes actives du problème d’optimisation déterminent les vec- qu’à l’aide de produits scalaires entre vecteurs et dans lequel le nombre
teurs supports. Extension au cas non linéaire par plongement dans de contraintes “actives” ou vecteurs supports contrôle la complexité du
un espace hilbertien à noyau reproduisant. Extension au cas non sé- modèle.
parable par pénalisation. • Le passage à la recherche de surfaces séparatrices non linéaires est obtenu
Retour au plan du cours par l’introduction d’une fonction noyau (kernel) dans le produit scalaire
induisant implicitement une transformation non linéaire des données vers
un espace intermédiaire (feature space) de plus grande dimension. D’où
1 Introduction l’appellation couramment rencontrée de machine à noyau ou kernel ma-
Les Support Vector Machines souvent traduit par l’appellation de Sépara- chine. Sur le plan théorique, la fonction noyau définit un espace hilbertien,
teur à Vaste Marge (SVM) sont une classe d’algorithmes d’apprentissage ini- dit auto-reproduisant et isométrique par la transformation non linéaire de
tialement définis pour la discrimination c’est-à-dire la prévision d’une variable l’espace initial et dans lequel est résolu le problème linéaire.
qualitative initialement binaire. Ils ont été ensuite généralisés à la prévision Cet outil devient largement utilisé dans de nombreux types d’application
d’une variable quantitative. Dans le cas de la discrimination d’une variable di- et s’avère un concurrent sérieux des algorithmes les plus performants (agré-
chotomique, ils sont basés sur la recherche de l’hyperplan de marge optimale gation de modèles). L’introduction de noyaux, spécifiquement adaptés à une
qui, lorsque c’est possible, classe ou sépare correctement les données tout en problématique donnée, lui confère une grande flexibilité pour s’adapter à des
étant le plus éloigné possible de toutes les observations. Le principe est donc situations très diverses (reconnaissance de formes, de séquences génomiques,
de trouver un classifieur, ou une fonction de discrimination, dont la capacité de de caractères, détection de spams, diagnostics...). À noter que, sur le plan algo-
généralisation (qualité de prévision) est la plus grande possible. rithmique, ces algorithmes sont plus pénalisés par le nombre d’observations,
c’est-à-dire le nombre de vecteurs supports potentiels, que par le nombre de
Cette approche découle directement des travaux de Vapnik en théorie de
variables. Néanmoins, des versions performantes des algorithmes permettent
l’apprentissage à partir de 1995. Elle s’est focalisée sur les propriétés de gé-
de prendre en compte des bases de données volumineuses dans des temps de
néralisation (ou prévision) d’un modèle en contrôlant sa complexité. Voir à ce
calcul acceptables.
sujet la vignette sur l’estimation d’un risque et la section introduisant la dimen-
sion de Vapnik-Chernovenkis comme indicateur du pouvoir séparateur d’une Le livre de référence sur ce sujet est celui de Schölkopf et Smola (2002)[2].
famille de fonctions associé à un modèle et qui en contrôle la complexité. Le De nombreuses introduction et présentations des SVM sont accessibles sur des
principe fondateur des SVM est justement d’intégrer à l’estimation le contrôle sites comme par exemple : www.kernel-machines.org. Guermeur et
de la complexité c’est-à-dire le nombre de paramètres qui est associé dans ce Paugam-Moisy (1999)[1] en proposent une en français.
cas au nombre de vecteurs supports. L’autre idée directrice de Vapnik dans

Page 121 sur 159 06.2014


2 Machines à vecteurs supports

2 Principes
2.1 Problème
Comme dans toute situation d’apprentissage, on considère une variable Y
à prédire mais qui, pour simplifier cette introduction élémentaire, est suppo-
sée dichotomique à valeurs dans {−1, 1}. Soit X = X 1 , . . . , X p les va-
riables explicatives ou prédictives et φ(x) un modèle pour Y , fonction de
x = {x1 , . . . , xp } ∈ Rp . Plus généralement on peut simplement considérer
la variable X à valeurs dans un ensemble F.
On note
z = {(x1 , y1 ), . . . , (xn , yn )}
un échantillon statistique de taille n et de loi F inconnue. L’objectif est donc
de construire une estimation φb de φ, fonction de F dans {−1, 1}, de sorte que
la probabilité : F IGURE 1 – Sous-ajustement linéaire et sur-ajustement local (proches voisins)
P (φ(X) 6= Y ) d’un modèle quadratique.
soit minimale.
Dans ce cas (Y dichotomique), le problème se pose comme la recherche
d’une frontière de décision dans l’espace F des valeurs de X. De façon clas- On dit que Y f (X) est la marge de f en (X, Y ).
sique, un compromis doit être trouvé entre la complexité de cette frontière, qui 2.3 Espace intermédiaire
peut s’exprimer aussi comme sa capacité à pulvériser un nuage de points par
la VC dimension, donc la capacité d’ajustement du modèle, et les qualités de Une première étape consiste à transformer les valeurs de X, c’est-à-dire les
généralisation ou prévision de ce modèle. Ce principe est illustré par la figure objets de F par une fonction Φ à valeurs dans un espace H intermédiaire (fea-
1. ture space) muni d’un produit scalaire. Cette transformation est fondamentale
dans le principe des SVM, elle prend en compte l’éventuelle non linéarité du
2.2 Marge problème posé et le ramène à la résolution d’une séparation linéaire. Ce point
est détaillé dans une section ultérieure. Traitons tout d’abord le cas linéaire
La démarche consiste à rechercher, plutôt qu’une fonction φ à valeurs dans
b
c’est-à-dire le cas où Φ est la fonction identité.
{−1, 1}, une fonction réelle f dont le signe fournira la prévision :

φb = signe(f ). 3 Séparateur linéaire


L’erreur s’exprime alors comme la quantité :
3.1 Hyperplan séparateur
P (φ(X) 6= Y ) = P (Y f (X) ≤ 0).
La résolution d’un problème de séparation linéaire est illustré par la figure
De plus, la valeur absolue de cette quantité |Y f (X)| fournit une indication sur 2. Dans le cas où la séparation est possible, parmi tous les hyperplans solutions
la confiance à accorder au résultat du classement. pour la séparation des observations, on choisit celui qui se trouve le plus “loin”

Page 122 sur 159 06.2014


3 Machines à vecteurs supports

2
et, dans ces conditions, la marge du plan a pour valeur kwk 2 . Chercher le plan

séparateur de marge maximale revient à résoudre le problème ci-dessous d’op-


timisation sous contraintes (problème primal) :

 minw 12 kwk2

avec ∀i, yi (< w, xi > +b) ≥ 1.


Le problème dual est obtenu en introduisant des multiplicateurs de La-


grange. La solution est fournie par un point-selle (w∗ , b∗ , λ∗ ) du lagrangien :
F IGURE 2 – Recherche d’un hyperplan de séparation optimal au sens de la n
marge maximale.
X
L(w, b, λ) = 1/2kwk22 − λi [yi (< w, xi > +b) − 1] .
i=1

possible de tous les exemples, on dit encore, de marge maximale. Ce point-selle vérifie en particulier les conditions :
Dans le cas linéaire, un hyperplan est défini à l’aide du produit scalaire de
H par son équation : λ∗i [yi (< w∗ , xi > +b∗ ) − 1] = 0 ∀i ∈ {1, . . . , n}.
hw, xi + b = 0
Les vecteurs support sont les vecteurs xi pour lesquels la contrainte est active,
où w est un vecteur orthogonal au plan tandis que le signe de la fonction c’est-à-dire les plus proches du plan, et vérifiant donc :
f (x) = hw, xi + b
yi (< w∗ , xi > +b∗ ) = 1.
indique de quel côté se trouve le point x à prédire. Plus précisément, un point
est bien classé si et seulement si : Les conditions d’annulation des dérivées partielles du lagrangien permettent
d’écrire les relations que vérifient le plan optimal, avec les λ∗i non nuls seule-
yf (x) > 0
ment pour les points supports :
mais, comme le couple (w, b) qui caractérise le plan est défini à un coefficient n n
multiplicatif près, on s’impose :
X X
w∗ = λ∗i yi xi et λ∗i yi = 0.
i=1 i=1
yf (x) ≥ 1.
Un plan (w, b) est un séparateur si : Ces contraintes d’égalité permettent d’exprimer la formule duale du lagran-
gien :
n n
yi f (xi ) ≥ 1 ∀i ∈ {1, . . . , n}. X 1 X
W (λ) = λi − λi λj yi yj < xi , xj > .
La distance d’un point x au plan (w, b) est donnée par : i=1
2 i,j=1

| hw, xi + b| |f (x)| Pour trouver le point-selle, il suffit alors de maximiser W (λ) avec λi ≥ 0 pour
d(x) = = tout i ∈ {1, ...n}. La résolution de ce problème d’optimisation quadratique de
kwk kwk
Page 123 sur 159 06.2014
4 Machines à vecteurs supports

taille n, le nombre d’observations, fournit l’équation de l’hyperplan optimal : • De nombreux algorithmes sont proposés pour résoudre ces problèmes
n d’optimisation quadratique. Certains, proposant une décomposition de
X 1 l’ensemble d’apprentissage, sont plus particulièrement adaptés à prendre
λ∗i yi ∗ 0 ∗
< x, xi > +b = 0 avec b = − [< w , svclass+1 > + < w , svclass−1 ∗
>] .
i=1
2 en compte un nombre important de contraintes lorsque n, le nombre d’ob-
servation, est grand.
Pour une nouvelle observation x non apprise présentée au modèle, il suffit de
• On montre par ailleurs que la recherche des hyperplans optimaux répond
regarder le signe de l’expression :
bien au problème de la “bonne” généralisation. On montre aussi que, si
Xn l’hyperplan optimal peut être construit à partir d’un petit nombre de vec-
f (x) = λ∗i yi hx, xi i + b∗ teurs supports, par rapport à la taille de la base d’apprentissage, alors la
i=1 capacité en généralisation du modèle sera grande, indépendamment de la
pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe taille de l’espace.
il faut lui attribuer. • Plus précisément, on montre que, si les X sont dans une boule de rayon R,
l’ensemble des hyperplans de marge fixée δ a une VC-dimension bornée
3.2 Cas non séparable par
R2
Lorsque les observations ne sont pas séparables par un plan, il est nécessaire avec kxk ≤ R.
d”’assouplir” les contraintes par l’introduction de termes d’erreur ξi qui en δ2
• L’erreur par validation croisée (leave-one-out) et bornée en moyenne par
contrôlent le dépassement :
le nombre de vecteurs supports. Ces bornes d’erreur sont bien relative-
yi hw, xi i + b ≥ +1 − ξi ∀i ∈ {1, . . . , n}. ment prédictives mais néanmoins trop pessimistes pour être utiles en pra-
tique.
Le modèle attribue ainsi une réponse fausse à un vecteur xi si le ξi correspon-
dant est supérieur à 1. La somme de tous les ξi représente donc une borne du
nombre d’erreurs. 4 Séparateur non linéaire
Le problème de minimisation est réécrit en introduisant une pénalisation par 4.1 Noyau
le dépassement de la contrainte :
 2 Pn Revenons à la présentation initiale du problème. Les observations faites dans
min 21 kwk + δ i=1 ξi l’ensemble F (en général Rp ) sont considérées comme étant transformées par
∀i, yi hw, xi i + b ≥ +1 − ξi une application non linéaire Φ de F dans H muni d’un produit scalaire et de
plus grande dimension.
Remarques
Le point important à remarquer, c’est que la formulation du problème de
• Le paramètre δ contrôlant la pénalisation est à régler. Plus il est grand et
minimisation ainsi que celle de sa solution :
plus cela revient à attribuer une forte importance à l’ajustement. Il est le
n
paramètre qui ajuste le compromis entre bon ajustement et bonne généra- X
lisation. f (x) = λ∗i yi hx, xi i + b∗
i=1
• Le problème dans le cas non séparable se met sous la même forme duale
que dans la cas séparable à une différence près : les coefficients λi sont ne fait intervenir les éléments x et x0 que par l’intermédiaire de produits sca-
tous bornés par la constante δ de contrôle de la pénalisation. laires : hx, x0 i. En conséquence, il n’est pas nécessaire d’expliciter la transfor-

Page 124 sur 159 06.2014


5 Machines à vecteurs supports

quelle définit une matrice de produit scalaire.


Dans ce cas, on montre qu’il existe un espace H et une fonction Φ tels que :

k(x, x0 ) = hΦ(x), Φ(x0 )i .

Malheureusement, cette condition théorique d’existence est difficile à vé-


rifier et, de plus, elle ne donne aucune indication sur la construction de la
fonction noyau ni sur la transformation Φ. La pratique consiste à combiner
des noyaux simples pour en obtenir des plus complexes (multidimensionnels)
associés à la situation rencontrée.
F IGURE 3 – Rôle de l’espace intermédiaire dans la séparation des données.
4.3 Exemples de noyaux
mation Φ, ce qui serait souvent impossible, à condition de savoir exprimer les • Linéaire
produits scalaires dans H à l’aide d’une fonction k : F × F → R symétrique k(x, x0 ) = hx, x0 i
appelée noyau de sorte que :
• Polynômial
k(x, x0 ) = hΦ(x), Φ(x0 )i . k(x, x0 ) = (c + hx, x0 i)d
Bien choisi, le noyau permet de matérialiser une notion de “proximité” adaptée • Gaussien
kx−x0 k2
au problème de discrimination et à sa structure de données. k(x, x0 ) = e− 2σ 2

Exemple Beaucoup d’articles sont consacrés à la construction d’un noyau plus ou moins

2
Prenons le cas trivial où x = (x1 , x2 ) dans R et Φ(x) = (x21 , 2x1 x2 , x2 ) exotique et adapté à une problématique posée : reconnaissance de séquences,
2

est explicite. Dans ce cas, H est de dimension 3 et le produit scalaire s’écrit : de caractères, l’analyse de textes... La grande flexibilité dans la définition des
noyaux, permettant de définir une notion adaptée de similitude, confère beau-
hΦ(x), Φ(x0 )i = x21 x02 1 + 2x 1 x 2 x 0 0
x
1 2 + x 2 02
x
2 2 coup d’efficacité à cette approche à condition bien sur de construire et tester
0 0 2 le bon noyau. D’où apparaît encore l’importance de correctement évaluer des
= (x1 x1 + x2 x2 )
2 erreurs de prévision par exemple par validation croisée.
= hx, x0 i
Attention, les SVM à noyaux RBF gaussiens, pour lesquels, soit on est dans
= k(x, x0 ).
le cas séparable, soit la pénalité attribuée aux erreurs est autorisée à prendre
Le calcul du produit scalaire dans H ne nécessite pas l’évaluation explicite de n’importe quelle valeur, ont une VC-dimension infinie.
Φ. D’autre part, le plongement dans H = R3 peut rendre possible la séparation
linéaire de certaines structures de données (cf. figure 3). 4.4 SVM pour la régression

4.2 Condition de Mercer Les SVM peuvent également être mis en œuvre en situation de régression,
c’est-à-dire pour l’approximation de fonctions quand Y est quantitative. Dans
Une fonction k(., .) symétrique est un noyau si, pour tous les xi possibles, la le cas non linéaire, le principe consiste à rechercher une estimation de la fonc-
matrice de terme général k(xi , xj ) est une matrice définie positive c’est-à-dire tion par sa décomposition sur une base fonctionnelle. la forme générale des

Page 125 sur 159 06.2014


6 Machines à vecteurs supports

fonctions calculées par les SVM se met sous la forme :



X
φ(x, w) = wi vi (x).
i=1

Le problème se pose toujours comme la minimisation d’une fonction coût,


mais, plutôt que d’être basée sur un critère d’erreur quadratique (moindres
carrés), celle-ci s’inspire des travaux de Huber sur la recherche de modèles
robustes et utilise des écarts absolus.
On note |.| la fonction qui est paire, continue, identiquement nulle sur l’in-
tervalle [0, ] et qui croit linéairement sur [, +∞]. La fonction coût est alors F IGURE 4 – Cookies : trois exécutions de la validation croisée estimant l’erreur
définie par : en fonction de la pénalisation d’un noyau linéaire.
n
1X
E(w, γ) = |yi − φ(xi , w)| + γkwk2
n i=1 ign malignant
benign 83 1
où γ est, comme en régression ridge, un paramètre de régularisation assurant malignant 3 50
le compromis entre généralisation et ajustement. De même que précédemment,
on peut écrire les solutions du problèmes d’optimisation. Pour plus de détails, et donc une erreur estimée de 3%.
se reporter à Schölkopf et Smola (2002)[2]. Les points de la base d’apprentis-
sage associés à un coefficient non nul sont là encore nommés vecteurs support. 5.2 Concentration d’ozone
Dans cette situation, les noyaux k utilisés sont ceux naturellement associés Un modèle élémentaire avec noyau par défaut (gaussien) et une pénalisation
à la définition de bases de fonctions. Noyaux de splines ou encore noyau de de 2 conduit à une erreur de prévision estimée à 12,0% sur l’échantillon test.
Dériclet associé à un développement en série de Fourier sont des grands clas- La meilleure prévision de dépassement de seuil sur l’échantillon test initial
siques. Ils expriment les produits scalaires des fonctions de la base. est fournie par des SVM d’ε-régression. Le taux d’erreur est de 9,6% avec la
matrice de confusion suivante :
5 Exemples
0 1
Comme pour les réseaux de neurones, l’optimisation des SVM qui, en plus FALSE 161 13
du choix de noyau, peut comporter de 1 à 3 paramètres (pénalisation et éven- TRUE 7 27
tuels paramètres du noyau) est délicate. La figure 4 montre 3 résultats de vali-
dation croisée pour le simple noyau linéaire dans le cas des données NIR. Ce résultat serait à confirmer avec des estimations systématiques de l’erreur.
5.1 Cancer du sein Les graphiques de la figure 5 montre le bon comportement de ce prédicteur.
Il souligne notamment l’effet "tunnel" de l’estimation qui accepte des erreurs
La prévision de l’échantillon test par un Séparateur à Vaste marge conduit à autour de la diagonale pour se concentrer sur les observations plus éloignées
la matrice de confusion : donc plus difficiles à ajuster.

Page 126 sur 159 06.2014


7 Machines à vecteurs supports

300

100
250

50
200
Valeurs observees

Résidus
150

0
100

−50
50

−100
0

0 50 100 150 200 250 300 0 50 100 150 200 250 300

Valeurs predites Valeurs predites

F IGURE 5 – Ozone : Valeurs observées et résidus en fonction des valeurs pré-


dites pour l’échantillon test.

5.3 Données bancaires


Les données bancaires posent un problème car elles mixent variables quan-
titatives et qualitatives. Celles-ci nécessiteraient la construction de noyaux très
spécifiques. Leur traitement par SVM n’est pas détaillé ici.

Références
[1] Y. Guermeur et H. Paugam-Moisy, Théorie de l’apprentissage de Vapnik
et SVM, Support Vector Machines, Apprentissage automatique (M. Sebban
et G. Venturini, réds.), Hermes, 1999, p. 109–138.
[2] B Schölkopf et A Smola, Learning with Kernels Support Vector Machines,
Regularization, Optimization and Beyond, MIT Press, 2002.

Page 127 sur 159 06.2014


1 Imputation de données manquantes

Imputation de données manquantes 2 Typologie des données manquantes


2.1 Types de données manquantes
Résumé Afin d’aborder correctement l’imputation des données manquantes il faut
en distinguer les causes, les données manquantes n’arrivant pas toujours par
un pur hasard. Une typologie a été développée par Little & Rubin en 1987
Cette vignette présente les différents types de problèmes soulevés
[13], les répartissant en 3 catégories :
par la question très fréquente en pratique d’occurrences de données
manquantes, que ce soit pour des données matricielles ou longitudi- - Missing completely at random (MCAR) : Une donnée est MCAR, c’est
nales. Les méthodes d’imputation de données manquantes sont dé- à dire manquante de façon complètement aléatoire si la probabilité d’ab-
crites ; les plus rudimentaires : LOCF, imputation par la médiane, sence est la même pour toutes les observations. Cette probabilité ne dé-
la moyenne..., de même que celles par modélisation ou apprentis- pend donc que de paramètres extérieurs indépendants de cette variable.
sage statistique : régression et régression locale, k-nn, régression Par exemple : “si chaque participant à un sondage décide de répondre à la
PLS, SVD, Random Forest ou encore par imputation multiple. Ces question du revenu en lançant un dé et en refusant de répondre si la face 6
méthodes sont illustrées et leur efficacité comparée sur trois jeux de apparaît” [1]. A noter que si la quantité de données MCAR n’est pas trop
données. importante, ignorer les cas avec des données manquantes ne biaisera pas
l’analyse. Une perte de précision dans les résultats est toutefois à prévoir.
- Missing at random (MAR) : Le cas des données MCAR est tout de
Retour au plan du cours
même peu courant. Il arrive souvent que les données ne manquent pas de
façon complètement aléatoire. Si la probabilité d’absence est liée à une ou
1 Introduction plusieurs autres variables observées, on parle de missingness at random
(MAR). Il existe des méthodes statistiques appropriées qui permettrons
Malgré la quantité croissante de données disponibles et l’émergence du Big d’éviter de biaiser l’analyse (voir 4)
Data, les problématiques de données manquantes restent très répandues dans - Missing not at random (MNAR) : La donnée est manquante de façon
les problèmes statistiques et nécessitent une approche particulière. Ignorer les non aléatoire (MNAR) si la probabilité d’absence dépend de la variable en
données manquantes peut entraîner, outre une perte de précision, de forts biais question. Un exemple répandu [1][9] est le cas où des personnes avec un
dans les modèles d’analyse. revenu important refusent de le dévoiler. Les données MNAR induisent
Les données sont constituées de p variables quantitatives ou qualitatives une perte de précision (inhérente à tout cas de données manquantes) mais
(Y1 , . . . , Yp ) observées sur un échantillon de n individus. Il existe des don- aussi un biais qui nécessite le recours à une analyse de sensibilité.
nées manquantes représentées par la matrice M dite d’indication des valeurs
manquantes [13] dont la forme dépend du type de données manquantes. 2.2 Répartition des données manquantes
Nous commencerons par donner une définition des données manquantes en Soit Y = (yij ) ∈ Rn×p la matrice rectangulaire des données pour p va-
définissant plusieurs types de données manquantes et en étudiant les réparti- riables Y1 , . . . , Yp et n observations. Considérons M = (mij ) la matrice d’in-
tions possibles. Nous verrons ensuite quelques d’approches qui nécessitent la dication des valeurs manquantes [13], qui va définir la répartition des données
suppression de données puis nous proposerons un certain nombre de méthodes manquantes. On considèrera alors 3 types de répartition :
de complétion, sans souci d’exhaustivité.
1. Les valeurs manquantes univariées. C’est à dire que pour une variable

Page 128 sur 159 06.2014


2 Imputation de données manquantes

Yk seulement, si une observation yki est manquante, alors il n’y aura plus 2.3 Probabilité d’absence
d’observation de cette variable. Une illustration est donnée Figure 1a.
La probabilité d’absence selon le type de données manquantes (MCAR,
2. Les valeurs manquantes sont dites monotones si Yj manquante pour MAR, MNAR) peut alors être exprimé en fonction de M [13]. Les don-
un individu i implique que toutes les variables suivantes {Yk }k>j sont nées sont divisées en deux selon la matrice M d’indication des données
manquantes pour cet individu (Figure 1b). L’indicateur de données man- manquantes. On définit donc Yobs = Y 1{M =0} les données observées et
quantes M est alors un entier M ∈ (1, 2, . . . , p) pour chaque individu, Ymis = Y 1{M =1} les données manquantes telles que Y = {Yobs , Ymis }. Le
indiquant le plus grand j pour lequel Yj est observé. mécanisme des données manquantes est caractérisé par la distribution condi-
tionnelle de M sachant Y donnée par p(M |Y ).
3. Les valeurs manquantes sont non monotones (ou arbitraires), comme
- Dans le cas des données MCAR l’absence de données ne dépend pas des
le représente la Figure 1c Dans ce cas, on définit la matrice de valeurs
valeurs de Y donc
manquantes par M = (mij ) avec mij = 1 si yij est manquant et zéro
sinon. p(M |Y ) = p(M ) pour tout Y. (1)

- Considérons à présent le cas MAR. Soit Yobs la partie observée du jeu de


données et Ymis les données manquantes. MAR signifie que l’absence de
données dépend uniquement de Yobs :

p(M |Y ) = p(M |Yobs ) pour tout Ymis . (2)

- Enfin, les données sont MNAR si la distribution de M dépend aussi de


Ymis .
(a) (b) (c)
Exemple pour un échantillon aléatoire univarié
F IGURE 1 – Répartitions des données manquantes. (a) univariées, (b) mono-
Soit Y = (y1 , . . . , yn )> où yi est l’observation d’une variable aléatoire pour
tones et (c) arbitraires/non monotones
l’individu i, et M = (M1 , . . . , Mn ) où Mi = 0 pour les données observées et
Mi = 1 pour les données manquantes. On suppose également que la distribu-
Cette répartition est valable pour les données longitudinales (voir Figure 2). tion conjointe est indépendante des individus. Alors
La répartition monotone correspond alors à une censure à droite. n n
Y Y
p(Y, M ) = p(Y )p(M |Y ) = p(yi ) p(Mi |yi ) (3)
i=1 i=1

où p(yi ) est la densité de yi et p(Mi |yi ) est la densité d’une loi de Bernoulli
pour l’indicateur binaire Mi avec la probabilité P(Mi = 1|yi ) que yi soit
manquante.
F IGURE 2 – Répartitions des données manquantes pour des variables longitu-
Si P(Mi = 1|yi ) = α avec α une constante qui ne dépend pas de yi alors
dinales. (a) jeu complet, (b) arbitraires/non monotones et (c) monotones
c’est un cas MCAR (ou dans ce cas aussi MAR). Si P(Mi = 1|yi ) dépend de
yi , le mécanisme de données manquantes est MNAR.

Page 129 sur 159 06.2014


3 Imputation de données manquantes

3 Analyse sans complétion 3.2 Méthodes qui tolèrent les données manquantes
Si la plupart des méthodes d’analyse suppriment automatiquement les don-
3.1 Méthodes avec suppression de données
nées manquantes, certaines les tolèrent. C’est le cas par exemple des arbres
Dans certains cas, l’analyse est possible sans imputer les données man- CART qui considèrent des surrogate splits ou divisions de substitution : Au
quantes. En général, on se reporte à deux méthodes “classiques” : moment du split d’un nœud, plusieurs couples variables / seuil “optimaux”
- L’analyse des cas concrets, qui consiste à ne considérer que les indivi- sont considérés et mémorisés. Au moment de l’utilisation, si la donnée est
dus pour lesquels toutes les données sont disponibles, i.e. en supprimant manquante pour une observation, ce n’est pas la meilleure division qui est uti-
les lignes comportant des valeurs manquantes. C’est ce qui est fait au- lisée mais celle juste après lui est substituée [7].
tomatiquement avec R (na.action=na.omit). Cette méthode, on le
voit bien Figure 3, risque de supprimer trop de données et d’augmenter de 4 Méthodes d’imputation
beaucoup la perte de précision. De plus, si les données ne sont pas MCAR,
retirer des observations va induire un biais dans l’analyse puisque le sous- Cette section donne un aperçu non exhaustif des méthodes de complétion
échantillon des cas représentés par les données manquantes ne sont pas les plus courantes. On considère un jeu de données constitué de p variables
forcément représentatifs de l’échantillon initial. quantitatives ou qualitatives (Y1 , . . . , Yp ) observées sur un échantillon de n
individus. On définit la matrice M d’indication des valeurs manquantes par
mij = 1{yij manquante}

4.1 Complétion stationnaire


Il existe plusieurs complétions stationnaires possibles. On peut par exemple
choisir de compléter par la valeur la plus fréquemment représentée (Concept
Most Common Attribute Value Fitting, CMCF [14]) ou plus simplement par la
(a) (b) dernière valeur connue (Last observation carried forward, LOCF) :

F IGURE 3 – Répartitions des données manquantes. (a) données d’origine, va- (yij )mis = yi? j ? = {yi? j |mi? j = 0, j < j ? } (4)
leurs manquantes arbitraires, (b) observations restantes en analyse des cas
complets Cette méthode peut sembler trop “naïve” mais est souvent utilisée pour poser
les bases d’une comparaison entre méthodes de complétion.
- L’analyse des cas disponibles. Afin d’éviter de supprimer trop de don-
nées, il est possible de faire de la suppression par paires (pairwise dele- 4.2 Complétion par une combinaison linéaire des ob-
tion) ou analyse des cas disponibles (available-case analysis). Différents servations
aspects du problème sont alors étudiés avec différents sous-échantillons.
Cependant, les différentes analyses ne seront pas nécessairement compa- Une autre technique répandue consiste à remplacer toutes les valeurs man-
tibles entre elles. quantes par une combinaison linéaire des observations. On retiendra le cas
L’analyse des cas disponibles correspond aussi au cas où une variable est d’imputation par la moyenne :
supprimée du jeu de données à cause de sa trop grande quantité de valeurs
manquantes. (yij )mis = yi? j ? = Ȳj ? (5)

Page 130 sur 159 06.2014


4 Imputation de données manquantes

ou par la médiane : Soit Yi? une observation à laquelle il manque q valeurs manquantes. On
(yij )mis = yi? j ? = Ỹj ? (6) impute ces données manquantes par régression locale en suivant l’algorithme
Mais ce cas se généralise à toute combinaison linéaire pondérée des observa- ci-après.
tions.
Au lieu d’utiliser toutes les valeurs disponibles, il est possible de se res- Algorithme LOESS
treindre à des méthodes qui sélectionnent les valeurs les plus influentes. Par
exemple, on présente ci-dessous des méthodes d’agrégation locale ou de ré- 1. Obtention des k plus proches voisins Y(i1 ) , . . . , Y(ik )
gression ainsi que des algorithmes combinant différents aspects.
2. Création des matrices A ∈ Rk×(n−q) , B ∈ Rk×q et w ∈ R(n−q)×1 de
4.3 Méthode des plus proches voisins (KNN) sorte que :
- Les lignes de A correspondent aux voisins privés des valeurs aux
La complétion par k plus proches voisins (k-nearest neighbors ou KNN)
indices des données manquantes de Yi?
consiste à suivre l’algorithme suivant :
- Les colonnes de B correspondent aux valeurs des voisins aux in-
dices des données manquantes de Yi?
Algorithme des k plus proches voisins (k-nn)
- Le vecteur w correspond aux (n − q) valeurs observées de Yi? :
1. Choix d’un entier k : 1 ≥ k ≥ n. wj = (yi? j )obs
2. Calculer les distances d(Yi? , Yi ) , i = 1, . . . , n 3. Résolution du problème des moindres carrés
3. Retenir les k observations Y(i1 ) , . . . , Y(ik ) pour lesquelles ces distances
min k A> x − w k (8)
sont les plus petites. x∈Rk

4. Affecter aux valeurs manquantes la moyenne des valeurs des k voisins :


où k · k est la norme quadratique de Rk .
1 
(yij )mis = yi? j ? = Y(i1 ) + . . . + Y(ik ) (7) 4. Le vecteur u des données manquantes s’exprime alors par
k
u = B > x = B > (A> )−1 w (9)
Comme pour la classification par KNN, la méthode des plus proches voisins
nécessite le choix du paramètre k par optimisation d’un critère. De plus, la avec (A> )−1 la matrice pseudo-inverse de A> .
notion de distance entre les individus doit être choisie avec précaution. On
considèrera usuellement la distance Euclidienne ou de Mahalanobis.
4.5 Algorithme NIPALS
4.4 Régression locale
L’algorithme NIPALS (Nonlinear Iterative Partial Least Squares) est une
La régression locale (en anglais LOcal regrESSion : LOESS) [15] permet méthode itérative proche de la régression PLS, utilisée pour estimer les élé-
également d’imputer des données manquantes. Pour cela, un polynôme de de- ments d’une analyse en composantes principales d’un vecteur aléatoire de di-
gré faible est ajusté autour de la donnée manquante par moindres carrés pon- mension finie. Cet algorithme peut être adapté pour l’imputation de données
dérés, en donnant plus de poids aux valeurs proches de la donnée manquante. manquantes [3]. Soit Y = (Y1 , . . . , Yp ) tel que ∀i ∈ 1, . . . , p, E(Yi ) = 0

Page 131 sur 159 06.2014


5 Imputation de données manquantes

(chaque colonne de la matrice est centrée). L’expansion de Y en termes de


composantes principales et de facteurs principaux est donnée par On pourra alors approximer les données manquantes par
q q
X
X
Y = ξh uh (10) (ŷij )mis = ξˆh (i)ûh (j) (12)
h=1 h=1

où q = dimL2 (Y ) et {ξh }h=1,...,q sont les composantes principales et 4.6 Par décomposition en valeurs singulières (SVD)
{uh }h=1,...,q les vecteurs principaux de l’ACP de Y . Donc pour chaque va-
riable Yi on a 4.6.1 Cas où il y a suffisamment de données observées
q
S’il y a bien plus de données observées que de données manquantes, on sé-
X
Yi = ξh uh (i) (11)
h=1
pare le jeu de données Y en deux groupes : d’un côté Y c avec les observations
complètes et de l’autre Y m comprenant les individus pour lesquels certaines
L’idée étant que pour chaque h, uh (i) représente la pente de la régression
données manquent. On considère alors la décomposition en valeurs singulières
linéaire de Yi sur la composante ξh . L’algorithme NIPALS va permettre
(SVD) tronquée du jeu complet [6] :
d’obtenir {ξˆh }h=1,...,q et {ûh }h=1,...,q les approximations de {ξh }h=1,...,q et
{u }
h h=1,...,q . Yˆc = UJ DJ VJ>
J (13)
où DJ est la matrice diagonale comprenant les J premières valeurs singulières
Algorithme NIPALS de Y c . Les valeurs manquantes sont alors imputées par régression :
 2
J
1. Y 0 = Y
X X
min Yi? − vlj βj  (14)
β∈RJ
2. Pour h = 1, . . . , q faire i observées j=1

(a) ξh = Y1h−1 Soit VJ? la version tronquée de VJ , c’est à dire pour laquelle les lignes corres-
(b) Tant que uh n’a pas convergé faire pondant aux données manquantes de la ligne Yi? sont supprimées. Une solution
i. Pour i = 1, . . . , p faire du problème 14 est alors
P h−1 β̂ = (VJ?> VJ? )−1 VJ?> Yi? (15)
j:yji ,ξh (j) existe yji ξh (j)
uh (i) = P 2 La prédiction des données manquantes est donc donnée par
j:ξh (j) existe ξh (j)
(?)
Yi? = VJ β̂ (16)
ii. Normaliser uh (?)
où VJ est le complément de VJ? dans VJ .
iii. Pour i = 1, . . . , N faire
Comme pour KNN, cette méthode nécessite le choix du paramètre J. On se
P h−1
j:y existe yij uh (j) ramènera alors à un problème de minimisation :
ξh (i) = Pij 2
j:yij existe uh (j) min k Y c − X kF (17)
X de rang J

(c) Y h = Y h−1 − ξh u0h avec k · kF la norme de Frobenius.

Page 132 sur 159 06.2014


6 Imputation de données manquantes

s
4.6.2 Cas où il y a trop de données manquantes 2. ymis les valeurs manquantes dans Y s
Si les données manquantes sont trop nombreuses, cela induira un biais im- 3. X s = Y \ Y s l’ensemble des régresseurs de Y s parmi lesquels on consi-
portant dans le calcul de la base de décomposition. De plus, il arrive qu’il y ait dère
au moins une donnée manquante pour toutes les observations. Dans ce cas, il (a) xsobs les régresseurs observés pour isobs = {i, . . . , n} \ ismis
faut résoudre le problème suivant : (b) xsmis les régresseurs manquants pour ismis

min k Y − m − UJ DJ VJ> k? (18)


UJ ,VJ ,DJ La méthode suit alors l’algorithme suivant :

où k · k? somme les carrés des éléments de la matrice, en ignorant les valeurs


Algorithme MissForest
manquantes. m est le vecteur des moyennes des observations. La résolution de
ce problème suit l’algorithme suivant :
1. Première complétion “naïve” des valeurs manquantes.
Algorithme de Complétion par SVD 2. Soit k le vecteur des indices de colonnes de Y triées par quantité crois-
sante de valeurs manquantes ;
0
1. Créer une matrice Y pour laquelle les valeurs manquantes sont complé- 3. Tant que γ n’est pas atteint faire
old
tées par la moyenne, (a) Yimp = matrice précédemment imputée
2. Calculer la SVD solution du problème (18) pour la matrice complétée Y . i (b) Pour s dans k faire
i+1 (s) (s)
On crée ainsi Y en remplaçant les valeurs manquantes de Y par celles i. Ajuster yobs ∼ xobs par forêt aléatoire
de la régression. (s) (s)
ii. Prédire ymis avec les régresseurs xmis
i i+1 i
3. Itérer l’étape précédente jusqu’à ce que k Y − Y k / k Y k< , seuil new
iii. Yimp est la nouvelle matrice complétée par les valeurs prédites
arbitraire (souvent à 10−6 ) (s)
ymis
(c) mettre à jour le critère γ
4.7 Utilisation de Forêts aléatoires
Stekhoven et Bühlmann (2011)[5] ont proposé une méthode de complétion Avec un critère d’arrêt γ atteint dès que la différence entre la matrice de
basée sur les forêts aléatoires appelée MissForest. Un package R éponyme lui données nouvellement imputé et la précédente augmente pour la première fois.
est associée. Cette méthode nécessite une première imputation “naïve”, par La différence de l’ensemble des variables continues est définie comme
défaut une complétion par la moyenne, afin d’obtenir un échantillon d’appren- P new old 2

j∈N Yimp − Yimp
tissage complet. Puis une série de forêts aléatoires sont ajustées jusqu’à la ∆N = (19)
new 2
P 
première dégradation du modèle. j∈N Yimp

Pour formaliser cela, on décompose le jeu de données initial en quatre par- En cas de variables qualitatives on définit la différence par
ties. Pour chaque variable Y s , s = 1, . . . , S dont les valeurs manquantes sont
i=1 1Yimp
P Pn
indexées par ismis ⊆ {1, . . . , n}, on définit j∈F new 6=Y old
imp
∆F = (20)
s
1. yobs les valeurs observées dans Y s #N A

Page 133 sur 159 06.2014


7 Imputation de données manquantes

4.8 Inférence Bayésienne paramètres du modèle. Une autre hypothèse est que les données sont MAR
donc
Soit θ la réalisation d’une variable aléatoire et soit p(θ) sa distribution a
p(M |Y ) = p(M |Yobs ) (22)
priori. La distribution a posteriori est donc donnée par :
La vraisemblance p(Yobs |θ) s’écrit alors
p(θ|Yobs ) ∝ p(θ)f (Yobs ; θ) (21)
p(Yobs , M |θ) = p(M |Yobs )p(Yobs |θ) (23)
La méthode de data augmentation de Tanner et Wong (1987) [10] simule
de manière itérative des échantillons aléatoires des valeurs manquantes et des Donc
paramètres du modèle, compte tenu des données observées à chaque itération, L(θ|Yobs ) ∝ p(Yobs |θ) (24)
constituée d’une étape d’imputation (I) et d’une étape “postérieure” (P).
Or en utilisant la propriété itérative de l’espérance
Soit θ(0) un tirage initial obtenu à partir d’une approximation de la distribu-
tion a posteriori de θ. Pour une valeur θ(t) de θ à un instant t Z
Imputation (I) : soit Y
(t+1)
avec une densité p(Y |Y , θ ) (t) p(Y obs |θ) = p(Y |θ)dYmis (25)
mis mis obs
(t+1) (t)
Postérieure (P) : soit θ avec une densité p(θ|Yobs , Ymis )
On obtient donc la loi à posteriori
Cette procédure itérative finira par obtenir un tirage de la distribution Z
conjointe de (Ymis , θ|Yobs ) lorsque t → +∞ p(θ|Yobs ) ∝ p(Yobs |θ) = p(Y |θ)dYmis (26)

4.9 Imputation multiple


L’algorithme EMB d’Amelia II combine l’algorithme EM classique (du
L’imputation multiple consiste, comme son nom l’indique, à imputer plu- maximum de vraisemblance) avec une approche bootstrap. Pour chaque tirage,
sieurs fois les valeurs manquantes afin de combiner les résultats pour diminuer les données sont estimées par bootstrap pour simuler l’incertitude puis l’algo-
l’erreur (le bruit) due à l’imputation [4]. Cela permet également de définir une rithme EM est éxécuté pour trouver l’estimateur a posteriori θ̂M AP pour les
mesure de l’incertitude causée par la complétion. données bootstrap. Les imputations sont alors créées par tirage de Ymis selon
Le maintien de la variabilité d’origine des données se fait en créant des va- sa distribution conditionnelle sur Yobs et des tirages de θ.
leurs imputées qui sont basés sur des variables corrélées avec les données man-
quantes et les causes d’absence. L’incertitude est prise en compte en créant des 5 Exemple
versions différentes de données manquantes et l’observation de la variabilité
entre les ensembles de données imputées. 5.1 Fraudes sur la consommation en gaz
4.10 Amelia II Les différentes méthodes de complétion ont été testées et comparées sur un
exemple de détection de fraudes sur la consommation en gaz. Soit Y ∈ RN ×12
Amelia II est un programme d’imputation multiple développé en 2011 par tel que yij soit la consommation de gaz de l’individu i au mois j. La répartition
James Honaker et al [8]. Le modèle s’appuie sur une hypothèse de normalité : des données manquantes est non monotone et on fait l’hypothèse de données
Y ∼ Nk (µ, Σ), et nécessite donc parfois des transformations préalables des MAR. Après une transformation en log afin d’approcher la normalité, la com-
données. plétion a été effectuée. Les résultats ont été comparés avec un échantillon test
Soit M la matrice d’indication des données manquantes et θ = (µ, Σ) les de 10% des données, préalablement retiré du set.

Page 134 sur 159 06.2014


8 Imputation de données manquantes

Ce jeu de données réel comporte au moins une valeur manquante par indi-
vidu, et au total 50.4% des données sont manquantes. Si on ne considère que
la consommation mensuelle individuelle, sans variables exogènes, on obtient
la répartition des erreurs de chaque méthode représentée Figure 4.

F IGURE 5 – EBP - Erreurs de complétion sur un échantillon test de 10%

F IGURE 4 – Fraudes - Erreurs de complétion sur un échantillon test

5.2 Encours Boursiers Parisiens (EBP)


On s’intéresse aux cours des actifs boursiers sur la place de Paris de 2000
à 2009. On considère 252 cours d’entreprises ou indices régulièrement cotés
sur cette période. En se limitant au cas MCAR, on crée artificiellement de plus
en plus de données manquantes à imputer. Pour 10% de données manquantes,
une comparaison des méthodes d’imputations est données Figure 5. Trois mé-
thodes se détachent visiblement : SVD, missForest et AmeliaII. F IGURE 6 – EBP - Erreurs de complétion sur un échantillon test par AmeliaII
quand la quantité de valeurs manquantes augmente
La robustesse de ces méthodes a été testée en augmentant graduellement
la quantité de données manquantes. Les résultats sont donnés Figure 6 pour
AmeliaII et Figure 7 pour missForest. jeu de données de référence sur les problèmes de complétion [11]. Les
5.3 Maladies Coronariennes (CHD) données ont été acquises par Detranao et al. (1989) [12] et mises à dispo-
sition par Bache et Lichman (2013)[2]. Elles se présentent sous la forme
La plupart des méthodes d’imputation de sont définies que pour des d’une matrice d’observations médicales Y ∈ RN ×14 de 14 variables
variables quantitatives. Mais certaines méthodes présentées ci-dessus hétérogènes pour N patients. Le jeu de données contient donc des va-
permettent d’imputer des données qualitatives, voire hétérogènes. C’est riables quantitatives (age, pression, cholestérol, fréquence
le cas de LOCF, KNN et missForest qui ont donc été testées sur un cardiaque maximale, oldpeak) et qualitatives (sexe, douleur,

Page 135 sur 159 06.2014


9 Imputation de données manquantes

F IGURE 7 – EBP - Erreurs de complétion sur un échantillon test par missForest


quand la quantité de valeurs manquantes augmente

sucre, cardio, angine, pente du pic, nombre de


vaisseaux cardiaques, thalassémie, absence/présence
de maladie cardiaque).
En se limitant toujours au cas MCAR, on crée artificiellement de plus en
plus de données manquantes à imputer. L’adéquation de l’imputation est don- F IGURE 8 – CHD - Erreurs de complétion sur un échantillon test par LOCF
née par la moyenne de l’erreur en valeur absolue dans le cas des données quan- (noir), KNN (rouge) et missForest (vert) quand la quantité de valeurs man-
titatives et par la distance de Hamming dans le cas des données qualitatives. quantes augmente, pour une variable qualitative (au dessus) et quantitative (en
Les résultats sont représentés Figure 8. dessous)

Références
1987.
[1] Gelman A. et Hill J., Data Analysis Using Regression and Multilevel/-
Hierarchical Models, chap. 25, p. 529–563, Cambridge University Press, [5] Stekhoven D.J. et Bühlmann P., MissForest - nonparametric missing
2007. value imputation for mixed-type data, Bioinformatics Advance Access
(2011).
[2] K. Bache et M. Lichman, UCI Machine Learning Repository, 2013,
http://archive.ics.uci.edu/ml. [6] Hastie et al, Imputing Missing Data for Gene Expression Arrays, Rap.
[3] Preda C., Saporta G. et Hedi Ben Hadj Mbarek M., The NIPALS algo- tech., Division of Biostatistics, Stanford University, 1999.
rithm for missing functional data, Romanian Journal of Pure and Applied [7] A. J. Feelders, Handling Missing Data in Trees : Surrogate Splits or Sta-
Mathematics 55 (2010), no 4, 315–326. tistical Imputation., PKDD, Lecture Notes in Computer Science, t. 1704,
[4] Rubin D.B., Multiple Imputation for Nonresponse in Surveys, Wiley, Springer, 1999, p. 329–334.

Page 136 sur 159 06.2014


10 Imputation de données manquantes

[8] Honaker J., King G. et Blackwell M., Amelia II : A Program for Missing
Data, Journal of statistical software 45 (2011), no 7.
[9] Glasson Cicignani M. et Berchtold A., Imputation de Donnees Man-
quantes : Comparaison de Differentes Approches, 42e Journees de Sta-
tistique, 2010.
[10] Tanner M.A. et Wong W.H., The Calculation of Posterior Distributions
by Data Augmentation, Journal of the American Statistical Association
82 (1987), no 398, 528–540.
[11] Setiawan N.A., Venkatachalam P.A. et Hani A.F.M., A Comparative
Study of Imputation Methods to Predict Missing Attribute Values in Co-
ronary Heart Disease Data Set, 4th Kuala Lumpur International Confe-
rence on Biomedical Engineering 2008 (University of Malaya Depart-
ment of Biomedical Engineering Faculty of Engineering, réd.), t. 21,
Springer Berlin Heidelberg, 2008, p. 266–269.
[12] Detrano R., Janosi A., Steinbrunn W., Pfisterer M., Schmid J., Sandhu S.,
Guppy K., Lee S. et Froelicher V., International Application of a New
Probability Algorithm for the Diagnosis of Coronary Artery Disease,
American Journal of Cardiology 64 (1989), 304–310.
[13] Little R.J.A. et Rubin D.B., Statistical Analysis with Missing Data, Wiley
series in probability and statistics, 1987.
[14] Grzymala Busse J. W., Grzymala Busse W. J. et Goodwin L. K., Co-
ping With Missing Attribute Values Based on Closest Fit in Preterm Birth
Data : A Rough Set Approach, Computational Intelligence 17 (2001),
425–434.
[15] Cleveland W.S. et Devlin S.J., Locally-Weighted Regression : An Ap-
proach to Regression Analysis by Local Fitting, Journal of the American
Statistical Association 83 (1988), no 403, 596–610.

Page 137 sur 159 06.2014


1 En guise de conclusion

Objectifs
En guise de conclusion
Trois objectifs principaux sont poursuivis dans les applications classiques
de data mining :
Résumé 1. Exploration multidimensionnelle ou réduction de dimension : produc-
Résumer les grandes lignes de ce cours dans une vue synthétique : tion de graphes, d’un sous-ensemble de variables représentatives Xr , d’un
méthodes et stratégies dans l’objectif d’une comparaison globale ensemble de composantes Cq préalables à une autre technique.
des méthodes sur les différents jeux de données (cancer, pollution, 2. Classification (clustering) ou segmentation : production d’une variable
carte visa). Il évoque enfin les pièges fréquents de telles démarches qualitative Tr .
et revient sur la place du statisticien. 3. Modélisation (Y ou Z)/Discrimination (Z ou T ) production d’un mo-
Retour au plan du cours dèle de prévision de Y (resp. Z, T ).
D’autres méthodes plus spécifiques à certaines problématiques peuvent appa-
1 Stratégies du data mining raître (analyse sensorielle, analyse conjointe, SARIMA. . . mais leur usage reste
limité à des contextes bien particuliers.
Les chapitres précédents décrivent les outils de base du prospecteur de don-
nées tandis que les logiciels commerciaux en proposent une intégration plus ou Outils
moins complète, plus ou moins conviviale de mise en œuvre. En pratique, l’en- Les méthodes utilisables se classent en fonction de leur objectif et des types
chaînement de ces techniques permet la mise en place de stratégies de fouille de variables prédictives et cibles.
bien définies. Celles-ci dépendent essentiellement des types de variables consi-
dérés et des objectifs poursuivis. Exploration
ACP XR et ∅
Types de variables AFCM XE et ∅
Explicatives L’ensemble des p variables explicatives ou prédictives est noté AFD XR et T
X, il est constitué de variables
Classification
• XR toutes quantitatives 1 ,
• XE toutes qualitatives, CAH XR et ∅
• XR∪E un mélange de qualitatives et quantitatives. NuéeDyn XR et ∅
RNKoho XR et ∅
À expliquer La variable à expliquer ou à prédire ou cible (target) peut être
• Y quantitative, Modélisation
• Z qualitative à 2 modalités, 1. Modèle linéaire généralisé
• T qualitative.
RLM XR et Y
ANOVA XE et Y

1. Une variables explicative qualitative à 2 modalités (0,1) peut être considérée comme quan-
ACOVA XR∪E et Y
titative ; c’est l’indicatrice des modalités. Rlogi XR∪E et Z

Page 138 sur 159 06.2014


2 En guise de conclusion

Lglin XT et T (b) Estimation, optimisation (validation croisée) des modèles pour chacune
2. Analyse discriminante des méthodes utilisables.
ADpar/nopar XR et T (c) Prévision de l’échantillon test.
3. Classification and regression Tree • Comparer les distributions et moyennes des erreurs de prévision, éventuelle-
ment les courbes ROC.
ArbReg XR∪E et Y • Choisir une méthode et le modèle associé de complexité “optimale” et le ré-
ArbCla XR∪E et T estimer sur l’ensemble de l’échantillon.
4. Réseaux neuronaux 4. Exploitation du modèle sur l’ensemble des données et diffusion des résultats.
percep XR∪E et Y ou T
5. Agrégation de modèles 2 Comparaison des résultats
Bagging XR∪E et Y ou T
La procédure décrite ci-dessus a été systématiquement mise en œuvre en automa-
RandFor XR∪E et Y ou T tisant dans R l’extraction aléatoire d’un échantillon test et les estimations, optimisa-
Boosting XR∪E et Y ou T tions des différents modèles. Les codes sont disponibles sous forme de scénarios sur le
site wikiwtat. La librairie caret (Kuhn, 2008)[1] s’avère très efficace pour mettre en
6. Support Vector Machine
œuvre cette démarche. L’optimisation des paramètres est réalisée par validation croisée.
SVM-R XR∪E et Y
Chaque échantillon test fournit donc une estimation sans biais de l’erreur de prévi-
SVM-C XR∪E et T sion. La distribution de ces erreurs est alors représentée par des diagrammes en boîtes.
En discrimination binaire, des courbes ROC complètent les résultats. Les figures sui-
Stratégies vantes synthétisent les résultats pour les données de cancer du sein, de chromatographie
NIR (cookies), de prévision du pic d’ozone et enfin bancaires (appétence carte visa pre-
Les stratégies classiques de la fouille de données consistent à enchaîner les étapes
mier). d’autres exemples sont traitées sur le site wikiwtat.
suivantes :
1. Extraction de l’entrepôt des données éventuellement par sondage pour renforcer
l’effort sur la qualité des données plutôt que sur la quantité. 3 Pièges
2. Exploration Les principaux pièges qui peuvent être rencontrés au cours d’une prospection
• Tri à plat, et étude des distributions : transformation, recodage éventuel des peuvent être le résultat d’un acharnement en quête de sens (data snooping). Cela si-
variables quantitatives, regroupement de modalités des variables qualitatives, gnifie qu’à force de creuser, contrairement à un prospecteur minier à la recherche de
élimination de variables (trop de données manquantes, quasi constantes, re- diamants bien réels, le prospecteur en données disposant d’un grand nombre de va-
dondantes. . . ). Gestion des données manquantes et valeurs atypiques. riables finit bien, en mode exploratoire, par trouver des relations semblant hautement
• Étude bivariée, recherche d’éventuelles relations non linéaires, de variables re- significatives. Par exemple, au seuil classique, 5% des tests sont, à tort, significatifs et
dondantes, d’incohérences. conduisent à des "faux positifs" ou des fausses corrélations. Il suffit donc d’en faire
• Étude multivariée, représentations en dimension réduite (ACP, AFCM) et clas- beaucoup, de croiser beaucoup de variables, pour nécessairement trouver du "sens"
sification non-supervisée par classification ascendante hiérarchique (CAH) ou dans des données. Encore une fois, il est préférable d’éviter le fonctionnement "Sha-
kmeans ou stratégie mixte. dock" (cf. figure 10) : je n’ai qu’une chance sur un milliard de réussir ; je me dépêche
3. Apprentissage : régression ou discrimination (classification supervisée). donc de rater le plus d’essais possibles.
• Itérer les étapes suivantes : En phase de modélisation, une sur-paramétrisation ou un sur-ajustement du modèle
(a) Extraction d’un échantillon test, peut parfaitement expliquer des données sans pour autant que les résultats soient ex-

Page 139 sur 159 06.2014


3 En guise de conclusion

0.14
0.12
0.10
0.08
0.06

0.5
0.4
0.04

0.3
0.02

0.2
0.00

0.1
0.0

err.lm err.tree err.neur err.bag err.rf err.svm

F IGURE 1 – Cancer : Diagrammes boîtes des taux d’erreurs. Le boosting est


mis de côté pour des problèmes d’échelle et de comportement erratique prove-
nant d’une focalisation extrême sur une observation imprévisible.

F IGURE 2 – Cookies : Résidus (apprentissage et test) des différents modèles


mettant en évidence la forte linéarité des données ainsi que les aspects volon-
tairement atypiques de l’échantillon test original.

Page 140 sur 159 06.2014


4 En guise de conclusion

F IGURE 4 – Ozone : Diagrammes boîtes des taux d’erreurs en régression.


Meilleur comportement des SVM avec noyau linéaire (649) devant random fo-
rest (666). L’analyse de covariance quadratique conduit à une moyenne élevée
(774) mais reste utile pour l’interprétation.

F IGURE 3 – Cookies : Diagrammes boîtes très proches des méthodes linéaires


alors que les méthodes non-linéaires ne sont pas retenues car inefficaces. Les F IGURE 5 – Ozone : Diagrammes boîtes des taux d’erreurs pour la prévision
SVM (noyau linéaire) conduisent à la meilleure moyenne (0.70) devant la ré- des dépassements de seuil. En moyenne, les deux stratégies (prévision en ré-
gression ridge (0.84), elastic net (0.85), lasso, PLS (0.86) gression ou directement du dépassement) sont finalement équivalentes pour les
meilleures méthodes. Les moyennes se répartissent entre 11 % (random forest)
et 14%.

Page 141 sur 159 06.2014


5 En guise de conclusion

F IGURE 6 – Ozone : Attention,l’échantillon test est petit et les courbes ROC F IGURE 7 – Ozone : Les courbes ROC moyennes, qui permettraient de déter-
sont fortement dispersées. Il est important d’en calculer une moyenne sur les miner un seuil de déclenchement d’alerte, soulignent les meilleures comporte-
50 échantillons tests. ments des SVM et de Random forest après régression.

Page 142 sur 159 06.2014


6 En guise de conclusion

F IGURE 8 – Banque : Diagrammes boîtes des taux d’erreurs. En moyenne, les


méthodes basées sur des arbres l’emportent nettement avec celle d’agrégation
de modèles (boosting 9%, ranfom forest et bagging 10 %) devant un arbre seul
(11 %) très utile pour l’interprétation.

F IGURE 9 – banque : Les courbes ROC moyennes insistent sur le très bon
comportement des agrégations de modèles (boosting, random forest, bagging)
pour une très grande variété de choix de seuils contrairement à un arbre de
discrimination dont les qualité se détériorent pour des seuils faibles.

Page 143 sur 159 06.2014


7 En guise de conclusion

trapolables ou généralisables à d’autres données que celles étudiées. Les résultats de


prévision seront donc entachés d’une forte erreur relative liée à la variance des estima-
tions des paramètres. C’est toujours le problème de trouver un bon compromis entre
le biais d’un modèle plus ou moins faux et la variance des estimateurs. Nous insistons
donc sur les indispensables phases de choix de modèles et comparaison des méthodes.

4 Rôle du statisticien
4.1 Des compétences multiples
Une bonne pratique du Data Mining nécessite de savoir articuler toutes les méthodes
entrevues dans ce document. Rude tâche, qui ne peut être entreprise qu’à la condition
d’avoir très bien spécifié les objectifs de l’étude. On peut noter que certaines méthodes
poursuivent les mêmes objectifs prédictifs. Dans les bons cas, données bien structurées,
elles fourniront des résultats très similaires, dans d’autres une méthode peut se révéler F IGURE 10 – Shadoks : Tant qu’à pomper, autant que cela serve à quelque
plus efficace compte tenu de la taille de l’échantillon ou géométriquement mieux adap- chose !
tée à la topologie des groupes à discriminer ou encore en meilleure interaction avec
les types des variables. Ainsi, il peut être important et efficace de découper en classes
des variables prédictives quantitatives afin d’approcher de façon sommaire une version sements consentis. En effet, il faut bien admettre, et faire admettre, que, même si un
non-linéaire du modèle par une combinaison de variables indicatrices. Cet aspect est par petit quart d’heure suffit pour se familiariser avec une interface graphique conviviale,
exemple important en régression logistique ou avec un perceptron mais inutile avec des la bonne compréhension des méthodes employées nécessite plusieurs heures de cours
arbres de décisions qui intègrent ce découpage en classes dans la construction du mo- ou réflexion à Bac+5. Il devient tellement simple, avec les outils disponibles, de lancer
dèle (seuils optimaux). D’autre part, les méthodes ne présentent pas toutes les mêmes des calculs, que certains n’hésitent pas à comparer prospecteur de données et chauffeur
facilités d’interprétation. Il n’y a pas de meilleur choix a priori, seule l’expérience et un de voiture en arguant qu’il n’est pas nécessaire d’être un mécanicien accompli pour sa-
protocole de test soigné permettent de se déterminer. C’est la raison pour laquelle des voir conduire. Néanmoins, la conduite d’une modélisation, d’une segmentation, d’une
logiciels généralistes comme SAS (module Enterprise Miner) ou la librairie caret de discrimination, imposent à son auteur des choix plus ou moins implicites qui sont loin
R ne font pas de choix et offrent ces méthodes en parallèle pour mieux s’adapter aux d’être neutres et qui dépassent largement en complexité celui du choix d’un carburant
données, aux habitudes de chaque utilisateur (client potentiel) et à la mode. par le conducteur à la pompe.

4.2 De l’utilité du statisticien 4.3 Vers le Big Data


Le travail demandé déborde souvent du rôle d’un statisticien car la masse et la com- Le volume des données générées et stockées pas les entreprises industrielles et celles
plexité des données peuvent nécessiter le développement d’interfaces et d’outils gra- du e-commerce font franchir une nouvelle étape. Nous passons du TéraOctet au Péta-
phiques sophistiqués permettant un accès aisés aux données, comme à des résultats, Octet. Comme expliqué rapidement en introduction, cette nouvelle étape engendre de
par l’utilisateur finale à l’aide par exemple d’un simple navigateur sur l’intranet de nouvelles approches tant pour les architectures des bases de données, la parallélisation
l’entreprise. Néanmoins, au delà de ces aspects plus "informatiques", l’objectif prin- des calculs, que pour les algorithmes et méthodes mises en œuvre.
cipal reste une “quête de sens” en vue de faciliter les prises de décision tout en en
préservant la fiabilité. Ainsi, la présence ou le contrôle d’une expertise statistique reste D’un point de vue informatique, une connaissance du nouveau standard Hadoop 2 est
incontournable car la méconnaissance des limites et pièges des méthodes employées
2. Créé en 2009 et développé en Java par Doug Cutting au sein des projets de la fondation des
peut conduire à des aberrations discréditant la démarche et rendant caducs les investis- logiciels libres Apache. Il est inspiré des principes de MapReduce de Google.

Page 144 sur 159 06.2014


8 En guise de conclusion

vivement souhaitée. Il permet la création d’applications distribuées et “échelonnables”


(scalables) sur des milliers de nœuds pour gérer des pétaoctets de données. Le principe
est de découper et paralléliser (distribution) des tâches en lots de données afin de réduire
linéairement le temps (scalable) de calcul en fonction du nombre de nœuds. Hadoop
devient l’outil de référence du web mining et l’e-commerce.
D’un point de vue statistique / mathématique, le nouveau défi est la construction de
bases de représentation fonctionnelle et de modèles pertinents pour aborder et prendre
en compte des structures de données complexes : géolocalisation sur des graphes, si-
gnaux en temps réels, images 3D, séquences... Chaque problème, surtout industriel, né-
cessite une approche spécifique issue d’une recherche originale dans le cadre souvent
d’une thèse, par exemple CIFRE, qu’un d’un développement d’ingénierie classique.
Dans le cas de flots de données, l’aide à la décision devient adaptative ou séquentielle.

Références
[1] Max Kuhn, Building Predictive Models in R Using the caret Package, Journal of
Statistical Software 28 (2008), no 5.

Page 145 sur 159 06.2014


Statistique et déontologie scientifique

Statistique et déontologie scientifique

Résumé
L’image sociale souvent peu flatteuse de la Statistique est illustrée
à travers quelques problèmes de déontologie statistique et plus gé-
néralement scientifique. Des exemples historiques ou plus récents
mettent en évidence falsifications et dissimulations triviales de don-
nées. D’autres sont le résultat d’une utilisation abusive ou du dé-
tournement de méthodes statistiques, notamment des tests d’aide à F IGURE 1 – Le livre illustré de Darrel Huff (1954) et un exemple de graphique
la décision. Ce dernier point est illustré par les controverses autour “créatif” : la réalité (la hauteur de la grenouille) est faussée par l’impression
du maïs OGM. Ces pratiques douteuses et bien trop répandues ont visuelle (sa surface). Proscrire d’autant plus les graphiques faussement en
poussé les associations des statisticiens les plus exposés à rédiger perspective !
des codes de déontologie ou de bonne pratique.
Retour à l’introduction. 1) dans lequel il identifie et illustre plusieurs types de mensonges : falsifica-
tion de données, biais d’échantillonnage, extrapolation, graphiques “créatifs”,
1 Introduction hypothèses frauduleuses, incompétence...
Les exemples historiques montrent que le débat sur les mauvais usages in-
1.1 Image “historique” de la Statistique nocents ou intentionnels de la Statistique est ancien. Il ne faudrait néanmoins
Depuis ses débuts ou tout du moins depuis le début du XIX-ième siècle, pas penser qu’avec le temps et l’accroissement des connaissances, la place et
la Statistique bénéficie d’une renommée plus ou moins douteuse, certes par l’image de cette discipline aient favorablement progressé. Strasak et al. (2007)
méconnaissance d’une discipline aux concepts difficiles mais aussi à cause de de l’Université médicale d’Innsbruck ont publié Statistical errors in medical
nombreux abus. research – a review of common pitfalls 2 ; titre auquel nous aimerions ajouter :
pitfalls or fakes ?
Ainsi, en 1906 Mark Twain attribuait, sans doute à tort, à un premier ministre
britannique la trop célèbre maxime : There are three kinds of lies : lies, damned 1.2 Motivations
lies, and statistics.
La rédaction de ce texte est motivée par une concentration d”affaires” qui ont
Évidemment les statisticiens académiques se sont fortement alarmés des
secoué ou qui régulièrement secouent l’environnement politico-médiatique :
mauvais usages de leur discipline et donc des mauvais procès qui leur étaient
affaire du Mediator de Servier, conflits récurrents autour des OGM, crise fi-
intentés. Dès décembre 1938, Jerome B. Cohen publie un article dans le
1 nancière omniprésente depuis 2008. Contribuant à former des professionnels
Journal of the American Statistical Association qui décrit : The misuse of
de la Statistique actifs dans des domaines très divers (figure 2), il me semble
statistics.
important de les sensibiliser aux difficultés, voire aux pressions, auxquelles ils
Darrel Huff (1954) [4] est l’auteur d’un bestseller très souvent réédité (figure vont se trouver professionnellement confrontés :

1. volume 33 N°204 pp 657-674 2. Swiss Med Wkly, 2007, 137, 44-49

Page 146 sur 159 06.2014

1
Statistique et déontologie scientifique

des interrogés avaient manqué à la déontologie. Parmi le “top 10 “ des mau-


vaises pratiques se classent en premier : Falsifier ou “arranger” les données
et en septième : Omettre de présenter des données parce qu’elles seraient en
contradiction avec vos précédentes recherches. Dans le même ordre d’idée, Fa-
nelli (2009) [3] propose dans cet article une méta-analyse de 18 enquêtes sur
les falsifications de la recherche et principalement des données. Pour résumer
brièvement, 2% de scientifiques admettent avoir eux-mêmes falsifié ou modi-
fié des données et ce pourcentage monte à 14% à propos du comportement
F IGURE 2 – Les statisticiens travaillent dans des domaines “sensibles” d’un des autres collègues. Cette étude retrouve le chiffre de 33% de manquement
point de vue éthique et sociétale : autorisation de médicaments et veille sani- général déontologique, chiffre porté à 72% à propos des autres collègues.
taire, critères d’affectation de crédits, produits et risques financiers...
1.3 Contenu
Une première section rappelle quelques fraudes célèbres et évidentes de fal-
– pression académique de publication (publish or perish) pour valider des sifications ou dissimulations de données parmi celles qui ont évidemment été
résultats et conclusions d’expériences, décelées dans différents domaines de la recherche ; celles-ci sont relativement
– pressions commerciales pour justifier des produits plus ou moins “éthi- faciles à mettre en évidence ou prouver dès que la supercherie est soupçonnée.
ques” : crédit renouvelable ou revolving (en cause dans 80% des dossiers En revanche, une section suivante aborde un exemple de malversation plus ha-
de surendettement), instruments financiers douteux..., bile concernant une mauvaise utilisation de méthodes statistiques (i.e. les tests)
– justifier de l’innocuité ou de l’efficacité de produits industriels (médica- ou leur utilisation hors limite de validité ou encore sans contrôle explicite d’une
ments, agroalimentaire, bio et nanotechnologies...), marge d’erreur. Alors que les falsifications de données ne laissent plus guère
– pressions politiques (sondages, statistiques publiques). de doute et se terminent même devant les tribunaux, les mauvais usages de la
Un seuil d’indignation étant largement dépassé, notamment avec le scan- Statistique peuvent générer des querelles d’experts lourdes et sans conclusion
dale du Mediator, il nous a semblé important de mieux formaliser par écrit le tranchée ne serait-ce que par le coût des expérimentations qu’il faudrait entre-
contenu de ces questions déontologiques en plus des remarques et commen- prendre pour arriver à une réponse significative. Une dernière section tâche de
taires oraux intervenant en présence des étudiants. L’objectif est donc de faire faire le tour des démarches d’associations professionnelles soucieuses de ces
réfléchir sur le rôle de la Statistique et les responsabilités de ses principaux ac- difficultés et qui ont proposé des codes de déontologie statistique.
teurs quand il s’agit d’aider à l’évaluation des risques ou à la prise de décision.
La déontologie statistique n’est qu’un élément du débat beaucoup plus large 2 Falsifications et dissimulations
sur l’éthique de la recherche scientifique. Le texte de ce document est volon-
tairement ciblé sur le bon usage de la Statistique et également daté par cer- Internet et plus précisément Wikipedia regorgent d’informations sur les fal-
tains événements de l’année 2011 mais son contenu restera malheureusement sifications et fraudes scientifiques historiques ainsi que sur les mauvais usages
d’actualité compte tenu du sujet. Ainsi, dans le numéro 36 de mars 2012, le (misuse) de la Statistique.
magazine La Recherche évoque le premier séminaire Parlons Éthique´ orga- 2.1 Statistiques publiques
nisé par l’Institut Curie/Inserm (Unité 932). Cet article cite Melissa Ander-
son, intervenue lors de ce séminaire à propos de sa participation à une en- Nos collègues britanniques rappellent que leurs Politicians use statistics like
quête anonyme auprès de 3247 scientifiques. Cette enquête a révélé que 33% drunkards use lampposts : not for illumination, but for support. Nos homo-
Page 147 sur 159 06.2014

2
Statistique et déontologie scientifique

logues français n’ont rien à leur envier. Les exemples sont malheureusement Ce n’est qu’au début des années 70 que de sérieux doutes furent émis ou de
très, trop nombreux. Citons une affaire qui montre nettement les relations dif- violentes accusations prononcées sur la pertinence de ces travaux : référence à
ficiles entre monde politique et statistique officielle publique. Le 25 mai 2011, des publications inexistantes ou introuvables et surtout des corrélations iden-
Claude Guéant, Ministre de l’Intérieur, s’exprime sur Europe 1 : tiques à la 3ème décimales entre des études séparées de plus de 20 ans ! Les
les deux tiers des échecs scolaires, c’est l’échec d’enfants d’immi- carnets d’expérience de Burt n’ont pas été retrouvés et des doutes plus que sé-
grés. rieux ont été soulevés sur la réalité des expériences notamment celles de 1966.
Il a fallu un mois et une menace sérieuse de grève de la part des syndicats de 2.3 Sciences du vivant
l’INSEE pour obliger la direction de cet organisme public à rétablir les chiffres
à travers un communiqué officiel le 27/06/2011 : L’exemple suivant illustre la pression considérable qui pèse sur la recherche
scientifique, son financement, la renommée de ses acteurs et leur carrière. Il
La proportion d’enfants d’immigrés parmi les élèves sortis sans qua-
déborde largement le cadre d’un mauvais usage de méthodes statistiques.
lification de l’enseignement secondaire peut être estimée à environ
16% pour les enfants de familles immigrées. Si on y ajoute les en- Hwang Woo-suk est un sud-coréen qui est (fut) très réputé dans la recherche
fants de familles ’mixtes’, cette proportion passe à environ 22%. sur le clonage (le chien Snuppy) et les cellules souches. Lui et son équipe
publient 2 articles dans Science en 2004 sur le clonage d’un embryon humain
“ Le ministre, accusé par l’opposition de stigmatiser les immigrés pour séduire
pour la production de cellules souches, et en 2005 sur la production de 11
les électeurs d’extrême droite, avait affirmé s’appuyer sur des études de l’Insee
lignées de cellules souches à partir de cellules de peau de patients adultes.
et a envoyé plusieurs droits de réponse à des médias qui écrivaient que ses
Les conséquences thérapeutiques de tels résultats seraient considérables. Ces
chiffres étaient faux.” (Le Monde du 28/06/2011).
résultats lui valurent le titre de “Supreme Scientist” assorti de prix financiers
2.2 Sciences humaines très substantiels et de dons très généreux de fondations pour ses recherches.
A la suite de nombreuses péripéties scientifico-médiatiques, une commis-
Dans ce domaine aussi, les exemples seraient nombreux. Citons celui his-
sion d’enquête de l’Université de Séoul dénonce la falsification (fabrication de
torique de l’affaire Burt. Sir Cyril Burt, professeur de Psychologie à Londres
données) en décembre 2005 et ce chercheur est inculpé le 12 mai 2006 pour
en 1931 fut Président de la British Psychology Society puis éditeur en chef du
“fraude, détournements de fonds et violation des lois sur la bioéthique”. Les
Journal of Statistical Psychology. Il reste célèbre pour des contributions à la
montants des détournements, des corruptions, des achats illégaux d’ovocytes
Statistique (les tableaux de contingences multiples portent son nom) et aussi
se chiffrent en centaines de millions de dollars. Il a été déclaré coupable en
pour son influence sur l’organisation du système éducatif britannique : Burt
octobre 2009 de détournements de fonds et violation des lois sur la bioéthique,
ayant “prouvé” l’influence prépondérante de l’hérédité sur l’intelligence (me-
mais pas de fraude, puis condamné à 2 ans de prison avec sursis.
surée par le QI de Binet), cela justifierait d’orienter par un examen (eleven
plus) les élèves dès 11 ans vers une filière primaire, moyenne ou supérieure 2.4 Sciences de la terre
(grammar-modern-technical) en fonction de leurs notes.
Claude Allègre fut ministre de l’Éducation national, de la recherche et de la
Burt affirme, au cours de 3 études (1955, 1958, 1966), que la corrélation des
technologie de 1997 à 2000 (gouvernement Jospin). Il est membre de l’Aca-
QIs entre couples de jumeaux homozygotes élevés dans des milieux différents
démie des Sciences et a reçu la médaille d’or du CNRS (1994) pour des tra-
dès leur enfance est significativement plus élevée que la corrélation entre les
vaux en Géochimie. Il est l’auteur de très nombreux livres de vulgarisation
QIs de couples de jumeaux hétérozygotes élevés dans un même milieu social.
scientifique dont un en 2010 [1] d’entretiens avec le journaliste Dominique de
Il montrerait ainsi l’importance de la notion de quotient intellectuel et leur
Montvalon.
héritabilité.
Page 148 sur 159 06.2014

3
Statistique et déontologie scientifique

générale, à en modifier le tracé à partir de 1900 puis à l’extrapoler très approxi-


mativement jusqu’en 2100 sans aucune justification et avec le seul objectif de
soutenir ses arguties plus polémiques que scientifiques.
Bien sûr, à la seule vue de la courbe rouge, un statisticien familier des sé-
ries chronologiques identifie une tendance, plutôt à la baisse, et une périodicité
de l’ordre de 250 ans. Tout laisse à penser que Claude Allègre a prolongé à
la “louche” cette courbe sans évidemment tenir compte de tous les travaux de
modélisation entrepris par la communauté scientifique active en climatologie
et les paramètres de forçage (concentration de CO2) ou covariables suscep-
tibles d’intervenir. Cette communauté s’est d’ailleurs mobilisée (600 signa-
taires) pour réclamer l’organisation d’un vrai débat sur le climat (Le Monde du
9 avril 2010).
F IGURE 3 – En noir, courbe de température “dessinée” par C. Allègre à partir
La démarche des climat-sceptiques est aussi très développée aux États-Unis.
des Travaux de Grudd et rectifiée (en rouge) par Håkan Grudd lui-même. Il a
Un livre traduit en français fait une analyse détaillée (Oreskes et Conway,
également extrapolé très approximativement une concentration de CO2
2012) [6] des motivations de “scientifiques” qui ont successivement mis en
cause la nocivité du tabac, l’origine du trou dans la couche d’ozone, les pluies
Dans ce dernier livre, il formule de graves accusations contre le GIEC acides et maintenant la réalité et les causes du changement climatique.
(Groupe d’experts intergouvernemental sur l’évolution du climat) qu’il qualifie
2.5 Industrie pharmaceutique
de “système mafieux ayant conspiré pour faire passer aux yeux de l’ensemble
du monde un mythe pour un fait scientifique”. Ce livre suscite de nombreuses Avant d’être autorisé à la vente, un médicament suit une procédure très ré-
controverses et accusations de “mensonges” ou “erreurs factuelles”. glementée d’essais cliniques.
Reprenons une seule de ces accusations qui concerne le graphique de la – Préclinique : recherche et identification de molécules ayant potentielle-
2
figure 3, accusation détaillée sur le blog {Sciences } de Sylvain Huet, journa- ment un effet thérapeutique. Essais sur des animaux (souris) pour évaluer
liste à Libération. ces effets et déterminer la dose active (modèles de pharmacocinétique).
Une fois qu’une molécule est identifiée pour une cible thérapeutique don-
Håkan Grudd est un paléoclimatologue de l’Université de Stockholm spé-
née, des essais sont engagés sur l’homme.
cialiste de l’étude de l’évolution du climat à partir de l’observation des anneaux
– Phase I : Groupe de 20 à 80 sujets sains volontaires pour évaluer la tolé-
des arbres (dendroclimatologie). Il publie en 2008 un article 3 proposant une
rance et d’éventuels effets secondaires.
courbe des températures estivales au nord de la Suède pour la période 500–
– Phase II : Groupe de 200 à 300 sujets malades pour commencer à évaluer
2004. Claude Allègre s’approprie cette courbe, la “complète”, et enrôle im-
l’efficacité, rechercher la dose optimale et toujours des effets secondaires
plicitement l’auteur dans des conclusions formellement rejetées par l’universi-
possibles.
taire suédois qui dénonce les supercheries. Celles-ci consistent à faire prendre
– Phase III : Ce sont plusieurs milliers de sujets malades qui participent à
cette courbe locale en temps (été) et lieu (nord de la Suède) pour une courbe
des études comparatives en double aveugle. L’effet du médicament candi-
3. Tornetraask tree-ring width and density AD 500–2004 : a test of climatic sensitivity and dat est comparé à celui d’un placebo et à celui du traitement de référence.
a new 1500-year reconstruction of north Fennoscandian summers, Climate Dynamics (2008) 31, La preuve statistique doit être apportée d’un effet significatif du médica-
pp843-857.
Page 149 sur 159 06.2014

4
Statistique et déontologie scientifique

ment par rapport au placebo et celle d’une amélioration par rapport au


traitement de référence.
– A l’issue de ces essais, l’Afssaps prononce ou pas l’Autorisation de Mise
sur le Marché (AMM)
– Phase IV (post-marketing) : Les visiteurs médicaux assurent la promo-
tion des nouveaux médicaments et “recrutent” des médecins prescripteurs
pour la détection d’effets secondaires ou de complications tardives afin
que ces éventuels problèmes soient archivés par le laboratoire.
Dans le cas du Mediator, plusieurs dysfonctionnements ont été attestés, dys-
fonctionnements donnant suite à des poursuites judiciaires. Le Mediator,
comme toute amphétamine, a des propriétés bien connues de “coupe faim”
(anorexigène). Or ce médicament a obtenu une autorisation comme antidiabé-
tique ; le député Gérard Bapt, qui a présidé la commission parlementaire sur le
Mediator note : “A aucun moment (...) on n’a pu trouver un compte rendu de
commission pour une autorisation de mise sur le marché qui valide cette indi-
cation pour le diabète” (Libération du 05/08/2011). Servier est poursuivi pour F IGURE 4 – L’environnement politico-scientifico-médiatique autour de l’auto-
escroquerie envers l’Assurance Maladie et les Mutuelles qui ont porté plainte. risation de cultiver le maïs transgénique MON810
En effet, considéré comme antidiabétique, celui-ci fut remboursé au maximum
alors que seules ses capacités de “coupe faim” sont attestées.
Beaucoup plus grave, ce “médicament” a probablement causé 3100 hospita- 3 Abus méthodologique
lisations et une estimation d’au moins 1300 morts entre 1976 et 2009 en France
(article paru dans Pharmacoepidemiology & Drug Safety cité dans un article Les exemples précédents mettent en évidence des cas de manquements dé-
de Libération du 9-02-2012) ; il a fallu attendre novembre 2009 pour que l’Af- ontologiques évidents par falsifications et/ou dissimulations de données qui
ssaps décide de retirer le Mediator du marché alors que de nombreux acteurs conduisent à des procédures judiciaires. Dans d’autres cas, la “preuve” de la
avaient attiré l’attention des pouvoirs publiques sur les risques cardiaques et fraude ou du manquement éthique n’est pas aussi simple à apporter et relève
que le même type de médicament, l’Isoméride, a été interdit dès 1997 (Le d’une évaluation experte afin de mettre en évidence une utilisation abusive
Monde du 16/11/2010). Deux informations judiciaires ont été ouvertes, l’une d’une méthode statistique. L’exemple du maïs OGM MON810 va permettre
pour “tromperie aggravée”, l’autre pour “blessures et homicides involontai- d’illustrer cette situation. Le site de Marc Lavielle, membre du Haut Comité
res”. pour les Biotechnologies, fournit des détails précis sur cette affaire politico-
scientifico-médiatique (fig. 4).
Indépendamment des problèmes de conflits d’intérêts au sein de l’Afssaps
et de commissions parlementaires, nous pouvons nous interroger sur la façon 3.1 Un exemple de maïs OGM
dont ont été traitées et analysées les données normalement recueillies lors de
la phase iv des essais cliniques. La chenille d’un papillon, la pyrale du maïs, est responsable de dégâts consi-
dérables sur les cultures de cette céréale (fig. 5). Une bactérie présente naturel-
lement dans le sol sait produire une protéine, insecticide “naturel” et autorisé
en agriculture biologique qui permet de lutter contre la pyrale.
Page 150 sur 159 06.2014

5
Statistique et déontologie scientifique

F IGURE 5 – La pyrale du maïs, la chenille, ses dégats et Baccillus thuringien-


sis.

Principe d’un OGM : le maïs MON810


Dans le cas du maïs MON810, l’objectif recherché par la production de
ce maïs obtenu par transgénèse (fig. 6) est assez simple à appréhender. Une
fois identifié le ou les gènes susceptibles de produire la protéine “insecticide”,
ceux-ci sont extraits de l’ADN de la bactérie et intégrés par des techniques de
génie génétique à l’ADN de cellules de maïs. Les cellules obtenues sont culti-
vées jusqu’à l’obtention de semences d’une variété de maïs OGM “résistante”
à la pyrale. F IGURE 6 – Processus de transgénèse.
Les bénéfices attendus sont une meilleure production et une réduction de
l’utilisation des pesticides de synthèse.
Les risques sont : – des groupes témoins (même effectif n) avec un équivalent sans OGM.
– des effets potentiels sur d’autres organismes, en particulier les insectes
pollinisateurs (abeilles), 2. Différentes mesures (poids des rats, de chacun des organes, paramètres
– la dissémination, contamination d’autres plantes par ces mêmes gènes, biochimiques...) sont réalisées au cours de l’expérience et à la fin de celle-
– l’accroissement potentiel de la résistance de la pyrale par mutations, ci après avoir sacrifié les rats.
– des éventuels problèmes de santé humaine à long terme.
C’est en particulier ce dernier point qui a été étudié par Monsanto et divers
organismes de recherche publics ou non. Question biologique

3.2 Tests de toxicité sub-chronique La nourriture des rats (OGM ou pas) a-t-elle un effet sur le développement
de ceux-ci ? Ou, pour prendre un exemple, le maïs MON810 affecte-t-il le
Ciblons l’illustration des études sur l’éventuelle toxicité à moyen terme de poids du foie de ces rats ?
ce maïs OGM. Le protocole expérimental est relativement simple à mettre en On note µ1 le poids moyen du foie des rats d’un groupe témoin, et µ2 celui
œuvre mais nécessite des moyens conséquents et bien dimensionnés. Celui des rats d’un groupe test. Sans discuter le bien-fondé de ces hypothèses car
mené par Monsanto peut se résumer de la façon suivante : celles-ci ne sont pas “critiques” dans cette étude, les variables de poids des rats
1. Plusieurs groupes de rats sont nourris pendant 13 semaines : sont supposées gaussiennes ou normales et les variances sont supposées égales
– des groupes tests (effectif n) sont nourris avec le maïs MON810, à une même valeur σ 2 .
Page 151 sur 159 06.2014

6
Statistique et déontologie scientifique

3.3 Test statistique L’écart aléatoire (car dépendant de l’échantillon) observé entre µc1
et µ
c2 est-il significativement grand ou peut-il être considéré comme
La question biologique revient alors à tester l’égalité de ces moyennes. Si dû au seul hasard ?
celles-ci sont jugées significativement différentes, nous conclurons à une in-
fluence de l’alimentation sur le développement des rats et à l’absence d’in- Sous l’hypothèse que H0 est vérifiée la quantité
fluence si l’égalité des moyennes est acceptée. Dans le cas considéré et avec r
les hypothèses mentionnées (normalité des variables de poids, égalité des va- nµc1 − µc2
t=
riances qu’il est d’usage de vérifier préalablement par un test de Fisher), le test 2 σ
b
de Student est un usage courant.
appelée statistique de test, est la réalisation d’une variable aléatoire qui suit
Test de Student d’égalité des moyennes une loi dite de Student à (2n − 2) degrés de liberté dont la fonction de densité
est représentée figure 7. La zone rouge représente α = 5% de la surface ou
Ce test s’intéresse à l’hypothèse dite H0 : µ1 = µ2 ou δ = µ1 − µ2 = 0
probabilité tandis que le reste représente (1 − α) = 95%. Si la statistique de
et à l’hypothèse alternative H1 : µ1 6= µ2 .
test observée sur l’échantillon est, en valeur absolue, suffisamment grande pour
Attention, la façon de poser l’hypothèse H0 n’est pas “neutre”, elle présume “tomber” dans la zone rouge de cette densité, la différence entre les moyennes
implicitement l”innocence” du maïs et c’est aux données, aux expériences, est jugée significativement différente de 0 ; l’hypothèse H0 est rejetée. Ou en-
d’apporter la preuve du contraire, le rejet de l’hypothèse H0 au profit de H1 . core, la probabilité de se tromper en rejetant H0 est inférieure au seuil préala-
En effet, le risque (noté α) de se tromper ou de rejeter à tort l’hypothèse H0 blement déterminé α, et le test est jugé significatif.
au profit de l’hypothèse alternative H1 et celui (noté β) d’accepter à tort cette
même hypothèse ne sont pas identiques. Ceci se résume de façon générale dans Puissance de test
le tableau ci-dessous :
Une autre question concerne le contrôle de l’erreur β d’accepter à tord l’hy-
Accepter H0 Rejeter H0 pothèse H0 (innocuité du maïs MON810) alors que c’est H1 qui est vraie (in-
H0 vraie Probabilité 1 − α Probabilité α fluence de la consommation de MON810). Cette erreur (figure 8) ou risque de
H1 vraie Probabilité β Probabilité 1 − β 2ème espèce dépend de plusieurs paramètres :
– du choix du seuil α (en général α = 5%),
– Si H0 est vraie, la probabilité (1 − α) est celle d’une décision correcte et – de l’écart réel µ1 − µ2 (hypothèse H1 vérifiée),
α est appelé risque ou erreur de première espèce. – de la dispersion des valeurs ou variance σ 2 ,
– Si H1 est vraie, la probabilité β est le risque ou erreur de deuxième es- – et aussi de la taille n des groupes ou échantillons.
pèce d’accepter à tort H0 tandis que la probabilité (1 − β) est celle d’une Plus précisément, il est possible de montrer que plus n croît, plus β décroît.
décision correcte, elle est appelée puissance du test. Ou encore, plus n est grand et plus il est possible de détecter significativement
une différence réelle mais faible entre les moyennes µ1 et µ2 .
Risque α de première espèce
Voila toute la difficulté du débat autour d’un test statistique lié à une ex-
Le risque ou seuil α est celui qui est plus particulièrement contrôlé par l’ex- périmentation. Si la taille n de l’échantillon est suffisamment grande, il est
périence. Une fois observé un échantillon, les moyennes µ1 et µ2 sont respec- possible d’obtenir un test statistiquement significatif alors que la différence
tivement estimées par les moyennes empiriques (calculées sur l’échantillon) observée n’a pas de significativité biologique. Réciproquement, si la taille n
µ
c1 et µc2 . La variance σ 2 est également estimée par la variance empirique σ b2 . est trop petite, la puissance de test devient insuffisante et grand est le risque β
La question se pose sous la forme suivante : d’accepter à tort H0 .
Page 152 sur 159 06.2014

7
Statistique et déontologie scientifique

F IGURE 9 – Devise Shadok : la vérité est qu’il n’y a pas de vérité (y compris
F IGURE 7 – Si H0 vraie : Densité d’une loi de Student (18 ddl) et valeurs seuils celle-ci).
ou quantiles de cette loi déterminant un risque α = 5% de première espèce en
rouge de rejeter à tort H0 .
Dans le cas du MON810, la principale critique énoncée est justement que le
test a été posé (H0 ) en considérant implicitement l’innocuité de ce maïs alors
que la taille des groupes (n = 10 !) était bien trop faible pour assurer une
puissance de test raisonnable. Seules de grosses différences auraient pu être
statistiquement détectées.
Tests multiples
Dans l’autre camp, le Criigen (Comité de recherche et d’information indé-
pendantes sur le génie génétique) a proposé une autre étude selon un protocole
similaire mais sur une durée (5 ans et 14 semaines) beaucoup plus longue et