Vous êtes sur la page 1sur 631

Gilbert SAPORTA

Professeur au Conservatoire National

des Arts et Mtiers

OB

2e dition rvise et augmente

2006

Editions TECHNIP

27 rue Ginoux, 75737 PARIS Cedex 15, FRANCE

CHEZ LE MME .DITEUR


.. Approche pragmatique de la classification
J.P. NAKACHE, J. CONFAIS

..

Data rnining et statistique dcisionnelle

s.
..

TUFFRY

Statistique explicative applique


J.P. NAKACHE, J. CONFAIS

Les techniques de sondage, nOliveHe dition


P. ARDIllY

..

Analyse statistique des donnes spatiales


J.-J. DROESBEI, M. lEJEUNE~ d:sAPoRTX;Eds.

..

Modles statistiques pour donnes qualitatives


J .-1. DROESBEKE, M. LEJEUNE, G. SAPORTA,

Eds.

Plans d'expriences. Applications l'entreprise


J.-J. DROESBEKE, J. FINE, G. SAPORTA,

Eds.

Mthodes baysiennes en statistique


J.-J. DROESBEKE, J. FINE, G. SAPORTA,

Eds.

..

La rgression PLS. Thorie et pratique


M.TENENHAUS

Probabilits. Exercices corrigs


D.GHORBANZADEH

Tous droits de traduction, de reproduction et d'adaptation rservs pour tous pays.


Toute reprsentation, reproduction intgrale ou partielle faite pur quelque procd que ce soit, sans Je consentement de l'auteur ou de ses ayants cause, est illicite el constitue une contrefaon sanctionne par les articles 425 et suivants du Code pnaL Par ailleurs, la loi du 1 1 mars 1957 interdit formellement Jes copies ou les reproductions destines une utilisation collective.

Editions Teclmip. Paris, 2006. Imprim en France

ISBN 2-7108-0814-5

Avant-propos

La prcdente dition de cet ouvrage a t publie en 1990. Nous voquions alors les volutions de la statistique de la dcennie passe. Depuis lors, les de l'informatique n'ont cess. permettant d'une part l'utilisation de nouvelles mthodes fondes sur des calculs intensifs (simulation, mthodes non-paramtriques et algorithmiques), et d'autre part le traitement de donnes en masse qui a donn lieu l'mergence du data mining ou fouille de donnes . Les logiciels de calcul statistique n'ont cess de se perfectionner et de se diffuser tel point que des mthodes complexes sont employes de faon routinire sans pour cela que l'utilisateur les domine toujours. Cette nouvelle dition prend en compte ces volutions. Outre une mise jour de certains exemples, les principaux dveloppements concernent les mthodes de Monte Carlo, l'estimation non paramtrique, la modlisation prdictive avec l'introduction des mthodes de rgression en prsence de mul ticolinari t, la rgression logistique, les SVM et les techniques d'apprentissage. Nous avons galement rajout deux chapitres consacrs aux deux grandes mthodologies de recueil des donnes: sondages et plans d'expriences. Ce livre a pour but de donner aux tudiants et aux praticiens les outils ncessaires pour appliquer correctement les mthodes statistiques. La plupart des rsultats sont dmontrs, sauf certains pour lesquels les preuves trop techniques auraient alourdi ce livre. Les 21 chapitres sont regroups en cinq parties: La premire outils probabilistes donne les bases ncessaires l'infrence classique. L'approche probabiliste permet de prendre en compte le fait que notre univers n'est pas dterministe et que les donnes dont on dispose ne sont pas parfaites. La deuxime partie intitule statistique exploratoire regroupe les outils de description non-probabilistes des donnes, allant de la statistique descriptive unidimensionnelle ce que l'on appelle analyse des donnes en un sens restreint qui selon nous ne se limite pas aux mthodes drives de l'analyse en composantes principales et de la classification : pour nous le but de la statistique est d'analyser des donnes ... La troisime partie statistique infrentielle est consacre classiquement l'estimation et aux tests. La quatrime partie modles prdictifs regroupe les techniques de rgression au sens large o on cherche un modle reliant une rponse Y des prdicteurs Xj La cinquime partie concerne le recueil des donnes par sondages ou exprimentation. Le recueil des donnes constitue un pralable l'analyse; le placer en dernire parte peut sembler

vi

_Avant-propos

illogique, mais le fait est que la collecte des donnes ne peut se concevoir sans en connatre l'usage ultrieur, ce qui ncessite la comprhension de l'estimation el de la modlisation. Je remercie enfin tous ceux qui onl contribu un titre ou un autre la ralsation de cet ouvrage, ainsi que les ditions Technip pour leur patience et le soin apport sa ralsution.

Gilbert Saporta (mars 2006)

Table des matires

Avant propos .......................................................... v Introduction ............................................................ xx v

Premire partie: Outils probabilistes

Ch 1 : Le modle probabiliste ............................................ 3


1.1 Espace probabilisable ................................................ 3
1.1.1 1.1.2 Exprience alatoire et vnements ................................. 3 Algbre des vnements .......................................... 4

1.2

Espace probabilis ................................................... 5


1.2.1 L'axiomatique de Kolmogorov ..................................... 5 1.2.2 Proprits lmentaires ........................................... 5 Lois de probabilits conditionnelles, indpendance ......................... 6 1.3.\ Introduction et dtinitions ......................................... 6 1.3.2 Indpendance .................................................. 8 1.3.2.1 Indpendance de deux vnements ........................... 8 1.3.2.2 Indpendance deux deux et indpendancc mutuelle ............. 8 1.3.3 Formules de Bayes .............................................. 9 Rflexions sur le concept de probabilit ................................. 10 lA.1 La conception objectiviste ....................................... 10 104.1.1 La vision classique ...................................... 10 104.1.2 Un paradoxe clbre ..................................... Il 104.1.3 La vision frquentiste .................................... 12 104.2 La conception subjectiviste ....................................... 12 1.4.2.1 Mesure d'incertitude .................................... 13 1.4.2.2 Le baysianisme ........................................ 13

1.3

1.4

Ch 2 : Variables alatoires .............................................. \5


2.1
Loi de probabilit et moments d'une variable alatoire relle ................ 15 2.1.\ Dfinition et fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . \5 2.1.1.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

viii

.Table des matires

2.1.2

2.1.3 2.1.4

2.1.1.2 Fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.3 Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. L lA Taux instantan de dfaillance . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi d'une fonction d'une variable alatoire Y <p(X) ... 2.1.2.1 <p bijective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2.2 <p quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indpendance de deux variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . Moments d'une variable alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.1 L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4.2 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.3 Autres momenLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.lAA Ordres stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 18

19
20 20 21 21 22 22 25 27

28
30 30 30

2.2

Lois de probabilit discrtes d'usage courant . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Loi discrte uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Loi de Bernoulli de paramtre p . ............................. 2.2.3 Loi binomiale 93(n ; p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Loi de Poisson rJ'l(X-) .... 2.2.5 Loi hypergomtrique 'dC(N, Il, p) ou du tirage exhaustif. . . . . . . . . . . . . . . . 2.2.5.1 Esprance de l'hypergomtrique ........................... 2.2.5.2 Variance de l'hypergomtrique ............................ 2.2.5.3 Tendance vers la loi binomiale ............................. 2.2.6 Lois gomtrique, de Pascal, binomiale ngative . . . . . . . . . . . . . . . . . . . . . 2.3.1 1.3.2 2.3.3

31 33
36 36 36 37 38

2.3

Distributions continues usuelles .................................... 38


Loi uniforme sur [0, aJ ...................................... 38 Loi exponentielle de paramlre X- .... 39 Lois gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.3.1 Esprance ............................................. 40 2.3.3.2 Variance .............................................. 40 Lois bta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.4.1 Loi bta de type 1 ....................................... 41 2.304.2 Loi bta de type II ....................................... 41 2.3.4.3 Loi de l'arc sinus ....................................... 42 La loi de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.3.5.1 Valeurs remarquables .................................... 44 2.3.5.2 Moments .............................................. 44 2.3.5.3 Additivit ............................................. 45 2.3.504 Loi de U2 45 La loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Loi de Weibull. . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Loi de Gumbel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.3.4

2.3.5

2.3.6 2.3.7 2.3.8 2.3.9

2.4

Le processus ponctuel de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 204.1 Flux poissonnen d'vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 204.2 tude de la dure T sparant deux vnements consculifs E j et Ei + 1 49 204.3 tude de la dure Y sparant n + 1 vnements . . . . . . . . . . . . . . . . . . . . . 50

aTable des matires

ix

lude du nombre d'vnements se produisant pendant une priode de dure T fixe ............................ 50 2.4.5 tude de la rpartition des dates El' E:!. ... El! dans l'intervalle AB . ........ 51 1.4.6 Le processus (Nt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Convolution........... . ........................................... 51 2.5.1 Cas discret. ................................................... 51 2.5.2 Cas gnral ................................................... 53 2.5.3 Applications .................................................. 54 2.5.3.1 Somme de lois "y .. 54 2.5.3.2 Somme de lois uniformes sur [0, 1]. . . . . . . . ................ 55 2.6 Fonctions caractristiques ............................................ 55 1.6.1 Dfinitions et principales proprits ................................. 55 2.6.LI Dfinition ............................................. 55 2.U.2 Fonction caractristique d'une fonne 1inaire .................. 56 2.6.1.3 Convolution ........................................... 56 2.6.1.4 Cas d'une distribution symtrique ........................... 56 2.6.1.5 Drives l'origine et moments non centrs ................... 56 2.6.1.6 Unicit et inversion de la fonction caractristique ............... 57 2.6.2 Fonctions caractristiques des lois usuelles ........................... 58 2.6.2.1 Lois discrtes .......................................... 58 1.6.2.1 Lois continues .......................................... 58 1.6.3 Fonctions gnratrices ........................................... 60 2.7 Convergences des suites de variables alatores ............................ 60 2.7.1 Les diffrents types de convergence ................................. 60 2.7.1.1 La convergence en probabilit .............................. 60 2.7.1.2 La convergence presque sre ou convergence forte .............. 61 2.7.1.3 La convergence en moyenne d'ordre p ....................... 61 2.7.1.4 La convergence en loi .................................... 62 2.7.2 Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace) .................... 62 2.7.3 Convergence de la loi de Poisson vers la loi de Gauss. . ................ 64 2.7.4 Le thorme central-limite ........................................ 65

1.4.4

Ch 3 : Couples de variables alatoires, conditionnement. ...................... 69


3.1
3.1.1

tude d'un couple de variables discrtes ................................. 69 Lois associes un couple (X, Y) ................................... 69
3.1. LI Loi jointe ............................................. 69 3.1.1.2 Lois marginales ......................................... 69 3.1.1.3 Los conditionnelles .. . ................................. 70 Covariance et corrlation linaire ................................... 71 Moments conditionnels .......................................... 71 3.1.3.1 L'esprance conditionnelle . . . . . . . . . . .. ................. . 71 3.1.3.2 La variance conditionnelle ................................. 73 3.1.3.3 Exemple d'utilisation de l'esprance et de la variance conditionnelle ............................. 74

3.1.2 3.1.3

x
3. [.4

.. Table des matires


EXlension au conditionnement d'une variable continue Y par une variable discrte X ........................................ 76 3.1.5 Somme d'un nombre alatoire de variables iid . ........................ 76 Extension des variables lluelconques .................................. 77 3.2.1 Lois conjointes et lois marginales d'un couple de variables alatoires relles ...................................... 77 3.2.2 Conditionnement ............................................... 77 3.2.2.1 Prsentation nave ....................................... 77 3.2.2.2 Aperus thoriques. . . . . . . . . . . . . . . . . . . . . . .. . ............ 78 3.2.2.3 Ce qu'il faut retenir. ..................................... 79 Synthse gomtrique ................................................ 80 3.3.1 Espace de Hilbert des classes de variables alatoires de carr intgrables..... 80 3.3.2 Esprance conditionnelle et projection. . . . . . .. . ..................... 81 3.33 Rapport de corrlation de Yen X . ................................. 82

3.2

3.3

Ch 4 : Vecteurs alatoires, formes quadratiques et lois associes ................ 85


4.1 Gnralits sur les vecteurs alatoires rels ............................... 85
4.1.1 Fonction de rpartition et densit ................................... 4. L 1.1 Fonction de rpartition ................................... 4.1.1.2 Densit ............................................... 4.1.1.3 Changement de variables dans une densit .................... Fonction caractristique .......................................... Esprunce et matrice de variance-covariance .......................... Transformations linaires ......................................... Diinitons et fonction caractristique ............................... Densit de la loi normale p dimensions ............................. Cas particulier de la loi normale 1'1 deux dimensions ..................... Lois conditionnelles (sans dmonstration) ............................ Thorme central-limite multidimensionnel ........................... 85 85 85 85 86 87 88 89 89 90 90 92 92

4.1.2 4.1.3 4.1.4

4.2

Vecteurs alatoires gaussiens: la loi multinormale .........................


4.2.1 4.2.2 4.2.3 4.2.4 4.2.5

4.3

Formes quadratiques dfinies sur un vecteur gaussien et lois drives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................... 93


Lois du X2 (khi-deux) ........................................... 93 Formes quadratiques ............................................ 94 Lois du F de Fisher-Snedecor ..................................... 97 Lo de Student. ................................................ 98 La loi multinomiale, introduction au test du X2 99 ................................. 99 4.4.1 Le schma de l'urne il k 4.4.2 Esprance et matrice de variance .................................. 101 4.4.3 Lois limite lorsque Tl .........)0 0::; 101 Lois de Wishart, de Hotelling, de 'Vilks ................................. 103 4.5.1 Loi de Wisbart ................................................ 103 4.5.2 La loi du T 2 de HoteLling. . . . . . . . . . . . . . . . . . . . . . . .. . ............. 104 4.5.3 La loi du lambda (A) de Wilks. . . ............................... 105 4.3.1 4.3.2 4.3.3 4.3.4

4.4

4.5

.Table des matires

xi

Deuxime partie: Statistique exploratoire

Ch 5 : Description unidimensionnelle de donnes numriques ................. 109


5.1 Tableaux statistiques ................................................ 109
5.1.1 5.1.2 Variables discrtes ou qualitatives. . . . . . . . . . .. . ................... 109 Variables continues ou assimiles ................................. 110 Reprsentations graphiques .......................................... 112 5.2.1 Barres el camemberts .......................................... 1 12 5.2.2 Histogrammes ................................................ 114 5.2.3 Bote moustaches ou box-plot ................................... 115 5.2.4 Courbe de concentration ........................................ 116 5.2.4.1 Proprits mathmatiques.. .................... . ....... 117 5.2.4.2 Indice de concentration ou indice de Gni .. .......... . ..... 117 Rsum; numriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ... 119 5.3.1 Caractristiques de tendance centrale ..................... , ........ 120 5.3.1.1 La mdiane ........................................... 120 5.3.1.2 La moyenne arithmtique ................................ 120 5.3.1.3 Le mode ............................................. l21 5.3.2 Caractristiques de dispersion .................................... 121 5.3.2.1 L'tendue ou intervalle de variation ......................... 121 5.3.2.2 L'intervalle interquartile ................................. 121 5.3.2.3 La variance et l'cart-type ................................ 121 5.3.3 Cohrence entre tendance centrale et dispersion. . .................... 122 5.3.4 Caractristiques de forme ....................................... 123

5.2

5.3

Ch 6 : Description bidimensionnelle et mesures de liaison entre variables ........ 125


6.1 Liaison entre deux variables numriques ............................... 125
6.1.1 6.1.2 tude graphique de la corrlation .................................. Le coeficent de corrlation linaire ............................... 6.1.2.1 Dfinition ............................................ 6.1.2.2 Du bon usage du coefficient r . . . . . . . . . . . . . . . . . . . . .. . ..... 6.l.2.3 Matrice de corrlation entre p variables ...................... Caractre significatif d'un coefficient de corrlation ................... Corrlation partielle. . .. . ...................................... 6.1.4.1 Le modle nonnal p dimensions .......................... 6.1.4.2 Corrlation entre rsidus ................................. 6.1.4.3 Signification d'un coefticicnt de corrlation partielle. . .. . ...... i25 126 126 127 128 131 132 133 133 134

6.L3 6.1.4

6.2

Corrlation multiple entre une variable numrique et p autres variables numriques . . . . . . . . .. .......... ....................
6.2.1 6.2.2 6.2.3 6.2.4

. .. 134
134 135 135 136

Dtinition ................................................... Interprtution gomtrique ....................................... Calcul de R . . . . . . . . . . . .. . ................................... Signification d'un coefficient de corrlation multiple ...................

xii

IIIIIIII Table

des matires

6.3

6.4

6.5

Liaison entre variables ordinales: la corrlation des rangs. . . .. . .......... 6.3.1 Le coefficient de Spearman ...................................... 6.3.2 Le coefticient de corrlation des rangs T de M. G. Kendall .............. 6.3.2.1 Aspect thorique ....................................... 6.3.2.2 Ca1cu1 sur un chantillon ................................. 6.3.3 Coefficients de Oaniels et de Guttmann ............................. 6.3.4 Le coefficient W de Kendall de concordance de p classements ............ Liaison entre une variable numrique et une variable qualitative ............ 6.4.1 Le rapport de corrlation thorique (rappel) .......................... 6.4.2 Le rapport de corrlation empirique ................................ 6.4.3 Interprtation gomtrique et lien avec le coefficient de corrlation multiple .......................................... Liaison entre deux variables qualitatives ................................ 6.5.1 Tableau de contingence, marges et profils ........................... 6.5.2 L'cart l'indpendance ........................................ 6.5.2.1 Le X2 d'cart l'indpendance etles autres mesures associes .... 6.5.2.2 Cas des tableaux 2. X 2 .................................. 6.5.2.3 Caractre significatif de J'cart l'indpendance. . ............ 6.5.2.4 Autres mesures de dpendance ............................ 6.5.3 Un indice non symtrique de dpendance: Je Th de Goodman et Kruskal ..................................... 6.5.4 Le kappa de Cohen ............................................

136 137 138 138 138 141 141 143 143 143 145 J46 146 149 149 152 152 153 153 154

Ch 7 : L'analyse en composantes principales ............................... 155


7.1 Tableaux de donnes, rsums numriques et espaces associs .............. 7.1.1 Les donnes et leurs caractristiques ............................... 7.1.1.1 Le tableau des donnes .................................. 7.1. 1.2 Poids et centre de gravit ............. , ................... 7.1.1.3 Matrice de variance-covariance et matrice de corrlation ......... 7.1.1.4 Donnes actives et supplmentaires ......................... 7.1.2 L'espace des individus .......................................... 7.1.2.1 Le rle de la mtrique ................................... 7.1.2.2 L'inertie ............................................. 7.1.3 L'espace des vnriables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.3.1 La mtrique des poids ................................... 7.1.3.2 Variables engendres par un tableau de donnes ............... L'analyse ......................................................... 7.2.1 Projection des individus sur un sous-espace .......................... 7.2.2 lments principaux, ................... , ....................... 7.2.2.1 Axes principaux ....................................... 7.2.2.2 Facteurs principaux ..................................... 7.2.2.3 ComposanLes principales. . . . . . . . . . . . .. . ................. 7.2.2.4 Formules de reconstitution ............................... 7.2.3 Cas usuel. La mtrique DI/s'OU l'ACP sur donnes cenLres-rdules ....... 155 155 155 156 156 157 158 158 160 161 161 161 162 162 164 164 166 166 167 168

7.2

.Table des matires

xiii

7.3

Interprtation des rsultats .......................................... 169


7.3.1 des reprsentations sur les plans principtlux .................... Le pourcenltlge d'inertie ................................. Mesures locales. . . .. . ................................. A propos de la reprsentation simultane des individus et des variables en ACP .................................. Choix de la dimension .......................................... 7.3.2.1 Critres thoriques ..................................... 7.3.2.2 Critres empiriques ..................................... Interprtation interne . . . . . . . . . . . . . 7.3.3.1 Corrlations ({ variables facteurs)} ......................... 7.3.3.:! La place ct l'importance des individus ....................... 7.3.3.3 EtIet taille)l ......................................... IQterprtation externe: variables et individus supplmentaires, valeur-test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. Qunlit 7.3.1.1 7.3.1.1 7.3.1.3 169 170 170 171 171 171 171 173 173 175 176 176

7.3.2

7.3.3

7.3.4

7.4

Exemple ......................................................... 177


7.4.1 7.4.2 7.4.3 Valeurs propres ............................................... 177 Interprtation des axes .......................................... 178 Plan principal. . . . . . . . . . .. . .................................. 179 Analyse factorielle sur tableaux de distance et de dissimilarits .............. 181 7.5.1 Annlyse d'un tableau de distances euclidiennes ...................... 181 7.5.1.1 La soluton classique .................................... 181 7.5.1.2 Une transformation permettant de passer d'une distance non euclidienne il une distance euclidienne ....... 182 7.5.2 Le MDS ................................................. 183 7.5.2.1 Analyse d'un tableau de dissimilarits ....................... 183 7.5.2.2 Analyse de plusieurs tableaux de distances ................... 184 Extensions non linaires ..................................... , ....... 185 7.6.1 Recherche de transformations spares ............................. 185 7.6.2 La kernel-ACP }). . . . . . . . .. ..................... . ........... 187

7.5

7.6

Ch 8 : L'analyse canonique et la comparaison de groupes de variables .......... 189


8.1 Analyse canonique pour deux groupes. . . . . . . . . . . . . . .. . ................ 189
Recherche des variables canoniques ........ ' ........................ 8.1.1.1 tude de la solution dans [R" ...................... 8.1.1.2 Solutions dans ~l' et lH1'i .......... 8.1.2 Reprsentation des variables et des individus. . . . . . . . . . . . .. . ......... 8.1.3 Test du nombre de variables canoniques significatives .................. lVlthodes non symtriques pour deux groupes de variables ................. 8.2.1 Mthodes procuslennes de comparaison de deux contigu rations d'individus . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 8.2.2 Mthodes factorielles ........................................... 8.2.2.1 L'analyse en composantes principales de variables instrumentales (ACPVI) ................................. 8.1.1 190 190 191 193 194 194 194 196 196

8.2

xiv

.Table des matires

8.3

8.2.2.2 ACP sous contrainte d'orthogonalit. . . . . . . . . . . . . . . . . . . . .. . 197 8.2.2.3 ACP des covariances partielles ............................ 197 L'analyse canonique gnralise ....................................... 197
8.3.1 8.3.2 Une proprit de l'analyse canonique ordinaire. .. . .................. 197 La gnralisation de J.O. Carroll (1968) ............................ 198

Ch 9 : L'analyse des correspondances .................................... 201


9.1 Tableau de contingence et nuages associs ............................... 201
9.1.1 Reprsentations gomtriques des profils associs un tableau de contingence ...................................... :W l La mtrique du X2 203

9.2

9.1.2 Analyse en composantes principales des deux nuages de profils '" .......... 205 9.2.1 ACP non centres et facteur trivial. . . . . . . .. . ...................... 205 9.2.2 ACP non centres des nuages de profils ............................. 206 9.2.3 Formules de transition .......................................... 207
9.2.4 Trace et reconstitulol1des donnes ............................... 9.2.4.] Dcomposition du c.p2 ........... 9.2.4.2 Formule de reconstitution ................................ Chox du nombre de valeurs propres en AFC ......................... 208

208
209

9.2.5 209 9.3 Un exemple ....................................................... 210 9.4 Analyse canonique de deux variables qualitatives, justification de la reprsentation simultane ....................................... 212 9.4.1 Mise sous forme disjonctive de donnes qualitatives ................... 212
9.4.2 9.4.3 9.4.4 Quantifications de variables qualitatives ............................ Analyse canonique des deux groupes d'indicatrices. . . . . . . . . . . . . .. . ... Reprsentation simultane optimale des (111 1 + 1112) catgories d'individus ............................... La mlhode des moyennes rciproques ............................. Conclusion..................... . ........................... 213 214 215 217 217

9.4.5
9.4.6

Ch 10 : L'analyse des correspondances multiples ............................ 219


10.1 Prsentation formelle. . . . . . . . . .. ................. . .............. 219
10.1.1 10.1.2 Donnes et notations ........................................ 219 Une proprit remarquable pour p = 2 ........................... 220 10.1.2.1 AFC formelle du tableau disjonctif ..................... 220 10.1.2.2 Proprits particulires des valeurs propres ct vecteurs propres ................................. 221 Le cas gnral p > 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .... 222 10.1.3.1 Coordonnes des catgories ........................... 222 10.1.3.2 Coordonnes des individus ............................ 223 10.1.3.3 Formules de transition et relations barycentriques .......... 224 JO.1.3.4 Proprits des valeurs propres ......................... 225 10.1.3.5 AFC du tableau de Burt. ............................. 226 Analyse canonique gnralise de p tableaux d'indicatrices ........... 227

10.1.3

10.2 Autres prsentations .............................................. 226


10.2.1

_ Table des matires

xv
Un critre d'association maximale .............................. Quantification optimale de variables qualitatives ................... 10.1.3.1 ACP de variables quantifies .......................... 10.2.3.1 Guttman et l'homognit maximale .................... Approximation d'ACP non linaire .............................

10.3

1004

227 228 228 228 230 10.2.4 Pratique de l'analyse des correspondances multiples .................... 131 10.3.1 Les contributions ........................................... 231 10.3.1.1 Contributions un axe factoriel. . . . . . . . . . . . .. . ........ 231 10.3.1.2 Contributions l'inertie totale ......................... 132 10.3.1 L'usage de variables supplmentaires . . ........................ 233 Un exemple: les races canines ....................................... 234 10.1.2 ]0.2.3

Ch Il : lVlthodes'de classification ....................................... 243


Il.1 Gnralits.............................................. . ..... 143
Distances et dissimlarits .................................... 143 1] .1.1.1 Dfinitions ........................................ 143 L1.1. 1.2 Similarits entre objets dcrits par des variables binaires ..... 244 11.1.1.3 Accord entre distances et dissimilarts ... , ........... , .. 245 11.1.2 Accord entre partitions, indice de Rand .......................... 245 Il.1.2.1 Tableau des comparaisons par paires associ une partition .... 245 11.1.2.2 Accord entre deux partitions ................. . .. . .... 246 11.1.3 Aspecls combinatoires de la classification ........................ 247 1 1.1.3.1 Nombre de partitions en k. classes de Il lments ........... 247 11.1.3.2 Nombre total de partitions Pn (nombre de Bell) ............ 148 Il.1.4 Sur l'existence et la caractrisation des classes d'un ensemble ........ 249 Les mthodes de partitionnement ................................... 250 Il.2. 1 Les mthodes du type nues dynamiques}) ou k-mealls ............ 250 1l.2.1.1 Inertie interclasse et inertie ntmclasse ..... , ............ 250 1 1.2.1.2 La mthode des centres mobiles ....................... 250 11.2.2 La mthode de Condorcet .................................... 252 11.3.1 Il.] .1

11.2

11.3 rvfthodes hirarchiques ................................. , ......... 254


Aspect fonne! ............................................. 254 11.3.1.1 Hirarchie de parties d'un ensemble E .................. 254 Il.3.1.2 Distances ultramtriques ............................. 255 1] .3.2 Stratgies d'agrgation sur dissimilarits . . . . . . . . . .. . ............ 256 11.3.2.1 Le saut minimum .................................. 257 L1.3.1.2 Le diamtre et aUlres stratgies ....................... , 258 Il.3.3 La mlhode de Ward pour distances euclidiennes .................. 258 11.3.4 Classification de donnes qualitatives ., ......................... 259 11.3.5 Considrations algorithmiques ................................ 260 11.4 Mthodes mixtes pour grands ensembles ............................. 261 11.5 Classification de variables . . . . . . .. ............................. .. 261 11.5.1 Variables numriques ....................................... 161 11.5.2 L'approche de Lennan et l'algorithme de la vraisemblance du lien ..... 262

xvi

_Table des madres

11.6 Exemples ...................................................... 262


1 1.6.1 11.6.2 Donnes voitures ........................................... Vacances ................................................. 11.6.2.1 Classification des professions ......................... 11.6.2.2 Classitication des modes d'hbergement ................. Races canines ............................................. 262 264 264 265 266

11.6.3

Troisime partie: Statistique infrentelle Ch 12 : Distributions des caractristiques d'un chantillon ................... 271
12.1

Fonction de rpartition d'un chantillon, statistiques d'ordre et quantiles ... 272


Fonction de rpartition empirique d'un chantillon ................. 272 Convergence de F,t(x) vers F(x) ............................... 273 chantillons ordonns et lois des valeurs extrmes ................. 273 12.1.3.1 Loi de YI = inf Xi .................................. 274 12.1.3.2 Loi de }~I = sup XI' ................................. 274 12.1.3.3 Loi de l'tendue W ................................. 274 12.1.3.4 Loi de Yi,:' . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ......... 275 12.1.3.5 Rsultats asymptotiques pour les extrmes ............... 275 12.1.3.6 Distributions asymptotiques des quantiles ................ 276 Distributions d'chantillonnage de certains moments ................... 276 12.2.1 tude de la statistique X ..................................... 276 12.2.1.1 Proprits lmentaires .............................. 276 12.2.1.2 Lois des grands nombres ............................. 277 12.2.1.3 Application: loi d'un pourcentage ..................... 278 12.2.2 de la statistique S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 279 12.2.2.1 Proprits ........................................ 279 12.2.2.2 Thorme limite pour S:! ............................. 280 12.1.2.3 Corrlation entre ct S2 ............................ 280 12.2.3 Cas des chantillons gaussiens ................................ 281 12.2.3.1 Loi de X ......................................... 281 Il.2.3.2 Loi de S1 et indpendance entre X et S2. . . .. . ........... 281 12.2.3.3 Esprance ct variance des principales caractristiques d'un chantillon gaussien ............................ 283 12.2,4 Application aux cartes de contrle ............................. 284 12.1.1 12.).2 12.1.3

12.2

Distribution du centre de gravit et de la matrice de variance d'un chantillon gaussien p-dimensionnel ............................. 285 12.4 La mthode ( delta et les statistiques asymptotiquement normales ....... 286
12.3 12,4.1 12.4.2 Stabilisation de la variance d'un pourcentage .................... 286 Stabilisation de la variance d'une loi de Poisson ............... " . 287 Valeurs propres d'une matrice de variance ....................... 287 Gnralisation au cas multidimensionnel ......................... 287

12.4.3 t 1.4,4

.Table des matires

xvii

Ch 13 : L'estimation .................................................. 289


13. t Gnralits ..................................................... 289 13.1.1 Exemples lmentaires ...................................... 289 13 .1.2 Qualits d'un estimateur ..................................... 289 L3.1.3 Recherche du meilleur estimateur d'un paramtre e ................ 291 L'exhaustivit ................................................... 291 13.2.1 Dfinition d'une statistique exhaustive ....................... .. 291 13.2.2 Lois pennettant une statistique exhaustive ........................ 193 13.2.3 L'information de Fisher ...................................... 295 13.2.4 Gnralisation il plusieurs dimensions e paramtre vectoriel E Dl<' .................. 297 L'estimation sans biais de variance minimale .......................... 298 13.3.1 Les rsultats thoriques ...................................... 298 l3.3.2 Exemple ................................................. 300 13.3.3 Ingalit de Frchet-Darmos-Cramer-Rao (FDCR) . . . . . . . . . . . , .. 301 La mthode du maximum de vraisemblance (lVIV) ..................... 305 L'estimation par intervalles (les fourchettes d'une estimation) ............ 307 13.5.1 Principe ................................................. 307 13.5.2 Esprance d'une variable normale .............................. 309 13.5.2.1 cr est connu ....................................... 309 13.5.2.2 cr est inconnu ..................................... 309 13.5.3 Variance d'une loi nonnale ................................... 309 13.5.3.1 111 est connu ....................................... 309 13.5.3.2 III est inconnu ..................................... 310 13.5.4 Intervalle de confiance pour une proportion p ..................... 310 13.5.5 Intervalle de confiance pour le paramtre d'une loi de Poisson ................................................ 3 L3 13.5.6 Ellipsode de confiance pour la moyenne d'une loi de Gauss multidimensionnelle .... . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 314 Intervalles de prdiction et de tolrance .............................. 315 13.6.1 Prvision d'une valeur d'une loi normale ........................ 315 13.6.2 Ellipsode de tolrance pour une distribution normale Nfl{P. ; I.) ....... 316 Estimation baysenne ............................................ 317 l3.7.1 Prsentation................................. . ........... 317 13.7.2 Estimation baysienne de la moyenne f.l. d'une loi normale de variance connue ......................................... 3 17 13.7.3 Estimation baysienne d'une proportion p ........................ 3l8 l3.7.4 Gnralisation ............................................. 319 Notions sur l'estimation robuste ......... . . . .. . .................... 319 Estimation de densit ............................................. 32 L 13.9.1 Gnralits ............................................... 321 13.9.2 De l'histogramme la fentre mobile ........................... 322 13.9.3 Lu mthode du noyau (Parzen) ................................ 323
#

13.2

13.3

13.4 13.5

13.6

13.7

13.8 13.9

xviii

_Table des matires

Ch 14 : Les tests statistiques ............................................ 325


14.1 Introduction............................................ . ...... 325
Les faiseurs de pluie ........................................ 325 Les grandes catgories de tests ................................ 327 14.2 Thorie classique des tests ......................................... 328 14.2.1 Risques et probabilits d'erreur ................................ 328 ] 4.2.2 Choix de la variable de dcision et de la rgion critique optimales: la mthode de Neyman et Pearson .............................. 329 14.2.3 tude de 1 - f3 : puissance du test ............................. 331 14.2.4 Tests et statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . .. . ....... 332 14.2.5 Exemple ................................................. 332 14.2.6 Tests entre hypothses composites ................. . .......... 333 14.2.6.1 Test d'une hypothse simple contre une hypothse composite ....................... 333 14.2.6.2 Test entre deux hypothses compostres .. . .............. 334 14.2.6.3 Test du rapport des vraisemblances maximales ............ 334 14.2.7 Niveau de significaon, risques. vraisemblance et approche baysienne . . .. . .................................. 336 14.3 Tests portant sur un paramtre ..................................... 337 14.3.1 Moyenne d'une loi LG(nl, cr) ................................. 337 14.3.1.1 cr connu ................................... . .... 337 14.3.1.2 0' inconnu ........................................ 338 14.3.2 Variance d'une loi de LG(m, cr) ................................ 338 14.3.2.1 111 connu ......................................... 338 14.3.2.2 111 inconnu ........................................ 338 14.3.3 Test de la valeur thorique p d'un pourcentage pour un grand chantillon .................................... 339 14.4 Tests de comparaison d'chantillons ................................. 339 14.4.1 Tests de Fisher-Snedecor et de Student pour chantillons indpendants .............................................. 339 14.4.1.1 Cas de deux chantillons gaussiens X, E LG(m,. crI) et X2 E LG(m1' 0'2)' . . . . . . . . . . . . . . . . . . . . . . . . 340 14.4.1.2 Comparaison de moyennes en cas de variances ingales .......................................... 342 14.4.1.3 Cas d'chllnti11ons non gaussiens ...................... 342 14.4.2 Tests non paramtriques de comparaison de deux chantillons indpendants ............................. 342 14.4.2.1 Test de Smimov ........................... . ...... 342 14.4.2.2 Test de Wilcoxon-Mann-Whitney ........... . ......... 343 14.4.3 Test non paramtrique de comparaison de plusieurs chanti110ns dcrits par une variable qualitative: le test du X1 . . . . . . . . . . . . . . . . . . . 345 14.4.4 Test de comparaison de deux pourcentages (grands chantillons) ...... 346 14.4.5 Comparaison des moyennes de deux chantillons gaussiens indpendants p dimensions de mme malrice de variance ........... 347 14.4.5.1 Test de HoteHing ................................... 348 14.4.5.2 Distance de Mahalunobs ............................ 348 14.1.1 14.1.2

.Table des matires

xix

Comparaison de moyennes d'chantillons apparis ................. 349 14.4.6.1 Le cus gaussien. . . . . . . .. . ........................ 349 14.4.6.2 Test des signes .................................... 350 14.4.6.3 Le test de Wilcoxon pour donnes apparies. . .......... 350 14.4.7 Comparaison de variances d'chantillons apparis ................. 351 14.4.8 Le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantllon .................................... 351 14.5 L'analyse de variance. . .. . ....................................... 352 ]4.5.1 Analyse de variance un facleur ............................... 353 14.5.1.1 Les donnes el le modle ............................ 353 14.5.1.2 Le lest ........................................... 353 14.5.1.3 L'estimation des effets .............................. 355 14.5.1.4 Comparaisons multiples de moyennes .................. 355 ... 14.5.1.5 TeSl de comparaison de k variances. . . . . . . . . . . . . . . . . . .. 356 14.5.2 Analyse de variance deux facteurs ............................ 357 14.5.2. L Le modle ........................................ 357 14.5.2.2 L'quation d'analyse de variance et le test ................ 357 14.5.2.3 L'estimalion des effets .............................. 358 14.5.2.4 Le cas du plan sans rptition ......................... 359 14.6 Tests et procdures d'ajustement ................................... 359 14.6.1 Les mthodes empiriques .................................... 359 14.6.1.1 La forme de l'histogramme ........................... 359 14.6.1.2 Vrification sommaire de certaines proprits mathmaLiques .................................... 360 14.6.1.3 Ajustements graphiques ............................. 360 14.6.2 Les tests statistiques gnraux ................................. 362 14.6.2.1 Le test du X2 362 14.6.2.2 Le test d'ajustement de Kolmogorov .................... 364 14.6.2.3 Le test d'ajustement de Cramer-von Mises ............... 364 14.6.3 Exemples d'application en fiabilit et en phnomnes d'attente ........ 365 14.6.3.1 Test du caractre exponentiel d'une loi de survie ........... 365 14.6.3.2 TeSl du camctre poissonnien des arrives une file d'attente. 367 14.6.4 Tests de normalit .......................................... 369 14.7 Quelques limites des tests .................. ,. . .................. 370

14.4.6

Ch 15 : Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife, bootstrap) .................................................... 371


15.1

Gnration de variables alatoires .................................. 371


15.1.1 15.1.2 Gnration de variables uniformes sur lO ; 1] ..................... Mthodes gnrales de d'un chantillon artificiel de TI valeurs d'une variable alatoire X conLnue ................ .. 15.1.2.1 Inversion de la fonction de rpartition ................... 15.1.2.2 Mlhode du rejet de von Neumann ..................... Mthodes spcifiques ....................................... 15.1.3.1 Variable de Bernoulli X de paramtre p .................. 15.1.3.2 Loi 'YI) avec P enlier ................................. 371 372 372 372 374 374 374

15.1.3

xx
15.1.3.3 15.1.3.4

aTable des matires

Loi de Poisson {Jl() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 Variable de Laplace-Gauss ........................... 375 15.2 Applications .................................................... 376 15.2.1 Simulation de fonctions de variables alaloires . . . . . . . . . .. . ....... 376 15.2.2 Calcul d'une intgrale par la mthode de Monte Carlo .............. 377 15.2.3 Distributions d'chantillonnage de statistiques complexes ............ 378 15.2.4 Donnes manquantes el imputation multiple ...................... 379 15.3 Mthodes de rchantiIJonnage ..................................... 380 15.3.1 Le bootslrap .............................................. 380 15.3.2 Le Jack-knife ............................................. 382 15.3.2.1 Dfinition ........................................ 382 15.3.2.2 Rduction du biais ................................. 382 15.3.2.3 Intervalle de confiance .............................. 383

Quatrime partie: Modles prdictifs 1

Ch 16 : La rgression simple ............................................ 387


16.1 Le modle thorique de la rgression simple .......................... 387
L'approximation conditionnelle ................................ 387 Cas o la rgression est linaire ............................... 388 16.2 Ajustement sur des donnes ........................ . ............. 389 16.2.1 Estimation de CL, 13, cr:! par la mthode des moindres carrs ........... 390 16.2.2 Proprits des carts rsiduels ................................. 393 16.2.3 Cas o le rsidu E suit une loi normale .......................... 394 16.3 Tests dans le modle linaire ....................................... 395 16.3.1 Analyse de variance de la rgression ............................ 395 16.3.2 Test d'une quation de rgression spcifie ....................... 396 16.3.3 Test de linarit de la rgression ............................... 397 16.3.4 Contrle des hypothses du modle linaire ............. . ....... 397 16.4 Applications .................................................... 398 16.4.1 Exemple ................................................. 398 16.4.2 Prvision d'une valeur ultrieure ............................... 401 16.5 Une mthode de rgression robuste .................................. 403 16.6 Rgression non paramtrique ...................................... 404

16.1.1 16.1 .2

Ch 17 : La rgression multiple et le modle linaire gnral ................... 407


17.1 Rgression et modle linaire ...................................... 407
17.1.1
Rgression entre variables alatoires ............................ 407 17.1.1.1 Aspect empirique: la recherche d'un ajustement linare .... 407 17.1.1.2 Modle probabiliste: l'hypothse de rgression linaire multiple ................................... 408 Le modle linaire gnral ................................... 409 17.1.2.1 Aspect empirique .................................. 409 17.l.2.2 Modle probabiliste ................................ 411 Synthse ................................................. 411

17.1.2

17.1.3

_ Table des matires

xxi

17.2

17.3

17.4

17.5

17.6

17.7

Estimation et tests des paramtres du modle (y; X(3 ; CT 2I) .... . ........ 412 17.2.1 Estimation de (3 et cr2 . . 412 17.2.1.1 Proprits gnrales ................................. 412 17.2.1.2 Proprits supplmentaires si e est gaussien ............... 414 17.2.1.3 Lois des cts du triangle reclangley,y*, X(3 ............. 415 17.2.1.4 Le modle (y; X(3; I) ............... , .............. 415 17.2.2 Tests dans le modle linaire .................................. 416 17.2.2.1 Le coefficient de corrlation multiple R et l'analyse de variance de la rgression .......................... 416 17.2.2.2 Test du caractre significatif d'un des coefficients de rgression ...................................... 417 17.2.2.3 Test de q coefficents de rgression, test d'une sous-hypothse linaire ...................... 418 17.2.3 ... Intervalle de prvision pour une valeur future ..................... 419 L'analyse des rsultato; ............................................ 419 17.3.1 L'tude des rsidus et des observations influentes .................. 419 17.3.2 La stablt des coefficients de rgression ......................... 421 17.3.2.1 Le facteur d'inllation de la variance (VIF) ................ 422 17.3.2.2 Le rle des valeurs propres de R ....................... 422 Slection de variables ............................................. 421 17.4.1 Les critres de choix ....................................... 422 17.4.2 Les techniques de slection ................................... 413 1704.2.1 Recherche exhaustive ............................... 423 17.4.2.1 Les mthodes de pas pas ............. . ............ 423 Traitement de la multicolinarit ................................... 424 17.5.1 Rgression sur composantes principales ......................... 424 17.5.2 La rgression ~( ridge}) ...................................... 425 17.5.3 La rgression PLS .......................................... 426 Un exemple ..................................................... 428 17.6.1 Rsultats de la rgression complte ............................. 428 17 .6. L l Analyse de variance de la rgression .................... 429 17.6.1.2 Estimation des paramtres ............................ 429 17.6.1.3 tude des rsidus et de l'influence des observations ........ 430 17.6.2 Recherche d'un modle restreint ............................... 431 Prdicteurs qualitatifs ............................................ 436 17.7.1 Le principe de quantification optimale .......................... 436 17.7.2 Retour sur l'analyse de la variance ............................. 436 17.7.3 Exemple: prix d'une voiture (suite) ............................ 437

Ch 18 : Analyse discriminante et rgression logistique ....................... 439


18.1 Mthodes gomtriques ........................................... 18.1.1 Variances interclasse et intraclasse ............................. 18.1.2 L'analyse factorielle discriminante (AFD) ........................ 18. t .2.1 Les axes et variables discriminantes .................... 18.1.2.2 Une analyse en composantes principales (ACP) particulire .. 18.1.2.3 Une analyse canonique particulire ..................... 440 440 442 442 444 444

xxii

_ Table des matires

18.2

18.3

18.4

18.5

18.6

18.7

18.1.204 AnaLyse de variance el mtrique W- l . . . . . . . . . . . . . . . . . . . 445 18.1.2.5 Un exemple classique: les iris de Fisher ................. 446 18.1.3 Rgles gomtriques d'affectation .............................. 447 18.1.3.1 Rgle de Mahalanobis-Fisher .. . ..................... 447 18.1.3.2 Insuffisance des rgles gomtriques .................... 448 Fonction de Fisher et distance de Mahalanobis pour deux groupes ........ 449 18.2.1 La fonction de Fisher (1936) .................................. 449 18.2.2 Application de l'analyse canonique .......................... , .450 18.2.3 quvalence avec une rgression muLtiple inhabituelle .............. 45 f 18.204 Fonctions de classement et fonction de Fisher .......... , .......... 452 18.2.5 Exemple infarctus ............................. _ ......... 452 Les SVM ou sparateurs vaste marge ............................ __ 456 18.3.1 L'hyperplan optimal ... . ................................... 457 18.3.1. i Le cas spamble ...................... . ........... 457 18.3.1.2 Le cas non-sparable ................................ 459 18.3.2 Changement despi:c~: ..................................... 460 Discrimination sur variables qualitatives ............................. 46 f 1804.1 Discriminante sur variables indicatrices ......................... 461 18.4.2 Discrimination sur composantes d'une ACM . . . . . . . . . . . . . .. . ..... 461 1804.3 Un exemple de credit scoring .............................. 462 Analyse discriminante probabiliste .................................. 467 18.5.1 La rgle baysienne et le modle gaussien ............ . ......... 467 18.5.1.1 Le cas d'galit des matrices de variance covariance ........ 468 18.5.1.2 Deux groupes avec galit des mutrices de variance ........ 469 18.5.1.3 Taux d'erreur thorique pour deux groupes avec~! ~2' 471 18.5.1.4 Tests et slection de variables ................. _ _ ..... 472 18.5.2 Mthodes non paramtriques 474 Rgression logistique binaire (deux groupes) ....... _.................. 475 L8.6.1 Interprtation ............................................. 475 18.6.2 Estimation .................... . ......................... 476 18.6.3 Tests et slection de variables ............. _ ................... 478 18.6.4 Comparaison avec l'analyse discriminante linaire ................. 480 Validation ............................................. . ..... 481 18.7.1 Procdure de classement ..................................... 481 18.7.2 Validit d'un score, courbe ROC, AUe. .......................... 482

Ch 19 : Mthodes algorithmiques, choix de modles et principes d'apprentissage .... 487


19.1 Arbres de rgression et de discrimination ........................... _487 19.1.1 Dveloppement d'un arbre binaire ............. . .............. 488 . ... _ ........ 488 19.1. L.l Arbres de rgression.. _............. 19. L 1.2 Discrimination en k classes .......................... ,488 19.1.1.3 Discrimination en deux classes ........................ 489 J9.1.2 Utilisation d'un arbre ....................................... 489 19.1.3 Slection d'un sous-arbre ............................ _ ....... 490 19.104 Avantages et inconvnients ............ _...................... 491

.Table des matires

xxiii

19.2

Rseaux de neurones ............................................. 493


19.2.1 19.2.2 Le perceptron multicouche ................................... 494 L'estimation................................. . ........... 495 Combinaison de modles .......................................... 496 19.3.1 Retour sur le bootstrap ...................................... 496 19.3.2 Le boosting ............................................... 496 Choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ...... 497 19.4.1 Critres de vraisemblance pnalise ................ . ......... 497 19.4.1.1 Le critre AIC d'Akak ............................. 498 19.4.1.2 Le critre BIC de Schwartz ........................... 498 19.4.1.3 Elments de comparaison el de rflexion ................. 499 19.4.2 Approche empirique ...... . . . . . . . . . . . . . . . . . .. . ............. 500 19.4.2.1 Le dilemme biais-variance ........................... 500 .. 19.4.2.2 Evaluation et chox de modle ........................ SOl Les apports de la thorie statistique de l'apprentissage de V. Vapnik ..... 502 19.5.1 Risque et risque empirique ................................... 502 19.5.2 La VC-dimension et l'ingalit de Vapnik ........................ 503 19.5.3 Le principe de minimisation structure du risque .................. 505 Prdire ou comprendre '! .......................................... 506

19.3

19.4

19.5

19.6

Cinquime partie : Recueil des donnes

Ch 20 : Sondages ..................................................... 511


20.1 Objectifs et notations ............................................. 511
Gnralits ............................................... 511 Notations ................................................ 511 Le sondage alatoire simple ........................................ 512 20.2.1 Estimation de la moyenne .................................... 512 20.2.2 Algorithmes de tirage ....................................... 513 Sonduge probabilits ingales ..................................... 514 20.3.1 L'estimateur de Horvitz-Thompson ............................. 514 20.3.2 Le tirage ................................................. 515 Stratification ................................................... 515 20.4.1 Formules de base .......................................... 516 20.4.2 Rpartition proportionnelle ................................... 516 20.4.3 Rpartition optimale ........................................ 517 Sondage en grappes et tirage systmatique ............................ 518 20.5.1 de grappes probabilits ingales ........................ 518 20.5.2 de grappes probabilits gales .......................... 519 20.5.3 syslmatique ...................................... 519 Redressement ................................................... 519 20.6.1 Quotient, rgression ........................................ 519 20.6.2 Post-stratitication .......................................... 520 20.6.3 Poids de redressement ....................................... 52 L 20.1.1 20.\.2

20.2

20.3

20.4

20.5

20.6

xxiv

'I11III Table

des matires

Ch 21 : Plans d'expriences ............................................. 523


21.1 Introduction........ . .......................................... 523
21.1.1 21. 1.2 Vocabulaire ............................................... 523 Optimalit et orthogonalit ................................... 525 Plans pour facteurs quantitatifs et modle linaire du premier degr ....... 525 21.2.1 Le cas de la rgression simple ................................. 526 21.2.2 Plans orthogonaux pour p facleurs ............................. 526 21.2.2.1 Le plan factoriel complet ............................ 526 21.2.2.2 Plans fractionnaires de type 211 '1;. el plans de Plackett et Burman ............................... 528 21.2.3 Exemple ................................................. 530 Quelques plans pour surfaces de rponse du second degr ................ 532 21.3.1 Plans composites faces centres .............................. 532 21.3.2 Plans composites gnraux ................................... 534 21.3.3 Plans de Box-Behnkcn ...................................... 535 21.3.4 Application un problme d'optimisation ........................ 537 Plans pour facteurs qualitatifs ...................................... 538 21.4.1 Orthogonalits ............................................. 538 21.4.2 Facleurs III niveaux ........................................ 539 21.4.2.1 Carrs latins ...................................... 539 21.4.2.2 Carrs grco-latins ................................. 540 21.4.3 Plans asymtriques ......................................... 541 21.4.3.1 Un exemple de fusion ................................... 541 21.4.3.2 Un exemple de compression .............................. 542 Construction algorithmique de plans optimaux ........................ 543

21.2

21.3

21.4

21.5

Annexes ............................................................ 545


1. 2. 3. 4. 5. Tables usuelles ......................................................... 547 Formulaire ............................................................ 591 Calcul des fonctions de rpartition de certaines lois continues ..................... 595 Les fonctions eulriennes r el B . ........................................... 599 Quelques rsultats utiles d'algbre linaire .................................... 603

Bibliographie ......................................................... 609 Index des noms ....................................................... 615 Index .............................................................. 619

Introduction

Les mthodes statistiques sont aujourd'hui utilises dans presque tous les secteurs de l'activit humaine et font partie des connaissances de base de l'ingnieur, du gestionnaire, de l'conomiste, du biologiste, de l'informaticien ... Parmi les innombrables applications dans le domaine industriel: la tiabilit des matriels, le contrle de qualit, l'analyse des rsultats de mesure et leur planification, la prvision, et dans le domaine de l'conomie et des sciences de l'homme: les modles conomtriques, les sondages, les enqutes d'opinion, les tudes quantitatives de march, etc. Nous allons tenter de prciser dans les paragraphes suivants les notions fondamentales de la statistique et les rapports qu'elle entretient avec la thorie des probabilits ainsi que ce qu'on entend par dmarche statistique.

LA STATISTIQUE, LES STATISTIQUES ET LE CALCUL DES PROBABILITS


Selon la dfinition de l'Encyc/opedia Ulliversalis : Le mot statistique dsigne la fols un ensemble de donnes d'observatIons et l'activit qui consiste dans leur recueil, Jeur tratement et leur interprtation . Ainsi le relev des dbits journaliers d'une rivire de 1971 1983 consttue une statistique tandis que faire de la statistique sur ces donnes consisterait par exemple, tracer des graphiques mettant en vidence la priodicit du phnomne, calculer un dbit moyen ou prvoir la valeur maximale de la crue annuelle.

Individus et variables
Dfinitions gnrales
Faire de la statistique suppose que l'on tudie un ensemble d'objets quivalents sur lesquels on observe des caractristiques appeles variables )). Ainsi en contrle de fabrication on prlvera un ensemble de pices dans une production homogne et on mesurera leur poids, leur diamtre. En marketing on tudiera les clients

xxvi

_Introduction

d~une

entreprise en les dcrivant par leurs caractristiques socio-dmographiques et leurs achats passs.

La notion fondamentale en statistique est celle de groupe ou d'ensemble dobjets quivalents que l'on appelle population. Ce terme hrit des premires applications de la statistique la dmographie est employ pour dsigner toute collection d'objets tudier ayant des proprits communes. Ces objets sont appels des individus ou units statis-

tiques.
La statistique traite des proprits des populations ou de sous-populations plus que de celles d'individus particuliers: Gnralement la population tudier est trop vaste pour pouvoir tre observe exhaustivement : c'est videmment le cas lorsque la population est inti nie : par exemple l'ensemble de toutes les pices mtalliques que pourrait sortir une machine dans des conditions de fabrication dtermines, mais c'est aussi le cas lorsque les observations sont coteuses (contrle destructif entre autres). L'lude de LOUS les individus d'une population finie s'appelle un recensement. Lorsque l'on n'observe qu'une de la population on parle de sondage, la partie tudie s'appellant Ichantillon. Chaque individu d'une population est dcrit par un ensemble de caractristiques appeles variables ou caractres. Ces variables peuvent tre classes selon leur nature: variables quantitatives ou numriques: par exemple taille, poids. volume, s'expriment par des nombres rels sur lesquels les oprations arithmtiques courantes (somme, moyenne, ... ) ont un sens. Certaines peuvent tre discrtes (nombre fini ou dnombrable de valeurs) : nombre de dfauts d'une pice, de vhicules passant en une heure un page, etc. ou continues si toutes les valeurs d'un intervalle de IR; sont acceptables. variables qualitatives s'exprimant par l'appartenance une catgorie ou modalit d'un ensemble fini. Certaines sont purement nominales: par exemple type de traitement thermique subi par un alliage, catgorie socio-professionnelle d'un actif (ouvrier, cadre, employ ... ), d'autres sont ordinales lorsque l'ensemble des catgories est muni d'un ordre total; par exemple: trs rsistant, assez rsistant, peu rsistant. Le concept cl en statistique est la variabilit qui signifie que des individus en apparence semblables peuvent prendre des valeurs diftrentes : ainsi un processus industriel de fabrication ne fournt jamais des caractristiques parfaitement constantes. L'analyse statistique est pour l'essentiel une tude de la variabilit: on peut en tenir compte pour prvoir de faon probabiliste le comportement d'individus non encore observs, chercher la rduire ou l'expliquer l'aide de variables extrieures, ou chercher l'augmenter dans le but de distinguer le mieux possible les individus entre eux.

Tableaux de donnes
On prsente usuellement sous forme de tableau Il les donnes recueillies sur Il individus. Lorsque l'on observe uniquement des variables numriques le tableau a la forme d'une matrice Il et p colonnes de terme gnral x~ :

_Introduction

xxvii
..,

Xl

x-

xj

xl'

r}

Il

Lorsque les variables sOf!t toutes qualitatives, le tableau o x1 dsigne le numro de la catgorie de la variable gel laquelle appartient l'individu i est le tableau des codages rduits. Les numros des modalits tant arbitraires, on lui associera le tableau disjonctif ml + m? + ... + 1111, colonnes constitu de la faon suivante: A toute variable I1lj catgories on substitue un ensemble de /1Ij variables valant 0 ou 1 (les indicatrices des catgories), Ainsi au tableau 5 X 3 des observations sur 5 individus de 3 variables ri 2, 3 et 2 modalits respectivement:

2 3

2 2 222
correspond le tableau disjonctif 5 lignes et 7 colonnes suivant:

0-0 1 0:0 0 1: ] 0 1:0 1 o: l

o. 1
0 0 0

0 1: 1 0 0:0 0:0 1 0: 1 0

Mentionnons enfin les tableaux de contingence ou tableaux croiss qui rsultent d'un premier traitement et fournissent la ventilation de Il individus selon deux variables qualitatives 1111 el ml modalits:
1

2 j

111'2

N=
1111

IZij

xxviii

_Introduction

o nij est le nombre d'individus appartenant simultanment aux catgories deux variables.

et j des

Statistique et probabilits
La thorie des probabilits est une branche des mathmatiques qui traite des proprits de certaines structures modlisant des phnomnes o Je hasard intervient. En tant que thorie mathmatique abstraite, elle repose sur une axiomatique et se dveloppe de faon autonome par rapport la ralit physique. Seuls les noms des concepts utiliss (vnements, variables ... ) renvoient l'exprience. La thorie des probabilits permet de modliser efficacement certans phnomnes alatoires et d'en faire l'tude thorique. Quels sont ses liens avec la statistique qui repose plutt sur l'observation de phnomnes concrets? On peut en voir schmatiquement trois: tout d'abord les donnes observes sont souvent imprcises, entaches d'erreur. Le modle probabiliste permet alors de reprsenter comme des variables alatoires les dviations entre ~< vraies ), valeurs et valeurs observes. Deuximement on constate souvent que la rpartition statistique d'une variable au sein d'une population est voisine de modles mathmatiques proposs par le calcul des probabilits (lois de probabilit). Enfin et c'est il notre avis le rle le plus important du calcul des probabilits, les chantillons d'individus observs sont la plupart du temps tirs au hasard dans la population, ceci pour assurer mathmatiquement leur reprsentativit: si le tirage est fait de manire quiprobable chaque individu de la population a une probabilit constante et bien dfinie d'appartenir l'chantillon. Les caractristiques observes sur l'chantillon deviennent, grce ce tirage au sort, des variables alatoires et le calcul des probabilits permet d'tudier leurs rpartitions. Mentionnons ici les mthodes de validation par rchantillonnage (bootstrap, validation croise) qui consistent re-tirer des observations l'intrieur de l'chantillon initial. Il faut bien distinguer ce dernier rle du calcul des probabilits des deux premiers: dans les premiers cas le calcul des probabilits propose des modles simplificateurs, ventuellement contestables, du comportement d'un phnomne (par exemple supposer que la dure de vie X d'un composant lectronique suit une loi exponentieIJe P(X > x) = exp (- ex)) : dans le dernier cas, le calcul des probabilits fournit des thormes si le processus d'chantillonnage est respect: ainsi le thorme centrallimte permet d'tablir que la moyenne x d'une variable numrique mesure sur rz individus s'carte de la moyenne m de la population selon une loi approximativement gaussienne. Le calcul des probabilits est donc un des outils essentiels de la statistique pour pouvoir extrapoler la population les rsultats constats sur l ~ chantillon mais on ne peut y rduire la statistique: ct du calcul des probabilits, la statistique utilise des mathmatiques assez classiques (algbre linaire, gomtrie euclidienne) et de plus en plus l'informatique, car les calculs mettre en uvre ncessitent l'emploi d'ordinateurs: J'informatique a rvolutionn la pratique de la statistique en permettant la prise en compte de donnes multidimensionnelles ansi que l'exploration rapide par simulation de nombreuses hypothses.

_Introduccion

xxix

Ce livre met plus l'accent sur les techniques et la dmarche statistiques que sur la tho~ rie des probabilits, conue ici comme un outil pour la statistique et non comme un objet d'tude en elle-mme.

LA DMARCHE STATISTIQUE CLASSIQUE


Elle comporte usuellement trois phases : le recueil, l'exploration! l'infrence et la modlisation.

Le recueil des donnes


En dehors des cas o les donnes sont dj disponibles, il est ncessaire de les collecter. Les deux grandes mthodologies sont les sondages et les plans d'expriences.

Les sondages
Essentiellement utiliss dans les sciences humaines, mais galement pour obtenir des chantillons dans des bases de donnes, les techniques de sondages servent choisir dans une population les units interroger ou observer. Le choix des units se fait en gnral alatoirement, mais pas ncessairement avec des probabilits gales pour toules les units. L'important est qu'il n'y ait pas d'individus de la population qui aient une probabilit nulle de figurer dans l'chantillon, sinon les rsultats risquent d'tre biaiss car l'chantillon ne sera plus reprsentatif. Les mthodes non-alatoires sont galement souvent utilises dans les tudes de march et d'opinion qui constituent un secteur d'activit important.

Les plans d'expriences


Introduits au dbut du XXe sicle en agronomie, puis utiliss en recherche industrielle, ils ont pour but de provoquer l'apparition de donnes selon des conditions exprimentales prcises. La thorie des plans d'expriences permet de minimiser le cot de recueil des donnes en cherchant les expriences les plus efficaces. Bien qu'employes dans des contextes trs diftrents, ces deux mthodologies ont des point" communs: elles cherchent optimiser le recueil des donnes. Mais il n'y a pas d'optimum en soi, tout dpend du but recherch. En sondages on cherche estimer les paramtres d'une population avec une variance minimale en utilisant toutes les informations dont on dispose. Dans les plans d'expriences, on dispose d'un modle prdictfreliant approximativement une rponse des facteurs de variabilit: on cherche dterminer les expriences permettant d'estimer au mieux les paramtres du modle, ou les prvisions qui en dcoulent: un plan optimal pour un modle ne le sera pas pour un autre.

La statistique exploratoire
Son but est de synthtiser, rsumer, structurer l'information contenue dans les donnes. Elle utilise pour cela des reprsentations des donnes sous forme de tableaux, de graphiques, d'indicateurs numriques.

xxx

.lntroducton

Le rle de la statistique exploratoire est de mettre en vidence des proprits de l'chantillon et de suggrer des hypothses. Les modles probabilistes ne jouent ici qu'un rle trs restreint voire mme nul. Les principales mthodes de l'analyse exploratoire se sparent en deux groupes: Aprs une phase de description variable par variable, puis par couples de variables (la statistique descriptive classique) l'analyse des donnes au sens franais restreint, exploite le caractre multidimensionnel des observations au mogen de : mthodes de classification visant rduire la taille de l'ensemble des individus en formant des groupes homognes~ mthodes factorielles qui cherchent rduire le nombre de variables en les rsumant par un petit nombre de composantes synthtiques. Selon que l'on travaille avec un tableau de variables numriques ou qualitatives on utilisera l'analyse en composantes principales ou l'analyse des correspondances. Les liens entre groupes de variables peu vent tre traits par l'analyse canonique.

Lastatistiqe infrntille
Son but est d'tendre les proprits constates sur l'chantillon la population toute entire et de valider ou d'infinner des hypothses a priori ou fonnules aprs une phase exploratoire. Le calcul des probabilits joue souvent un rle fondamental. Donnons ici quelques exemples lmentaires.

Estimation d'une moyenne


Une mme grandeur est mesure Il fois de suite par un mme observateur, l'imprcision de l'instrument de mesure et d'autres facteurs rendent fluctuantes ces mesures et on obtient n valeurs diffrentes X), X2' , XIl' Comment dtenniner la vraie valeur m ? On peut admettre que ces valeurs constituent des observations ou ralisations indpendantes d'une variable X de moyenne thorique III (esprance mathmatique) si il n'y a pas d'erreurs systmatiques. La loi des grands nombres montre alors que la moyenne 1'chantillon constitue une bonne approximation de
m~

x=

x est une estimation de m. L'chantillon ayant t tir au hasard la valeur constate x n'est qu'une de celles que

~-~----.;.;. Il

+ ... +

de

l'on aurait pu trouver: c'est donc une variable alatoire qui aurait pu fournir une autre valeur si on avait rpt l'exprience dans les mmes conditions. Si Tl est assez grand le calcul des probabilts fournt avec une grande prcision la loi de rpartition des valeurs possibles de autour de 111 et on pourrait en dduire si m tait connu un interva1le du type [m 1l11l, 111 + llm l ayant une probabilit fixe, disons 95 %, de contenir Connaissant une observation x on inverse alors la problmatique et on peut en dduire une fourchette ou intervalle de confiance pour la vraie valeur m.

x.

Vrification d'une hypothse ou test


Le cas suivant est classique en contrle de qualit. Un client commande son fournisseur des lots de pices dont la qualit est spcifie par contrat: le fournisseur s'engage respecter un taux de pices dfectueuses infrieur 4 %. Avant de livrer, le fournisseur effectue un

_Introduction

xxx

contrle sur 50 pices el en trouve trois dfectueuses soit 6 % : doit-il livrer quand mme au risque de se faire refuser la marchandise? Le raisonnement est alors le suivant: si le taux thorique de dfectueux est de 4 % quelles sont les chances d'observer un tel nombre de dfectueux? Le calcul des probabilits montre alors qu'il y a une probabilit voisine de 0.32 d'observer trois pices dfectueuses ou plus (loi binomiale 03(50 ; 0.04)). Cette probabilit tant assez forte, l'vnement constat parat donc normal au fournisseur et ne semble pas de nature remettre en cause l'hypothse formule. Mais le client serait-il d'accord? ... Il faut alors calculer le risque d'un refus par le client. Dans ces deux cas le raisonnement procde du mme schma: l'chantillon est tir au hasard dans une population plus vaste; le calcul des probabilits permet ensuite de prciser les caractristiques de l'ensemble des chantillons que l'on aurai t pu obtenir par le mme procd, c'est l'tude des
distribut;ons~dJchantillonnage

.gn_jnY~r~~ l~sc::ol1c::JlJsions

de la phase prcdente pour en dduire la structure vraisemblable de la population dont est issu l'chantillon observ. C'est la phase infrentielle.

On ne manquera pas de constater la similitude de cette dmarche statistique avec la dmarche scientifique habituelle: observation, hypothses, vrification.
L'avnement des ordinateurs et le dveloppement du calcul statistique permettent dans une certaine mesure de s'affranchir de modles probabilistes souvent illusoires car choisis pour leur relative simplicit mathmatique mais pas toujours adapts aux donnes. Les mthodes de rchantillonnage renouvellent la problmatique de l'infrence en n'utilisant que les donnes observes.

La modlisation et la prvision statistique


La modlisation consiste gnralement rechercher une relation approximative entre une variable et plusieurs autres, la forme de cette relation tant le plus souvent linaire. Lorsque la variable expliquer )~ ou prvoir est numrique ainsi que les variables explicatives, on parle de rgression linaire, si certaines variables explicatives sont qualitatives le modle linaire gnral en est une extension. Lorsque l'on cherche prvoir une variable qualitative (appartenance une catgorie) on utilisera une mthode de discrimination.

STATISTIQUE ET DATA MINING


L'mergence d'immenses bases de donnes, souvent recueillies automatiquement. en particulier dans le fonctionnement des entreprises, a fait apparatre de nouvelles problmatiques, diffrentes de celles exposes prcdemment. 11 ne s'agit plus tant de dcouvrir ou d'estimer des modles de la ralit (dmarche scientifique) mais de donner des rponses des questions oprationnelles comme: quelles adresses d'un fichier dois-je envoyer une

xxxii

_Introduction

publicit pour obtenir un taux de retour maximal, qui dois-je accorder un crdit pour minimiser le risque de perte? La statistique n'est plus alors un auxiliaire de la science mais aussi un outil pour l'action. Le data mning que l'on peut traduire par fouille de donnes est apparu au milieu des annes 1990 comme une nouvelle discipline l'interface de la statistique et des technologies de l'information: bases de donnes, intelligence artiticielle, apprentissage automatique (machine leal1ling). David Hand (1998) en donne la dfinition suivante: Data Milling COl1ssts in the discovery of interesting. unexpected. or vall/able strl/ClUreS in large data selS . La mtaphore qui consste considrer les grandes bases de donnes comme des gisements d'o l'on peut extraire des ppites l'aide d'outils spcifiques n'est pas nouvelle. Ds les annes 1970 Jean-Paul Benzcri n'assignait-il pas le mme objectif l'analyse des donnes? : ( L'analyse des dOJlnes est lin outil pour dgager de la gangue des donnes le pl/r diamant de la vridique nature . Tel
M~

Jourdain, les statisticiens faisaient donc du data mining sans le savoir.

Data Mining versus modlisation statistique


La notion de modle en fouille de donnes prend un sens particulier: un modle est une relation entre des variables exprimable sous une forme analytique ou algorithmique qui ne provient pas d'une thorie mais est issu de l'exploration des donnes et ralise un bon ajustement. Ainsi il est courant d'explorer diffrents modles (linaires, non-linaires) en faisant varier les paramtres (nombre de couches dans un rseau de neurones, noyau pour des SVM etc.) jusqu' obtenir les meilleures prdictions. On est trs loin de la dmarche usuelle de modlisaton, mas plutt dans une optique pragmatique o il ne s'agit pas forcment de comprendre mais de prvoir du mieux possible. La dmarche n'est pas pour autant du pur empirisme et se fonde sur la thorie de l'apprentissage statistique: un modle ralise un compromis entre sa capacit rendre compte des donnes d'apprentissage et sa capacit de gnralisation de nouvelles donnes. L'infrence statistique classique a t dveloppe pour traiter des petits chantillons. En prsence de trs grandes bases de donnes le paradoxe est que tout devient significatif: par exemple, pour un million d'individus, l'hypothse d'indpendance entre deux variables sera rejete au risque 5 % si le coefficient de corrlation linaire est suprieur en valeur absolue il 0.002, ce qui est sans intrt. L'infrence classique ne fonctionne plus et la fouille des grandes bases de donnes amne repenser la notion de test: le choix d'un modle se fait en fonction de ses performances sur d'autres donnes que celles qui ont servi le choisir et le caler, d'o l'emploi de mthodes de validation croise ou de mesures de capacit de type dimension de Vapnik-Cervonenkis. En outre en Data Mining, on analyse des donnes recueillies d'autres fins: c'est une analyse secondaire destine valoriser des bases de donnes dj constitues: on ne se proccupe plus de collecter des donnes de manire efficace. L'chantillonnage ne perd cependant pas ses droits dans la phase de validation car il est souvent prfrable de travailler sur une partie de la base que sur la totalit. Plutt que d'opposer data mining et statistique, il vaut mieux considrer que le data mining reprsente la branche de la statistique consacre l'exploitation des grandes bases de

_Introduction

xxxiii

donnes. Si de nouvelles mthodes ont vu le jour en dehors du monde des statisticiens, il n'en reste pas moins que ces mthodes relvent de la statistique au sens large recueil, traitement, interprtation de donnes et que r esprit statistique imprgn des notions de marge d'erreur, de risque, d'incertain, reste indispensable pour en relativiser les conclusions. Le praticien de la statistique doit donc tre non seulement l'inlerface avec les disciplines d'application, mais aussi dominer les outils informatiques de son temps.

le modle probabiliste

En tant que thorie mathmatique, la thorie des probabilits n'a pas tre justifie: une fois ses axiomes poss, elle se dveloppe de faon autonome par rapport la ralit concrte. Il en va autrement lorsque l'on cherche appl iquer le calcul des probabil its : on ne peut alors luder la question de la nature de la probabilit et de la validit du modle probabiliste. Aprs trois paragraphes consacrs un expos simple<l) de la thorie on se proposera de donner quelques lments de rtlexion sur le concept de probabilit.

1.1

ESPACE PROBABILISABLE

On expose ici la formalisation d'une exprience o intervient le hasard .

1.1.1

Exprience alatoire et vnements

U ne exprience est qualifie d'alatoire si l'on ne peut prvoir par avance son rsultat et si, rpte dans des conditions identiques, elle peut (on aurait pu s'il s'agit d'une exprience par nature unique) donner lieu des rsultats diffrents. On reprsente le rsultat de cette exprience comme un lment w de l'ensemble n de tous les rsultats possibles: n est appel l'ensemble fondamental ou encore l'univers des possibles.

n=

Ainsi l'exprience alatoire qui consiste lancer deux ds, on peut associer l'ensemble {( l.1), (1.2), (1.3) ... } 36 lments.

II convient de noter ici que l'ensemble n ne se dduit pas de manire unique de l'exprience mais dpend de l'usage qui doit tre fait des rsultats: ainsi, si l'on convient une fois pour toutes qu'on ne retiendra de l'exprience des deux ds que la somme des points affichs, on peut trs bien se contenter d'un ensemble n' = [2, 3, 4 ... 12}.

IIIIIIiIIUn expos complet des fondements thoriques, comprenant en particulier le thorme de prolongement, dpasserait le cadre de ce livre. On se reportera l'ouvrage de J. Neveu (1964).

1_le modle probabiliste

Un J'llement est une assertion ou proposition logique relative au rsu1tat de l'exprience (ex. : la somme des points est suprieure 10). On dira qu'un vnement est ralis ou non suivant que la proposition est vraie ou fausse une fois l'exprience accomplie. A la ralisation d'un vnement on peut donc associer tous les rsultats de l'preuve correspondante; ainsi la somme suprieure ou gale 10 est l'ensemble de rsultats suivants:
[(4.6) ; (5.6) ; (6.6) ; (6.4) ; (6.5)}

c'est--dire une partie de n. Dsonnais nous identifierons un vnement la partie de pour laquelle cet vnement est ralis. On appelle vnemellt lmentaire une partie de

n.

n rduite un seul lment.

1. 1.. 2

Algbre des vnements

Rciproqument toute partie de peut-elle tre considre comme un vnement, ou du moins est-il utile qu'il en soit ainsi? Afin de rpondre cette question nous allons supposer pour l'instant que l'ensemble des vnements consttue une dasse (15 de parties de n dont nous allons dtinir les proprits en nous rfrant des besoins usuels; nous en profiterons pour introduire Je vocabulaire probabiliste. A tout vnement A, on associe son contraire not A tel que si A est ralis alors A ne l'est pas, et rciproquement. A est donc reprsent dans par la partie complmentaire de A.

.n

11 sera donc naturel d'exiger de cg la proprit suivante: si A

cg alors A

(g,

tant donn deux vnements A, B on est conduit s'intresser leur union A ou B (A U B) et leur intersection (A et B ou A n B). Il faudra donc que si A, B E (g, A U B et A n B E (J, et ceci d'une manire gnrale pour un nombre quelconque d'vnements. On dtnit galement l'vnement certain reprsent par tout entier et l'vnement logiquement impossible (tel que avoir une somme de points gale 13) reprsent par l'ensemble vide 0. Nous pouvons maintenant dfinir la classe cg par les trois axiomes:

VA

cg, A E

(g;

pour tout ensemble fini ou dnombrable Al, A2' .. " A'l d'lments de ((5,
ilE~

l! Ai E cg;
1 1

On peut montrer titre d'exercice que ces axiomes impliquent que 0 E cg et que (l Ai E cg. Les proprits prcdenles dtinissent ce que l'on appelle une cr-algbre de Boole ou une tribu, f7l(n) est une cr-algbre particulire, la plus grosse, mais il n'est pas toujours utile ni souhaitable de J'utiliser. On peut donc donner maintenant la dfinition d'un espace probabilisable:
DFINITION

On appelle espace probabilisable le COl/pIe (il ; cg) o cg constitue une tribu de parties

den.

l_Le modle probabilste

Donnons encore quelques dfinitions utiles:


DFINITIONS

vnemellts illcompatibles. Dellx \'l1ements A et B so1ll dits lu.:ompatibles si la ralisation de l'lin exclut celle de l'atltre, alllrement dit si les partes A et B de il som disjointes A n B = 0. Systme complet d'vnements. A" A 2 ., A ll formel1t lm systme complet d'l'nements si les parties AI; ... , An de il constituent tille partiton de

n:

Vi=F j { UA i =

1.2 1.2.1

ESPACE-PROBABiliS L'axiomatique de Kolmogorov

A chaque vnement on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin d'viter toute discussion de nature philosophique sur le hasard, la thorie moderne des probabilits repose sur l'axiomatique suivante:
DFINITIONS

On appelle probabilit sur

(n, (g) (ou loi de probabilit) tille application P de (g dans [0, 1] telle que: P{fl) 1; - pour fol/! ensemble dnombrable d'vneme1lts incompatibles AI' A2' .. " Ali' on
li

peU Ai)

2:P(AJ,

On appelle espace probabilis le triplet (n, Cf:;;, P).

Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1 et la thorie des probabilits s'inscrit dans le cadre de la thorie de la mesure.

1.2.2

Proprits lmentaires
: P(@) = O.
: P(A) = 1 - P(A). : P(A) :::; P(B) s A C B. : P(A U B) = P(A) + P(B) - P(A

Des axiomes on dduit immdiatement les proprits suivantes:


Proprit 1 Proprit 2 Proprit 3 Proprit 4 Proprit 5

: peU

Ai) :::;

2: P(AJ
i

n B).

Proprit 6 : Si Ai ~

alors lim P(A i ) = 0 (coll1mtit monotone squentielle).


/Ill

Proprit 7: Thorme des probabilits totales: Soit B j mellfs a/ors VA : P(A) =

systme complet d'l'lle-

2: P(A n Bi)'
i

1_Le modle probabiliste

fORMULE DE POINCAR

Cette formule permet de calculer la probabilit de la runion d'un nombre quelconque d'venements ; elle se dmontre par rcurrence:
11

Il

P(UAJ = 2:P(AJ i=1

2:
l:::5i<j~l

11

p(AinAj )

i"'l

2:
1~;<j</.::::51

Il

p(AinAjnAJJ

+ '" + (-1),,-lp(A 1nA:! ... . nA!!)

Remarque: P(A) 0 n'implique pas ncessairement A 0. Un vnement de probabilit nulle n'est pas ncessairement impossible: soit il = [0, 1] muni de la loi de probabilit uniforme (c'est--dire de la mesure de Lebesgue) alors P(l) 0 "dl.

De mme P(A) = 1 n'implique pas que A soit l'vnement certain: on parlera d'vnement presque certain et dans le cas prcdent d'vnement presque impossible. Les vnements de probabilit:nllsorit en ralit trs communs, comme on le verra dans l'tude des variables alatoires continues possdant une densit: tous les vnements (X = x) sont de probabilit nulle mais aucun n'est impossible. La variable X prend une valeur prcise une fois l'exprience ralise. Cela est comparable au fait qu'un intervalle de longueur donne 1 est fonn d'une infinit de points de longueur nulle.

1.3

LOIS DE PROBABILITS CONDITIONNELLES, INDPENDANCE

Les concepts suivants sont purement probabilistes.

1.3.1

Introduction et dfinitions

Supposons que l'on s'intresse la ralisation d'un vnement A, tout en sachant qu'un vnement B est ralis (fig. 1.1). Si A et B sont incompatibles la question est tranche: A ne se ralisera pas, mais si A n B ::f:. O. il est possible que A se ralise; cependant, l'univers des possibles n'est plus tout entier, mais est restreint B ; en fait, seule nous intresse la ralisation de A l'intrieur de B, c'est--dire A n B par rapport B.

FIGURE

1.1

, . Le modle probabiliste

Ceci justifie la dfinition suivante:


DFINITION

Soit B lm vnement de probabilit non Ilulle. On appelle probabilit conditiollllelle de A sac/wllt B (ml encore de A si B) le rapport Ilot P(AIB) :
P(AI B)

= P(A n
P(B)

B)

Il faut s'assurer que le nom de probabilit est justifi. Vrifions les axiomes:

P~ .,

DI
B)

p(n

B)

P(B)

P(B) = P(B)

p[ y(A, n B)]
P(B)
~P(Ai
i

B)

P(R)

2:P(A j lB)
i

c.q.f.d

On peut donc munir (n, (g) d'une nouvelle loi de probabilit, la loi de probabilit conditionnelle B fix et ceci pour tout B de probabilit non-nulle. Il sera ncessaire d'tendre ]a notion de 101 de probabilit conditionnelle lorsque B est de probabilit nulle (rappelons que la tribu ce contient de tels vnements) : cela sera fait au chapitre 3 dans certains cas particuliers.
_ Exemple: En fiabilit (ou en assurance sur la vie), on considre la fonction de survie
R(t) dfinie comme la probabilit qu'un individu vive au-del d'une date t: R(t) P(X> 1).

Cette fonction dtint une loi de probabilit sur

~+

et :

La probabilit conditionnelle de dfaillance (ou de dcs) entre t l et t 2 sachant que l'individu a dj fonctionn (ou vcu) jusqu' t 1 est: P(t ~ X <
1

f1/x > -

t ) =
1

R(t ) - R(t,)
1

R(t,)

Pour la loi de survie exponentielle P(X> t) conditionnelle vaut:

= exp( -ct) on constate que cette probabilit

il n'y a pas de vieillissement: la probabilit de fonctionner pendant t:. fi partir de t l est la mme qu'au dmarrage. Ce modle est couramment utilis en lectronique. IIIIIIB

1_Le modle probabiliste

1.3.2
1.3.2.1

Indpendance
Indpendance de deux vnements

DFINITION

A est indpendant de B si P(AI B)

= P(A).

Autrement dit. la connaissance de B ne change pas les chances


PROPRIT

de ralisation de ;\.

A indpendant de B ~ B indpendant de A.
On parlera dsormais d'vnements indpendants sans autre prcision. En effet, si P(AIB)

= P(A), alors:
P(A

B)
= P(A)

P(B)

et :

P(BIA) = P(A n B) P(A)

= P(B)

On a dmontr au passage

r importante formule:
1

P(A

B)

= P(A)P(B)

si et seulement si A et B sont indpendants.

N.B.: La notion d'indpendance n'est pas une notion purement ensembliste comme l'incompatibilit: deux vnements peuvent tre indpendants pour une loi de probabilit P et pas pour une autre P'. On s'en convaincra en vrifiant qu'en gnral si A et B sont indpendants, ils ne le sont plus conditionnellement il un troisime vnement C.

1.3.2.2

Indpendance deux deux et indpendance mutuelle

Soient A Jo A2' ... , Ail des vnements ~ ils sont dits mutuellement indpendants si pour toute partie J de l'ensemble des indices allant de 1 il Il on a :

II P(A
1

i)

Cette condition est beaucoup plus forte que l'indpendance deux deux, qui ne lui est pas quivalente mais en est une simple consquence.
Remarque: Dans les applications il est assez frquent que l'on n'ait pas dmontrer l'indpendance de deux vnements car celle-ci est une proprit de l'exprience alatoire. Ainsi lorsqu'on procde un tirage avec remise de Il individus dans une population finie les vnements relatifs aux diffrents tirages sont indpendants entre eux par construction.

modle probabiliste

1. 3.3

Formules de Bayes

Elles ont pour but d'exprimer P(A/B) en fonction de P(B/A).

Premire formllie de Bayes :


PCB/A) = P(A/B)P(B) P(A)

n suffit d'liminer P(A n B) entre P(A/ B)

P(A
=

P(B)

B)

et P(B/ A)

P(A

B)

Soit Bi un systme complet d'vnements. On peut crire: P(A Le thorme des probabilits totales devient donc:
P(A) =

n Bi)

P(A) P(A/ Bi)P(B i ).

2: P(A/ B;)P(Bi)
i

On en ddut alors la deuxime formule de Bayes:


P(BJA) =
k

PCA/Bi)P(Bj) 2:P(A/B,JP(BJ.J

_ Exemple: Dans une usine trois machines IvI" Nt!, !vI] fabriquent des boulons de mme type. MI sort en moyenne 0.3 % de boulons dfectueux, !vI2 0.8 % et Iv!} 1 %. On mlange 1 000 boulons dans une caisse, 500 provenant de MI' 350 de lH! et 150 de M]. On tire un boulon au hasard dans la caisse; il est dfectueux. Quelle est la probabilit qu'i1 ait t fabriqu par Ml (ou N!;. ou M3 ) ?

Lorsque l'on tire un boulon au hasard les probabilits dites {l priori qu'il provienne de lvl l , M 2 ou M} sont videmment P(M 1) 0.50, P(!vIl ) 0.35, PUV!3) = 0.15. Lorsque l'on sait qu'il est dfectueux, vnement not D, il faut alors calculer les probabilits conditionnelles:
P(M I / D), P(!vI2/ D), P(!v!3/ D)

Comme on connat P(D/ Iv!l) 0.003, PCD/IvI!) = 0.008 et P(DlM 3 ) formule de Bayes permet d'crire:
PM
(1

= 0.01

la deuxime

/D ) -

P(D/!v!I)P(M I } P(D/!vI I }P(A1 1)

+ P(D/!v!2)P(A1,!) + P(D/!v13 )P(Iv!3}


0.003 X 0.5 0.008 X 0.35

0.003 X 0.5 0.16 On trouverait de mme P(Iv!:./ D)

+ 0.01

X 0.15

= 0.48

Ce sont les probabilits {/ posteriori, sachant que le boulon est dfectueux. ail voit donc que la prse en compte d'une information (le boulon est dfectueux) modifie les valeurs des _ probabilits de lv!l. A12 et 1v!3'

10

1_le modle probabiliste

Le thorme de Bayes, simple consquence des axiomes et de la dfinition de la probabilit conditionnelle, tent une place part dans le calcul des probabilits en raison de son importance pratique considrable et des controverses auxquelles son application a donn lieu: il est la base de toute une branche de )a statistique appele statistique baysiemle. Parmi les applications courantes citons: en diagnostic mdical la rvision des probabilits de telle ou telle affection aprs obtention des rsultats d'examens de laboratoire, en matire financire la dtermination du risque de faillite des entreprises aprs observations de certains ratios. Le thorme de Bayes est souvent appele thorme sur la probabilit des causes ce qui se conoit aisment sur r exemple prcdent. Son application gnrale a donn lieu de violentes critiques de la part des logiciens pour qui causalit et alatoire sont antinomiques: il n' y a qu' une cause possible parmi des causes mutuellement exclusives et leur donner des probabilits n'aurait aucun sens. Certains auteurs interprtent le fail que les formules de Bayes ont t publies titre posthllme (enJ763) par la crainte du sacrilge: Thomas Bayes tait en effet un cclsiastique et l'application de sa formule la recherche des causes ultimes d'un vnement aurait pu conduire probabiliser l'existence de Dieu ...

1.4

RFLEXIONS SUR lE CONCEPT DE PROBABILIT

La thorie mathmatique des probabilits ne dit pas quelle loi de probabilit mettre sur un ensemble il parmi toutes les lois possibles (et elles sont nombreuses ... ). Ce problme concerne ceux qui veulent appliquer le calcul des probabilits, et renvoie la nature physique , si l'on peut dire, du concept de probabilit qui formalise et quantifie Je sentment d'incertitude vis--vis d'un vnement.

1.4.1

la conception objectiviste

Pour les tenants de ce point de vue, la probabilit d'un vnement peut tre dtermine de manire unique.

, .4.1.1

La vision classique

C'est ceHe qui est hrite des jeux de hasard . .n est en gnral fini et des raisons de symtrie conduisent il donner chaque vnement lmentaire la mme probabilit: ainsi le lancer d'un d parfait conduit un ensemble il 6 lments quiprobables. Le calcul des probabilits n'est donc plus qu'une affaire de dnombrement, d'o la clbre formule:
P(A)

= - - - de cas possibles ----Nombre

Nombre de cas favorables

L'analyse combinatoire fournit alors les rponses aux cas classiques. Cette approche ne s'tend pas aux cas o il n'est plus dnombrable (voir plus loin) et repose sur une conception idalise de l'exprience alatoire: les symtries parfaites n'existent pas; ainsi le d parfait n'est qu'une vue de l'esprit et ses 6 faces ne sont pas en ralit

1.Le modle probabiliste

11

quiprobables en raison de la non homognit de la matire et surtout des gravures des numros sur les faces.

1.4.1.2

Un paradoxe clbre

Les limites de la vision classique apparaissent, nous semble-t-il, assez bien dans le clbre paradoxe de Bertrand. Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard. Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle? Reproduisons ici les commentaires de Renyi (1966) : Premire solution. Comme la longueur de la corde est dtermine par la position de son milieu, le chox de la corde peut consister marquer un point au hasard l'intrieur du cercIe. La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est alors videmment gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit qui est. de rayon moiti (cf fig. 1.2). Si l'on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la probabilit demande :

7I(r/2f
4

Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au centre du cercIe. Par raison de symtrie nous pouvons considrer que le milieu de la corde est pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon est uniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est une distance du centre infrieur r/2 ; 'a probabilit cherche est alors 1/2 (cl fig. 1.3).

FIGURE 1.2

FIGURE

1.3

FIGURE

1.4

12

1_Le modle probabiliste

Troisime solution. Par raison de symtrie nous pouvons supposer qu'on a fix une des extrmits de la corde, soit Po. L'autre sera choisie au hasard sur la circonfrence. Si l'on admet que la probabilit pour que l'autre extrmit P tombe sur un arc donn de la crconfrence est proportionnelle la longueur de cet arc, la corde PoP est plus grande que le ct du triangle quilatral inscrit quand P se trouve sur rare P 1P2 donc la longueur est le 1/3 de celle de la circonfrence (cf. fig. lA) ; la probabilit est alors 1/3. Il est clair que ces trois hypothses de rpartition, sont galement ralisables. L'exemple parut paradoxal en son temps uniquement parce qu'on ne comprenait pas que des conditions exprimentales diffrentes pour le choix au hasard de la corde, dans les trois procds dcrits, conduisaient des mesures-probabilits diffrentes sur la mme algbre d'vnements.

1.4.1.3

La vision frquentiste

Elle repose sur la loi des grands nombres (voir chapitre 2). Une seule exprience ne suffisant pas pour valuer la probabilit d'un vnement on va rpter un trs grand nombre de fois l'exprience. Ainsi du lancer d'un d : la probabilit d'observer la [ace 6 est la limite du rapport:

-------=1
Nombre d'essais lorsque le nombre d'essais augmente indfiniment. En effet la loi des grands nombres assure que f converge vers )a probabi lit p de l'vnement. Du point de vue pratique il est clair que la vision frquentiste ne permet pas de trouver la probabilit d'un vnement puisqu'un tel processus ncessitant une infinit d'observations est physiquement irralisable: cela permet tout au plus de donner une dfinition de la probabi1it comme limite d'une frquence. Remarquons que dans la conception frquentiste il est impossible de donner une valeur et mme un sens la probabilit d'un vnement non rptable du genre ,< neigera-t-il le 25 octobre 2990) ; ce qui limite le champ d'application du calcul des probabilits. Cependant la critique la plus radicale du point de vue frquentiste eslla suivante: la dfinition de la probabilit repose sur la loi des grands nombres, or celle-ci est un thorme de probabilits qui suppose donc dfini le concept de probabi1it : il y a donc un cercle vicieux.

Nombre de 6 obtenus

1.4.2

la conception subjectiviste

Le point de vue classique tant trop limit, le frquentisme logiquement intenable, la probabilit d'un vnement sujette rvision en fonction d'infonnations nouvelles (thorme de Bayes), l'existence mme de probabilits objectives a t nie par beaucoup. C'est ainsi que le magistral Trait de Probabilits de de Finetti (1974) commence par l'afiirmation en lettres capitales <~ La Probabilit n'existe pas ) et continue par:
L'abandoll de croyances superstitieuses sur l'existence dll phlogistique, de l'thel; de l'espace et du temps absolu . .. Olt des fes, CI t Hne tape essentielle dans la pense scientifique. La probabilit, c01lsidre cOlllme qllelque chose ayant llne existence objectil'e est galement !lIle conceptioll errone el dangereuse, llne tentative d'extrioriser Olt de matrialiser 110S l'ritables conceptions probabilistes!

1.Le modle probabiliste

13

1.4.2.1

Mesure d'incertitude

La probabilit objective d'un vnement n'existe pas et n'esl donc pas une grandeur mesurable analogue la masse d'un corps, c'est simplement une mesure d'incertitude, pouvant varier avec les circonstances et l'observateur, donc subjective, la seule exigence tant qu'elle satisfasse aux axiomes du calcul des probabilits. Les tenants de l'cole subjectiviste proposent alors des mthodes permettant de passer d'une probabilit qualitative c'est--dire d'un simple pr-ordre sur les vnements. une mesure de probabilit. puisque la rptition n'est plus ncessaire on peut probabiliser des vnements non tables et tendre le domaine d'application du calcul des probabilits en particulier pour tout ce qui concerne les dcisions conomiques.

1.4.2.2

Le baysianisme

Un pas de plus va tre franchi par l'coh; baysienne (ou plus exactement nobaysienne vu les deux sicles de dcalage entre Bayes et ceux qui s'en rclament actuellement) qui va probabiliser tout ce qui est incertain et mme des phnomnes non alatoires. Pour 11ustrer la thorie baysienne modifions quelque peu l'exemple prcdent de la fabrication des boulons: supposons qu'il n'y ait plus qu'une machine et que l'on cherche estimer le pourcentage p de boulons dfectueux produit en moyenne par la machine: si l'on admet qu'il n'y a que trois valeurs possibles PI' p'}., P3 respectivement 1 % de probabilits a priori 1T), 1T,;!, 1Tj respectivement, la solution gales 0.3 %, 0.8 est inchange et la valeur la plus probable il posteriori est 0.008 (s r on tire un seul bouton dfectueux). Supposons qu'on tire maintenant Il boulons et que le nombre de boulons dfectueux soit k, la probabilit que le pourcentage de dfectueux produit par la machine soit P2 est alors:

On peut encore gnraliser et supposer que p prenne toutes les valeurs possibles dans l'intervalle rO, IJ. Si l'on connat la loi de probabilit de p sur [0, 1] et qu'elle admet une densitf(p) par rapport la mesure de Lebesgue, la fornlUle de Bayes s'crit:

P(p/II:)

= --:---------- p)"-kf(p) dp
()

(voir chapitre 3).

l,C~pk(1

C~pk( 1

- p)/J-kf(p)

A condition de connatre une distribution de probabilit li priori sur les valeurs de p, on peut donc en dduire les valeurs de p a posteriori les plus probables, donc estimer p. On aura remarqu que p n'est pas alatoire mais un paramtre the de valeur inconnue et que l'on a modlis notre incertitude sur ses valeurs, par une mesure de probabilit. Mais

14

1_le modle probabiliste

comment choisir cette mesure a priori? on retombe sur la difticult signale plus haut et, si cette probabilit est subjective, quel statut scientifique donner une grandeur qU peut varier d'un observateur li l'autre? Telles sonlles critiques usuelles faites par les objectivistes. De plus on a montr qu'un ordre de probabilits donn n'induisait pas ncessairement une mesure de probabilit unique P sur fi, compatible avec la relation d'ordre. P n'existe pas forcment ou encore, si P existe, P n' est pas toujours unique. Nous arrterons l ces quelques remarques et sans prendre parti dans une querelle qui dure encore, rappelons que le modle probabiliste a prouv son efticacit dans de nombreuses applications mais que comme tout modle ce n'est qu'une reprsentation simplificatrice de la ralit el que ses hypothses doivent tre mises l'preuve des faits. Nous renvoyons Je lecteur intress par la philosophie des probabilits aux travaux de de Finetti (1974), Matalon (1967), Matheron (1978) et Savage (1954). cits en rfrences.

Variables alatoires

Dans ce chapitre, on tudiera uniquement les variables alatoires relles. Les variables qualitatives ou ordinales ( valeurs dans un ensemble quelconque ou muni d'une structure d'ordre) ne feront pas l'objet d'une tude thorique; on les trouvera voques dans les chapitres consacrs la statistique.

2.1

LOI DE PROBABILIT ET MOMENTS D'UNE VARIABLE ALATOIRE RELLE Dfinition et fonction de rpartition
Gnralits

2.1.1
2. 1.1. 1

Le concept de variable alatoire formalise la notion de grandeur variant selon le rsultat d'une exprience alatoire. Considrons le lancer de deux ds parfaitement quilibrs: cette exprience se traduit par l'ensemble de tous les couples de chiffres de 1 6 :

n = 1(l, 1) ; (l, 2) ; ... ; (6, 6) 1


muni de la loi de probabilit P telle que P(w)

= 3~' Vw E n.

Intressons-nous la somme des points marqus par les deux ds. On dfinit ainsi une application S de !1 dans l'ensemble E = {2, 3, ... , 121 (fig. 2.1).

g-y;_S(_W)-------l
il
FIGURE

2.1

16

2aVariabies alatoires

Pour obtenir la probabilit d'une valeur quelconque de S, il suffit de dnombrer les w qui ralisent cette valeur. Ainsi:
P(S

5)

= P({(l,4)(2, 3)(3, 2)(4,

l)})

4 36

et gnralement P(S

s)

P( fS - I(S)}).

On voit que, pour dfinir la loi de probabilit sur S, on transporte la loi de probabilit de

n sur E par l'application S.


Si X est une application d'un ensemble probabilis (0, ((5, P) dans E, il faut donc que

E soit probabilisable, c'est--dire muni d'un tribu ,0/ et que rimage rciproque de tout lment de ET soit un vnement, c'est--dire un lment de ((5. On reconnat ici la dfinition mathmatique de la mesurabilit d'une foncton. Une variable alatore X est donc une application mesurable de (0,

(e, P) dans CE,

ET).

Lorsque E = IR':, on utilise comme tribu la a-algbre engendre par les intervalles de tRi. ; c'est la plus petite (autrement dit l'intersection de toutes les cr-algbres) contenant les intervalles. Cette tribu est appele tribu borlienne et est note !?A.
DFINITION 1

Une variable alatoire relle est une application Inesurable de (n, ((5, P) dans tRi. 1I11l1zi de sa tribu borlienne (tRi., g'j).

Pour tout borlien B, on dfinit Px(B) par:


PiE)

= P{ {wIX(w) E = P([X-I(E)])

B})

ceci dfinit une probabilit sur (tRi., f1J) d'o la :


DFINITION

011 appelle loi de probabilit de X la mesure image de P pllr X et on la note Px.

Pour une variable discrte, c'est--dire une variable ne pouvant prendre qu'un nombre fini (ou dnombrable) de valeurs x" X2' . , XII' la loi Px est constitue de masses ponctuelles. Px peut alors tre reprsente par un diagramme en btons. Ainsi, pour l'exemple du lancer de deux ds, on a la figure 2.2.

2.1.1.2

Fonction de rpartition

La fonction de rpartition d'une variable alatoire X est l'application F de tRi. dans [0, 1] dfinie par :
1

F(x) = P(X

<

x)

2/1111111Variables alatoires

17

6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36
1

7
FIGURE

10

11

12

2.2

PROPRITS

(sans dmonstration)

F est une fonction monotone croissante continue gauche. En tant que fonction monotone, elle admet un nombre de points de discontinuit au plus dnombrable. Rciproquement, toute fonction monotone croissante continue gauche telle que F( -,:r.;) = 0 et F( +y:,) = 1 dfinit une loi de probabilit unique sur IR.

Un exemple de fonction de rpartition correspondant une variable discrte (celle de S dfinie prcdemment) est donn par la figure 2.3.

F(x)

10

11

12

FIGURE

2.3

La figure 2.4 est un exemple de fonction de rpartition correspondant une variable continue (voir plus loin). L'importance pratique de la fonction de rpartition est qu'elle permet de calculer la probabilit de tout intervalle de IR :

IP(a::::; X< b)

F(/;) - F(l7) 1

18

2aVariables alatores

_______ J _________________________ _

F(x)

o
FIGURE

2.4

2.1.1.3

Varables continues

La notion de variable continue, ou plus exactement absolument continue, se confond avec celle de variable admettant une densit de probabilit.
DFINITION

Une loi de probabilit Px admet ulle densit fsi, pour tOtit intervalle / de
Px(l)

= If(X) dx = li 1(x)f(x) dx
1

lit Oll a :

P-

(li 1 est la fonction indicatrice de 1).

F est alors drivable et admetfpour drive. On a donc:

P( a

< X < b)

l
a

f(x) dx

F(b) - F(a)

(fig. 2.5)

f(x)

b
FIGURE

x
2.5

Une densitfest donc une fonction positive d'jntgrale gale 1 :

1
li,

1(X) dx =

2.Variables alatoires

19

On remarque que pour une variable densil :


P(X

= x) =

'\Ix

et on peut crire:

." + dx)
>
x)

Exemple: La variable X, dont la loi est dfinie par P(X

= exp( -

.x) pour tout

x positif, admet pour densit:


j'ex)
j(x)

= . exp( 0

.x)

si x ;;::: 0 si x

<0

(fig. 2.6)

f(x)

x
FIGURE

2.6

Elle est utilise couramment pour reprsenter la dure de vie de phnomnes sans velIis_ sement (comme les composants lectroniques).

2.1.1.4

Taux instantan de dfaillance

Si X est une variable contnue positive reprsentant une dure, on dfinit la fonction suivante:

Il . (x) -

j(x)

1 - F(x)

appeles selon les domaines d'application : ~< taux instantan de dfaillance , fonction de hasard ) ou encore quotient de mortalits ). Pour une dure de vie X, h(x) s'interprte comme la probabilit de dcs immdiatement aprs x, sachant que l'on a vcu jusqu' x. En effet, pour dx infiniment petit:
P(x

< X < x + dx/X > x)

j(x) dx 1 - F(x)

l1(x) dx.

F(x) est appele fonction de survie.

20

2_Variables alatoires

lI(x) caractrise la loi de X car on peut retrouver F(x) partir de h(x) : lI(x)

d --ln(1 - F(x
dx

F(x)

= 1-

exp( -lxlz(t)dt)

Une fonction 17(x) croissante est caractristique d'un phnomne de vieillissement. Si h(x) = c, il y a absence de vieillissement, le dcs est d des causes alatoires externes: X suit alors la loi exponentielle F(x) = 1 - exp( -ex), qui sera tudie plus loin.

2.1.2

loi d'une fonction d'une variable alatoire Y = <p(X)

On supposera X continue avec une densit f et une fonction de rpartition F. 'P sera suppos drivable. On recherche 9 et G densit et fonction de rpartition de Y.

2.1.2.1

cp bijective

'P est donc monotone. Si 'P est croissante, on a F(x)

= G('P(x)) car X < -y ~ y < 'P(x) d'o:


(fig. 2.7a)

y= <p(x)

(p-l(X)

x
x

(a)
FIGURE

(b)

2.7a
f['P - le)')] g(y)

FIGURE

2.7b

ou encore: Si 'P est dcroissante X

'P 'P

1[

-'(1')1 .'

<x

y> 'P(.-r), d'o:


(fig. 2.7b)

.,..;...,V!lr'i:\l:lleS alatoires

21

et en drivant: puisque 'P est dcroissante. bijective 'fl quelconque:


/'p'

g(y)

'fl'(X)

< 0, et on a la formule gnrale pour une application


f(x)
1<p'(x)1

g(y)

_ Exemple:

y = exp(X)
g(y)

et

X= ln Y
y

f(x)

exp(x)

2.1.2.2

<fi quelconque

Le principe consiste toujours identifier la fonction de rpartition G(y) en recherchant

r antcdent pOUf X de l'vnement Y < Y = <p(x).


Par exemple, si Y = X avec X dfini sur ~ : pey
2
1 G()!)

<

y) = P( -~

< X < + ~) :

F(~)

F(-~) 1

g(y) =

, 1 . 1 j(f;,) + f(-{y)-

2-vy

21Y

g(y) =

1 21; C{cf;,) + l( -1Y))

'} en partlcu '1er 9 () = 1(1Y). f' est une f"onctlOn pmre. y ~ SI.
'Jy

2.1.3

Indpendance de deux variables alatoires

Soient X et Y deux varables alatoires relles dfinies sur le mme espace probabilis. Le couple (X, Y) esl donc une applicaton mesurable de (n, cg, P) dans ~2 mun de sa tribu borlienne.
DFINITION

x eT Y sont lldpelldcl1ltes si, pour tout couple de borliens Bi et Bi'


P(X E Bi)

ml Cl :

n CY E

B)) = P(X E B,)P(Y E B)

22

2aVariables alatoires

En d'autres termes, la loi de probabilit p.n du couple (X, Y) n'est autre que la loi produit que l'on note:

COROLLAIRE

X el Y sont indpendantes si et seulement si la fonction de rpartition du couple (X, Y) dfinie par H(x, y) = P(X < x n y < y) est gale au produit des fonctions de rpartition respectives de X et de Y, appeles fonctions de rpartition marginales:
1

H(x, y) = F(.\") GCy) 1

Si X et Y admettent des densits f(x) et g(y), alors le couple (X, Y) admet pour densit f(x)g(y). Dans ce cas, la rciproque est galement vraie.

2.1.4

Moments d'une variable alatoire

Une loi de probabilit peut tre caractrise par certaines valeurs typiques associes aux notions de valeur centrale, de dispersion et de forme de la distribution.

2.' .4.'

L'esprance mathmatique

Pour une variable discrte, on dfinit l'esprance E(X) par la formule:

E(X) = LXjP(X =
j

xJ

(si cette expression a un sens). ECX) est la moyenne arithmtique des diffrentes valeurs de X pondres par leurs probabilits. Pour une variable continue admettant une densit, E(X) est la valeur, si l'intgrale converge, de (xf(x) dx.

J~

Ces deux expressions ne sont en fait que des cas particuliers de la dfinition gnrale suivante:
DFINITION

X tallt une l'ariable alatoire relle dfinie sur (n, ((5, P), l'esprance l11t.1thmatique de X est, si elle existe, l'intgrale de X par rapport il la mesure P .'
E(X) = ( XdP

Jn

D'aprs le thorme de la mesure image, on a:

E(X)

Lx

dPx(x)

23

nexiste une densit l(x) : dPx(x)

d'o, en particulier si Px est absolument continue par rapport la mesure de Lebesgue de IR, = l(x) dx et alors on retrouve:
E(X)

J~

(xf(x) dx

Il faut prendre garde au fait que l'esprance mathmatique n'existe pas toujours. Ainsi, la variable X ayant pour densit sur IR :
J(x)

= 'jj( 1 + x 2 )

(loi de Cauchy)

n'a pas d'esprance car l'intgrale

+x

-:>0

'jj(J

+ x-)

"1

dx diverge.

Les proprits lmentaires de l'esprance mathmatique sont celles des ." ...'6 ........ " et se dduisent de la linarit. Si il est une constante:
E(a) E(aX)
=(1

= aE(X)
= E(X)

E(X

+ a)

+ il

La plus importante proprit est l'additivit: l'esprance d'une somme de variables alatoires (qu'elles soient ou non indpendantes) est gale la somme de leurs esprances:

A. Esprance d'une fonction <p(X) d'une variable alatoire

Par dfinition, EI:<p(X).I =

(CPoX) dP si cette expression a un sens.

En utilisant nouveau le thorme de la mesure image, on a:

E('f'(X)) =

'f'(x) dPx(x)

Ce rsultat trs important est d'un emploi courant et permet de calculer l'esprance d'une variable <p(X) sans avoir dterminer la loi de tp(\x.

B. Ingalit de Jensen
Si <p est une fonction convexe, on peut montrer, si les esprances existent, que:
IE(tp(X)) 2: <p(E(X))
1

On en dduit en particulier:

E(jxl) 2:= IE(X)I


E(X'l) 2: (E(X)fE(exp(X)) 2: exp(E(X))

24

2_Variables alatores

C. Esprance d'un produit


Si X et Y sont deux variables alatoires de loi conjointe P,\T' on a, si }' expression a un sens:
E(XY)

Lx.\' dPXY(x, y)

Lorsque X et Y sont indpendants, dP,n,(x, y) factorise:


E(XY)

= dPx(x) (9 dP),(y) et l'intgrale double se

Lx dPx(x) Ly dP,.(y)

d'o:

X et Y indpendants ~ E(XY)

E(X)E(Y)

Attention: La rciproque est fausse et E(X)E(Y) l'indpendance de X et Y.

= E(XY)

n'entrane pas en gnral

D. Une interprtation statistique


Reprenons l'exemple du lancer de deux ds. Par raison de symtrie, E(S) = 7. Supposons qu'on lance Il fois les deux ds et que les ralisations successives de S soient SI' .\'2' ... , .'l'I' Formons la moyenne

s = ~ 2:s; de ces rsultats.


n

On montre alors que si Il ~ 00, s ~ 7 en un sens qui sera prcis plus tard (loi des grands nombres, voir paragr. 2.7 et chapitre 12).

E. Esprance et fonction de rpartition


Sous rserve de convergence de l'intgrale, on a pour une variable positive le rsultat suivant:
E(X)

Jo

(x(1-F(XdX

En effet, en intgrant par parties: l""O-F(X) dx o crochet est nul si l'intgrale converge.

[(1 - F(x))x(

+ lXXf(X) dx, et le
0

0.6

~~~~""';"';';~~~-----+----+----I

0.4 -fmiWJ~~WI-+---j---I---~ 0.2


~~~mf.~t----I----t----+----j

0.5
FIGURE

1.5

2.5

2.8

2.Variables alacores

25

L'esprance d'une variable positive s'interprte donc comme raire situe entre l'horizontale y = 1 et la fonction de rpartition. La tigure 2.8 correspond la fonction de rpartition d'une loi log-normale d'esprance 1 et d'cart-type DA.

2.1.4.2

La variance

On appelle variance de X note V(X) ou rr:! la quantit dfinie par:

III

= E(X).

rr s'appelle l'cart-type de X.
La variance est donc le moment centr d'ordre 2 de la distribution et est une mesure de lu dispersion de X autour de m.

Proprits de la variance
Comme E((X - a):!) = V(X) + (E(X) - af (formule de Konig-Huyghens) on en dduit que V(X) est la valeur minimale de E((X - af) quand a varie. On en dduit la formule classique

Par ailleurs :
V(X -a) V(aX)

V(X) rr(aX) =

a2 V(X)

et
=
Cl

lai rr(X)

V(X) = 0

<=> X

(presque srement)

L'esprance et l'cart-type sont relis par l'ingalit de Bienaym-Tchebyshev :


1

p(lx -

E(X)I > krr)

1
:':S -::;

k-

_ Dmonstration

car on restreint le domaine d'intgration d'une fonction positive. En minorant (x ,on a:

111)2

par

(x -

mf dPx(x) >
m]

k 2rr:!

j'"
IX-m!>J.cT

dPx(x)

IX-ml>kcr

Celte dernire intgrale vaut P(]X

>

krr). ce qui tablit la proprit.

26

2.Variables alatoires

Cette ingalit, dont l'intrt thorique vient de ce qu'eHe est valable quelle que soit la 10' de X, n'a que peu d'applications pratiques, car la majoration qu'elle fournit est la plupart d temps excessive. Ainsi pour une loi normale, pclx - ECX)I > 20') = 0.05 alors qu l'ingalit de Bienaym-Tchebyshev donne 0.25 comme majorant. Remarquons, de plus, que l'ingalit est inutilisable pour k.:5 1.

Variance d'une somme de variables alatoires


V(X

+ Y) = E[(X +
= E(X!)

y)2] - (ECX)

+ E(Y)f!
E(X)! - E(y)2 - 2E(X)E(Y) - E(X)E(Y))

+ E(Y!) + 2E(XY) + V(Y) + 2(E(XY)


E(XY) - E(X)E(Y)

V(X)

On appelle covariance de X et Y la quantit: cov(X, Y) donc:


l

EX - E(X(Y - E(Y)

"(X

Y) = V(X) -1- VO')

+ 2 cov(X,
V(X)

Y)

En particulier:

X et Y :=;. V(X indpendantes

Y)

Vey)

mais la rciproque est ici encore inexacte en gnral.

Variance dtun produit de deux variables indpendantes


Un calcul lmentaire montre que:
1

V(XY) = V(X)V(Y)

+ V(X)(E(l')f + V(Y)(E(X21

Approximations de l'esprance et de la variance d1une fonction (j)(X)


Un dveloppement limit l'ordre 2 au voisinage de l'esprance m de X donne:
tp(x) - c.p(m) = (x - m)c.p/(m)

+ -

Cr 2

m)2

tpl/(m)

En prenant l'esprance :
E(tp(X - c.p(m) = E (

X-

m)2) tpl/(m)
Il

soit :

E(c.pCX) = c.p(m)

1 + "2 V(X)c.p

(m)

En levant au carr tp(X) - c.p(m) et en prenant l'esprance, on trouve galement [Lejeune, 2004.1 :
\ V(tp(X)) = (tp'(m)fV(X)
1

27

Autres moments
dfinit, si ils existent, les moments centrs d'ordre k :
1/-11;

= E[(X

- Ill)!;] 1

.,,.'n""11 ",[-'_

a videmment /-11 = 0 et /-1:.'. on a /-1::!k +] = 0 'tj k.

V(X). Si la distribution de la variable alatoire est sym-

Les moments /-13 et /-1-1 sont utiliss pour caractriser la forme de distribution. pour obtenir des quantits sans dimension, on utilise les coefficients d'asymtrie et
aol.atlSSf~m~~m 1'1 et 1'2 (en anglais ske~vl/ess et klirtoss) :

La figure 2.9 donne quelques allures typiques de courbes de densit correspondant certaines valeurs de l' 1 et "t::.. On remarquera que "t2 est toujours suprieur 1 car l'ingalit classique entre moyennes d'ordre p entrane (/-1.1)1/-1 > (/-12)]/::! => /-1.1. > (/-12):.'.'
De plus, on a toujours 1'2 :2: 1 + ("tIf. Plus que \' aplatissement, le coefficient 1'2 mesure l'importance des queues de distribution.

Lo de Gauss

Loi uniforme
FIGURE

u
2.9

Loi en

28

211111111Variables alatoires

Ingalit de Markov: En utilisant la mme mthode que pour l'ingalit de BienaymTchebyshev, on montre que:

PCIXI) > E) ::s -~ ,,E

E(X k )

2.1.4.4

Ordres stochastiques

Les concepts de dominance stochastique sont utiliss dans diffrents domaines, en particulier en fiabilit pour comparer des fonctions de survie, et en thorie de la dcision pour comparer des risques.

A. Dominance stochastique d'ordre


On dit que X domine stochastiquement Y si la fonction de survie de X est suprieure celle de Y:

P(X> c)

2.:

PO' >

c) pour tout c

ce qui revient dire que la fonction de rpartition de X est toujours infrieure celle de Y.

0.8 0.6 004 0.2 0

-3

-2

-1
FIGURE

0
2.10

THORME (ADMIS)

POlir que X dOlnlle stochastiquemellt Y, il/aul el il sl(lfit que E(f(X)) toute fonction f croissante.
2.:

2:

E(.f( r)) pour

On en dduit que la dominance stochastique de X sur Yentraine E(X)

E(Y).

On peut montrer (exercice faire ... ) la proprit suivante: si la fonction de hasard (ou taux de dfaillance) de X est partout infrieure celle de Y, alors X domine stochastiquement Y. C'est par exemple le cas de la dure de vie des femmes en France qui domine celle des hommes: non seulement l'esprance de vie des femmes est plus leve que celle des hommes, mais galement la probabilit de survie tout ge.

.. _.\1..

'''I~rlle!>

alatoires

29

B. Dominance stochastique d'ordre 2


La dominance d'ordre 1 implique que les fonctions de rpartition de X et Y ne peuvent se croiser. Une forme plus faible de dominance, qui autorise les croisements, est dfinie comme suit:
DFINITION

x domille stoclwstiqltenu?Ilt Y cl l'ordre 2 si leursfollctions de rpartitioll sont telles que:

f~F(X) dx :s: ~G(x) dx

pour lOtit c.

L'ingalit porte cette fois sur les intgrales des fonctions de rpartition. La dominance stochastique d'ordre 1 entrane celle d'ordre 2.

-6

-4

-2
FIGURE

o
2.1 1

Cette forme de dominance est utilise en thorie du risque pour des variables positives reprsentant des gains alatoires. Supposons de plus que X et Yont mme esprance: alors les aires hachures sur la figure prcdente sont gales. On voit intuitivement que la rpartition de X est moins disperse que celle de Y. Un individu qui a de l'aversion pour le risque prferera donc X Y. La dominance stochastique d'ordre 2 implique V(X) < V(Y) mais est plus gnrale (la rciproque est fausse). On montre que si X domine Y, Ya la mme distribution que X + e o e est une variable telle que E(ejX) O. Intuitivement, Y est plus alatoire ) que X. Le thorme du paragraphe prcdent est alors modifi comme suit [Rothschild et Stiglitz, 1970] :
THORME

POlir que X domine stochastiqueme11t Y li l'ordre 2, iljut et il sl~ttl que E(f(X)) pOlir tOtltefol1ctionfcmissame concove.

E(f( Y))

30

2.Variables alatoires

2.2

LOIS DE PROBABILIT DISCRTES D'USAGE COURANT Loi discrte uniforme

2.2.1

x = {l, 2, 3, ... , Il)


P(X

1)

P(X = 2)

= ... =

P(X

11)

(fig. 2.12)

P(X = k) =Il

~f 1 1 1 .. 1
1 2 3

FIGURE

2.12

E(X) = - -

Il

+
2

par symtrie
11

E(X) = - (1
11

+ 2 + ... + 11)

+1
2

., 1 E( X -) = - (1
11

+ 4 + 9 + ... + +
1)(211

lZ-)

.,

E(X-) = - - - - - 11

.,

1 11(11

1)

d'o: V(X) V(X)

(Il

+
+ 1

1)(211 6

1)

(11

3(11

+
4

1)2

= --(4n + 2 12
V(X) = - n:' -

11

1))

soit:

12

2.2.2

loi de Bernoulli de paramtre

C'est la loi d'une variable X ne pouvant prendre que les deux valeurs l ou 0 avec le~ probabilits pet 1 p ; X est la fonction indicatrice d'un vnement A de probabilit p :

Comme X 2

X, E(X2)

= p, d'o:
1

V(X)

= p(l

- p)

'"J_.V~"I:Hm::;.

alatoires

31

loi binomiale
A. Principe

!:JJ(n ; p)

Supposons que l'on repte 11 fois dans des conditions identiques une exprience alatoire, dont l'issue se traduit par l'apparition ou la non-apparition d'un vnement A de probabilit P~ le rsultat de chaque exprience tant indpendant des rsultats prcdents. Soit X nombre d'apparitions de l'vnement A parmi ces 11 expriences (0 X:5 Tl). On dit alors que X suit une loi binomiale de paramtres Il et P note ~ p). Comme chaque exprience numrote iCi = l, 2, .. " 11), on peut associer une variable de Bernoulli Xj de paramtre p, on a: X

LXi d'o la deuxime dfinition de la loi binomiale: X suit une


i=1

Il

loi binomiale @(1l ; p) si X est une somme de 11 variables de Bernoulli indpendantes et de mme paramtre p. De cette dfinition, dcoulent l'esprance et la variance de X . ......".hE(X) = 2:E(Xi ), donc: E(X) = HP V(X) = 2: V(Xi ) car les Xi sont indpendants; donc:
1 1

B. Loi de probabilit
Ann de chercher l'expression de P(X 11.), remarquons que toutes les configurations, telles que k variables Xi prennent la valeur 1 el 11 - le la valeur 0, sont quiprobables et qu'il Y a C~ configurations de cette sorte (nombre de manires de choisir k Xi parmi n). D'autre part:
P(X,
XI
Il

n ... n )(" = x/J) = Il P(X = xJ


i

;=1

II pX{l
1=1

Il

p)l-xi

car les Xi sont indpendants :

Comme

LXi

= le,

on trouve:

Cette formule justifie le nom de la loi binomiale car les P(X = k) sont les termes du p))rt selon la formule du binme de Newton (on vrifie au dveloppement de (p + (1
k=/J

passage que

L P(X

k) = 1).

1;=0

La fgure 2.13 reprsente quelques diagrammes en btons correspondant diverses valeurs de Il et p. On notera que la distribution est symtrique si p = 1/2 et le devient approximativement sinon, ds que Il est assez lev.

32

2.Yariables alatoires:

0.4

0.3
0.1

n= 0.5 p= 0.1

0.6 0.5
0.4

0.2

n=10 p= 0.05

0.3

o
0.4

0.2
1 2 3 4 5 0.1 x

n = 10
p= 0.1

1 2

4 5

0.3

0.2 0.1 0123456


x
1

n= 10 p=0.2
x
j

~~lll
o
1

n=20 p= 0.1

01234567
n= 10 p=0.5

234

1 5 6

~
789
n= 50

0.3\

~:~ il--~f-l-I-+1-+-1

2 3 4 5

~:~

f - l - - - + - -

1 -t--+--+-I I--t--+--+I 1--+--1 x 23456789

-+-I-P=f--0-f-';-11-1--1 X
6 7 8 9 10
FIGURE

2.13

Un rsultat utile pour l'utilisation des tables: si X suit une loi binomiale fYJ(n ; p), suit alors une loi binomiale i1J(n ; 1 - p).

JI -

Pour 11 grand, on verra plus loin que la loi binomiale peut tre approxime soit par une loi de Poisson (si p est petit) soit par une loi de Gauss.
}J

La somme de deux variables alatoires binomiales indpendantes et de mme paramtre est une variable alatoire binomiale:

_ Dmonstration
XI : somme de ni variables de Bernoulli; X2 : somme de 112 variables de Bernoulli.

.:::':':"'\J~rllaDII::::'

alatoires

33

x + X"
1

somme de Il, + variables de Bernoulli est bien une variable binomiale oal la somme des effectifs. _ o

"2

ConC1lltla'n ncessaire et suffisante: XI et X2 doivent tre indpendantes.

Loi de Poisson 9P()


C'est la loi d'une variable alatoire entire positive ou nulle qui satisfait :

On peut vrifier toul d'abord qu'il s'agt bien d'une loi de probabilit:

LP(X
x=O

= x)

exp( -

:;-: x.. x.) L -

.r=O _or!

= exp( - ) exp(X.)

la figure 2.12, quelques diagrammes en btons correspondent diverses valeurs de X. :

0.6 0.5

DA

OA

x. = 0.5

0.3

x. = 1.0

0.3

X.

1.5

DA
0.3

0.2 0.1

0.2 0.1

0.2 0.1

o
o
5
10
0.4

10

10

OA
0.3

x. = 2.0

0.3

x. =3.0

X. = 5.0 0.3~ 0.2


0.1
(g) 0

0.2 0.1

0.2 0.1

10

10
0.31

o
0.2

10

x.::::: 10.0
1-1.....1-

0.1

~!
!

4---L--Ll

1 1-I....I....J1111-J-I-11.I.-J.....I./ 1 ,
1

5
FIGURE

10

15

2.14

Le paramtre X. reprsente la fois l'esprance et la variance de X.

34

2_Variables alatoires

On obtient la loi de Poisson comme approximation de la loi binomiale dans le schma: suivant: Soit un vnement A de probabilit p trs faible (en pratique p < 0.1) que l'on essaie' d'obtenir quelques fois en rptant l'exprience un grand nombre de fois (en pratique Il > 50). Le nombre de ralisations de A suit une loi binomiale @(n ; p) telle qu'en pratique: .
@(1l,

p) - r!J(np)

c'est--dire :

Nous allons, en fait, tablir ce rsultat sous la forme mathmatique suivante:


THORME

Soit X'I une sllite de variables binomiales @(n, p) telles que Il~ ,7Jj et p ~ 0 de manire' li ce qlle le pmdllit I1P te1lde l'ers une limite finie k. Alors la suite de variables alatoires XII converge en loi l'ers une variable de POsson fJJ(k).

Les notions de convergence seront tudies en dtail au paragraphe 2.7.

_ Dmonstration

(pl1Y -- ( 1 - -

xl

1)( 1 - -2) ... (1 - -- -l) x


Il Il

(l - PYI-X

11

Faisons tendre Il -

".

Tous les tennes (1 -

!;) ... (1 - x :
~

1) tendent vers l, leur

produit tend vers l car ils sont en nombre fini. Dcomposons (l - p)/I-X en (l
pyl(l - p)-X

(1 - p) -x ~ 1 car p
Quant (1 -

O.

pt -

k)lI (1 -;; il tend vers exp( - ) donc:


C~pX(1_p)"-X~

11/1 ( -= .t.

)Xexp(-)

c.q.f.d.

La suite des esprances des binomiales Xli : E(X/!) = IIp converge vers :

35

E(X) =

x=()

2: exp( -) x.1

,I'

le premier terme est nul:

exp(-) exp() = Ln suite des variances des binomiales X,,: V(XII ) = np(l
p) tend aussi vers car

np ~

p~

o.

Montrons que '--_ _---'

_ Dmonstration
V(X) = E(X:!)
0:;

[E(X)f = E(X:!) - :!
X
~

E(X:!) = .Lx2exp(-)- = .Lxexp(-)-x == () x!,~ = 1 (x - 1) !

avec x = x - 1

+ l, il vient:

E(X:!) =

2.: exp ( x=2

(x -

2)!

2.: exp ( x=1

) - (x -

1)!

E(X'!.) = :2 exp (-)exp()

exp(-)exp()

donc V(X) Donc (J'

= :2 + = {i;..

::'

On verra plus loin que la somme de deux variables de Poisson indpendantes est encore une variable de Poisson. Lorsque est grand, on verra que la loi de Poisson peut tre approxime par la loi de Gauss. La loi de Poisson s'obtient aussi comme loi exacte du nombre d'vnements survenant pendant une priode donne, sous certaines conditions (voir plus loin le paragraphe consacr au processus de Poisson).

- Exemples d'application de la loi de Poisson: loi du nombre de suicides par an dans un pays donn;
loi du nombre d'appels tlphoniques pendant un intervalle de temps T; loi du nombre de pices dfectueuses dans une livraison importante, la production tant de bonne qualit; etc.

..

'~~
\)

36

2aVariables a'atoireiil

2.2.5

loi hypergomtrique Zle(N, n, p) ou du tirage exhaustif

Soit une population de N individus parmi lesquels une proportion p (donc Np individus)! possde un certain caractre. On prlve un chantillon de Il individus parmi cette populaL; tion (le tirage pouvant s'effectuer d'un seul coup ou au fur et mesure mais sans remise).": Soit X le nombre alatoire d'individus de l'chantillon possdant la proprit envisage.'; X suit la loi hypergomtrique et l'on a :

min X = max (0 ; n - Nq) ;

max X = min (n ; Np) ;


nombre d'chantillons possibles; C Np
C,/=:~vp

nombre de groupes de x individus possdant la proprit; nombre de groupes de (n - x) individus ne possdant pas la proprit.

Le nombre

nI N est appel taux de sondage.


,

On peut considrer X comme une somme de 11 variables de Bernoulli XI' X 2, indpendantes correspondant aux tirages successifs de 11 individus. On sait que E(X I )

XII nan

Nous allons montrer que ces variables Xi ont toutes le mme paramtre gal p.

= P(X1 = 1) et il est vident que P(X 1 = 1) = p.


1). Comme Xl et XI sont lis, on a :

Cherchons E(X1 ) = P(X}

P(X1 = 1)
soit:

= P(X2 = 11x I =

1)P(X 1

= 1) + P(X'!, = 1lx)
+N

= O)P(X)

= 0)

Np-I P(X 2 = 1) = N _ 1 P

Np _ 1 ( 1 - p) p
(N -

Np:' - P

+ Np

- Np!

1)

N- 1

N-}

=p

2.1.5.1

Esprance de l'hypergomtrique

L'esprance ne dpend pas de N et est la mme que dans le cas du tirage avec remise (loi binomiale).

2.2.5.2

Varance de l'hypergomtrique

Comme il n'y a pas indpendance:

V(X)

= 2: V(X i ) + 2 2:cov(X"
i~

Xj ) = 2:V(Xi )

+ 2:cov(X;, X)
i~

,V:lr'iaDI,es

alatoires

37

2:V(Xj ) vaut I1p(1 - p) (terme binomial).


cov(Xi> X) = E(XiXj )
P(XiXj
1)

p2 = P(XiX}

P(Xj =

!lxi =

1)P(Xr = 1) = P('X.i

= 1) - p2 llxi = 1)]1

ne

dpend pas des indices i

et j

et vaut par exemple

N-I
cov(X, X)
l'

=P

Np - 1 ., - pN 1

Comme il Y a n(n - 1) manires de prendre des couples (Xi et X), il vient:


V(X) = np(l

p)

+ lI(n

Np 1 ,] 1) p - p[ N-I

V(X) =

8"
pl.

P (j - pli

Tendance vers la loi binomiale


Si N -'l> co, 'J(N,
11,

p) tend vers r?lJ(1l,

_ Dmonstration

C;VI'C;v--'tv1'
CN

Np! (Np - x)!x!


(Il

(NO
Nq!

p))!
Il

n!(N - 11)!

x)!(N - Np -

+ x)!

N!

= cx_-- --~-- - - (Np - x)! (Nq - Il + x)! N!


/1

(N - n)!

avec q

= 1-

p.

Np! 1 2 3 ----'-- = = Np(Np - 1) ... (Np - x 12 3 ... (Np - x) (Np - x)1

+ 1)

Si N est grand, Np
Donc:

1 ~ Np

2 ...

(Np - x

+ 1) -

Np car x est ngligeable devant Np.

Np!
(Np - x)! - (Nq)/I-X

- (Npy

De mme:

(Nq -

11

+ x)!
CX
/1

et

N! ----Nil
(N - Il)!

donc:

cx

Np

cn-x ~ NI[

(N )X("A' )'J-.t

lVq

C;!.;

Nil

c.q.f.d.

En pratique, ce rsultat s'applique ds que Il/N < 10 c'est--dire ds que la population est 10 fois plus grande que l'chantillon, ce qui arrive frquemment en sondages.

38

2_Variables

Un chantillon de 2000 individus conviendra donc aussi bien pour faire un sondage une vlle de 200000 habitants que dans une ville de 2 millions d'habitants.

2.2.6

lois gomtrique, de Pascal, binomiale ngative

La la; gomtrique est la loi du nombre d'essais ncessaires pour faire apparatre vnement de probabilit p :
P(X

= x) =

p(1 - py-I

= 1,2, ... ,00


p'2

En posant q = [ - p, on trouve aisment:


E(X) = -

V(X)

= p~

YI

2q

Y1

= 9 +q

La loi de Pascal d'ordre Il est la loi du nombre d'essais ncessaires pour observer Il fois un vnement A de probabilit p. L'exprience devant se terminer par A, on a: pour x

= Il, Tl +

1, .. "

00

Cette loi est la somme de nlois gomtriques indpendantes (apparition de A pour la premire fois, puis pour la deuxime fois, etc.), on a:
E(X) = Il

V(X) =-:;-

nq
p-

2 P YI=--

Y'2= 3 + - - nq

p2

+ 6q

La loi binomiale ngative est la loi de Y = X -

Il :

= y) = C:~:;.~'_I pllqY Son nom vient du fait suivant: en posant Q = IIp, P = (l


pey
terme gnral du dveloppement de (Q - P)-Il d'o:
E(X) = IlP Vey) = IlPQ

- p)lp, on a:

YI

P+Q ,JllPQ

y., -

= 3 +--nPQ

+ 6PQ

que ron comparera aux moments de la binomiale fY1(I1, p).

2. 3 2.3.1

DISTRIBUTIONS CONTINUES USUELLES Loi uniforme sur [0, al


1 = - sur [0, a] ; a

Sa densit est:
J(x) J(x)

= 0 ailleurs ~

~\I..,r.j::.nle5

alatoires

39

= :.... sur [0, a] ;

= 0 sur [--::c, 0] ; F(x)

l sur [a, +:0] (voir fig. 2.13).

{(X).
FIGURE

R~)z
a
2.15

Son esprance vaut E(X)

= '2 car la densit est symtrique.

Sa variance vaut V(X) =

I
()

II

xl -

dx - a 4

al

= -.
12

a2

La somme de deux IOs unformes n'est pas une loi unifonne. Ainsi, soit X et Y deux variables uniformes sur [0, a] ; leur somme Z, si elles sont indpendantes, est une variable de densit triangulaire (fig. 2.16).

a
FIGURE

2a

2.16

2.3.2

loi exponentielle de paramtre

Sa densit estfC-x)

= exp( -

X)

six> O.

On trouve sans difficult:

En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits lectroniques. L'esprance l/ est souvent appele le MTBF (NJean Time Betweell Failllre) et le
'f ' t aux de de 'aI11 ance car 1 z(x) =
f(x)

1 - F(x)

et est constant.

40

2 . .Variables alatoires

2.3.3

lois gamma

La loi exponentielle est un cas particulier d'une famille de lois appels lois 'Y. Prcisment, si X est une loi exponentielle de paramtre x., X.X est une variable suivant une loi "YI' On dit qu'une variable alatoire positive X suit une loi gamma de paramtre r, note 'Yr si sa densit est donne par:
f(x)

= -f(-r) ex4P(-X) x

... 1
-'

Il s'agit bien d'une densit carf(x) est> 0 et

Jo

r~f(x) dx =

1 par dfinition de fer). Les

lois "Ir avec rentier> 1 sont aussi connues sous le nom de lois d'Erlang.

2.3.3.1

EsPrance
1

E(X)

= ri
f(r + 1) fer)

En effet:
E(X)

-1 L:Oxr exp( -x) dt -

fer) ()

=1'

2.3.3.2

Variance

En effet:
V(X)

E(X -) - [E(X)]-

.,

.,

= - 1 LOC
fer)
x

exp(-x) dx -

1'2

soit :
V(X) =

f(r + 2) ... - r"" = (r I (r)


1

+ 1)., 1) - - - - r- = r(r
fer)

1) - r-

.,

Cette loi prsente donc une certaine analogie avec la loi de Poisson mais en continu. Les courbes de densit sont reprsentes la figure 2.17. Les lois "Y vrifient la proprit d'additivit suivante:
THORME

Si X el Y sont des W-triables indpendantes suivant respectivement des lois 'Yr et "'1.0 alors X + Y stlil ulle loi 'Yr +S' Ce rsultat sera dmo1lfr au paragraphe 2.5 de ce chapitre.

Les lois 'Y sont lies aux lois du X2 utilises en statistique par une fonnule simple (voir chapitre 4) : Si X suit une loi 'Y" 2X suit une loi X~r'

41

FIGURE

2.17

2~3.4

Lois bta
Loi bta de type 1
Il

2.3.4.1

C'est la loi d'une variable X; 0:5 X:5 1 dpendant de deux paramtres densit est:

et p dont la

. 1 1 }(x) = - - x " - (1
B(n, p)

n,p

>0

ou B(n, p) = f

f(n) f(p) (Tl

+ p)

On trouve:

Ces lois sont utilises en statistique baysienne pour reprsenter la distribution a priori de la probabilit d'un vnement. L'allure de quelques courbes de densit est donne par la figure 2.18.

2.3.4.2

Loi bta de type "

Soit X une variable suivant une loi bta T(Il, p) ; par dfinition, Y X/(l - X) suit une loi bta de type TT dont la densit s'obtient aisment par changement de variable:
J(y)

B(J1,p) (l

+ y)7I+1'
Vey) =
n(n
(p

+P-

., I)-(p - 2)

1')

PROPRIT

Le rapport de deux variables indpendantes suivant des lois 'Yn et 'Yll respectivement suit une loi bta U(1/, p).

42

2.Variables alatoires

3.0 f(x)
r(n+p) xn-1(1_x)P-1 nn) r(p)

2.0

1.0~----~----~----~----~~~----+-----~--~~--~

a ~~~----+----+--==~----~---+----+---~----~--~
o
.1 .2 .3

.4

.5

.6

.7

.8

,9

1.0

FIGURE 2.18

La dmonstration est laisse au soin du lecteur. Les diverses valeurs de Il et p font que cette loi s'adapte bien la reprsentation de nombreux phnomnes alatoires positifs (temps d'attente, dures de vie, mthode Pert avec dure alatoire). Ces lois sont lies aux lois de Fisher-Snedecor utilises en statistique (voir chapitre 4).

2.3.4.3

Loi de l'arc sinus

La loi bta 1 (l/2 ; I/2) dont la densit est j(x) =


'Tf

.y

x(l - x)

porte le nom de loi de r arc

sinus car sa fonction de rpartition est:


2 . F(x) = - arc sm (',lX)
'Tf

On a E(X) = 1/2,

V(X)

= 1/8, 'YI = 0, "Y1 =

1.5.

Cette loi assez paradoxale, puisque l'esprance est la valeur la moins probable et les valeurs extrmes sont les plus probables, s'applique en particulier dans certains phnomnes lis aux jeux de hasard. Par exemple, deux joueurs jouent un jeu quitable (du type pile ou face). Soit S" S2, ... Sil la suite des gains d'un des deux joueurs; si X dsigne la proportion du temps pass en gain positif, la loi limite de X quand 11 ~ 00 est la loi de l'arc sinus. Il y a donc plus de chance d'tre constamment en gain ou constamment en perte que d'tre dans le c~c;; mdian (c'est la loi de la persistance de la chance ou de la malchance ...).

... __ \I.,"'~lnIE!~

alatoires

43

Cette loi a pu tre appliqu la persistance du temps en mtorologie et rend compte du fait qu'il est plus frquent de battre des records (de froid ou de chaud) que d'avoir un temps moyen.

2.3.5

La loi de laplace-Gauss

Cette loi joue un rle fondamental en probabilits et statistique mathmatique. Elle constitue un modle frquemment utilis dans divers domaines: variation du diamtre d'une pice dans une fabrication industrielle, rpartition des erreurs de mesure autour de la vraie valeur J>, etc. Malgr son appellation malencontreuse de loi normale(l), elle est cependant loin de dcrire tauS les phnomnes physiques et il faut se garder de considrer comme anormale une variable ne suivant pas la loi de Laplace-Gauss. Son rle principal en statistique provient en ralit de ce qu'elle apparat comme loi limite de caractristiques lies un chantillon de grande taille. Le thorme central-limite que nous tablirons au paragraphe 2.7 montre que dans certaines conditions la somme, et donc la moyenne, de variables indpendantes et de mme loi est asymptotiquement une loi normale.

X suit une loi normale LG(m ; cr) si sa densit est(l) :

f(x)

1 exp ( - - - 2 rr

(x - m)3)
'-----_.

Par suite de la symtrie defet comme l'intgrale de X converge,

Avec le changement de variable alatoire

on trouve que la densit de

U est:

U est une LG (0, 1), donc toute variable X LG (111 ; rr) se ramne simplement la variable
U par X = m

+ rr U.

Montrons que V{ U) = 1 :
V(U) =

J+:C_l-ltlexP(-~1I2)dll = ~ (:Z:li2exP(-~ll:!)dtl
-:::12;
LI

12;Jo

Posons t =

UZ/2,

il vient

du = dt :

V(U) = - 2

-r; ()

LXexp(-t) dl = - f(3) = - - f (1) 2 - 21 -r;


2

{:IT 2

I_Cette dnomination fut introduite par K Pearson qui voulat viter les querelles d'antriorit concernant son introduction en statistique et l'a d'ailleurs par la suite comme l'indique cette ct3tion : Many years ago 1called the LoplaceGaussian curve the normal CJ)rve nome, while ![ ovoids an intemational question o{priority, hos tlle disadl/onfage ofleading people iD beJieve that 011 other distributions or rrequency are in one sense or anor.her 'obnorma/:That belie{is, or course, nOt juslJ~Qble, Ir has 100 many writers ta /.ry and (oree 011 rrequency by aid or one or anor.her process o(distorrJon into a 'normal' (urVe (paper read

to the Society of Biometricians and Mathematical Statisticians, June 14, 1920). 2_La notation LG sera utilise couramment dans cet ouvrage. La notation N(m : (T) sera galement utilise.

44

2.Variables alatoires

comme

=.Ji:

11 en rsulte que rr est l'cart-type de X. La fonction de rpartition et la densit de X sont reprsentes sur la figure 2.19. Les points d'inl1exion sont :trr de part et d'autre de
ilL

0.45 1.000 .875 Fonction de rpar1ition

37 .

7
o
20 30' 40 -40' -30 -2cr -cr
FIGURE

.250

-40' -30 -20 -cr

0'

20 30' 40

2.19

2.3.5.1

Valeurs remarquables
P(m P(m P(m

1.64rr < X < 1.96rr < X < 3.09rr < X <

111
111

1.64rr)

111

+ 1.96rr) + 3.09rr)

0.90 0.95 = 0.998

2.3.5.2

Moments

Ils existent pour tout ordre. Pur suite de la symtrie, tous les moments d'ordre impair sont nuls. Calculons les moments d'ordre pair:
IL"

Lu"
:

exp ( -

~ )dll =
Il'

2 i"H"ex p ( -

11'

)dll

Posons y

li:! /2

2_ Variables alatoires

45

d'o:

11lk

21;: = -J; r

+ 2'

t)
= 1 35 ... 2k - 1 ,r;;;

Comme:

r (k + ~) =

1 . 3 5 ... (2k - 1)

(i)

(voir annexes) il vient:


1-L2k

1-.J .. (2k - 1) =

"'l

(lk)!

on en dduit 1-L4

= 3, d'o "12 = 3.

2.3.5.3

Additivit

Les variables de Gauss possdent la proprit d'additivit.


THORME

Si Xl et Xl sont des variables indpendantes suivant respectivement des lois LG(m, ; cri)

et LG(ml ; cr1) alors XI +

est une variable LG(m 1

+ m2; ..,Jcrf + cri)

Ce rsultat fondamental sera dmontr au paragraphe 2.6 ft J'aide des fonctions caractristiques. On ne peut cependant pas dire que toute combinaison linaire de p variables gaussiennes non indpendantes soit encore gaussienne. Il faut pour cela que le p-uple de variables suive une loi normale p-dimensions (dont c'est prcisment la dfinition. cf chapitre 4).

2.3.5.4

Loi de U2
U 2 est:

D'aprs la formule tablie la fin du paragraphe 2.1.2.2, la densit de T


g(t)

(()

= _1_ t -1/2 ex p
{2;

(-!..) 2

en remplaant

f(t} par

ex~ - ~ ,,1), on remarque que U"/2 suit une loi "Y 111 ou loi du

khi-deux un degr de libert (voir chapitre 4).

2.3.6

La loi log-normale

Laplace~Gauss

C'est la loi d'une variable positive X telle que son logarithme nprien suive une loi de : ln X - LG( 111 ; cr) Sa densit s'obtient par un simple changement de variable et on trouve:

f(x) = _1_

(Jx~

exp(_~(ln x
2

cr

111\2)
)

46

2aVariabies alatoires

E(X)

= exp(m + ~')

V(X) = (exp(2m

+ rr 2(exp al

- 1)

On utilise parfois la loi log-normale trois paramtres -y, 111, rr telle que: ln (X - "1) -- LG(m ; rr) avec X> "1.

La figure 2.20 reprsente la denst de la loi log-normale d'esprance 2 et d'cart-type 1 :


(m
0.6

= 0.58

= 0.47)

0.5

OA
0.3

0.2 0.1

2
FIGURE

2.20

2.3.7

loi de Cauchy
1
TI(1

C'est la loi d'une variable X relle de densit:


f(x) =

l L Sa fonction de rpartition est F(x) = - arc tg x + -,


TI

X ne possde aucun moment fini car l'intgrale

~ TI(1

dx diverge.

On montre que la loi de Cauchy est la loi du rapport de deux variables LG(O; 1) indpendantes. Elle s'identifie TI variable de Student de degr 1 (voir chapitre 4).

2.3.8

loi de Weibull

Trs utilise en fiabilit, la loi de Weibull deux paramtres donne la probabilit qu'une dure X de fonctionnement sans dfaillance soit suprieure x par:

Ip(x > x) = e -w"l

47

En d'autres termes,

x)(r (f3 suit une loi exponentielle.


~ (~)a -Ie-(~)" ~ ~ ...

La densit de X est: f(x)

Le paramtre Cl, qui est sans dimension, est appel paramtre de fOffile. Selon ses valeurs, la densit de probabilit est plus ou moins dissymtrique. Le paramtre de forme est li au vieillissement: quand il vaut l, on a une loi exponentielle caractristique des matriels sans usure ni fatigue. Quand il est plus grand que 1, on est en prsence de fatigue: le taux nstantan de dfaillance Il(x) est alors croissant avec x :
h(x) =
Ct f3 (x)U f3
1

Si

Ct

est infrieur l, on a affaire un matriel qui se bonifie avec le temps.

Le paramtre !3 s'exprime dans la mme unit que X (jours, heures, nombre de cycles, etc.). C'est un paramtre d'chelle li la dure de vie mdiane par:
~=--.,.-

mdiane

La figure 2.21 donne la densit d'une loi de Weibull avec a:

2 et

r3 = L

o
FIGURE

2
2.21

La relation E [
. 'd prece ent ( =
.!.

(~)'] = r (1 + ~) permet de calculer les moments de X. Dans l'exemple


~

"fl

et

= 1, on trouve E(X)

= { ; et V(X)
2

= 31T. annexe 4). - (vOlr 4

2.3.9

Loi de Gumbel

Cette loi est utilise pour les distributions de valeurs extrmes (voir chapitre 12). Sous sa forme standard sa fonction de rpartition est: 1F(x)=exp(-exp(-x1

48

2 . . Variables alatoires

soil:

J(.\:) = exp(-x - exp(-x)

(fig. 2.22)

ex p( - X) suit donc une loi 'Y l'

.5

f (x) = exp (-x) e)(p (- exp (-x))

.4

-3

-1

o
FIGURE

2.22

Ses moments sont:


E(X) = 0.57722 ...

(constante d'Euler)

V(X)

="6
= 1.29857
5.4

7-

.,

'YI

"12

La loi de Gumbel est utilise pour modliser des phnomnes tels que: crue maximale annuelle d'une rivire, magnitude du plus grand tremblement de terre enregistr en une anne, etc.

2.4

lE PROCESSUS PONCTUEL DE POISSON

Considrons une famille XI de variables de Bernou11i (X! = 1 si un vnement (arrive d'un client, accident, appel tlphonique ... ) se produit l'instant t) : on s'intressera la rpartition des dates d'arrive des vnements, ainsi qu NI nombre d'vnements entre o et f.

49

flux poissonnien d'vnements


Un processus de Poisson reprsente l'apparition d'vnements alatoires El, E2 etc., satisfaisant aux trois conditions suivantes: Les temps d'attente entre deux vnements El E2' E2 pendantes (processus sans mmoire).
,

E,!,

etc. sont des variables ind-

La loi du nombre d 1 vnements arrivant dans l'intervalle ft; t + Si T l , on notera c son esprance, dite ({ cadence ). Deux vnements ne peuvent arriver simultanment.

Tl

ne dpend que

Soit Po (Il) la probabilit qu'aucun vnement ne se produise pendant une dure Il ; d'aprs delUXleI111e condition, Po (Il) ne dpend que de Iz et non de l'instant considr. Soient trois instants t, t + h, t + Il + k. La probabilit qu'il ne se passe rien entre t et t+ h + k est Po (h + k) ; d'aprs l'axiome cl' indpendance, on a : vil, v/.:. Po (Il + k) = Po (II) Po (1;:) D'o le rsultat:
POU,) = exp( -cil)

avec c> 0

Nous montrerons par la suite que c est bien la cadence du phnomne.

10

8
6
~

2
0 0
2

10

12

14

16

18

FIGURE 2.23

Une trajeclOire d'un processus de Poisson avec c = 1 ; en ordonne le nombre cumul d'vnements depuis t O.

2.4.2

tude de la dure T sparant deux vnements conscutifs Ei et f + 1


j

Soit T cette dure qui est une variable alatoire, la probabilit que T> t est gale la probabilit qu'il n'arrive rien pendant une dure t soit:
P (T

>

t) = exp( -ct)

50

2.Variables alatoires:

d'o la fonction de rpartition de T: peT < t) = l - exp( -ct}. La densit vaut alors.
1(1) ::::.: exp ( -ct)c il s'ensuit que cT suit une loi 'YI' donc E(T) = 1/c.

2.4.3

tude de la dure Y sparant n


Il

1 vnements

Yest une variable alatoire somme de


y = TI

variables indpendantes de mme loi:

+ T2 + ... + Til
II

soit:
c Y = cTI

+ cT]. + ... + cT

(fig. 2.24)

y
FIGURE

2.24

donc c Y suit une loi "VII ; la densit de Yest :

2.4.4

tude du nombre d'vnements se produisant pendant une priode de dure T fixe

THORME

Le nombre d'vnements suit une loi de Poisson de paramtre cT.

_ Dmonstration: Soit AB la priode d'tude (fig. 2.25) :

A
FIGURE

B
2.25

1).

On a la relation vidente: peN

= n) =

P(N;::: n) - P(N;::::

Il

La probabilit peN :.:: Il) est aussi la probabilit que la dure AEn soit infrieure il T; cette dure est constitue de AEJ + EIE1 + ... EH-lE" qui sont des lois exponentielles indpendantes ~ donc c AE'I suit une loi 'Vil et r on a :
P(N = Il)

exp( -ct)

(Ct)II-1
(n - 1)!

c dt -

!uT
0

exp( -ct) -

(ct)/I

Il!

c dt

,::;;;"'V':IrfrlOleS

alatoires

51

En intgrant par parties la premire intgrale, il vient:


T

exp( -ct)

(ctt-I
(n -

l)!

c dt

= 1'1'exp( -ct) d ((ctt) 0 11!

= exp(-cT) - - +
n!

(cT)'1

lT
0

exp(-ct) -

(ctY' c dt n!

peN

Il)

= exp( -cT)-1/!

(cTr'

trouve E(N)

= c ; c est donc bien la cadence dfinie au dbut de cette partie.

pplication importante: Relation entre loi de Poisson et loi du X2


loi f1J() on a :
P(N:5 11)

= P(X~(I'+l) >

2.)1

il suffit de considrer un processus de Poisson de cadence c


P(N:5 11)

1, observ sur une dure . :

= peT, + T2 + ... + TI/_ 1 > = P(2"Y1I+' >


2)

P("YII+I

> )

P(X;(1I+1)

>

2.)

2.4.5

tude de la rpartition des dates El, E2' ... En dans l'intervalle AB

Posons A = 0 et cherchons la loi de probabilit conjointe des dates E" El' ... , EII et de N nombre d'vnements survenus. La probabilit pour que le premier vnement se passe entre t, et t,

+ dt,

est:

c exp( -ct l ) dt l .
La probabilit conditionnelle que E 2 arrive entre t 2 et t1 c exp(-c(t1 - t\ dt l , etc.

+ dt 1

sachant E, est:

La probabilit qu'aucun vnement n'arrive aprs EH sachant la date de EII est: exp(-c(T - fil ; d'o:

La loi conditionnelle:
. C'l

jU], '1' ., " ',iN

= Il) =

exp( -cT) (cT)"

11!

Til

exp(-cT) - -

n!

ce qui prouve que les instants t" 12 , , ., fil constituent un chantillon ordonn de la loi unfonne sur [0, T] : en effet, si l'on s'intresse seulement aux dates et non leur ordre, il faut diviser par Il! qui est le nombre d'ordres possibles,

52

2aVariabies

2.4.6

Le processus (Nt)

D'aprs ce qui prcde, Nt suit pour tout 1 une loi de Poisson f!P(ct). Comme E(Nt) = ct V(N I ) , ce processus n'est pas stationnaire mais il est accroissements stationnaires indpendants puisque 't;/h, NI + 11- NI = (!}(h). La fonction de covariance de ce processus est facile obtenir: si s> 1 : CU, .'1) = cov(Nt ; N.() = cov(Nt ; Nt + X) = VeNt) + cov(Nt ; X) : or X une variable indpendante de NI (accroissements indpendants) donc: si s 2: t : C(t ~ s) = VeNt) = cl; et on trouve de mme si t> s : CU, s)

1C(t ; s) = c inf Ct ; s)1


Cette fonction est continue en t = s donc le processus est continu en moyenne tique. Cependant, aucune trajectoire n'est continue puisque (NI) est une fonction alatoire escalier (incrments de 1 chaque vnement).

2.5

CONVOLUTION

Un problme courant consiste trouver la loi de probabilit d'une somme de deux bles indpendantes Z = X + Y.

2.5.1

Cas discret
z)

Le thorme des probabilits totales donne la solution du problme:


P(l

= 22 P(X = x n
.\"

= z-

x)

= 22 P(X = z )'

ny

y)

Lorsque X et Y sont indpendantes, on a :


1 P(Z

= z) = ;

P(X

= x)P(Y = z -

x)!

Sinon, on peut toujours crire:


P(l z)

= 2: P(X = x)P(Y

z: - x/X

x)

Remarquons que, pour la sommation, x ne prend pas ncessairement toutes les possibles de X mais uniquement celles compatibles avec l'vnement l
lIIIIIl Exemple: Soit X et Y, deux variables de Poisson indpendantes de paramtres respectivement:

et IL

P(X = x) = exp(-)-

x!

pey

= y)

/-LY = exp( -/-L)-

y!

On a donc:
.r=~

P(Z =;::) = 2:exp(-)-exp(-/-L)--.r=O x! (z x)!

53

en multipliant et divisant par z! : exp(-( P(Z = z) = _! ...:,.

11.)
r--

x=;:

~ C~ X/-1:-x
~

x=o

exp( -(

/-1))

z!

/-1)~

z= X + Yest donc une variable de Poisson !P( + /-1).


Cas gnral
loi de probabilit de Z

liIIII

=X +

la loi de Zn' est autre que la mesure image de Pxr par l'application de ,
L.lV" .......... -

Ys' obtient grce au thorme de la mesure image: en 1R2 dans IR dfi-

X et Y sont indpendants, on a donc le rsultat suivant:

La loi de probabilit de la somme Z de del/x variables i1ldpendal1tes est la mesure image de Px 0 p~. par l'application (x, y) ~ x + y de ~2 dans ~.

Note Px bore:uen B :

* Pl' = Pz (produit de convolution de deux mesures), elle est telle que pour tout
Pz(B)

LIl.(x
LIl

+ y) dPx(x) 0

dP,.(y)

On remarquera le caractre symtrique en x et y de la formule prcdente. En particulier, si X et Y admettent des densits, on a :


Pz(8)

B(X

y)f(x)g(y) dx dy

Posons x

+ y = z, x = li et appliquons le thorme de Fubini:


Pz (B)

= =

LIlIJ(z)f( Il) g(z - Il) dll dz

J~

lln(z.) dz

feu) g(z. - li) dll

f)x

D'aprs la dfinition des variables continues, on en dduit que Z admet pour densit:

k(;.)

f(lI) g(z - li) du

DI'

g(y) fC:

- y) d)'

Dl

les domaines Dx et DI' tant les ensembles de valeurs de X et de Y respectivement compatibles avec l'vnement Z = z.

54

2.Variables alatoires

Par intgration, on en ddui t :


P(Z

<

7,)

K(z)

JfJ

r J(x) G(z x

x)dx

g(y) F(z - y)dy

DI'

Gomtriquement, K(z) reprsente la mesure du domaine hachur (fig. 2.26).

FIGURE

2.26

2.5.3
2.5.3.1

Applications
Somme de lois 'Y
1
(1')

Soit X de loi "Ir J(x) = f pendante.

exp( -x) X,-I et Y de loi 'Ys g(y)

exp(-v) r(s) -

1 ind-

k(z) =

' l
-

() fer)

exp( -x) X,-I

1 exp( -(z - x (z r(s)


-

= n,)ns)
Posons x

l'

-,'-1 (z - xy-Ids

= Iz, il vient:
k(z)
exp(-z)i
f(r)r(s)
0
l

r'-

(z - tzY- 1 dt
Ir-I

d'o:

k(z) =

exp( -z)zr+,f-11 l
f(r)r(s)
0

(1

t)s-l dt

k(z)

exp( -

z)

1C

2_Variables alatoires

55

'7') k(- tant une densit, la constante c vaut ncessairement f

Cr +

s)

puisqu'on reconnat

l'expression de la densit d'une loi -y, On en dduit une preuve (probabiliste) de la fonnule :

I
Il

t r- 1 (l - t),\ - 1 dt
-ys

f(r)f(s-)

f(r

'

s}
J'

Donc si X est une -y r et Y une

indpendante, X

+ Y est une -y r +

2.5.3.2

Somme de lo;s uniformes sur [0, 1]

Soient X et }' deux variables continues uniformes sur [0, 1], La loi de leur somme s'obtient par l'argument gomtrique suivant: le couple (X, Y) est unifonnment rparti sur le carr unit et l'vnement Z < z correspond la zone hachure dont il suffit alors de trouver la surface. K et k ont deux dterminations mais sont continues (fig. 2.27).

1 Y

o
z<1 K(z)

1X

o
z> 1
K(z} = 1 _ (2
2
Z}2

1X

P(Z < z) K(z) = z

=2

Z2

Iz) =2 FIGURE

2.27

2.6 2.6.1
2.6.1.1

FONCTIONS CARACTRISTIQUES Dfinitions et principales proprits


Dfinition

La fonction caractristique d'une variable alatoire relle X est la transforme de Fourier de sa loi de probabilit. EIle est note 'Px et on a :
'Px(t)

= E [exp(itX)] = LexP(itx) dPx(x)

Cette fonction existe toujours car Px est une mesure borne et ]exp(itX)[ = L. Il s'ensuit que la fonction caractristique est continue.

56

Lorsque X possde une densit:


<.px(t) =

JB

(eXP(itx)f(X) dx

2.6.1.2

Fonction caractristique d'une forme linaire


'-P ;L\' (1)

= '-Px (I..t)
111

....

<.pX+a(t) = expUta )<.px(t)

et on en dduit, si X est une variable d'esprance

et d'cart-type cr, en

I!U~ilnr

U = (X - ln)/cr :
'-PX-Ill (t) = <.pu(t)
(r

itm) cr = exp (-cr <.px(t)

<.px(t)

exp(itm) <.pu(crt)

2.6.1.3

Convolution
L

La fonction caractristique se prte bien aux additions de variab1es alatoires ~md-llL'peIl-,j~ dantes : la fonction caractristique d'une somme de variables indpendantes est gale au produit de leurs fonctions caractristiques: .)

En effet:
<.pXI+X/!) =

E [exp(it (XI

+ X2]

E [exp(itX 1) exp(itX2)]

si XI et X 2 sont indpendantes, il en est de mme pour exp(itX\) et exp(itX2) et l'esprance du produit est alors gal au produit des esprances. Notons au passage qu'il ne s'agit donc pas d'une condition ncessaire et suffisante d'indpendance.

2.6.1.4

Cas dJune distribution symtrique

Supposons la loi de X symtrique par rapport l'origine. Alors la fonction caractristique de X est relle :
<.pX( -t)

exp( - itx) dPx(x)

Po

J~

( exp(itx) dP x ( -x)

La premire intgrale vaut '-Px(t) et la deuxime est gale <.px(t) cause de la symtrie car dPx(x) :.:::; dPx( - x).

2.6.1.5

Drives IJorigine et moments non centrs

Notons tout d'abord que 'l'x (0) = 1 car 'l'x(O) = totale gale 1.

dPx (x) Px est une mesure de masse

::::::;"'\./.. r'I:1n1iES

alatores

57

Si les drives existent jusqu' l'ordre k, on a:


1

q>:~)(O)

= jkE(X k )

effet,

'P~)(t) = ((ixi exp(lx) dPx(x) par drivation sous le signe somme. En particulier:
Jr~
q>,~(O) = iE(X)

q>_~(O) = - E(X 1 )

Si CPx(t) est indfiniment drivable, la formule de ivIac-Laurin donne:


'Px(t)

2.: 1
I:=(]

Je

ikE(X k )

Unicit et inversion de la fonction caractristique


D'aprs les proprits des transformes de Fourier, deux variables ayant mme fonction caractristique ont mme loi de probabilit: la fonction caractristique dtermine donc de manire unique une distribution de probabilit d'o son nom. Les formules d'inversion de la transforme de Fourier permettent d'obtenir la loi de X connaissant CPxU).
THORME

Si

Jn1

(1 'Px(t)1

dl

<

::::0

alors X admet Ime densit f(x) continue et :

J(x)

= ~ (. q>xU) exp( -ilx) dt 21TJ~

Sinon, on a toujours le rsultat suivant (admis) :


F(b) - F(ll)

T--:::;

hm 27i

J+T'Px(t) exp(-ita) -.
-T If

exp(-itb)

dt

Une fonction quelconque n'est pas ncessairement une fonction de rpartition; de pour qu'une fonction <p(t) saiL une fonction caractristique elle doit vrifier certaines proprits. Le thorme suivant, que nous ne dmontrerons pas, identifie 1es fonctions caractristiques aux fonctions de type positif >:>.
THORME (BOCHNER)
POli r qll 'wle fOllction continue 'P soil tille fOllction caractristique, il fmtt et il suftt que pour toute famille finie t). 12, , tl! de rels et pOlir toute famille finie de complexes Z il Z:h .. '\ ZI! on ait:

2: 2: 'P(ti i=lj==1

Il

Il

t)zizj

58

2.Variables

""",:>rr\l",'~_

2.6.2
2.6.2.1

Fonctions caractristiques des lois usuelles


Lois discrtes

Lo de Bernoulli: lPx(t) = P exp(it)

+ q avec q
Il

l - p. variables de Bernoulli
md,pi:ndlanlte8.;':~

e Loi binomiale: Comme X est une somme de on trouve:

<PxU) = (p exp(it)

+ q)11

Loi de Poisson :
lPx(t) = exp(. (exp(it) - l))

En effet:

E[expUtX)]

= .~Jexp(itx) exp(-.) x! = exp(-.).~


::L

.x

""

(. eXPUt y ) x!

= exp( -.) exp (. exp(it))

2.6.2.2

Lois continues
sin at

.. Loi uniforme sur [-a, a] :

<Px (t)
En effet: E[expUt X)]

= ---;;;_1_. [exp(iat) - exp( -;at)]

~f:!::fexP(itx) dt = 2a
+ i sin at.

2mt

cl' o le rsultat avec exp(iat) = cos at

e Lois gamma: Si X suit une loi 'YI' c'est--dire une loi exponentielle de paramtre 1, on a:

1
1 - it

En effet:

lP yl (1)
/1

= (::::exp (itx) exp( -x) dt = (:0exp( -(1

Jo

Jo

- it)x) dx

D'o, pour tout

entier:

car une "YII est une somme de

Il

"YI indpendantes.
1
(l -

Pour r quelconque, cette formule se gnralise et cp" (1) =


Ir

;tY

Remarquons que le calcul formel suivant conduit au rsultat:

""exp(itx) - 1 exp( -x) x rel') 1o

dx = -

fer)

1:>0exp(-(1
0

it) x) x r - I dx

21l1i1Variabies alatoires

59

en posant (1

iOx

= li :
0

fer) == -l-1:>:exp(-u)u r - t - - - d u = - - - - fer)


(l

itY

f(r)(l

iI)r

(1

ity

Il convient cependant de justifier ce rsultat car il s'agit d'une intgrale dans le champ complexe. Nous le laisserons au soin du lecteur.
Loi de Laplace~Gauss : Si U est la loi LG(Q ~ 1) :

l'Pit) = exp( -t /2) 1


2

On peut obtenir ce rsultat directement car on sait que E( Uk )

Q si

k est impair et

E(U

2k )

(2k)! == 2k kl'
la formule de Mac-Laurin :
k

"D~aprs

1)

2k! 2kk!

Remarquons qu'ici aussi un calcul formel (qui devrait tre justifi par une intgration dans le plan complexe) donne le mme rsultat:

+X

-x~

exp( -x 2/2) exp(itx) d~ = -

f+::<:exp ( -;; [x 1
-x _

- itf t 2/2 dt

= exp( -[2/2)

'I-::t;

-:x:

exp

(1 [x - )2dt -'2
it]

et l'intgrale vaut 1 car c'est l'intgrale de la densit d'une variable de Gauss imaginaire (1) de moyenne it et de variance 1. Si X est une LG(m ; 0") :

on en dduit que la somme de deux variables de Gauss indpendantes est encore une variable de Gauss:

donc XI

+ X2 suit une LG(m 1 +

Ill']. ;

).

60

2 _ Variables

alei'l.toilres;i,~

2.6.3

fonctions gnratrices

Il en existe deux fonnes assez voisines; en es servent essentiellement calculer les mc)m(~nt~~,;~ de variables alatoires et de sommes de variables indpendantes car la fonction gnratrice produit de variables indpendantes est gale au produit de leurs fonctions gnratrices. Pour des variables valeurs entires positives, on utilisera la forme suivante:
gx(t)

= E(tx) =

2: tllP(X =
112:0

Il)

Par drivations successives en zro, on trouve facilement que g~)(O) = Il! P(X qui prouve que la fonction gnratrice dtermine la loi de probabilit de X. Sous rserve d'existence, les drives successives en l sont gales aux moments factoriels:
g,\-(l) = E(X)
g~~(1,) = E(X(X g~)(l) = E(X(X -

1
1)(X - 2) ... (X Il

1))

Pour des variables quelconques, on appelle fonction gnratrice des moments:


Nlx(t) = E(e 'x )

qui est donc la transforme de Laplace de -X. Sous rserve d'existence, on a:


E(XII) = A;f~')(O)

Les fonctions gnratrices sont lies la fonction caractristique par :


gx(t)

= <Px( - j In(t)

Mx(t) = lPx( -it)

2.7

CONVERGENCES DES SUITES DE VARIABLES ALATOI RES Les diffrents types de convergence

2.7.1

Une suite (XII) de variables alatoires tant une suite de fonctions de dans III il existe diverses faons de dfinir la convergence de (X,J dont certaines jouent un grand rle en calcul des probabilits.

2.7.1.1

La convergence en probabilit

DFINITION

La suite (XII) cOllverge en probabilit vers la constante a si, 'dE et 11 (arbitrairement petits), il existe /lo tel que Il > 110 entrane:
p(IX'1 -

al > E) < 11

2 ..Variables alatoires

61

On note alors (XII)

a.

On dfinit alors la convergence en probabilit vers une variable alatoire X comme la convergence vers 0 de la suite XII - X. Lorsque E(X/I) ~ a, il suffit de montrer que V(Xn) ~ 0 pour tablir la convergence en probabilit de X'l vers a. En effet, d'aprs l'ingalit de Bienaym-Tchebycheff:
P( 1XII - E(X,I) 1 > E)

<

V(Xn)
-'l-

E-

On en dduit donc sans difficulL que XII - E(X,J

0, ce qui tablit le rsultat.

2.7.1.2

La convergence presque sre ou convergence forte

Dfinissons d'abord l'galit presque sre de deux variables alatoires:


'''' DFINITION

X et Y sont gales presque sremellt si P ({ w IX(w)

* Y(w)})

= O.

C'est l'galit presque partout des fonctions mesurables. On dfinit donc ainsi des classes

de variables alatoires presque srement gales.


La convergence presque sre se dfinit alors par :
DFINITION

l
l

La suite

(XII) converge presque srement


P( {w IlimXn(w)
II-X

vers X si :

* X(w)})

et on noIe Xn

lU

X.

En d'autres tennes, l'ensemble des points de divergence est de probabilit nulle. Remarquons que la limite de (XII) n'est pas unique mais que deux limites sont presque srement gales.

Il est immdiat de montrer que la convergence presque sre implique la convergence en probabilit.

2.7.1.3

La convergence en moyenne d'ordre p

Si E[(X" DFINITION

X)"l

existe, on a :

(XII) ~ X en moyen1le d'ordre p si E

tlx

lI -

xl"J ~ O.
2.

La plus utilise est la convergence en moyenne quadratique si p

La convergence en moyenne d'ordre p implique la convergence en probabilit.

62

2.7.1.4

La convergence en loi

Bien que la plus faible, eUe est trs utilise en pratique car elle permet d'approximer fonction de rpartition de XII par celle de X.
DFINITION

La sL/te (XII) cOJz\'el___r::e ellloi l'ers la \'Clriable X defonction de rpartition F si, en de COJ1fiJ~tit de F, la suite (Fil) des fOllctions de rpartition des XII converge vers F. Ilote XII ~ X.
Un thorme d Polya tablit que si F est continue alors la convergence est uniforme.

Pour des variables discrtes, la convergence en loi vers une variable discrte s'exprime P(X II x) ~ P(X = x). C'est ainsi qu'on a tabli la convergence de la loi binomiale vers la loi de Poisson.

Une suite de variables discrtes peut cependant converger en loi vers une variable corltmlue!!~ (voir plus loin). On montre galement que, SI (XJ est une suite de variables de densits hl et X une de densit./: alors :

vaJlat)lej~~~

X=> '/;I(X) ~f(x)

La convergence en loi est intimement lie la convergence des fonctions caJractristiques!r,~ comme le prcise le rsultat fondamental suivant, que nous noncerons sans dmonstration:
THORME (lEVY-CRAMER-DUGu)

l
l

sute

Si XI! ~ X alors <Px/t(t) ~ <Px(t) uniformment dans tout intervalle fini [- 1/, Il]. Si des fonctions caractristiques <Px,,(O converge \'ers une Jonction <p dont la relle est continue l'origine, alors <p est Wle jonction caractristique et la suite cOlll'erge en loi vers ulle variable alatoire X dom <p est la fonction caractristique.

La convergence en probabilit entrane la convergence en loi et on a, pour rsumer, la rarchie suivante des convergences:
Moyenne d'ordre p
1 ----....

,....-----...,

-vllpq
LG(Q; 1) en

2.7.2

Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace)


. bl es b1I10IJlla1 . . es
np P , a1 Xll_r;;;;;; ors
)

THORME

' . 1 XIl etant une smle (e notant q

l'lIna

:'lJ

rflj (

Il ~

1 - p.

2 I11III Variables alatoires

63

I11III

Dmonstration: La fonction caractristique de XII vaut (p exp(il)

1 - p)1I donc celle

de

X - np

{,u;;; npq

vaut:

'PU)

il) = ( P exp ( _r- + 'Jllpq

iln 1 - P exp -_r- ) 'Inpq


itnp 1)) - _r '1 npq

)'1 (

ln 'P

il) = Il ln ( p ( exp ( _r - 'J Ilpq

Dveloppons au deuxime ordre l'exponentielle; il vient:

In'P =

1I1n(1 + p(_/!- _ ~))


'Illpq 2npq

_ itnp -1 npq

puis le logarithme:
ln 'P =
11

pit [- -1 npq
t"!.

--

pt?

2npq
pt 2

+ -- ---

p2 t?] 2npq

itnp

-1 npq
t2

soit:

ln 'P = - 2q

+-

2q

=-

t"!.

2q

(p -

1)

= -2

car p = 1 - q.
'PU) ~ exp( - t? /2) qui est la fonction caractristique de la loi normale centre-rduite.
E!IIII

Application: Lorsque n est assez grand, on peut donc approximer la loi binomiale par la loi de Gauss. On donne gnralement comme condition np et nq > 5.

Il convient cependant d'effectuer ce que l'on appelle la correction de continuit: la convergence de la loi binomiale vers la loi de Gauss se traduit par le fail que les extrmits des btons du diagramme de la binomiale fJ3(n ; p) sont voisines de la courbe de densit de

la loi LG (np ; -Inpq).


On obtient donc une valeur approche de P(X

= x)

par la surface sous la courbe de 1

1 densit comprise entre les droites d'abscisse x - - et x

+_t

(fig. 2.28).

XP(X = x) = P (

~-.Jnpq

np

<

<

+ ~ - np)
-Illpq

---==---

On aura alors :

P(X ::::;

x)

= P (U <

\: + ~ -.Jnpq

17P )

----==--

64

2.Variables alatoires

~ 1~ ~: .': .

-"\
\
\
\..

FIGURE

2.28

_ Exemple:X @(40; 0.3) IIp = 12; Ilpq = 8.4. La valeur exacte pour P(X
La formule d'approximation avec une loi LG(l2 ; {8.4) donne:

= 11) est 0.1319.

P(
soit:

10.5 - 12 11.5 - 12) <U<----{8.4 -{SA

P( -0.52 < U < - 0.17)

= P(0.17 <

U < 0.52) = 0.6895 - 0.5675 = 0.122

Soit une erreur de moins de 1 'lo.


j -

Quant P(X:::; 11) qui vaut exactement 0.4406) l'approximation normale fournit P( U < 0.17) soit 0.4325. En l'absence de correction de continuit, on aurait trouv

p( U < 1~2) = P(U< -0.35) = 1


2.7.3

peU < 0.35) = 0.3632, ce qui est trs imprcis. _

Convergence de la loi de Poisson vers la loi de Gauss

THORME

Soit (X}.) une famille de variables g;() alors si ~

00,

LG(O~l).

_ Dmonstration
<Px(t)

= exp(.)(exp(it -

1))

d'o:

.... _.V~rl;H)le~

alatoires

65

exp ( . 1\
-\JI\.

it )

+- - ~

il

2~

il vient:

'Px~(t) = exp ~ + it~ 'i

t2 "2 - ~ -

it {i;. = exp

(t l) -"2

La figure 2.29 illustre l'approximation de la loi de Poisson @l(~) par la loi de Gauss de mme esprance et de mme cart-type ~. L'approximation est trs satisfaisante pour ~ > 18. On trouvera en annexe d'autres fonnules d'approximation plus prcises. On a, ici encore, intrt effectuer la correction de continuit.

.300]
.

= 2.0

300]
.200

.300
.

= 3.0 .200

= 4.0

.200

.100

.100

.100

0.000 .L...J-....l...-J......I.--L..+-"..........5.0 0.0 .200

0.000 .L.\--1-J......I.--L..4--l--1....:::s....---+0.0 10.0 5.0 . 200


.

0.000 0.0 5.0 10.0

= 6.0 .100

.100

0.000.L....f:.-1-.1-....L--L..-.j---.J--'---1-.J.4-L--'='--+---0.0 5.0 10.0 15.0

0.000

0.0

5.0

10.0

15.0

o::::,~,
0.0 5.0 10.0 15.0
FIGURE

100

20.0

2.29

2.7.4

le thorme central .. limite

L'tude de sommes de variables indpendantes et de mme loi joue un rle capital en statistique. Le thorme suivant connu sous le nom de thorme central-limite (il vaudrait mieux dire thorme de la limite centre) tablit la convergence vers la loi de Gauss sous des hypothses peu contraignantes.

66
THORME

2.Variables alatoires

Soit (XII) une suite de variables alatoires indpendantes de mme loi d'esprance I-L et d'cart-type (J". Alors:
_

-.r;;

(Xl

+ X, + ... + X - 1111) r
Il

U'

LG(O ; 1).

(J"

_ Dmonstration

Soit 'Px(t) la fonction caractristique de X ; la fonction caractristique de

2: --='-- est

Il

donc

['PX-IL (t)] Il , Or X
rr-..J

~: est une variable d'esprance nulle et de variance l/n_


VI1

(J"

Le dveloppement en srie de la fonction caractristique de X (1

commence par

les termes suivants sont des nfiniments petits d'ordre l/n 2,

Donc, en levant la puissance n, la fonction caractristique de

2: --='--

11

est

quivalente (1 -

~:,)" et tend si n ---> '" vers exp ( - ~) selon un rsultat classique.

On remarque que, si les variables X j sont des variables de Bernoulli, on retrouve comme cas particulier la convergence de la loi binomiale vers la loi de Gauss. On peut dmontrer un thorme encore plus gnral d Lindeberg :
THORME

Soient XI' X]. ' .. , XII des varables alatoires indpendantes pliS forcment de Inll1e loi et d'esprance mi et de variance (J"T. Soit S~ rpartition de (Xi lIli)'

et F(x) la fOl1ction de

Si la conditioll sUvante est ralise:

/1_";

1 Hm [ ,.
Il

S~ i=1 Ixl> eS"

2:
11

x 1 dFi(x)

]
1)

2:(X i

lIli)

alors:

i=1

.!4 U E LG(O;
SIl

2_Variables alatoires

67

La condition de Lindeberg exprime que les variables --,-_ _1 sont uniformment


Sil

- m

petites}) avec une grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par obtenir une loi de Gauss. Ce phnomne est souvent exprim de la manire suivante: si une variable est la rsultante d'un grand nombre de causes, petites, effet additif, cette variable suit une loi de Gauss. On peut y voir la justification de l'emploi abondant et sou vent abusif de la loi de Laplace-Gauss comme modle. Pour tenniner, notons que l'existence des moments E(X) et V(X) est indispensable. La loi 1 de Cauchy de densit sur IR. n'a aucun moment et fournit un contre-exemple classique: on montre que
'Ti(1 + Xl + X..,

+ ... + X
Il

a mme loi que X quel que soit

11.

Il

COIJples de variables alatoires, conditionnement

L'tude de la loi de probabilit d'une variable alatoire Y connaissant la valeur prise par une autre variable alatoire X est fondamentale pour les problmes d'approximation et de prvision. Il faul pour cela connatre en premier lieu la distribution de probabilit du couple eX, Y) qui est une application de (n, P) dans IR:! muni de sa tribu borlienne si il s'agit d'un couple de variables alatoires relles, lIn'est cependanL pas ncessaire que X el Y soient valeurs dans IR.

3.1

TUDE D'UN COUPLE DE VARIABLES DISCRTES

On tudiera ici la distribution d'un couple de variables alatoires valeurs dans des ensembles finis ou dnombmbles ; par exemple la distribution simultane de la somme et du produit des points amens par deux ds,

3.1.1

lois associes un couple (X, Y)


Xi

Supposons que X et Y prennent des valeurs

et )j en nombre fini ou dnombrable.


Y1
X1

3.1.1.1

Loi jointe

Yj

Yq

La loi du couple (X, Y) Px!' est alors entirement dfinie par l'ensemble des nombres :
Px}' (x i ; Jj) = P(X = Xi

y = Yi)

Xi

Pi.

dans le cas fini cette loi de probabilit conjointe peut se mettre sous la forme d'une table. On note Pu
P(X = Xi

ny

Xp

)'j) et bien sr ~~Pij = 1.


i
j

P.j

3.1.1.2

Lois marginales

On appelle lois marginales les lois de probabilit de X et de Ypris sparment. On a d'aprs le thorme des probabilits totales :
fi

Loi marginale de X Loi marginale de Y

P(X =

Xi)

= 2:Pij = Pi.
j= 1

pey =

v) .1

= ""p .. = p " L.J


1] .]

i=1

70
3.1.1.3

3aCoupies de variables alatoires, conditionnement

Lois conditionnelles

Les vnements {X = Xi} et {Y = Yj} tunt de probabilits non nulles on dfinit alors deux familles de lois conditionnelles selon que l'on connat la valeur ) de X ou de Y. Rappelons qu'ici X et Y ne sont pas forcment des variables alatoires relles mais peuvent tre des variables qualitatives. D'aprs le chapitre 1 on a :

Lois conditionnelles de X si Y = Yj :
P(X

= xj Y=

.'j)

Pa
P.j

Lois conditionnelles de Y si X

= x, :
Pi. =

pey
-

x.) =
1

P(X =

Xi

y = y}.)

P(X = x)

Le thorme des probabilits totales (deuxime forme) permet d'crire:


If

P(X =

Xi

n y = y)

22p(x
j= 1

xjY

}j)P(Y

Jj)

l'

= 22p(y = Y/X = xJP(X =


i""l

Xi)

Remarques:
Pour deux vnements BI et 8 2 relatifs Y et X on a :

22 pey E B~jX
XEE 1

x)P(X

x)

formule qui servira pour tendre la notion de probabilit conditionnelle lorsque X = x est de mesure nulle . Il arrive frquemment dans les applications que r on utilise la dmarche inverse : on connat la loi conditionnelle de Y X fix et celle de X et on en dduit alors la loi du couple. Les formules de Bayes permettent d'exprimer une loi conditionnelle en fonction de l'autre:
P(X = x;/Y
-}

v ) =

pey = .J} "IX =


Il

-1" 1

)P(X = t'.) r
Xi)

22p(y = y/X
i""l

= xJP(X =

et :

pey = y/X

= Xi)

if

22P(X
j=1

x;/Y = )j)P(Y = )j)

3 .. Cou ples de variables alatoires. conditionnement

71

L'indpendance entre X et Ys' crit :


Pij

= Pi. P.}

'Vi et j

ce qui revient dire que les q lois conditionnelles de X Y tix (en faisant varier Y) sont identiques; il en est de mme pour les p lois conditionnelles de Y X fix.

3.1.2

Covariance et corrlation linaire

La covariance a t introduite au chapitre 2 pour des variables numriques.


cov(X; Y) = E((X E(X))(Y - E(Y))

= E(XY)

- E(X)E(Y)

On a:

cov(X; X) = V(X)

et

cov(Y; Y)

Vey)

On montrera plus loin que: (cov(X; Y)? ::s V(X)V(Y) ce qui permet de dfinir le coefficient de corrlation linaire p, qui est donc toujours compris entre -1 et + 1 :
p=

cov(X; Y)

Pour deux variables indpendantes p = O. Cependant, la rciproque est en gnral inexacte et un coefficient de corrlation linaire nul n' entraine pas que les variables sont indpendantes. Deux exceptions notables o non~corrlation et indpendance sont quivalents : les couples (X; Y) gaussiens (voir chapitre 4), et les couples de variables de Bernoulli (facile montrer). Les valeurs limites entre Yet X.

l et

+ 1 sont atteintes si et seulement si il existe une relation linaire

3.1.3

Moments conditionnels

Supposons Y relle mais pas ncessairement X qui peut tre une variable qualitative. On peut alors dfinir, sous rserve de l'existence de ces expressions pour le cas dnombrable, l'esprance et la variance de Y X fix.

3.1.3.1

L'esprance conditionnelle

DFINITION

On appelle esprance de Y sachant que X dfinie par .'

x et

011

Ilote E(Y/ X = x) la quantit

E(Y/X

x)

2:yP(Y
y

= y/X = x)

72

3Couples de variables alatoires, conditionnement

C'est donc l'esprance de Y prise par rapport sa loi conditionnelle. On note que E(YIX
x) est une fonction de x: E(YIX

= x)

= <p(x).

Cette fonction cp s'appelle fonction de rgression( 1) de Y en X. Son graphe est le lieu des moyennes conditionnelles de Y sachant X. On voit donc que E(Y IX = x) dpend des valeurs prises par X. On peut alors dfinr la variable alatoire esprance conditionnelle, qui prend pour valeurs E( YI X = x) avec les probabilits P(X = x) :
DFINITION

l
l

On appelle variable alatore esprance conditionnelle de Y sachant X et E(Y IX) la variable dfinie par:
E(YIX) = q:>(X)

011 IlOte

Cette variable prsente un certain nombre de proprits remarquables. Tout d'abord la linarit comme consquence de sa dfinition en tant qu'esprance:

mais surtout on a en prenanll'esprance de cette variable le :


THORME DE L'ESPRANCE TOTALE
1

E[E(YIX)]

= E(Y)

_ Dmonstration
E[E(Y/X)] =

~E(Y/X = x)P(X = x) = ~(~l'P(Y = y/X = X) P(X = xl


ylX = x)P(X

= 2:y2:P(Y =
)" x

= x)

2:yPCY

y)

= E(Y)

Ce thorme est un outil trs puissant pour calculer l'esprance mathmatique d'une loi complique mais dont les lois conditionnelles sont simples: on voit mme que l'on n'a pas besoin de connatre explicitement la loi de Y (voir plus loin). Si lll(X) est une autre variable fonction de X on a E[Ylll(X)IXl = lIJ(X)E[Y IX] ; la dmonstration sans difficult est omise. Concrtement cette formule signifie qu' X tix \jJ(X) esl une constante et sort donc de l' e~prance.

1_Ce terme de rgresson pt"Ovient des travaux, du statisticien Galton qui tudj;:t la taIlle des enfants Y en fonc:tion de la taille de leur pre X, Il avait constat exprimentalement que la taille moyenne des fils dont le pre avait une taille x suprieure la moyenne E(X) tait elle-mme suprieure ci E(Y) mais dans une moindre mesure --'-----'-----'--'- tait infrieur- il 1 ; il y avait donc rgression au sens ordinaire du mot.

3.Couples de variables alatoires. conditionnement

73

3.1.3.2

La variance conditionnelle

DFINITION

On appelle l'arallce de Y sacha1lt que X

=x

et on note V( Y/X

= x) la quantit:

Vey/X

= x) = E[(Y

E(Y/X

= x)f/X = x]

Il s'agit donc de l'esprance conditionne11e du carr de l'cart l'esprance conditionnelle.

Comme pour l'esprance, et puisque VeY/X alatoire variance conditionnelle:


Vey/X)

= x)

= l!J(X), on dfinit ensuite la variable

= tIJ(X) = E[(Y

E(Y/X))2/X]

On a alors le rsultat fondamental suivant:


THORME DE LA VARIANCE TOTALE

E[V( Y/X)] + V[E( y / X)J

en donnant l'esprance sa signification usuelle de moyenne on voit que la variance de Yest la somme de deux lermes : la moyenne des diverses variances conditionnelles et la variance des diverses moyennes conditionnelles.

_ Dmonstration
V(Y) = E[(Y E(Y)f] EI(Y - E(Y/X)

+ E(Y/X)

- E(y))2]

dveloppons le carr en groupant Y - E( Y/X) et E( Y/X) - E( Y) il vient: Vey) = E[(Y - E(y/xft

2E[(Y E(Y/X))(E(Y/X) - E(r)] + E[(E(Y/X) - E(y2]

Le dernier terme est gal V[E(YlX)] par dtnition de la variance puisque E(Y) est l'esprance de E(YIX). Le premier terme n'est autre que E[V(Y/ X)J : en effet en appliquant le thorme de l'esprance totale: Er(Y - E(Y/X2] = - E(Y/X2/Xll et on reconnat l'expression de Vey/X). Notons que Vey/X) n'est pas gale (Y - E(Y/X))2 ce sont simplement deux variables ayant mme esprance. On vrifie que le double produit est nul en conditionnant nouveau: l'esprance conditionnelle tl X fix de (Y - E(Y/X)(E(Y/X) - E(Y)) vaut alors:
[E(Y/X) - E(Y)][E(Y E(Y/X))/X]

puisque E(YlX) E(Y) est une constante X fix (voir la dernire proprit de l'esprance conditionnelle nonce au sous-pamgraphe prcdenl). Quant :
E[(Y - E(Y/X)/X.I

ce terme est nul, il suftt de dvelopper. L'esprance conditionnelle du double produit est nul, il en est de mme de son esprance. (on trouvera plus loin une dmonstration gomtrique plus rapide et plus lgante) ..

74

3aCoupies de variables alatoires, conditionnement

3.1.3.3

Exemple d'utilisat;on de l'esprance et de la variance conditionnelle

Un examen se droule sous forme d'un questionnaire choix multiple (QCM) o on pose 20 questions; chaque queston comporte quatre rponses possibles, dont une et une seule est la bonne; une rponse juste compte 1 point, sinon zro. On suppose que le programme de l'examen comporte 100 questions dont on tirera alatoirement les 20 de l'examen. Si l'on considre un candidat ayant appris une proportion p du programme, on tudie la distribution de sa note N.

Solution : Parmi les 20 questions, un certan nombre X va figurer dans la partie des 100 p questions rvises et fournir automatiquement X points. Les 20 questions tant tires sans remise parmi les 100, la loi de X est une hypergomtrique d't(lOO ; 20; p).

Un certain nombre de rponses pourront tre devines par le jeu du hasard parmi les 20 - X questions non rvises, soit Y ce nombre. A chaque question non rvise est associe une variable de Bernoulli de paramtre 1/4. Si X = x est fix, la loi de Yest alors une loi binomiale @(20 - x; 1/4). On a donc N = X + Y avec Y/X @(20 - X; 1/4). X et Y ne sont pas indpendantes puisque la distribution conditionnel1e de Y/X = x dpend de x. Le calcul de la distribution de N conduit en tout tat de cause une expression difficilement manipulable :
X=/I

peN = n)

=
-

2: P(X
lOG!,

x)P(Y =

11 -

x/X = x)

.t''''0
-"
x=/!

ex c 20-x
e:w
IOn

H)[)(I-l') Cl/-.~

x='o

..t.J

(1)"-X(3)20-11 _ _
4 4

:!o-x

On peut cependant trouver aisment E(N) et VeN) :


Calcul de E(N) :

E(N) :::: E(X) E(X)

+ E(Y)

= E(X)

+ E[E(Y/X)]

= 20p (loi hypergomtrique)


l X X)4=5-

E(Y/X)=(20 E[E(Y/X)] = 5 -

E~)
+

= 5 - 5p

soit :

E(N) = 15p

3.Couples de variables alacolres. conditionnement

75

Calcul de V(N) :

l'eN) = E[V(NjX)1 + V[E(NjX)] VeN j X

= x) = l'Lx + Yj X
16

= x]

VI'YjX

= x]

1 3 (20 - x) 4 ':4

VeNjX) = (20 -

X)~E[V(NjX)]
x

= 20(1 _ p) 3 = I5(] - p)

16
x) = 5

E[NjX = x] E[NjX]

+ 4 (20

3r
~

5
9

+4

3X

V[E(NjX)]
100
p) 100

= 16 l'(X)
20 1
p)

= 16 20])(1

V[E(NjX)] = IOOp(l 11 VeN)

15(1 - p) 4

100p( 1 Il

p)

= (1

p) [- + -

15
4

100P]
Il

La figure 3.1 donne les varations de E(N) et de VeN) en fonction de p. Un taux de rvision de 0.6 0.7 devrait donc assurer la russite l'examen avec une forte probabilit.

20~------------~
1 1
1

15

10
,

,,
.

1 1 1 1 l ' 1 1 1 1 1

,.
1
#

1 ;

" l'

l'

""
#

.i

0; ,
l' i:'\'

0'
,.

,.

'<.1

I~,' ,. 1

,
1

/~t/ '<.1.'
,.'

, 1 , i:'\ '
1

/0;)0/

OI....-...l--L..--'---L-..L.......1--L..-L-..J....to..I

o 0.1 0.2

0.5 3.1

FIGURE

76

3aCoupies de variables alatoires, conditionnement

3.1.4

Extension au conditionnement d'une variable continue Y par une variable discrte X

Ce cas ne prsente pas de difficult. On dfinira d'abord la fonction de rpartition conditionnelle:

pey < v/X


.

= x)

P(Y<

nx=x) . = GCv!x) P(X = x)

puis si elle existe la densit conditionnelle g(y/x) qui sera la drive de G en y. La densit marginale de Y s'obtient par:
g(y) = L9(y/x)P(X

= x)

Si E( Y) existe, on prou ve aisment que E( Y/X = x) existe galement et vaut:

E(YjX

= xl = Lyg(yjX)dY

Les formules de l'esprance totale et de la variance totale sont galement valables. La formule de Bayes donne:
P(X = x/Y

<

G(v/x)P(X v) = ' .
G()')

= x)

mais l'criture formelle:


P(X

= x/ Y =

g(v/x)peX = x) ),) = - - - - - - g(y)

ne peut tre pour l'instant justifie car pey = y) =

o.

3.1.5

Somme d'un nombre alatoire de variables iid

Le problme suivant est courant en assurance: au cours d'une priode de temps donne le nombre de sinistres survenus est une variable alatoire N. Chaque sinistre a un cot alatoire reprsent par une variable X. Le montant total des sinistres est alors:

Si les Xi sont indpendantes et de mme loi, les thormes de l'esprance et de la variance totale, en conditionnant par N, permettent de montrer facilement que:
E(S) = E(N)E(X) V(S) = E(N)V(X)

V(N)(E(X)Y:-

3aCoupies de variables alatoires, conditionnement

77

3.2 3.2.1

EXTENSION DES VARIABLES QUELCONQUES


Lois conjointes et lois marginales d'un couple de variables alatoires relles

Si (X, Y) est il valeurs dans [H2 rappelons que la fonction de rpartition du couple H(x, y) se dfinit par:
H(x, y)

P(X

<

<

y)

Les fonctions de rpartition marginales s'en dduisent immdiatement par :


F(x) = H(x; ':xJ) = P(X G(y)

H(oo ; y)

< = pey <

x) y)

Si le couple (X, Y) admet une densit h(x, y) on a :


Iz(x v)

'.,

a2H = -axa)'

les densits marginales s'obtiennent par:


f(x)

=
=

J~~

Iz(x. y) dy

g(x)

Jr.!

f lz(x, y) d\:
\Ix ; y \Ix; y

Rappelons que si et seulement si les variables X et Y sont indpendantes on a :


H(x, y)

F(x)G(y)

h(x, y) = f(x)g(y)

3.2.2

Conditionnement

Le problme essentiel est de donner un sens aux expressions du type pey E RIX = x) et E(Ylx = x) lorsque X = x est un vnement de probabilit nulle ce qui est toujours le cas lorsque X est une variable admettant une densit.

3.2.2.1

Prsentation nave

Lorsque X est une variable continue on peut songer dfinir la fonction de rpartition conditionnelle de Y sachant que X = x comme la limite pour E tendant vers 0 de :

POl < y
P(x

(x < X < < X< x +

+ E))

H(x

E)

F(x

+ E ; y) + E)

- H(x; y)

- F(x)

78

3aCoupies de variables alatoires, conditionnement

Lorsque X possde une densit f(x) on voit que la limite de cette expression est
iJH(x ; y) . x) et que S1 (X , 11") Il une d ' 'J l (x, iJx ensIte

jl'( ,

. y) I d " con d'lttonneIle d e Y' v = Il ens1te a,,\.

tix vaut alors:

= g(y/x)
On conot cependant aisment qu'une telle approche est peu rigoureuse et ne recouvre en plus qu'une partie du problme: dans certaines applications il faut pouvoir conditonner par rapport une variable quelconque pas ncessairement valeur dans IR! ni dans un ensemble fini. Pour dfinir une esprance conditionnelle il faut seulement que Y soit relle et que E(Y) existe,

3.2.2.2

Aperus thoriques

Vu sa complexit nous ne donnerons que les rsultats les plus importants sans rentrer dans les dtails des dmonstrations qui figurent dans les ouvrages de Thorie des probabilits (Neveu (1964) ou Mtivier (1972) par exemple).

Premire prsentation
X tant une variable alatoire quelconque de (n, P) dans un ensemble mesurable (E, ~) on dfinira la probabilit conditionnelle d'un vnement A par rapport X grce au thorme suivant:
THORME

Soit A
(E,

E ce, alors VBErg il existe une classe d'quivalence unique de fOllctions de dans [0; 1] note P(A /X = x) telle qlle ;

P(A

{X E Bl)

Ju

rP(A/X = x) dPx(x)

La fonction P(A/X = x) n'est pas unique car une modification de cene-cl sur un ensemble de probabilit Px nulle ne change pas le rsultat de l'intgrale. Peut-on choisir un reprsentant de cette classe pour tout A qui dfinisse une loi de probabilit conditionnelle sur il? Ce n'est pas sr si X est quelconque et P(./X = x) n'est pas ncessairement une mesure de probabilit: ici se trouve la difficult majeure de la thorie. Si un tel choix est possible on dit que c'est une (< version rgulire de ]a probabilit conditionnelle par rapport X, note P(./X = x). On peut alors dfinir l'esprance conditionnelle d'une variable Y intgrable par:

E(Y/X

= x) =

Y(w) dP(w/X = x)

3.Couples de variables alatoires. conditionnement

79

Deuxime prsentation
Les ouvrages rcents de thorie des probabilits prfrent partir de la dfinition de ]' esprance conditionnelle grce au thorme suivant qui tend la formule de l'esprance totale en intgrant sur un vnement quelconque de E au lieu d'intgrer sur E tout entier.
THORME

Soit Y Hne variable alatoire relle de (0, (g, P) dans (IR, @) telle que E( Y) soit jini, et X U1le variable quelconque de (.0, (g, P) dans (E. de loi de probabilit Px.
Il existe alors une classe d'quivalence unique de fonctions Px intgrables de (E, '0) dans (IR, @) note E(Y/X = x) telle que:
'VB E iR

(
JX- 1(8)

Y(w) dP(w)

= lE(Y/X = x) dPx(x)
/1

Ceci dfinit alors de manire (presque srement) unique la variable alatoire esprance conditionnelle E(Y/X). On en dduit alors la probabilit d'un vnement A quelconque de X en prenant pour Y la variable indicatrice de A :
P(A/X)

n conditionnellement

= EClir\/X)

Comme nA est intgrable la probabilit conditionnelle de A existe toujours. Le problme de l'existence d'une version rgulire de la probabilit conditionnel1e reste cependant entier, cette existence est ncessaire pour pouvoir calculer l'esprance conditionnelle par la formule:
E(Y/X
x)

= ( Y(w) dP(w/X = x)

Jn

et pour pouvoir parler de distribution conditionnelle de Y sachant X. La distribution conditionnelle de Y sachant X = x est en effet dfinie comme la mesure image de P(./X = x) par Y pour chaque x. Il faut donc que P(./X = x) soit une mesure de probabilit sur n. La preuve directe de l'existence de distributions conditionnelles dans les cas les plus usuels est donn par le thorme de Jirina : il suffit que E soit un espace mtrique complet sparable (ou espace polonais), c'est--dire admettant un sous-ensemble partout dense, ce qui est le cas de IRI'.

3.2.2.3

Ce qu'iI faut retenir

Il ressort des rsultats prcdents [es proprits utiles suivantes: si (X, Y) est un couple de variables alatoires o Yest valeurs dans IR el X valeurs dans un ensemble tini ou dnombrable, o valeurs dans IR ou IRP : Il existe une mesure de probabilit conditionnelle P(./X Il existe une distribution conditionnelle de V/X = x.

= x) sur n.

80

3aCoupies de variables alatoires. conditionnement

Si E(Y) existe, alors il existe une variable alatoire esprance conditionnelle: E(Y/X) qui prend les valeurs E(Y/X = x) avec la loi de probabilit Px :

E(YjX = x)

= LY(",) dP(wjX = x)

D,

dP(yjX = xl

et E[E(Y/X)] = E(Y). Si Vey) existe on a Vey) = E(V(Y/X)) + V(E(X/Y)). Si le couple (X, Y) est il valeur dans 1R2 et possde une densit h(x, y) les densits conditionnelles existent et sont donnes par :

f(x/y) = - g{y)
et on a E(Y /x = x) ==

Iz(x ~ y)

lyg(y/~) dy ainsi que les formules de Bayes pour les densits:


IR

g(y/x) =

~~--'--

f(x/y)g(y)

g(y/x)f(x) f(.r/y) == - : . - - - - - -

fj'(Xjy)g(y) d),

g(yjx)f(x) dx

Lorsque l'une des variables est discrte el l'autre possde une densit il suffit de remplacer l o c'est ncessaire les intgrales par des sommes finies et les densits par des probabilits ponctuelles.

3.3

SYNTHSE GOMTRIQUE

Le cas o on n'tudie que des variables alatoires relles de moment d'ordre 2 fini est un des plus importants en pratique et est susceptible d'interprtations gomtriques trs clairantes.

3.3.1

Espace de Hilbert des classes de variables alatoires de carr intgrables

L'ensemble de toutes les variables alatoires dfinies sur un mme univers (en fait l'ensemble des classes de variables alatoires presque partout gales) forme un espace de Hilbert L 2 si l'on le munit du produit scalaire:
(X, Y) = E(XY)

et de la norme:

!!XII

= {E(X 2)1/1

L'cart-type est donc la norme des variables centres, et la covariance le produit scalaire des variables centres. Si l'on considre l'ensemble des variables alatoires constantes, on obtient une droite D de L 2. Car si X est constante, llX l'est aussi. L'esprance mathmatique de X est alors la projection orthogonale de X sur cette droite (fig. 3.2) : en effet, on sait que le minimum de EX - a)2) est atteint pour Cl = E(X), ce qui dl1nit la projection orthogonale de X sur D.

3aCoupies de variables alatoires. conditionnement

81

D
FIGURE

3.2

La formule de Konig-Huyghens :
E((X

af) = V(X)

+ (E(X)

af'

s'interprte comme le thorme de Pythagore appliqu au triangle rectangle X, E(X), a.

E(X) est. en d'autres termes, la meilleure approximation de la variable X par une constante (au sens de la norme de U).
Comme cov(X, Y) = (X - E(X) ; y Icov(X,Y)I:s; soit:
1

E(Y)

t'ingalit de Schwan: donne:

IIX-E(X)II HY-E(Y)II
1

cov(X, Y) :5 (fxar cov(X, Y)


ax a r

Le cosinus de l'angle fonn par X - E(X) et Y - E(Y) vaut donc ve le coefficient de corrlation linaire p entre X et }~
p = 1 s cov(X, Y) = axa}' donc si (X E(X) = a(Y - E(Y)).
1

. On retrou-

Dans cet espace, la non corrlation se traduit donc par l'orthogonalit

E(X)) et (Y - E(Y)) sont proportionnelles

soit: X

Le coefficient de corrlation linaire est donc gal il l s'il y a une relation linaire entre les deux variables X et Y. La nullit de ce coefticient exclut la relation linaire, mais n'exclut pas l'existence d'autres relations. Il est facile de fabriquer des contre-exemples de dpendance fonctionnelle avec un coefficient de corrlation linaire nul: ainsi. X et X"J. ou sin X et cos X lorsque la loi de X est symtrique.

3.3.2

Esprance conditionnelle et projection

Soit L~ le sous~espace de L2 constitu des variables alatoires fonctions seulement de X du type (.l(X) : Ll est convexe et contient la droite des constantes D. C'est donc un sous-espace de Hilbert ferm. Alors l'esprance conditionnelle de Y sachant X, E(Y/X), s'interprte comme la projection orthogonale de Y sur LX"

82

3aCoupies de variables alatoires. conditionnement

SOl en effet l'oprateur qui associe toute variable alatoire son esprance conditionnelle X. C'est un oprateur linaire; pour montrer que c'est un projecteur orthogonal il suffit de vrifier qu'il est idempotent et auto-adjoint:

il est idempotent: E(E(YjX)jX) = E(YjX) ; et auto-adjoint: <Z ; E(YjX) ) = < E(ZjX) ; Y).
En effet, les deux membres de cette relation sont gaux E[E(ZjX)E(YjX)]. Le thorme de l'esprance totale E(Y) = E(E(YjX) est alors un cas particulier du thorme des trois perpendiculaires, comme l'illustre la figure 3.3.

y- - - - - - - - - - - - - - -

FIGURE

3.3

E(Y jX) tant une projection orthogonale, ceci montre que le minimum de : E[(Y <p(X)f]

est atteint pour <p(X) = E( Yj X), rsultat qui sera repris lors de l'tude de la rgression. On peut dire que si E(Y) est la meilleure approximation de Y par une constante, E(YjX) est la meilleure approximation de Y par une fonction de X. Il est alors immdiat que le rsidu Y - E( Yj X) est non corrl avec X par suite de l' orthogonali t. Le thorme de la variance totale s'interprte comme Je thorme de Pythagore appliqu au triangle rectangle Y, E(Y), E( YjX) :

/lY - E(Y)W

= Vey)

= IIE(YjX) - E(Y)1I 2 = V(E(YjX = V(E(YjX))

IIY - E(YjX)11 2

= V(E(YjX
3.3.3

+ E[(Y - E(YjX)f] + E[E(Y - E(YjX))2] + E(V(Y jX

Rapport de corrlation de Y en X

Le coefficient de corrlation linaire p est une mesure symtrique de dpendance, qui est maximale dans le cas de la liaison linaire. Le thorme de la variance totale permet de dfinir une autre mesure de liaison non symtrique cette fois: le rapport de corrlation Tl}'!.\' tel que:

"i,x = - - - V(Y)

V(E(YjX))

3.Couples de variables alatoires, conditionnement

83

Ce rapport est le cosinus carr de l'angle form par Y - E(Y) et l'espace Li:. On a donc:

PROPRIT

Si lli/x

1, E(V(Y jX)

= O.

On en dduit donc que VeyjX) = 0 presque srement, car c'est une variable positive. Ce qui veut dire qu' X fix la variance de Y est nulle, donc que Y ne prend qu'une seule valeur.
ll~'/X = 1 => Y = 'P(X)

Le rapport de corrlation est maximal si Y est li fonctionnellement X.


PROPRIT

,,-,,1;;

Si lli/x = 0, \I(E(YjX))

0, E(l'jX) est donc presque srement une constante.

On dit que Yest non corrl avec X, il Y a absence de dpendance en moyenne. C'est en particulier le cas si X et Y sont indpendantes mais la rciproque est inexacte. On montre en fait que l'indpendance entre Y et X est quivalente l'orthogonalit des espaces Li: et L~, engendrs par X et Y le long de la droite des constantes (fig. 3.4) :

FIGURE

3.4

Indpendance de X et Y.

11~'IX = 0 signifie seulement que Y - E(Y) est orthogonal LI ; 11 2 est une mesure de liaison fonctionnelIe alors que p est une mesure de liaison linaire; 11YX est toujours suprieur ou gal p2 car p2 est le cosinus carr de l'angle form par y - E(Y) avec le sous-espace de dimension 2 de Li: engendr par la droite des conslan~ tes D et la variable X.

Le cas ou TJY'IX donc que:

p2 signifie donc que E(YjX) appartient ce sous-espace de dimension 2, E(YjX) =

Ci

+ I3X

c'est celui de la rgression linaire dont l'tude sera effectue en dtail au chapitre 16. Si E(Y jX) =
Ci

+ I3X, on ne peut trouver de transformation de X augmentant p.

84

3.Couples de variables alatoires, conditionnement

En effet d'une part llI-lx = sup p2(y; <.p(X)), et d'autre part la linarit de la rgression implique ll~'lx ::;::: p1(y; X). Lorsque (Y; X) est un couple gaussien on a simultanment E(YIX) =
Cl

j3X el E(X/Y)

)' + 5Y
On en dduit le thorme suivant:
THORME

Si (Y; X) est 1I1l couple gaussien, O1l11e peul pas trouver de trallsfonnations <.p(X) et ~J( Y) augmentant en l'aleur absolue le coe./Jicient de corrlation:

Les prvisions optimales (en moyenne quadratique) sont donc linaires.

Vecteurs alatoires, formes quadratiques et lois associes

Ce chapitre prsente les rsultats les plus utiles pour r tude des variables plusieurs dimensions. Certaines dmonstrations purement techniques seront omises.

GNRALITS SUR lES VECTEURS ALATO~RES RELS


Un vecteur alatore X est une application de (il, (g, P) dans un espace vectoriel rel, en gnral ~fI muni de sa tribu borlienne. En pratique 1R!" est muni de sa base canonique et on identifiera X au p-uple de variables alatoires form par ses composantes sur cette base X = (X" X'"!1 .. Xp )'
'1

4.1.1
4.1.1.1

Fonction de rpartition et densit


Fonction de rpartition

F est une application de [Rp dans lH!. dfinie par :


F(X"X2" , "~XI,)

P(X(

< x"., .,Xp <

x,,)

dont les proprits se dduisent aisment de celles vues pour les couples de vecteurs alatoires.

4.1.1.2

Densit

f si elle existe est dfinie par:

4.1.1.3

Changement de variables dans une densit

Effectuons le changement de variables dfini par:

Yi = tpj(X(, X 2 ,

X p)
'1

Les fonctions tpj tant telles que le passage de (XI. Xl' .. X,,) (YI. Y2 ... , YI') est biunivoque. Nous dsignerons en abrg par tp la transformation:

x y

tp(X)

86

4.Vecreurs alatoires, formes quadratiques et lois associes

La densit du vecteur Ys' obtient alors par la fonnule :

o det J, appel jacobien de la transformation, est tel que:

detJ =
YI ........................ il)'" ax p iJx/ iJx)
.....................
JXI

aYt

iJyP

(detJ)-1

La dmonstration de cette proprit figure dans tous les ouvrages consacrs l'intgration (changement de variable dans les intgrales multiples). Si la transformation cp est linaire de matrice A constante, Y = AX CA doit tre rgulire) on a det J = lAI. En particulier si A est une transfonnation orthogonale le jacobien vaut 1.

4.1.2

fonction caractristique
(l'l ,

Soit a un vecteur non alatoire de composantes (al'


DFINITION

a,J

On appelle fOllction caractristique dl( vecteur alatoire X la fonction de l'argument vectoriel a dfinie par:

THORME

Les composalltes Xl, X], ... , XI' de X sont indpendautes si et seulement si la fOllctiol1 caractristique de X est gale au produit des fa Il ct ions caractristiques de ses compOslllltes :

'P~Ja)

= II 'Pxi(lli)
i=1

f.'

4.Vecteurs alatoires. formes quadratiques et lois associes

87

Si les Xi sont indpendantes l'esprance d'un produit de fonctions des Xi est gale au produit des esprances donc: E[exp(ia'X)]
= E[expUa 1Xl)] E[exp(ia2X2)] ... E[exp(iapXp )]

ce qui dmontre une partie de la proposition. La rciproque plus dlicate utilise l'inversion de la fonction caractristique et est omise. Le rsultal suivant fondamental permet de dfinir des lois de probabilits p-dimensions partir des lois unidimensionnelles.
THORME DE CRAMER-WaLD

La loi de X est entirement dtermine par celles de tolites les combinasons linares de ses composClmes.
JI

Posons en effet Y

a'X

= LCliX
""l

et cherchons la fonction caractristique de Y:

!.pr(t)

= E[exp{itY)] = E[expUta'X)]

d'o 'Pr(l) = tpx(a). Si la loi de Y est connue pour tout a on connat donc la fonction caractristique de X donc la loi de X.

4.1.3

Esprance et matrice de variance-covariance

Si J.Li dsigne E(Xi ), on appelle par dtinition esprance de X certain:


!-LI !-L2
E(X)

= (XI ... , Xl')

le vecteur

J.L

La matrice de variance-covariance ~ de X est dfinie par:

(JT

cov(X I, X 2)
(J~

.......

cov(X 1, XJl)

= E[XX']
rrj;
"1

- J.L1l- 1

c'est une matrice carre symtrique d'ordre p.

88

4_Vecteurs alatoires, formes quadratiques et

IOs aSSOCle5;)

Si les variables X sont rduites, ~ s'identifie avec la matrice de corrlation:


PI:!

4.1.4

Transformations linaires

Effectuons un changement de variable linaire Y = AX o A est une matrice quelconque de constantes (pas ncessairement carre), alors:

IJ.r = AlJ.x
~r= ~xA'

ce qui se dmontre en appliquant les dfinitions. En particulier si A est une matrice uniligne, Y est alors une variable alatoire uni dimensionnelle. Si a' cette ligne Y = LaiX; et VeY)
j;;

"

= a'~a. On a donc pour tout a, a'2:a :::: 0

car une variance est non ngative. On en dduit le rsultat suivant:


THORME

Vile condtion ncessare el suffisante pOlir qu'une nwtrice 2: symtrique soit la matrice de variance d'll1l vecteur alatoire est que 2: soit LIlle matrice positive.

La rciproque s'tablit partir de la proprit classique suivante des matrices symtriques positives: Toute matrice symtrique positive :l: peut s'crire sous la forme 2: = TT' o T est dfinie une transformation orthogonale prs (si T convient, S = TV, o V est orthogonale, convient aussi; une solution particulire est fournie par T = 2: 1/2 = PA l/:!P/ o P est la matrice des vecteurs propres norms de T et A la matrice diagonale des valeurs propres). Il suftit donc de partir d'un vecteur alatoire X de matrice de variance 1, (par exemple un p-uple de variables indpendantes centres-rduites) et de faire la transformation Y = TX pour obtenir un vecteur alatoire de matrice de variance 2:. Si ~ est rgulire, c'est--dire si les composantes de X ne sont pas linairement dpendantes on peut trouver une transfonnation inverse qui nomlalse le vecteur X.
THORME

l
T

Si ~ est rgulire il existe une infinit de transfol11uztiolls linaires A, telles que Y = AX soit Wl vecteur de matrice de variance l

Il suffit de prendre A
=~I/l.

= T- 1

Un choix particulirement intressant est celui de

6._.\I",rr(3.llrs

alatoires, formes quadratiques et lois associes

89

On appelle transformation de Atlahalanobis la transformatioll dfinie par :k- I/:!.


~-1/2

(X - f..L) est alors un vecteur alatoire centr-rduit composantes non corrles.

On en dduit aisment le rsultat suivant:

La variable alatoire (X - f..L)':k- 1 (X - J..L)


IJ

= D 2 a pour esprance p.

En effet D 2
C1t!i!lllIll';C

~ Yf ou les Yi sont d'esprance nulle et de variance L D est appe1e


=l

de Mahalanobis de X IL.

ALATOIRES GAUSSIENS: LA LOI MUlTINORMALE

Dfinitions et fonction caractristiqueX est un vecteur gallssien p dimensions si toute combinaison linaire de ses composantes a'X suit llne loi de Laplace-Gallss I.me dimensioll .
. Le thorme de Cramer-Wold pelmet d'tablr que la loi de X est ainsi parfaitement dter:mine. On remarquera que la normalit de chaque composante ne suffit nullement dfinir vecteur gaussien. La fonction caractristique de X s'en dduit aisment (on supposera ici que X est centr qui ne nuit pas la gnralit).
THORME

<p,(a)

= ex p(

-3: a'~a

) o

~ est la matrice de variance de X.


o Y a/X
a'~a et la fonc-

En effet d'aprs le thorme de Cramer-Wold :

La loi de Yest par dfinition une gaussienne centre de variance Vey)


[2

hon caractristique de Y est <.pl' (t) = exp( -

"2 V( y)) ce qui tablit le rsultat.

On en dduit le rsultat fondamental suivant:


THORME

Les composantes d 'ml vecteur gaussien X SOllt indpendantes si et selileme1l1 si:k est diagonale, c'est-ii-dire si elles .lOTIt Hon corrles.

90

4aVecteurs alatoires, formes quadratiques et: lois associes

On a en effet, si :k est diagonale de termes a]- :

On notera Np CI1- ; :k) la loi normale p dimensions d'esprance 11- et de matrice de variance :L.

4.2 . 2

Densit de la loi normale p dimensons

Celle-cl n'existe que lorsque :L est rgulire.


THORME

Si:k est rglIlire X admet pour densit:

En effet Y ~-1/2(X - f.l) est alors un vecteur gaussien dont les composantes sont centres-rduites et indpendantes. Y a pour densit:
g(y)

" = il gCYi)
i=1

Il suffit alors d'appliquer la formule du changement de variable; le jacobien det ~t12 = (det ~)J/2 ce qui tablit le rsultat.

J vaut ici
c.

Les suriaces d'isodensit sont donc les ellipsodes d'quation (x - f-L)'~-I(X - f-L)

4.2 . 3

Cas particulier de la loi normale deux dimensions

Si l'on introduit p coefticient de corrlation linaire entre Xl et X2 :

d'o: et:

4.Vecteurs alatoires, formes quadratiques et lois associes

91

La figure 4.1 reprsente quelques surfaces de densit correspondant cri = diverses valeurs de p ainsi que les ellipses d'sodensit dans le plan XJ, X2'

cr:!

= 1 et

(a)

(b)

(c)
Ellipses contenant 50 % et gO % des observations
FIGURE

4.1

(d'aprs Bhattacharyya etlohnson, 1977),

92

4aVecteurs alatoires, formes quadratiques et lois associes

4.2.4

Lois conditionnelles (sans dmonstration)

Partitionnons X en deux. sous-vecteurs Xl et X::! k et p - le composantes respectivement d'esprance m, et m::! :

x = [~:J
La matrice de variance-covariance se partitionne en 4 blocs:

~II [~21
Si

~I::!]
2:22

r on cherche la loi du vecteur X" conditionne par X2 on a les rsultats suivants:


La loi de X';X2 est une loi 111ultillo171w[e p dimensiolls : - d'esprance: E[X!/X 2] =
ml

THORME

+ ~12~ll1

de matrice l'arallce-covarance :

2: JlI2 = ~II -

(X 2 - ID:!) ; ~12~l ~21'

On constate donc que la rgression de XI en X 2 est linaire. Les termes de ~1l!2 s'appellent les covariances partielles cov U, j 12), desquelles on dduit les corrlations partielles: cov(i, j 12)
crii/'1 cr))12

Pij/2

Les variances conditionnelles ne dpendent pas des valeurs prises par X 2


homoscdasticit ).

il y a

4.2.5

Thorme central-limite multidimensionnel

De mme que pour des lois une dimension on peut tablir le rsultat suivant: Soit XI' X 2, , XII une suite de vecteurs alatoires indpendants de mme loi, d'esprance .... et de matrice de variance ~ alors :
THORME

4 .. Vecteurs alatoires, formes quadratiques et IOs associes

93

4.3
4.3.1

fORMES QUADRATIQUES DFINIES SUR UN VECTEUR GAUSSIEN ET lOIS DRIVES

lois du X2 (khi-deux)
;~;dpeJ1dcllltes,

DFINITION

VI. V 2, , VI' tant p variables LG(Q ; 1)


p degrs de libeJ1 (X~) la loi de la vllIiable

on appelle loi du khi-detLt il

2: Ur.
i=1

C'est donc la loi de la somme des carrs des composantes d'un vecteur gaussien centr et de matrice de variance l.

On en dduit immdiatement que la somme de deux variables Xl indpendantes :". pet q degrs de libert est encore une variable X::', P + q degrs de libert. La loi du X:! se dduit de la loi 'Y par une simple transformation. Prenons en effet un XT, c'est--dire le carr d'une variable de Gauss. D'aprs un rsultat tabli au chapitre 2, la densit de T V 2 est:

Puisque

r (2")

'd . on en de UIt que V : . = 'Y 111- 0 n a d lpropnete SUIvante: one a ' "

2"

PROPRIT

Si X est une variable 'Yn 2X est un

X~r 1

On en dduit donc par transformation les proprits de la loi du X:! :

IE(X;')

=p

Densit: g(XJ,)

__1--,-..,.-ew

2PI2r(~)

(_-;_2)(X 2 (fig. 4.2). )PIH


-

A.

Fonction caractristique
Elle se dduit de cel1e de la loi 'Y :

(1-2il)1'/2

94

4.Vecteurs alatoires, formes quadratiques et lois associes

.500

.438 .375 1
.313,

.250
.188

.063

12

18

24

30

48

60

66

72

FIGURE

4.2

B.

Approximation du X2 par la loi normale

Lorsque p > 30 on peut admettre que soit:


x~

f2X2 - ~2p -

1 est distribu comme une LGCO; 1),

= -'--------'-2

(approximation de Fisher)

ou (mieux) que: sot:

xi, )1/3 + - - 1 ] 2 [( - p 9p

ffp

-=U 2

x~ =
1

p(u -~9P + l _ 9p ~ f2 2)3

(approximation de Wilson-Hilferty)

Cette dernire approximation, trs prcise, est correcte mme pour des valeurs faibles de p. On trouvera en annexe des formules exactes permettant de calculer la fonction de rpartition du X2 La table A 1.6 donne les fractiles de la loi de X1 jusqu' 100 degrs de libert. On peut donc en dduire ceux de la loi "'Ir pour des valeurs de r allant de 1/2 50 par demi-entier.

4.3.2

Formes quadratiques

Sous certaines conditions, des formes quadratiques dfinies sur des vecteurs gaussiens suivent des lois du X2. Ces rsultats sont fondamentaux en statistique dans les problmes de dcomposition de variance.

"_.\I",rrPllr~

alatoires, formes quadratiques et lois associes

95

THORME

l
L

Si X suit une loi llo1711111e il p dimensions d'espra1lce ,... et de matrice de variance


:; rgulire a/or.') :
Dl = (X

,...r 2,
JI
1

I(X -,...)

Sl/it LIlle

loi du X;)

Il suffit de se souvenir que D2

2: y? o les Yi sont des LG(Q ; 1) indpendantes.

Considrons maintenant Y vecteur gaussien centr-rduit composantes indpendantes et cherchons la loi d'une forme quadratique gnrale Q = Y'A Y
fJ

2: aijYJj.
i=1 j=l

Nous allons tablr la forme de la fonction caractristique de Q ce qui permettra aprs de dduire dans quels cas Q suit une loi du X2
THORME

!.pQ(t)

= [det(I

- 2itA)r 1/2

_ Dmonstration
!.pQ(t) = E[expUtQ)] = E[expUtY' AY)]

crivons A = P' AP o P est la matrice orthogonale des vecteurs propres et A la matrice diagonale des valeurs propres ; de A :
l'

Y' A Y

2:]Z]
];1

en posant Z

PY

P tanL orthogonale Z est encore un vecteur gaussien centr-rduit composantes indpendan tes.
Donc:

or or si

est unXr d'o:


~

!.pQ(t) =

rIo ]=1

fl

2i/)-1/2

est valeur propre de A, 1

2/ est valeur propre de 1 2i/)


det (1 - 2itA)

2i1A, donc:

II Cl
j=l

1)

On peut galement donner la dmonstration suivante plus directe mais utilisant des gaussiennes complexes.

96
_ Dmonstration
E[exp(itY' AY)] =

4aVecteurs alatoires. formes quadratiques et lois associes

exp(ity' AY)g(y) dy =

(Hi'

J~l'

f exp(ity' Ay) (211)1 - exp(-~yly) dy 2


_1_)_/1

=_1_ , 1

(2'iT)fJ - !R"

exp(-!yl(I - 2itA)Y) dy
2

Or si l'on considre une loi gaussienne de matrice de variance 2: = (1 - 2itA)-1 sait que:

l
THORME

IR}' (21T)pJ2

- - - - - - e x p --y'2:-'y dy = 1 (det ~)":! 2 [det(1 - 2itA)r ll2

(1

,)

d'o: E[exp(itQ)] = (det2.:)112

On peut donc tablir la proprit suivante :

..

l
L

Q = yi AY suit une loi du X2 si et seulement si A est un projecteur orthogonal, c'est-tl-dire si Al = A. Le rang de A est alors le degr de libert dll X.2.

En effet si A2 = A 'A) = 0 ou 1 et 'Pa(t) est la fonction caractristique d'un x.~. La rciproque est alors immdiate.

Considrons maintenant deux formes quadratiques QI et Q2 de matrice AI et Al dfinies surY.


THORME DE CRAIG

QI et Q:! sont indpenda1ltes si et seulemelll si AI Al

= O.

.. Dmonstration
<f>QIQPI,
(2)

= E[exp(it,QI

il 2Q::)] = [det(I - 2it l A I

2it 2A::)r l12

Comparons cette expression au produit des deux fonctions caractristiques de QI et Q2' <f>QI(tI)<f>Q/!2) = (det(I - 2if,A,) det(1 - 2it l A::)r l12 = [det(I 2itlAI - 2it"J.A"). 4t,f l A I A 2)]-1/2 on aura <f>QI(tI)<f>Q!(t2) = thorme.
'PQIQ~(tlt"J.) Vtlt").

si et seulement si AIA2 = 0 ce qui tablit le _

Nous pouvons enfin noncer le rsultat le plus important concernant les fonnes quadratiques qui gnralise la proprit d'additivit du x. 2 :

''.':::A_.V:.,rrE~UI::'

alatoires, formes quadratiques et lois associes

97

LlF:(:')RE:ME DE COCHRAN
k p

Soient QI. Q2' ... , QI.-. k formes quadratiques sur Y telles que 2:Qj
j=1

= Y'Y

;=1

l:Yl

ctest--dre ralisant tlne dcomposition du carr de Iwnne de Y. Alors les tros conditions suivantes sont quivalentes:

2: rang (Qj) = P ;
1

chaque Qj est une variable de X2 ; les Qj so1lf indpendantes.

Ce thorme n'est que la version probabiliste d'un thorme classique d'algbre linaire k que voici. Soit k motrices symtriques AI> Al' .
0 0'

AI,: d'ordre p telles que LAj = II"


j=l

Alors les trois conditions suivantes sont quivalentes :

2: rang Ai = P ;
Vi;
pour
II

. ...;... J. .

La dmonstration, sans difficult, est laisse au soin du lecteur. Gomtriquement ce thorme est une extension du thorme de Pythagore et de sa rciproque la dcomposition d'un vecteur et donc de son carr de norme, sur des sous-espaces deux deux orthogonaux. L'orthogonalit est ici synonyme d'indpendance pour des vecteurs gaussiens.

4.3.3

Loi du F de Fisher.. Snedecor

Cette loi, lie au rapport de deux formes quadraLiques indpendantes joue un grand rle en statistique (loi du rapport des variances de deux chantillons indpendants par exemple). X et Y tant des variables suivant indpendamment des lois
F(n ; p) =

X;' et xl"

on dfinit:

X/Il Y7P

La densit de F s'obtient aisment par transformation de celle d'une bta II car X/2 et Y/2 suivent des lois 'YIII2 et 'Yp /2 :

g(.f)

= -(-11-1-1) (
B-;2 2
et

(~rf'"'-l
11

1+-}
p

j(!I+ P )/2
11

P E(F) = - -

p-2

V(F) = 2 - - - - - - Il (p - 4)

p2

'J

98

4.Vecteurs alatoires, formes quadratiques et lois associes

Cette loi est tabule en annexe ce qui permet d'obtenir les distributions des lois bta 1 et bta II ; on a en effet les relations suvantes :

si l' suit une loi bta II(n, p), alors p y est un F(2n, 2p) ;
Il

si X suit une loi bta 1(11, p).

alors!!..~ Il 1 - X

est un F(2n, 2p).

4.3.4

loi de Student

Soit une variable alatoire U suivant une LG(O, 1) et X une variable alatoire suivant indpendamment de U une loi X~. On dfinit alors la variable de Student Til 11 degrs de libert comme tant :

On a:

E(T,,) = 0
V(Tl!)
J.L3
/-L4

si

IZ

>

= -n-2 =0
si
Il

11

sin> 2

>3
si si
11

= (n
"(-, = 3
-

2)(11 - 4)

>4
4

+-11 - 4

11

>

Pour 11 = l la loi de Student est la loi de Cauchy, loi du quotient de deux variables ala- : ' toires de Laplace-Gauss indpendantes, dont la densit est:

1
J(t) = 1T(l

t
~I

Cette loi ne possde aucun moment fini. De manire gnrale la densit de .

est:

.lU)

=_ f-

'JllB -, -

(1 Il) ( 1 + - 2)<1/+
t

[)/2

2 2

11

LGCO; 1), ainsi que l'expression des moments le laissait supposer. On a la relation suivante entre les variables de Student et de Fisher-Snedecor :

4.Vecurs alatoires. formes quadratiques et lois associes

99

La tgure 4.3 donne les densits de


11

1:1 pour diverses valeurs du degr de libert:


1, 2, 5, 10, 50.

DA

0.3

0.2

0.1

0
-5

-4 4.3

-3

-2

-1

FIGURE

Densit de probabilit de la variable de Student

On remarquera le comportement particulier de la loi de Cauchy TI' qui a des queues de distribution trs importantes:

P(ITd >
4.4

2)

0.29

LA LOI MULTINOMIAlE, 2 INTRODUCTION AU TEST DU X

Comme son nom l'indique cette loi gnralise la loi binomiale.

4.4.1

Le schma de l'urne k catgories

Considrons une partition de

n en k vnements de probabilit PI' pz, ... , Pk (fig. 4.4).

il
FIGURE

4.4

100

411111111i1Vecteurs alatoires, formes quadratiques et lois associes

On rpte alors indpendamment Il fois l'exprience alatoire et on compte les nombres de ralisations respectives des Ai : NI' N'J. .. " N", Le vecteur alatoire (discret) (NI. N2, , N k) suit alors par dfinition une loi ............ ,V .lU.:.l11: d'effectif 11 et de paramtres Pl. P2 ... , PI;' Ce schma se produit en particulier dans des problmes de sondages: une population est partage en li. catgories et on tire avec remise n individus ~ on compte ensuite les effectifs de cet chantillon appartenant aux diverses catgories. On l'observe galement lors du dnombrement des ralisations d'une variable alatoire X: L'ensemble des valeurs de X est partag en k dasses de probabilits Pi et on compte sur un ensemble de 11 individus les nombres d'individus appartenant chacune de ces dasses (fig. 4.5) : la dmarche utilise pour construire un histogramme, voir chapitre 5).
~x)

Pt

P2
x
FIGURE

4.5

Par construction, les composantes NI' N:., ... , Nk du vecteur multinomial sont linairement dpendantes:

2: Ni =
i=]

11

et on a bien sr 2:Pi = 1.
i=]

Chaque composante Ni suit une loi binomiale fJ3(1l ~ Pi) donc E(Ni )
V(N j ) np/l -

= npi

et

pJ

La loi conditionnelle de Ni sachant N j

= 1lj est galement une loi binomiale:


11,

fJ3('1 -

~ ~. 1 - Pj

11 suffit de remarquer que tout se passe comme si il restait tirer Il - nj individus dans une population li. - 1 catgories: la catgorie Aj tant limine la probabilit conditionnelle d'observer

A/Aj vaut

Pj

4 .. Vecteurs alatoires, formes quadratiques et lois associes

101

La loi du k-uple est alors donne par :

4.4.2

Esprance et matrice de variance

Comme chaque Ni suit une loi @(n ; Pi) on a :

f1.=

Pour tablir la covariance entre N; et Nj il suffit de remarquer que le vecteur multinomial . est une somme de Il vecteurs indpendants de mme loi que le vecteur X = (Xl' X 2 , . . , X,,) tel que Xi = 0 ou 1 avec les probabilits 1 - Pi et Pi ; un seul des X; tant nul. Les Xi sont les indicatrices des caLgories Al' A 2 , . . . , AI,: pour un des Il tirages. On a alors E(XiXj ) = 0 si i

"* j d'o cov(X;, X) =

-E(Xi)E(Xj ) = -P;Pj"

La covariance d'une somme tant la somme des covariances on en dduit : si i

"* j
-PIPk

La matrice de variance-covariance de la loi multinomiale est donc:


PI(l - PI) -PI Pl
n~

-PI Pl P2(1 - P2)

-P21h

Il

Cette matrice n'est pas rgulire car ~Ni = colonnes sont nulles). = 1

Il

(on remarque que les sommes en lignes et en

4.4.3

Lois limites lorsque n ~

00

D'aprs le thorme central limite multidimensionnel. comme (NI' N 1 somme de Il vecteurs alatoires indpendants et de mme loi, on a :

" " .,

Nk ) est une

102

411i1i111Vecteurs alatoires, formes quadratiques et lois associes

La loi limite est dgnre (elle n'admet pas de densit) car L(N; - l1Pi) =
1

o.

Cependant si l'on supprime par exemple la dernire composante on a alors un vecteur limite gaussien non dgnr et :

X=

'Ill

(NI - I1PI ; N 2 - I1P'2; ... ; Nk- I - llPk-l) ~ N/.:_ 1(0; :.:E*)

o:.:E* s'obtient en supprimant la dernire ligne et la dernire colonne de l:. Par une simple vrification on trouve:

1 1) ( -+PI lh 1
lh

1 1) - (P1+Pk
1 1) (-+P/.:-I Pk

Ih

Appliquons alors le premier thorme sur les formes quadratiques:

En dveloppant on a :

k-'(N. = ~ J
i= 1

npi

IIp-f- +
!

1 (k-I )2 22(Ni -nPi) np" i= 1

k-I

car

2: Ni =
1

/.:-1

n - Nk et 2211Pi =
;"'" 1

Il -

IlP",

-=

4.Vecteurs alatoires, formes quadratiques et lois associes

103

Il vient donc:

Ce rsultat capital est la base du test du khi-deux permettant de comparer une distribution d'observations NI, N'l' ... , N k une distribution thorique de probabilits Pl' lh, ... , th (voir chapitre 14, paragraphe 14.6.2.1).

4.5

LOIS DE WISHART, DE HOTEllING, DE WILKS

Ces lois jouent un rle essenLel en sraristique maLhmatique multidimensionnelle.

4.5.1

Loi de Wishart

DFINITION

Une matrice M (p, p) Cl une distribution de Wishart ~J(ll ; ~) si M pel/t s'crire M = X'X o X est une matrice (n, p) alatoire dfinie de la faon suipanle : les Il lignes de X sollt des vecteurs alatoires gaussiens de mme loi NpC0 ; ~) indpendants.

X reprsente donc un chantillon de n observations indpendantes d'une loi normale multidimensionnelle. Nous allons voir que cette loi gnralise d'une cerlaine faon la loi du X2 . Si p = l on a en effet:
WI(n ; cr2 ) = (j2X?t

LX l
i=1

Il

On montre que la densit de la loi de Wishart est:

1 1,,,-p-')12 exp( -~ Truce ~-I M ) M


f(M) = - - - - - - - p----:;-1-----:211,,/211' pl p- 1)/-11 ~ 11112 (n + i

II
j;J

avec M > 0 pour 1 mesure de Lebesgue dans a semi dtinie positive).

IT1lP(p+l)/2
tr

, . (en e ff Md' etre symetnque et "et Olt ~

On rapprochera cette formule de celle de la densit d'un X2

104

4aVecteurs alatoires. formes quadratiques et lois associes

On note galement que la fonction caractristique de la loi de Wishart ~~ll1 ; 2:) est: E[exp (iTM)] o T est une matrice (p, p), Rappelons que la fonction caractristique d'un X~ est <P.t~(t) = (1 - 2it)-IlI!, On a: E(LVI) = 112:

= Il -

iT2: /-1111

et

si

Il -

P -

>

Pour tout vecteur constant a :

a'Ma a/2:a

suit une loi X~

a'1\IIa

En effet on vrifie sans peine que a'Ma est une matrice de Wishart W,(1l ~ a'2:a) car a'X'Xa o Xa suit N,(O ; a'2:a).

1 01

' ' ' 'l' A n peut montrer egalement, mats 1a demonstratlOn est de lcate, que a,'i: -1 a -1
X~-p+"
"l

aM a

SUIt

. une

Ces deux proprits se gnralisent avec des vecteurs alatoires.


PROPRIT

Soit x un vecteur alatoire (de loi quelconque) indpendant de IVI alors: et suivent les lois X~ et X~-p+ 1 respectivement et sont des variables indpendantes de x. a'Ma et b'Mb sont indpendantes si a'i:b = O.

4.5.2

La loi du Tl de Hotelling

Cette distribution gnralise celle de Student (ou plutt son carr). C' est celle d'une variable unidimensionnelle.
DFINITION

Soit x lm vecteur alatoire normal Np(O ~ 1) et M llne matrice de Wishart ~,(1l ; 1), 1zdpendallte de x ; a/ors la qUlIntit llx'M- 1x suit par d4finitioll une loi du Tl de Hotelling de paramtres p et Il.

Par abus de notation, on posera: T,;(n) = Ilx'lVI- 1x

4.Vecceurs alatoires. formes quadratiques et lois associes

105

PROPRIT

Si x sut une loi Np(fL ; 2;) et lVI une loi de Wishart indpendante de x M'p(n ; 2;) alors n(x - fL)'lVl- 1 (x f.1) suit une loi ~~(n).

La dmonstration vidente utHse la transformation de Mahalanobis y et le fait que 2;-I/:::M~-I/:! est une W/n ; 1,,).

2;-lI:!(X - fL)

1lx/lVl- I x suit ce qu'on appelle une loi de Hotelling dcentre ~~(n, :2) o :2 est le paramtre de dcentrement.

= fL'2:f.1

La loi du T'Y. de Hotelling s'identitie celle de Fisher-Snedecor selon la formule:


T~(ll) =
1

')

np
JI -

1 F(p ; Il

1)

En effet on peut crire avec

x N,,(O ; 1) :

x'x est un x'lVl-lx

1 indpendant

de x donc de XiX qui est un 'X~ d'o:


X,~
'l

'l T ;;(/1 ) =

Jl - : : : - XII-f/+I

On voit que pour p

1, T [(n) = F(l ; n) c'est--dire le carr de la variable de Student

11 degrs de libert.
NOlons que:
E(T,;(n))

.,

= n-p-

np

4.5.3

La loi du lambda (A) de Will<s

Cette loi joue un grand rle en ;malyse de variance multidimensionnelle o elle gnralise celle de Fsher-Snedecor : elle concerne les rapports de variance gnralise qui sont des dterminants de matrices de Wishart. A est une variable unidimensionnelle.
DFINITION

Soit A et n deux matrices de Wishart Wp(m ; 2;) et WpCn ; 2:) indpendantes o alors le quotient:

lJl

p,

1 - - - - - = 1\ lA-lB + Il .
a une distribution de lVi/ks de paramtres p, nt et Il, A( p, dpend pas de 2;).
111.

Il) (cette distribution ne

A et B tant des matrices positives A est une variable comprise entre 0 et 1.

106

4.Vecteurs alatoires, formes quadratiques et lois associes

Remarquons que A s'exprime en fonction des valeurs propres Si de A -lB:

A
A(p, m,
Il)

II (l
i""l

11

ei)-l

et A(n, m

+ Il

p, p) ont la mme distribution.

On peut se ramener la loi de Fisher-Snedecor dans quatre cas simples:


A(p, m, 1)

A(p,

Ill,

1)

m-p+1
Il

F(p ~

111 -

1)

1 - A(1, m, Il) A(1,m, n)


--JA(p,
111,

= - F(n; m)
JJl

2)

-lA(p, m, 2)
1 - -JA(2,
Ill,

p = - - - - 1 F(2p ; 2(m - p
111

1)

r)

= --F(2n; 2(m - 1)

Il

111-1

S 111 est grand on peut utiliser l'approximation de Bartlett :

[/II - ~ (p -

Il

1)] ln

A(p,

Ill,

/1) =

X~/

DEUXIME PARTIE

1Statistique exploratoire

Description
unidimensionnelle de dorlnes ,. numerlques

La plupart du temps les donnes se prsentent sous la forme suivante : on a relev sur n units appeles individus p variables numriques. Lorsque Il et p sont grands on cherche synthtiser cette masse informations sous une forme exploitable el comprhensible. Une .. "premire tape consisre dcrire sparment les rsultats obtenus pour chaque variable: c'est la description unidimensionnelle, phase indispensable, mais insuftisante (voir chapitre suivant), dans toute tude statistique. On considrera donc ici qu'on ne s'intresse qu' une variable X, appele encore caractre, dont on possde Il valeurs XI' Xl, . , XIf' La synthse de ces donnes se fait sous forme de tableaux, de graphiques et de rsums numriques. C'est ce que l'on appelle couramment la statistique descriptive )j dout l'usage a t considrablement facilit par l'informatique.

5.1

TABLEAUX STATISTIQUES

Leur prsentation diffre lgrement selon la nature des variables.

S.1.1

Variables discrtes ou qualitatives

Pour chaque valeur ou modalit Xi de la variable on note 1li le nombre d'occurrences (ou effectif) de Xi dans l'chantillon,kl1i = 1l,etfr la frquence correspondantefr = n/11 (on utilise en fait Je plus souvent le pourcentage lOOfr.). Le tableau statistique se prsente en gnral sous la forme:

_ Exemple 1 : Le recensement gnral de la population franaise en 1999 donne la rpartition des 23 810 161 mnages, selon la variable X nombre de personnes du mnage.
Rappelons qu'un mnage est compos de toutes les personnes habitanl normalement dans un Jogement, quels que soient leurs liens de parent. Les mnages sont donc ici les individus ou units statistiques.

110

51111i11i11Description unidimensionnelle de donnes numriques

TABLEAU

5.1 Pourcentage 31.0


31.1

Nombre de personnes

1 2

3
4

16.2 13.8

5
6 et plus

5.5
2.4

..
j=l

5.1.2

Variables continues ou assimiles

On regroupe Iesvaleurs en k classes d'extrmits eo, el' ... , C\ et l'on note pour chaque classe lei ~ h ei] l'effectif l1i et la frquence.t ainsi que les frquences cumules Fi ou proportion des individus pour lesquels X < ei' Le tableau statistique se prsente en gnral comme suit:

L.t,

fi

]
Ville Taux tuxe Zone d'habitation Gographique

Par convention, la borne suprieure d'une classe est toujours exclue de cette classe.

_ Exemple 2 : Le magazine Capital a donn pour 100 villes franaises les valeurs du taux de la taxe d'habitation.
TABLEAU

5.2

Ville

Zone Taux taxe d'habitation Gographi1luC

Aix-en-Provence Ajaccio Amiens Angers Annecy Antibes Antony Argenteuil Arles Asnire!Hiur-Seine

18.94
22.06 17.97 18.86 14.97

Sud-Est
Sud-Esl

Aubervilliers Aulnuy-sous-Bois Avignon Beauvuis Belfort Besanon Bziers Blois Bordeaux Boulogne-Billancourt

11.45 15.59 12.41


15.37

I1e-de-France Ilc-de-France Sud-Est Nord Est

Nord Ouest Sud-Est Sud-Est 11 e-de-France Ile-de-France Sud-Est


Ile-de-France

16.:!O
20.20

14.30
11.07 16.90

Est
Sud-Ouest Centre Sud-Ouest lIe-de-France

22.14
17.07

24.49
10.13

22.11
9.46

5l1li Description unidimensionnelle de donnes numriques

111

Ville

Taux taxe Zone d'habitutinn Gographique


\5.77 25.99 [5.82 16.12 23.36 19.71 17.30 18.71 [5.09 17.30 17.37 14.00

Ville

Zone Taux taxe d'habitntion Gographique 10.30 21.93 19.39

Bourges Brest Brive-la-Gaillarde Caen Calais Cannes Chalon-sur-Saone Chambry Champigny/Marne Charleville-Mzires Chteauroux Cholet Clermont-Ferrand Colmar Colombes Courbevoie Crteil Dijon Drancy Dunkerque Evreux Forncnay-sous-Bois Grenoble Ivry-sur-Seine La Rochelle La Seyne-sur-Mer Laval Le Havre Le Mans

Centre Ouest Centre Ouest Nord Sud-Est Centre Sud-Est lIe-de-France Est Centre Ouest Centre Est lIe-oe-France Ile-de-France I1e-oe-France Centre lIe-de-France Nord Ouest lIe-de-France Sud-Est Ile-de-France Centre Sud-Esl Ouest Ouest Ouest Nord Centre Ouest Sud-Est

Maisons-Alfort Marseille Mrignac Melz Montauban Montpellier Montreuil Mulhouse Nancy Nanterre Nantes Neuilly-sur-Seine Nice Nimes Niort Noisy-le-Grand Orlans Paris Pau Perpignan Pessac Potiers Quimper Reims Rennes Roubaix Rouen Rueil-Malmaison Saint-Denis Saint-Etienne St-Maur-des-Fosss Saint-Nazaire Saitll-Quentin

Ile-oe-France Sud-Est Sud-Ouest Est Sud-Ouest Sud-Ouest tle-de-Fnmce Est Est Ile-oc-France Ouest Ile-oc-France Sud-Est Sud-Ouest Centre Ile-oe-France Centre lIe-de-Fnmce Sud-Ouest Sud-Ouest Sud-Ouest Centre Ouest Est Ouest Nord Ouest He-de-France Ile-de-France Sud-Est lIe-de-France Ouest Nord

16.62

12.n
21.40 13.67 16.65 18.21 6.13 21.13 3.68 19.75 30.13 I9.IY 16.91 10.05 9.15 21.31 15.87 10.71 11.55 16.67 14.98 21.75 17.97 20.97 14.93 9.17 19.90 10.81 16.36 10.46

15.85 16.31
14.16 4.86 17.58 18.75 10.42 28.69 11.17 12.10 19.43 9.16 18.75 25.98 19.48 17.67 17.54 36.17 17.24 16.74 19.09

Lille
Limoges Lorient Lyon

112

5_Description unidimensionnelle de donnes numriques

Ville

Taux taxe d'habitation


19.32 12.38 22.04 19.37 19.23 33.61 20.79

Zone
Gograph<)ue lIc-de-France Ilc-de-France Est Sud-Est Sud-Ouest
Nord

Ville

Taux taxe d 'hahillltion


18.11 16.25 18.70 8.95 29.96 19.85 Il.50

Zone
Gographique Est Sud-Est Sud-Est lIe-de-France Nord Sud-Est Hc-de-Francc
,
...

Sarcelles Sartrouville Strasbourg Toulon Toulouse Tourcoing Tours

Troyes Valence Venissieux Versailles Villeneuve-d'Asq Villeurbanne Vi try-s ur-Sei ne

Centre

On ndduitpour la variable taux de taxe d'habitaton, Je tableau SUIvant obtenu aprs '''',. en classes d'amplitudes gales 5, qui permet dj de mieux comprendre le phnomne: on voit clairement une concentration des valeurs (84 %) dans l'intervalle [10 ; 251.
TABLEAU

5.3

'.

point Classe Limite Limite Effectif Frquence Effectif Frquence cumul infr. supr. central cumule
l

2 3
4

5 6 '7
8

0.0 5.0 10.0 15.0 20.0

25.0
30.0 35.0

5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0

2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5

6 17 47 20 5 2 1

0.0200 0.0600 0.1700 0.4700 0.2000 0.0500 0.0200 0.0100

8 25 72

92 97 99 100

0.0200 0.0800 0.2500 0.7200 0.9200 0.9700 0.9900 1. 0000

, , , , Dans d autres cas, on peut recounr a des classes d amplitudes megales.

5.2 5.2.1

REPRSENTATIONS GRAPHIQUES Barres et camemberts

Pour des variables qualitatives modalits non ordonnes, il existe une grande varit de diagrammes. Les plus rpandus sont: les diagrammes en barres (verticales ou horizontales) : les barres sont de longueurs proportionnelles aux frquences des catgories, leur paisseur est sans importance. Les camemberts (en anglais pie-chart) : chaque catgorie est reprsente par une portion de superficie proportionnelle sa frquence.

SIIIIDescripton unidimensionnelle de donnes numriques

113

Camembert pour Zone Gographique

18.00%

10.00%,

14.00%

ml Centre D Est []] lIe-de-France IS'] Nord D Ouest lEI Sud-Est El Sud-Ouest

FIGURE

5.1

Diagramme en btons pour Zone Gographique

centre~.~~
Est
lIe-de-France Nord Ouest

Sud-Est
Sud-Ouest

10 15 20 25 30
Pourcentages

FIGURE

5.2

Pour des variables numriques discrtes, on utilisera de prfrence un diagramme en barres verticales comme celui-cl:

Nombre de personnes par mnage

40
(Il

ID

30

ra

01

20

:::l

a.. 10
O~

____________________________________________ 1""",~",,,i~;l::2: 1
2

3
FIGURE

6 et plus

5.3

114

SDescription unidimensionnelle de donnes nIJrn"'I'"I"111"~

5.2.2

Histogrammes

Analogues la courbe de densit d'une variable alatoire, un histogramme est un graphique barres verticales accoles, obtenu aprs dcoupage en classes des observations d'une variable continue. La surface de chaque barre, encore appele tuyau d'orgue, doit tre proportionnelle la frquence de la classe. Pour des classes d'gale amplitude, la hauteur de chaque barre est proportionnelle la frquence. Voici quelques histogrammes de la distribution des taux de taxe d'habitation: tous ont pour proprit que la surface sous l'histogramme vaut 1.
60
U'}

50
1/) (1)

50

.$ 40
ai 30

ID

40

Cl

"1 3O

a 20 a..
H

5 20
a.. 10
0 0 10 20 30 40 0 10 20 30 40
Taux de taxe d'habitation Taux de taxe d'habitation
0

ID

10 0

50
1/)

50
1/)

~ 30

ID O'l

40

40 30

ID

~
C

Cl

5 20
a.. 10
0

ID

(])

~ 20
0

a.. 10
0 10 20 30 40 0 0 5.3
bis

Taux de taxe d'habitation


FIGURE

10

20

30

40

Taux de taxe d'habitation

On constate qu'un trop grand nombre de classes

brouille )) l'information.

La dtermination du nombre de classes d'un histogramme est dlicate et on ne dispose pas de rgles absolues. Un trop faible nombre de classes fait perdre de l'information et aboutit gommer les diffrences pouvanl exister entre des groupes de l'ensemble tudi. En revanche un trop grand nombre de classes aboutit des graphiques incohrents : certaines classes deviennent vides ou presque, car 11 est fini. On peut d'ailleurs critiquer le fait de reprsenter par une fonction en escalier la distribution d'une variable continue: l'histogramme est une approximation assez pauvre d'une fonction de densit et il serait plus logique de chercher une fonction plus rgulire. La thorie de l'estimation de densit permet de proposer des solutions ce problme (voir chapitre 13, paragraphe 13.9.3). Une estimation de densit calcule pour 100 abscisses par la mthode du noyau (ici un noyau cosinus avec une largeur de fentre gale 60 % de l'tendue) fournit une information plus claire, et la forme de la courbe suggre une distribution gaussienne.

_n~ .. ,. .. inf'IQn

unidimensionnelle de donnes numriques

115

0.08 0.06
'(i)

~
c
(J)

0.04 0.02 0 0
10

20

30

40

Taux de taxe d'habitation


FIGURE

5.4

M.eux qu'un histogramme. une courbe de densil estime permeL des dlecter des modes multiples, correspondant des mlanges de distribution (donnes provenant de plusieurs populations diffrentes).

5.2.3

Bote moustaches ou box-plot

Ce diagramme, introduit par J.W. Tukey, est une reprsentation synthtique extrmement efficace des principales caractristiques d'une variable numrique. Il en existe plusieurs variantes, mais celle dcrite ci-dessous est la plus complte. La bote correspond la partie centrale de )a distribution ; la moiti des valeurs comprises entre le premier et le troisime quartile QI et Q1 (voir plus loin). Les moustaches s'tendent de part et d'autre de la bote jusqu'aux valeurs suivantes: gauche jusqu' QI - 1.5(Q3 - QI) si il existe des valeurs encore plus petites, sinon jusqu' la valeur minimale; droite jusqu' QI + 1.5(Q3 QI) si il existe des valeurs au-del, sinon jusqu' la valeur maximale. Les valeurs au-del des moustaches repres par des * sont des valeurs hors nonne ventuellement suspectes ou aberrantes mais pas ncessairement. Ainsi le diagramme en bote moustaches montre clairement l'existence de points atypiques pour le taux de taxe d'habitation, ici 3 valeurs trs basses, et 4 valeurs trs leves. Il devient alors intressant d'identifier les individus correspondants.
Bote moust;1ches

10

20
FIGURE

30

40

Taux de taxe d'habitation

5.5

116

51111l11Description unidimensionnelle de donnes numriques

Un autre grand intrt de ces diagrammes est de pouvoir faire facilement des comparai_ sons entre sous-groupes de donnes: il est plus simple de comparer des diagrammes en bote que des histogrammes. La figure suivante pennel de comparer les distributions du taux taxe d'habitation selon la rgion:
40

30
20

"""'""fd
__________________________________________
@

10
o~

ID

"E o
Z

ID

ID :::J

FIGURE

5.6

5.2.4

Courbe de concentration

Apple galement courbe de Lorenz, elle est utilise principalement en staustlque conomique pour tudier les ingalits de rpartition d'une grandeur positive cumulable (revenu, chiffre d'affaire, ... ) (fig. 5.7).
G

2"

o
FIGURE

1 F

5.7

lIB Exemple: Soit une distribution de revenus X et soit M la masse totale des revenus. A chaque valeur du revenu X, on associe un point de coordonnes F(x) en abscisse: proportion des individus gagnant moins de x et G(x) en ordonne o G(x) reprsente la proportion de Ivl correspondante, c'est--dire le rapport:

Masse des revenus < x Masse totale

s_Description unidimensionnelle de donnes numriques

117

Cette courbe est toujours en dessous de la premire bissectrice car F(x) > G(x) pour une distribution non dgnre: il suffit de remarquer que les individus qui gagnent moins de x, qui sont donc en proportion F(x), ne peuvent gagner globalement autant que les IOOF(x) % suivants. La mdiale ,lU est la valeur de la variable qui partage en deux la masse totale de la variable. On a donc: Mdiale> Mdiane

5.2.4.1

Proprits mathmatiques

Supposons connue la distribution thorique de X de densitf(x). L'abscisse d'un point de la courbe est:
F(x) =

L'J(t) dt
L'yU) dt f"I.f(t) dl

L'ordonne correspondante est:

Si X est une variable qui prend ses valeurs entre Xmin et xma )( la courbe de concentration est

donc dfinie en coordonnes paramtriques :

- = .t(x)
dx
q

dF

= ~lx

111 x"''"

fU) dt

dq dx

= ~ xfex)
nl

On a:

dq dF

= dl]

dx dx dF

= .=:
111

On remarque que - = 1 si x = m. dF La courbe possde alors une tangente parallle la premire bissectrice. Aux extrmits du carr les pentes des tangentes sont Si X varie de 0 ''X, en particulier, les pentes sont 0 et verticale l'arrive).
Xmill

dq

et Xma;l respectivement.
JJ1

00

(tangente horizontale au dpart,

5.2.4.2

Indice de concentration ou indice de Gin;

Plus la distribution de X est ingalement rpartie, plus la courbe s'loigne de la premire bissectrice (distribution ultra concentre: cas o les 9/10 des individus reprsentent moins de 1/10 de la masse et o le 1/10 restant concentre la quasi-totalit de la variable).

118

5_Descripton unidimensionnelle de donnes numriques~

Un indice de concentration propos par Gini est Je double de la surface comprise entre courbe et la bissectrice (Hg. 5.8).

C ,-----------c== B

o
FIGURE

5.8

Indice de Gini thorique


En prenant la courbe symtrique par rapport la diagonale, on a :

G
G

= aire OEBA
o ()

- aire ODBA ;

= llFdq -l'qdF;

en multipliant par ln les deux membres:


mG

L:"

F(x)xf(x) dx -

111 L:"q(X)f(X)

dx

mG =

L:xf"

(x - yl.f(x)f(y) clx d)'

Comme

L:xL:"(X - y)f(x)f(y) dx cly = O. il vient:


mG =

iL:"f.
X
_>: _::<:

(x - y)f(x)f(y) clx cly

IJ+::<:f"" (y + 2:
_>:

- x)j(x)j(v) dx d)'

Soit:

mG =

'1J+:::J+>: lx 2

y !f(x)f(y) dx dy

l :2 ~I

-"",,~ ... ,..,.. ,nf'lon

unidimensionnelle de donnes numriques

119

I s'appelle la diffrence moyenne, d'o:

G=-

.6.,

2m

Indice de Gn d'un chantillon


Si toutes les valeurs Xi de la distribution sont distinctes, la diffrence moyenne empirique vaut:

d'o:

= --"-----n(n -

1).I

5.3

RSUMS NUMRIQUES

Il est indispensable en gnral de rsumer une srie d'observations par des indicateurs typiques dont le plus connu est la moyenne arithmtique. II est cependant toujours insuffisant de rsumer une srie par un seul indicateur. Voici une liste typique de rsums numriques pour la variable taux de taxe d'habitation

TABLEAU

S.4

Effectif Moyenne Mdiane Variance cart-type Minimum Maximum tendue 1'''[' le 3 e quartile Intervalle inter-quartiles Asymtrie Aplatissement Coef. de variation

100 17.7707 17.625 30.2707 5.5019 3.68 36.17 32.49 15.035 20.585 5.55 0.368299 4.46798 31.1164 %

120

S_Description unidimensionnelle de donnes numriques

5.3.1

Caractristiques de tendance centrale


Il

Il s'agit en quelque sorte de dfinir une valeur c autour de laquelle se rpartissent les observations (fig. 5.9). Les plus usites sont la mdiane, la moyenne arithmtique et le mode.

.. ..
5.3.1.1
La mdiane

1:
FIGURE

5.9

C'est la valeur M telle que F(M) = 0.50. SI les observations sont ranges par ordre croissant M x(n 1)/2 pour Il impair. Si Il est pair on prendra conventionnellement:

Lorsque l'on ne connait qu'une rpartition en classes (situation viter mais que l'on rencontre si l'on travaille sur des documents rsultant d'un traitement pralable) on cherche la classe mdiane [Ci 1. e,J telle que:
F(ei- 1)

< 0.5 et

F(ej)

> 0.5

et on dtermine M par interpolation linaire :

M=e/ - I + a -j; - 1
L'interpolation linaire revient supposer une distribution uniforme l'intrieur de la classe mdiane. La mdiane est un indicateur de position insensible aux variations des valeurs extrmes (elle ne dpend en fait que des valeurs centrales de l'chantillon tud) mais n'a que peu de proprits algbriques.

0.5 -

5.3.1.2

La moyenne arithmtique
l

X= -

2: X;

Il

ou

:x = 2: PiJ: i
i= 1

1/

pour des donnes pondres

J1 i=1

Pour des donnes rparties en k classes la formule approximation de la moyenne

2: j;c;
i=1

avec

Ci

= ---....;. donne une


2

x mais cette situation doit tre vite.

La moyenne arithmtique est fonction de toutes les observations mais est sensible aux valeurs extrmes: c'est un indicateur peu robuste bien qu'universellement utilis.

s_Descrpcion unidimensionnelle de donnes numriques

121

5.3.1.3

Le mode

Valeur la plus frquente pour une distribution discrte; classe correspondant au pic de l'histogramme pour une variable continue. Sa dtermination est malaise et dpend du dcoupage en classes. Pour une rpartition parfaitement symtrique on a : Moyenne = mode = mdiane

5.3.2

Caractristiques de dispersion

Plus encore que la tendance centrale, la dispersion est la notion cl en statistique car si tous les individus avaient la mme valeur il n' y aurait plus de raisonnement statistique ...

5.3.2.1

L'tendue ou intervalle de variation

Dpendante des valeurs extrmes c'est un indicateur instable.

5.3.2.2
IQ3 -

L'intervalle interquartile

Les quartiles QI, Q2' Q3 tant dfinis par FCQI) = 0.25 F(Q2) = 0.50 et F(QJ) 0.75, QI! est un indicateur parfois utilis pour mesurer la dispersion: il est plus robuste que l'tendue.

5.3.2.3

La variance et l'cart ..type

Ce sont les deux mesures les plus frquemment utilises. La variance


s2

est dtinie par :


.0;1

= - '2:(Xi
Il i=1

Il

X)2

ou

L'cart-type s s'exprime dans la mme unit que la variable tudie. s Le coefticient de variation exprime en pourcentage le rapport =. Il n'a de sens que si x> O. x On a les formules suivantes:
- 2,;X f - (x)Il

1~

(moyenne des carrs) moins (carr de la moyenne) ;

s:!

=! '2:(Xi
Il

a)2 - (x - a)"l, thorme de Konig-Huyghens.

Ces deux formules ne prsentent d'intrt que pour des calculs la main sur des petites sries et doivent tre prohibes pour des calculs automatiques sur des grandes sries, les sommes de carrs pouvant conduire des dpassements de capacit ou des pertes de prcision.

122

5_Descripton undimensionnelle de donnes numriques

Il

L'algorithme suivant permet de calculer la somme des carrs des carts SC la moyenne valeurs par ajustement progressif: chaque nouvelle valeur .\j introduite entrane une moditica_ tion simple et positive de la somme des carrs calcule pour les j 1 valeurs dj introduites: SC = 0

pour j = 2, 3, ... , Il faire :


1 _ 1) (jXj

SC
d'o quandj
Il,

= SC + j(j

T)2

Till el S2 = SC/n.

5.3.3

Cohrence entre tendance centrale et dispersion

Xi

Nous pouvons considrer qu'une valeur centrale c doit tre proche de ('ensemble des 1 Il 1 et minimiser une fonction du type - Ld(c; Xi) o cl est un cart. D = - Ld(c; xJ dfinit
"i=1

Il

alors une mesure de dispersion des observations autour de c. Le choix d'une certaine forme analytique pour d entrane alors l'usage simultan d'une mesure de tendance centrale et d'une mesure de dispersion cohrenles :

si d(c;

Xi)

= (c -

si d(c ; Xi) Le couple (x,


S2)

xy on a c = x et D = .,2 ; le -.tA on trouve c = M, c'est--dire la mdiane et D

~ 2:lxi - MI.

est donc cohrent avec l'usage de distances euclidiennes.

Gomtriquement si l'ensemble des observations de X est considr comme un vecteur de !Rif :

x=

chercher une valeur centrale c revient chercher une variable constante c'est--dire un vecteur:
1

=c

= cl

5_Description unidimensionnelle de donnes numriques

123

le plus proche possible de x au sens d'une certaine topologie. En munissant ~l! de la mtrique euclidienne usuelle, sur ~ (fig. 5.10).

x est la mesure de la projection de x

FIGURE

5.10

5.3.4

Caractristiques de forme

Elles sont utiles notamment pour vrifier rapidement le caractre normal d'une distribution (on sait que le coefficient d'aplatissement thorique de la loi normale est 3) : coefficient d'asymtrie: 1'1 = 1Il]/::;3 ; coefficient d'aplatissement: 1'2 1114/~,4;
o
J1l3

= 1 2:(x;
Il

- X)3 et /114

= ~ 2:CXj 11

X)4.

Les notations ne sont pas universelles et 1'1 est pmfois not auteurs utilisent 1'2 - 3.

~, 1'2 not b1 . Certains

Description
bidimensionnelle et mesures de liaison entre variables

Aprs les descriptions unidimensionnelles on tudie gnralement les liaisons entre les variables observes: c'est ce que l'on appelle communment l'tude des corrlations. Les mthodes et les indices de dpendance varient selon la nature (qualitative, ordinale, numrique) des variables tudies.

6.1

LIAISON ENTRE DEUX VARIABLES NUMRIQUES


Il

Supposons que l'on observe pour 11 individus deux variables X et Y. On a donc


(Xi; Yi) ou encore deux vecteurs x et y de ~II avec:

couples

x=

y=

XII

_ Il

6.1.1

tude graphique de la corrlation

Afin d'examiner s'il existe une liaison entre X et Y on reprsente chaque observation i comme un point de coordonnes (Xi, Yi) dans un repre carlsien. La forme du nuage de points ainsi trac est fondamentale pour la suite: ainsi la tigure 6.1 montre: a) une absence de liaison; b) une absence de liaison en moyenne mais pas en dispersion; c) une corrlation linaire positive; d) une corrlation non linaire.

126

6_0escription bidimensionnelle et mesures de liaison entre variables

y~.
~

x
(a) (b)

x
(c)
FIGURE 6.1

x
(d)

_ On dit qu'il y a corrlation si il y a dpendance en moyenne: X = x fix la moyenne y est fonction de x. Si cette liaison est approximativement 1inaire on se trouve dans le cas de la corrlation linaire. Rappelons que la non corrlation
n~est

pas ncessairement l'indpendance.

6.1.2

le coefficient de corrlation linaire

Ce coefficient dit de Bravais-Pearson}) mesure exclusivement le caractre plus ou moins linaire du nuage de points.

6.1.2.1

Dfinition

ST

et Sy sont les carts-types de

et y :
s-: = \
-

L( ". - - , v)/1
~

Il i== 1

Le numrateur - L(X i - X)(Yi - y) est la covariance observe.


Il i= 1

1/

De mme que pour p (voir chapitre 3) dont il est la version empirique: -1 $' r::; l et 1 ri = l est quivalent l'existence d'une relation linaire exacte: lL\; + bYi + C 0 "iIi. Si l'on considre dans l' espace ~" les deux vecteurs :
XI -

X
X

'\'1 - y
)'2 -

X2 -

et

XJI

YII -

r est le cosinus de l'angle form par ces deux vecteurs comme un calcul lmentaire le montre, d'o ses proprits.

..... _~~ .. inl'lnn

bidimensionnelle et mesures de liaison entre variables

127

Du bon usage du coefficient r


r ne mesure que le caractre linaire d'une liaison et son usage doit tre rserv des o les points sont rpartis de part el d'autre d'une tendance linaire (fig. 6.]c du paragraphe prcdent). Par contre, la figure 6.2(1) montre les risques d'un usage inconsidr du coefficient de corrlation linaire r. On notera en particulier que r est trs sensible aux individus extrmes et n'est donc pas robuste .

..

.0. ::.

A .:.

rA=0.BB2 r9=O,951

..

.. ..
"
B

r=0.778

r=O
.. 0

DO:

..

.....
0

.....
"
"

""
rA 0.913 r6=0.956

" " ..

..
""

C "".0

rc =0.899 ro=0.915

r=0.626

r=0.981

FIGURE

6.2

Les 4 nuages de la figure 6.3 ont mmes moyennes, mmes variances et mme coefficient de corrlation :

x
r

= 9

7.5

10.0
0.82

s~ = 3.75

Seul le premier nuage justifie l'usage de r.


IIIIIIiICailliez el Pags. 1976.

128

6_Description bidimensionnelle et mesures de liaison entre

V;:Jrl~I'\JI~":C('1~"!

10

..

..

....
10

..

..

..... ..

15

20

..

.......
FIGURE

6.3

Notons pour finir que la corrlation n'est pas transitive: x trs corrl avec y, y corrl avec z, n'implique nullement que x soit corrl avec z.

6.1.2.3

Matrice de corrlation entre p variables


11

Lorsque l'on observe les valeurs numriques de p variables sur en prsence d'un tableau X 11 lignes et p colonnes: 2 2
j ... p

individus on se

X=

-.-j

11

x1 est la valeur prise par la variable n j


11' A=I--.
11

sur le i me individu.

Le tableau des donnes centres Y s'obtient en utilisant l'oprateur de centrage'

t;_IDE~SCIlptJOn bidimensionnelle et mesures de liaison entre variables

129

A est la matrice
au:= 1

Il

n de terme gnral:

,
11

a IJ ..

= -Il

si

'* j.
..,
Si
Sl2

La matrice des variances et covariances des p variables :

SIl'

S2

S1p

V=

o:

est telle que V

= - Y/Y.
11

La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :

R=

En posant:

On a R

= DI!s VDI/.,'

R est identique la matrice de variance-covariance des donnes centres et rduites. R rsume la structure des dpendances linaires entre les p variables. Comme V, R est une matrice symtrique positive.

130

6_0escription bidimensionnelle et mesures de liaison entre

Vrlr'I:I"'I"'ft;;,)!,~,

II1II Exemple: Les rsultats suivants concernent 6 variables du tableau de donnes au chapitre 17 et donnant pour 18 vhicules des caractristiques techniques.

ugIUfanf@!

La matrice V est calcule avec

Il -

1 en dnominateur:

Matrice de variance et covariance V


PUIS LAR CYL LON 139823.5294 6069.7451 5798.7059 1251.29'11 ,115.1928 388.9118 56.3922 6069.7451 288.9118 488.7353 99.7647 5798.7059 56.3922 99.7647 28.2353 1251.2941 521. 7059 40104.2941 2135.6961 2628.3824 208.8791 127.7353 30.5098 3018.5686 POIDS 40401.2941 2135.6961 2628.3824 521.7059 18757.4412 794.1078

CYL PUIS LON LAR POIDS VITESSE

La matrice R est la suivante: Matrice de corrlation R (Bravais-Pearson)


CYL 1.00000 0.79663 0.70146 0.62976 0.78895 0.66493 PUIS 0.79663 1.00000 0.64136 0.52083 0.76529 0.84438 LON 0.70146 0.64136 1.00000 0.84927 0.86809 0.47593 LAR 0.62976 0.52083 0.84927 .00000 0.71687 0.47295 POIDS 0.78895 0.76529 0.86809 0.71687 1.00000 0.47760

CYL PUIS LON LAR POIDS VITESSE

On constate que toutes les variables sont corrles positivement, avec certains COi~ttlcii~nt:~' trs levs : il existe donc une forte redondance entre les variables, ce qui conduit phnomne dit de multicolinarit (voir chapitre 17). La tlgure suivante, appele matrice de dispersion. est trs utile: elle permet en un graphique de juger des liaisons entre toutes les variables.

.
cylindre


... :.-.

.......
~

,,::

.... :t

:-" :

..... ....
41.

_S

i .. :.

1

il

.1,,'"

a. -.-

41 :

~..
;.

.. .
~

pUissance .""... _

:.. .... .. .,.,.


: 1

"

.1-

.,., :
1 _ .a, . '

.. .

..

. . :. . . .
Il

~ : _ ..... longueur

..
.......

.:-.,..

....

.. .. "," ..... , ",," .. .. eI',;...... ::. . . - :. ..". .... .. . .. ...... -.. ....-. . .. .: ..
........
"

.. _:- .... .. .:' ..


-.
.."

.... .....

.!
largeur

a.

.. 'IF"

" ,p":
.....fJA

. . . . ...

.
1

l'.

poids

..:,. ..."

"

..

. ... ".
II'

" " ,,"'1

'"..

..

..

vilesse

FIGURE

6.4

Matrice de dispersion

n~rr"l:nrl("~n

bidimensionnelle et mesures de liaison entre variables

131

Caractre significatif d'un coefficient de corrlation


En admettant que l'on se trouve dans le cas o l'usage de r est justifi, partir de quelle la liaison est-elle significative? En anticipant sur la thorie des tests on raisonne comme suit: si les Il observations avaient prleves au hasard dans une population o X et Y sont indpendantes (donc o p = 0) quelle seraient les valeurs possibles de r ou plus exactement la distribution de probabilit de la variable R qui correspond cet chantillonnage? Lorsque p

= 0 et que les observations proviennent d'un couple gaussien la distribution de

R est relativement facile obtenir.


On montre que:

r=::::::R=::::::~n

- 2 sUt une loi TII -

Par changement de variable on en dduit alors directement la densit de R si p

=0:

fer)

2) B (1 .- 2' 2
Il -

(l -

1'2)<11- -HI:!

Pour Il = 4, on remarquera que R suit une loi uniforme sur [ -1, 1] et donc que toutes les valeurs possibles sont quiprobables. On a: Pour Il > 100, la loi de R est approxime de trs prs par une loi de Laplace-Gauss:

LG(O;_~)
"'Ill -

Sinon la loi de Rest tabule, Table A.9. Ainsi au risque 5 % on dclarera qu'une liaison est significative sur un chantillon de 30 observations si 1 ri > 0.36. On remarquera que le seuil de signification dcrot quand Il crot; le fait de trouver que r diffre significativement de 0 ne garantit nullement que la liaison soit forte (voir chapitre 16). Lorsque p est diffrent de zro la loi exacte de R bien que connue est trs difficilement exploitable on notera cependant que:
E(R)

P _ p(l
211

p2)

R est biais pour p

VeR) = _(1_---'-_ Tl - 1

132

6_0escription bidimensionnelle et mesures de liaison entre variables

La figure 6.5 donne les distributions d'chanlillonnage de r pour diffrentes valeurs de p~ avec Il = 10. On ne peut pas faire directement une approximation normale. On utilisera plutt Je rsultat suivant conduisant une approximation correcte ds que Il > 25.
3

-1

-0.5

o
FIGURE

0.5

6.5

+ -ln - 2 l-R

1 (1

R)
II-X

LG -ln + ' - 2 I-p'~

(1 1

1)

Z est la transforme de Fisher de R (table A.10). On notera que VeZ) est indpendant de p. Cette transformation permet de tester des valeurs a priori pour p et de trouver des intervalles de confiance pour p partir de R. On peut galement utiliser l'abaque fourni en annexe
(table A 1.9 bis). Lorsque le couple (X, Y) n'est pas gaussien les rsultats prcdents restent utilisables Il > 30), mais le fait de trouver que r n'est pas signiftcativement diffrent de 0 n'entrane pas ncessairement l'indpendance.

condition que n soit grand (en pratique

6.1 .4

Corrlation partielle

Il arrive frquemment que la dpendance apparente entre deux variables soit due en ralit aux variations d'une troisime variable. La littrature statistique abonde en exemple de tllUsses corrlations surprenantes entre phnomnes varis qui disparaissent lorsque l'on fixe une troisime variable (souvent non alatoire comme le temps) ainsi de la corrlation entre le nombre de maladies mentales dclares chaque anne et le nombre de postes de radio installs. Les coefficients de corrlation partielle constituent un moyen d'liminer l'influence d'une' ou plusieurs variables. Ces coefticients peuvent tre introduits de diverses faons en particulier dans le cadre de la rgression multiple (chapitre 17). Nous en donnerons ici deux prsentations, l'une issue: du modle gaussien, r autre gomtrique.

6- Description bidimensonnelie et mesures de liaison entre variables

133

6.1.4.1

Le modle normal p dimensions

Soit un vecteur alatoire (XI_ X2, Xp ) suivant une loi Np (!-L, ~). En appliquant les rsultats du chapitre 4, paragraphe 4.2.4, on sait que la loi du couple XI X~ conditionne par X3 Kt ... Xp est une loi normale deux dimensions. On obtient alors le coefficient de corrlation partiel (ou conditionnel) P 12.3.\ .. _l" partir de la matrice des covariances partielles. Un calcul simple montre qu'en particulier pour p = 3 :

Cette formule se gnralise et permet de calculer de proche en proche les divers coefficients de corrlation partielle :

pour oblenir PXlx~.r1x4 il suffit de remplacer dans la formule prcdente les corrlations simples par les corrlations partielles:

On dfinit alors formellement le coefficient de corrlalion linaire partielle empirique en remplaant p par r.

. 6.1.4.2

Corrlation entre rsidus

Ayant dfini r.t!.\). x, par les formules prcdentes, il est facile de vrifier que ce coefficient mesure la corrlation entre le rsidu de rajustement linaire de XI sur X3 et celui de l'ajustement de X2 sur X3'

Interprtation gomtrique dans

lR'I :

Nous supposerons

Xb X2- X3

centres.

YJ est la projection de Xl sur X].


X est la projection de
XI

sur le plan

X2'

x] (fig. 6.6).

o
FIGURE

6.6

On a alors cose = et cos,!, = plan perpendiculaire .'\:'3'

rXt,r!._,'}

c.p est la projection de l'angle entre XI et Xl sur un

134

6_0escription bidimensionnelle et mesures de liaison entre

v;lrll:> .... I.~,.;',"

Xl

On peut vritier ainsi que r x, .,! d l est le coefficient de corrlation linaire entre la partie non explique linairement par X3 et la partie de X2 non explique linairement par x3 voit que si x] est trs voisin de Xl la corrlation partielle est voisine de 0 car XI presque pas d'information supplmentaire sur XI une fois X3 connu.

6.1.4.3

Signification d'un coefficient de corrlation partielle

Dans le cas gaussien, on dmontre que la loi du coefficient de corrlation partielle est mme que celle d'un coefficient de corrlation simple mais avec un degr de libert rJl"",,-.,.. ;;:, de d, nombre de variables fixes. Donc. ~ ~11
'J 1 1'2

d - 2 sut un T,l _ il

2,

ce qui pennet de tester le caractre

u.c ........ '...... lll:::'./

d'une liaison partielle.


1IIIIIIII Exemple: (voir les donnes compltes au chapitre 17 Rgression multiple) l'chantil1on de 18 automobiles, lam;;lqce de corrlation entre prix, vitesse et puissance est'

Prix Prix Vitesse Puissance

Vitesse 0.58176
1

Puissance

[O.5~176
0.79870

0.79870]
0.84438 1

0.84438

Au seuil 5 % toutes ces corrlations sont significatives (valeur critique 0.468). Cependant, le coefficient de corrlation entre le prix et la vitesse sachant la puissance vaut:

-;================ =
~(l
- (0.79870P)(1 - (0.84438)2)

0.58176 - 0.79870 X 0.84438

3 .287 9

La liaison a chang de signe mais elle n'est plus significative (valeur critique 5 % : 0.482). _

6.2

CORRLATION MULTIPLE ENTRE UNE VARIABLE NUMRIQUE ET P AUTRES VARIABLES NUMRIQUES

6.2.1
Xl,

Dfinition
.

Soit une variable numrique y et un ensemble de p variables galement numriques;

x 2,

xl'.

Le coefficient de corrlation multiple R est alors la valeur maximale prise par le coeff: , cient de corrlation linaire entre y et une combinaison linaire des x j ;

On a donc toujours 0

:$

:$

1.

.... _"_~;,,,,,,,,,.,n bidimensionnelle et mesures de liason entre variables

135

R :::= 1 si il existe une combinaison linaire des x j telle que:

Y = an

2: ajx i
j= 1

6.2.2

Interprtation gomtrique

Rappelons que le coefficient de corrlation est le cosinus de l'angle form dans ~1! par des variables centres. R est donc le cosinus du plus petit angle form par y (centre) el une combinason linaire des Xi centres. Considrons le sous-espace W de !R;II (de dimension au plus gale p les combinaisons linaires des xi et la constante 1.

1) engendr par

R est alors le cosinus de l'angle B form par la variable centre y - yet W, c'est--dire l'angle form par y - y et sa projection orthogonale y* y sur W (fig. 6,7).

w
FIGURE

6.7

6.2.3

Calcul de R

Soit A la matrice de projection orthogonale sur W, alors:

R 2 = (y En particulier si y est centr:

YY

ACy - y)

Ily

yll:!

= s;~ .'1;

En effet Il Ay l' 2 = cos 2BIl Y11 1 et Il Ay 11 2 orthogonal CA = A' et Al = A).

= y' A Ay
1

= y' Ay car A est un projecteur

136

6_Descrpton bidimensionnelle et mesures de liaison entre

v::!rl~I'\II,,~,,:""'"

Si X dsigne la matrce dont les colonnes sont les p variables y est centre:

Xl,

x 2 .. , x/J centres et

o (X'X)- est une inverse gnralise quelconque de (X/X). On peut dmontrer alors la formule reliant corrlation multiple et corrlations des divers ordres:

6.2.4

Signification d'un coefficient de corrlation multiple

Si les 11 observations taient issues d'une population gaussienne o Yest indpendante des Xi alors on dmontre que (voir chapitre 17) :

On retrouve comme cas particulier la loi du coefficient de corrlation linaire simple en faisant p 1.

6.. 3

LIAISON ENTRE VARIABLES ORDINALES: LA CORRLATION DES RANGS

Il arrive souvent de ne disposer que d'un ordre sur un ensemble d'individus et non de valeurs numriques d'une variable mesurable: soit parce qu'on ne dispose que de donnes du type classement (ordre de prfrence, classement A, B, C, D, E), ou bien parce que les valeurs numriques d'une variable n'ont que peu de sens et n'importent que par leur ordre (notes d'une copie de franais: avoir 12 ne signifie pas valoir deux fois plus que celui qui a 6). A chaque individu de 1 Il on associe son rang selon une variable (un rang varie de 1 Il). tudier la liaison entre deux variables revient donc comparer les classements issus de ces deux variables: Objet: Rang n 1 : Rang n 2:
rI
SI

2
1'1
S2
JI

11
l'If Sil

Les ri et Si sont des permutations diffrentes des

premiers entiers.

r:;rIII.DI;SCI"lptlOn

bidimensionnelle et mesures de liaison encre variables

137

le coefficient de Spearman
Le psychologue Charles Speannan a propos en 1904 de calculer le coefficient de corrla-

tion sur les rangs:


rs
cov(r, s)

Le fait que les rangs soient des permutations de [1 ... 1/] simplifie les calculs el r on a en l'absence d'ex aequo:

r=s

Il

+
2

,.
Si l'on pose di = on a:

1 1'.1). _ Il ~I'l

(~):! 'J
_

.\

12
ri - Si diffrence des rangs d'un mme objet selon les deux classements,

'J _
1

12:(r- 1

s)l

., + -12:' + -12:' s~ 'J _ r-:l


1

'). 1

mais:

2:s~ = 1_1(_11_+ _ _+_1_) _ 6

somme des carrs des nombres entiers, d'o:

62:dl
i

(n + 1)6(211 + 1) _ (11 ~_ 1)::: + __________~____------_


1

11(11 1 -

1)

- 1
12

Le deuxime terme vaut 1 aprs calcul et on a la formule pratique:

l'x

= 1-

La dfinition de r" comme coeftjCent de corrlation linaire sur des rangs nous indique que:

r, rs =:; rs =

1 => les deux classements sont identiques

1 => les deux classements sont inverses l'un de l'autre ; 0 => les deux classements sont indpendants.

138

611111i1lDescription bidimensionnelle et mesures de liaison entre variables

Pour savoir si la valeur trouve de r~ est significative, on se reportera la table du coefficient de corrlation de Spearman fournie en annexe{l) La rgion critique sera IRsl > k : si R.I_ > k : il y a concordance des classements; si R~ < - k : il y a discordance des classements. Lorsque les observations proviennent d'un couple normal (X, Y) de corrlation p et que l'on calcule r.1 la place de r on montre que si 11 est trs grand on a les relations approches suivantes:
r
J

6 . = -Arc sm 1T 2

(p)

ou

= 2 sin

(if r,)
'T

6.3.2
6.3.2.1

Le coefficient de corrlation des rangs


Aspect thorique

de M. G. Kendall

Afin de savoir si deux variables alatoires X et Y varient dans le mme sens ou en sens contraire on peut considrer le signe du produit (X, - X2 )(YI Y2 ) o (Xl' YI) (X:,!! Y2 ) sont deux ralisations indpendantes du couple (X, Y). Si P(X, - X 2 )(Y1 Y2) > 0) > 1/2 il Y a plus de chances d'observer une variation dans le mme sens que dans le sens inverse. On dfinit alors le coefficient thorique,. par :

Ce coefficient est donc compris entre -1 et dantes (mais pas seulement dans ce cas ... ).

+ 1 et s'annule lorsque X et Y sont indpen-

Si (X, Y) est un couple gaussien de coefficient de corrlation p on montre que:


T

? = - Arc sin p
1T

On remarquera que Notons enfin que:

::5 p. ,. = p n'est vrai que pour p = 0 et p

1,

o Pc et Pd sont respectivement les probabilits de concordance et de discordance.

6.3.2.2

Calcul sur un chantillon

En s'inspirant des considrations prcdentes: On considre tous les couples d'individus. On note 1 si deux individus i et} sont dans le mme ordre pour les deux variables: Xi < xj et Yi < yj_

21ii1111Cette table est obtenue en utilisant le fait que dans le cas d'indpendance. les n! permutations d'un classement sont quiprobables.

6_Description bidimensionnelle et mesures de liaison entre variables

139

On nole - 1 si les deux classements discordent Xi < On somme les valeurs obtenues pour les

Xj

et )'i > -'j.

n(H - 1) 2 couples distincts, soit S cette somme ;

on a:
Smax = -Smin

l1(n - 1) 2

Le coefficient 'T est alors dfini par:

'T

= - -2S- 1 1l(1l -

1)

On constate que :
-7=
T

l classements identiques; = - 1 classements inverss.

Pour savoir si la valeur constate est significative on se rfre la situation thorique d'indpendance dans la population. On peut alors obtenir la distribution de 'T par des arguments combinatoires mais celle-ci peut tre approche par une loi de Laplace-Gauss :

'T -

LG ( 0;

~2(2n +
9u(1l -

5))
1)

L'approximation est trs bonne ds que Il 2:: 8, ce qui est un avantage pratique sur le coefficient de Spearman, si l'on ne dispose pas de tables de ce dernier. Mthode de calcul rapide: on ordonne les Xi de 1 Il ; on compte pour chaque Xi le nombre de Jj > Yi parmi ceux pour lesquels j > i. On somme; soit R cette somme:

S
j

2R 4R
lI(n -

l1(n - 1)

2
1)

_ Exemple : 10 chantillons de cidre ont t classs par ordre de prfrence par deux
gastronomes :
Xi

2.

3 4
4

10
7

\" .1

2 6

5 9 8

10

Le coefficient de Spearman :

rs

6'Ldr
n(u 2
-

1)

vaut

rs

0.84

140

6. Description bidimensionnelle et mesures de liaison entre variables

Le coefticient de Kendall s'obtient par:


R

7 + 8 + 6 + 6 + 4 + 4 + 1 + 1 = 37
45

S = 74 d'o
1" :::::

= 29
au seuil 5 % bilatral sont:
T

0.64.
T

Les valeurs critiques de r.r et de


rr = : 0.648

et

= : 1.96

-'J 9OX9

_IsO

0.49

Les deux valeurs de deux classements.

et de rs laissent donc apparatre une liaison significative entre les _

A part le cas o les variables sont ordinales, les coefficients de corrlation des rangs sont trs utiles pour tester l'indpendance de deux variables non normales lorsque r chantillon est petit: on sait en effet qu'on ne peut appliquer alors le test du coefficient de corrlation linaire. Les tests de corrlation des rangs sont alors les seuls applicables, car ils ne dpendent pas de la distribution sous-jacente. Ils sont robustes car insensibles des valeurs aberrantes. Les coefficients de corrlation de rangs sont en fait des coefficients de dpendance monotone car ils sont invariants pour toute transfonnation monotone croissante des variables. Les coeftcients de corrlation de rang permettent de tester l'existence d'une relation mono tone entre deux variables. Ainsi le nuage de points suivant o y = ln(x) donne un coefficient de corrlation linaire r = 0.85 mais des coefficients de Spearrnan et de Kendall gaux 1.

4
3

Y
2

20

40
X

60

80

100

FIGURE

6.8

Lorsque les coefficients de corrlation de rang sont nettement suprieurs au coefficient de corrlation linaire, des transformations monotones non linaires sur certaines variables peuvent se rvler utiles.

6_Description bidimensionnelle ec mesures de liaison entre variables

141

6.3.3

Coefficients de Daniels et de Guttman

Les trois coefficients de corrlation (Pearson, Speannan, Kendall) peuvent tre prsents comme 3 cas particuliers d'une mme fonnule, dite formule de Daniels. On considre pour toute paire d'individus i,j deux indices ai} et bi} le premier associ la variable X. le deuxime associ la variable Y (par exemple ai} = Xi - X) et on dtnit le coefficient suivant:

qui varie entre - l et En prenant aij =

+ 1 d'aprs l'ingalit de Schwarz.


Xj

Xi -

et bi} = Yi - Yj on trouve le coefficient r de Bravais-Pearson

(2.:2:(x; - x)"2 = 211"2S~ par un calcul vident).


En prenant aij = 1) et bi) Si - Sj o les r et les s sont les rangs de classement selon X et Yon obtient le coefficient de Speannan. En prenant:
aij

l', -

signe de

(Xi -

Xj)

bi}

de (Yi - )'i)

on obtient le coefficient,. de Kendall. Mentionnons enfin le coefficient de monotonicit de GuUman :

qui ne rentre pas dans la catgorie des coefficients de Daniels mais qui possde des proprits intressantes.

6.3.4
Soient

le coefficient W de Kendall de concordance de p classements


11

individus (ou objets) t classs selon p critres (tableau 6.1) :


TABLEAU

6.1
Tl

Critres

~
1
2

l
rll
1'12

2
r:?'1
1'22
1"21'

l'Ill

J'Ill

P Total

rl p
r J.

l'up

r 2.

r ll

l'.,

142

61111i1Descripdon bidimensionnelle et mesures de liaison entre variables

Chaque ligne du tableau est une permutation des entiers de 1 n. La somme des termes d une ligne etant
, . _ n(1l

1)

' on a r .. = p

1l(1l

1)

ri, 1'2' . ,

Si les p classements taient identiques (concordance parfaite) les totaux de colonnes fil. seraent gaux, une pelmutation prs, p. 2p, 3p, . , " np ; en effet, tous les termes d'une mme colonne seraient identiques. Pour tudier la concordance entre ces classements on utilise la statistique:

s=

,,{...I

11 ~ ( r,.

qui mesure la dispersion des totaux de colonnes par rapport leur moyenne. On vrifie sans peine que S est maximal s'il y a concordance parfaite et que:
(n 3 -

11)

12

Le coefficient de concordance de Kendall est:

W=---p1 (,,3 - Il)


On a donc 0
~

12S

1.

Le cas limite W = 0 s'obtient si tous les totaux de colonnes sont identiques, une faible valeur de W indiquant l'indpendance entre les classements. On notera que la discordance parfaite entre p classements ne peut exister: il ne peut y avoir discordance parfaite entre plus de deux classements. Le coefficient West reli aux coefficients de corrlation des rangs de Spearman entre les classements pris deux deux par la formule suivante:

r.1

=---

- 1

o rs est la moyenne arithmtique des C~ coefficients de corrlation de Spearman entre classements,

Test de l'hypothse Ho d'indpendance mutuelle des p classements:


Pour les faibles valeurs de p et Il, la distribution de Wa pu tre calcule sous l'hypothse Ho en considrant les (n!)P permutations quiprobables des p lignes du tableau. On rejette Ho si West trop grand et on se reporte la table fournie en annexe pour les valeurs critiques de S Cl 0.05. Pour
Il ~

15 et pour p
1)

< 7,
1-

(1' - 1)W

1- W

est distribu sous Ho. comme une variable

F(" -

~ ; (p -

(11 -

~)).
1) West distribu comme un x~ -1'

Pour p ;:::.: 7 on admet que p(n

6_Description bidimensionnelle et mesures de liaison entre variables

143

Si l'on rejette l'hypothse Ho d'indpendance des p classements, quel classement final attribuer aux 11 objets? On admet en gnral la procdure suivante qui est de classer les objets selon l'ordre dfini par la somme des colonnes ; cette procdure possde la proprit de maximiser la somme des coefficients de corrlation de Spearman entre le nouveau classement et les p classements initiaux(l). Cas des ex aequo: pour calculer S, on remplace le rang des ex aequo dans un mme classement par la moyenne arithmtique des rangs qu'ils auraient obtenus si il n'y avait pas eu d'ex aequo (ceci conserve la somme des lignes). La valeur de
Smax.

tant alors modifie, on remplace W par :

w= ------------------fi
p2(n 3 - 11) - p

12S

2: (t} -

tj)

J=l

o lJ est le nombre d'ex aequo du /mc classement.

6.4

LIAISON ENTRE UNE VARIABLE NUMRIQUE ET UNE VARIABLE QUALITATIVE

6.4.1

Le rapport de corrlation thorique (rappel)

La mesure, ici non symtrique, de la liaison est le rapport de corrlation TJrjzr dfini par :
v [E(Y/zr)] VeY)

'1

TJ'/.'r

En effet on peut app1iquer 1')2 lorsque la variable &r n' est pas quantitative mais qualitative k modalits (voir chapitre 3).

6.4.2

le rapport de corrlation empirique

Si zr a k. catgories on notera n" Il:!, .. , 11" les effectifs observs et Yb Y:2' ... , YI; les moyennes de Y pour chaque catgorie (il est indispensable qu'au moins un des ni soit suprieurs 1) et y la moyenne totale.

J. F. Marcotorchino et Rl"lichaud.

3aO'autres procdures bases sur la rgle de la majorit de Condorcet sont possibles (voir l'ouvrage de 1979): recherche de l'ordre maximsant la somme des coefficients de Kendall.

144

6_Descrption bidimensionnelle et mesures de liaison entre variables

Si l'on note e:'l'quivalent empirique de Tl 2 on a :

e-=------

/1

e:'

= 0 si YI = Y2 = ... = Yk d'o absence de dpendance en moyenne. e2 = 1 si tous les individus d'une catgorie de fi(' ont mme valeur de Yet ceci pour chaque
s~ ,
-

catgorie car :

=-

.4.!1.d.

~ n(v- - 1')2

+ - "" Ilif ~II


Il
j'"

1l i= 1

o les
a)
b)

sl sont les variances de Y l'intrieur de chaque catgorie:


-

1l

2: Il (Yi i

y)2 est appele variance intercatgories.


,

~ 2:n js1 est appele variance intracatgories.


Il

On remarquera que si l'on attribue chaque catgorie i de te une valeur numrique gale Yi ce qui revient transformer f!(' en une variable numrique X k valeurs, e'l est infrieualors gal r'l(y; X) et que toute autre quantification conduit une valeur de re (voir plus loin).

,.2

Lorsqu'il n'y a que deux classes de moyennes

YI

et Y2

e- = - - - - - -

Pour dterminer partir de quelle valeur e2 est significatif on compare la variance inter la variance intra : on montrera plus tard au chapitre 16 que si Tl 2 = 0 alors:

Ce rsultat suppose que les distributions conditionnelles de Y pour chaque catgorie de X sont gaussiennes avec mme esprance el mme cart-type. On remarque que le nombre de classes intervient dans les degrs de libert de ]a loi de Fsher-Snedecor : on ne peut donc comparer les rapports de corrlation entre Y et deux variables qualitatives ayant des nombres diffrents de catgories. Lorsqu'aucune confusion n'est craindre, l'usage est de noter Tl 2 le carr du rapport de corrlation empirique, c'est ce que nous ferons dsormais.

6_Description bidimensionnelle et mesures de liaison entre variables

145

Reprenons l'exemple du 5.3.2.2 sur les variations du taux de taxe d'habitation Y selon la zone gographique X : le rapport de corrlation est tel que:
11 2(y/X)

0.56 et correspond F = 20.05

6.4.3

Interprtation gomtrique et lien avec le coefficient de corrlation multiple

Associons la variable qualitative g{' fi k modalits les k variables numriques suivantes indicatrices des modalits:

telles que: ni = 1 si l'individu i est dans la catgorie j de = 0 sinon.

Soit alors X le tableau de donnes Il lignes et k colonnes correspondant aux indicatrices de ge:

o o
X=

0 0 0

Le total des lments de la colonne j de X vaut Tlj' Un simple calcul permet alors de vrifier que:
yIX(X'X)-IX'y y'y

Yt

si y

est centre.

"~'/:r est alors le cosinus carr de l'angle form par le vecteur y centr et le sous-espace W de dimension k de IH. engendr par les variables indicatrices.
II

Le rapport de corrlation de Y en 2t s'identifie donc au coefficient de corrlation multiple avec les indicatrices de gr:

146

6_Description bidimensionnelle et mesures de liaison entre variabl

Dfinir une combinaison linaire des indicatrices Saj j revient attribuer chaqu catgorie j une valeur numrique (/j. donc rendre gr numrique ce qui implique que:

6 .. 5

LIAISON ENTRE DeUX VARIABLES QUALITATIVES

6.5.1

Tableau de contingence, marges et profils

Soit f!f et ay deux- variables qualitatives r et s catgories respectivement dcrivant un ensemble de Il individus. On prsente usuellement les donnes sous la forme d'un tableau crois appel tableau de contingence r lignes et s colonnes renfermant les effectifs Ill) d'individus tels que Xi et OY = )'j (vor tableau 6.2) :

TABLEAU

6.2

ay
YI

)':!

........ " .....


,

..

...

'O

.........

Ys
ilL!
1l2~

f!f
XI
X2

/111

1112 1122

Ill.

11::!.!

1'2.

Xi

nij

Ili.

.\r Il r l
lin
ll.j

Url
11.2

llr.

n.1

Il ...

Avec des notations standard on a

/li.

"Il" et
.t:.J
j
IJ

11 'J.

'Lnij'
i

Les ni. et les n.j s'appellent respectivement marges en lignes et marges en colonnes. La constitution d'un tel tableau est l'opration que les praticens des enqutes appellent un tri crois . Deux lectures diffrentes d'un mme tableau de contingence sont possibles selon que l'on privilgie l'une ou l'autre des deux variables: lecture en ligne ou lecture en colonnes. On appelle tableau des profils-lignes le tableau des frequences conditIOnnelles /l ..
J

IlU

11 i.

(la somme de chaque ligne est ramene 100 %) et tableau des profils-colonnes le tableau des frquences conditionnelles -2.. (le total de chaque colonne est alors ramen 100 %).
n.j

t;... DI::!SClrlpl:IOn bidimensionnelle et mesures de liaison entre variables

147

Exemple: Le tableau 6.3 provient de l'enqute sur les vacances des Franais en 1999, par ('INSEE en mai 2002.
On appelle vacances tout dplacement comportant au moins 4 nuites conscutives dehors du domicile, effectu pour des motifs autres que professionnels, tudes ou Un voyage peut comporter un ou plusieurs sjours (4 nuits conscutives au mme En 1999 prs d'un franais sur quatre n'tait pas parti en vacances, le tableau de continne concerne donc que ceux qui sont partis. L'unit statistique est ici le sjour, dcrit par deux variables qualitatives : la catgorie I:nc:O-DnJtessI IOflll1elle de la personne de rfrence du mnage en 8 modalits et le mode ':.l'l..;;h.,,,rlT,,,Tr\pnl en 9 modalits. La taille de l'chantillon est 18 352.

TABLEAU

6.3
Rscc

Tableau de contingence
Rppn Rspa Tente Caravane

Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres inactifs

Location

A.T
9

VilIageV

41

47

13

59

17

26

19

110

260

71

299

120

42

64

35

29

685 485 190 224754 31

775 639 352 591 393

450

1242 1250 813 11041158

706 398 t63 181 213 42

139 189 91 227 15 33

122 273 161


306

100 68

130
193
72

C92
67
147

49
7447
6

114
115

692 2

195
5

34

225

14

On dduit du tableau 6.3 les deux tableaux de profils suivants (6.4 et 6.5) qui permettent deux types de lecture: le tableau des profils-lignes permet de comparer les modes d' hbergement des diffrentes catgories socio-professionnelles (o vont les cadres 1 etc.) tandis que le tableau des profils-colonnes permet de savoir qui frquente tel mode (qui sont les clients des htels 1).

148

6_Description bidimensionnelle et mesures de liaison entre variables

TABLEAU

6.4

Tableau des profils-lignes


Rppa Rspa Tente Caravane
0.017

Botel Location Rscc Agrcul leurs Artisans, commerants, chefs d'entreprise Cadres cl professions intellectuelles suprieures
0.174 0.200

AJ
0.038

Village V Total
0.081 1

0.055 0.251 0.072 0.111

"Ci

0.193

0.228

0.062 0.262 0.105

0.037

0.056

0.031

0.025

." ..

1":"

0.158

0.178

0.103 0.286 0.162 0.032

0.028

0.023

0.030

"1

Professions intermdiaires 0.128 Employs Ouvriers Retraits


0.097 0.073 0.209

0.169 0.180 0.193 0.109 0.087

0.077 0.330 0.105 0.034 OA15 0.083

0.050 0.047

0.072 0.082 0.100 0.054 0.013

0.018 0.025 0.024 0.013 0.015

0.051 0.037 0.037 0.032 0.()36

1
1"'"

1
l

0.048 0.392 0.059 0.074 0.192 0.321 0.062 0.007 0.005 0.574 0.107 OJ)84

1
1
::.

Autres inactifs 0.079

TABLEAU

6.5

Tableau des profils colonnes


Rppa Rspa
0.009

".":
"

...

Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures
0.016

Location
0.015

Rsec

Tente
0.034

Caravane
0.004

A,J
0.023

VillageV
0.028

0.007 0.009

0.084

0.084

0.041

0.048

0.065

0.054

0.057

0.090

0.042

0.260

0.251

0.260 0.199

0.38'2

0.180

0.108

0.258

0.190

ProCessions intermdiaires 0.184 Employs Ouvriers Retraits Autres inactifs Total


0.072 0.085 0.287 0.012 1

0.207 0.114 0.191 0.127 0.011 1

0.168 0.200 0.039 0.130 0.085 0.399 0.001 1 0.193 0.185 0.036 1

0.215 0.088 0.098 0.121 0.023 1

0.245 0.119 0.294 0.032 0.043 1

0.242 0.142 0.271 0.173 0.004 1

0.175 0.126 0.191 0.121 0.015


1

0.281 0.105 0.166 0.168 0.020 1

6111\1Description bidimensionnelle et mesures de liaison entre variables

149

On remarquera que la moyenne des protils-lignes (avec des poids correspondant aux effectifs marginaux des lignes) n'est autre que le profil marginal des colonnes:

~ Il,, (Il.' ) L.J.-.JL -!:..


i='llli. Il

=-.:l
Jl

Il,

et que l'on a de mme :

~ Il '.' (11 ,) L.J.......!.L -.:l.


}= 1 Il.}

Il. ' =--.!..: Il

11

6.5.2

l'cart l'indpendance

Lorsque tous les profils-lignes sont identiques on peut parIer d'indpendance entre 21;" et UJJ puisque la connaissance de ft' ne change pas les distributions conditionnelles de UJJ. Il s'ensuit d'ailleurs que tous les profilswcolonnes sont galement identiques.
Il

On doit donc avoir


Il J.

n 1.

... = --2 'V;, ce qui entrane Il i. Il r. .


= ~.
Il
Il,

17

par sommation des

numrateurs et dnominateurs. L'indpendance empirique se traduit donc par !li}

n '

6.5.2.1

Le X2 d'cart l'indpendance et les autres mesures associes

On adopte gnralement la mesure suivante de liaison plus loin) :


Il" (
1)

(p. note aussi Xl ou

X1 (voir

11 i. Il.}):!
Il Il

dl -

2: 2: - - - }

ni. Il.}

On voit que d 2 est nul dans le cas de l'indpendance. Quelle est sa borne suprieure et dans quel cas est-elle atteinte? Il faut pour cela utiliser le rsultat suivant obtenu par dveloppement du carr :

Comme : -.!.l.
n.}

11 ' ,

:::::;

1 on a :

D'o:

" " L.J L.J


i

1li,Tl.}

' " Il 1) L.J .. s _ L.J Il.} :::::; ' " ' " - - ' " i L.J L.J ni} _ .L.J-- - " - _ i j Tl.) j n.} j=lll.j

150

6_ Description bidimensionnelle et mesures de liaison entre variables

D'o d 2 :s; n(s - 1). On pourrait montrer de mme que d 2 :s; n(r - 1). On a donc: "dl':! :s; inf (s - 1 ; r - 1)
1

La borne tant atteinte dans le cas de la dpendance fonctionnelle. En effet

dl

= n(s

Il,,

1) si -!l.
n ;.

l 'Vi, c'est--dire s'il n'existe qu'une case non nulle dans chaque ligne.

Ce cas est celui o JJ est fonctionnellement li fi:: ce qui n'implique pas que fJ: soit li fonctionnellement JJ comme on le voit sur la figure 6.9.

FIGURE

6.9

Le cas de la dpendance fonctionnelle rciproque ncessite r = s : aprs permutation des lignes ou des colonnes le tableau de contingence peut alors se mettre sous forme diagonale. Divers coefficients lis au d 2 ont t proposs pour obtenir une mesure comprise entre 0 (indpendance) et 1 (liaison fonctionnelle). Citons: le coefficient de contingence de K. Pearson ( - - - " 11 + dle coefticient de Tschuprow (
Il

d2

)1/:2

= C;

d'
(1' - 1)(s - 1)
ct- 1); (r

) 1/1.

=T;

le coefficient de Cramer

(Il inf. (s

1))1/2

cP / Il est usuellement not ",2. Pour l'exemple des vacances prsent plus haut on a :
d 2 = 1989
T = 0.12

c = 0.31
V
.

0.12
.

La constructIOn du tableau des tableau des


llij

Il i Il .
_._.J

(tableau d'mdependance) et sa comparaIson avec le

Il

est en gnral instructive: en particulier le calcul pour chaque case du terme:


(Il ij
-

Il i.

n):!
dl

ni. J1.j
Tl

6_Description bidimensionnelle et mesures de liaison entre variables

151

appel contribution au Xl permet de mettre en vidence les associations significatives entre


C

atoories des deux variables. Le signe de la diffrence


o

Il" Il "

Il

i)" -

-,._.]

Il

indique alors s'il y a

association positive ou ngative entre les catgories i de fi? etj de

qy.

Un tel calcul devrait tre systmatiquement associ chaque calcul de X::'.. On re marq ue que les marges des tableaux (Il ij) et (" i ;;,.

j) tant le s mme s par con s truc-

tian il suffit de calculer (r - 1)(s - 1) (le degr de libert) termes du tableau d'indpendance et de dduire les autres par diffrence. Le tableau 6.6 donne pour chaque case l'effectif thorique et le X"2 correspondant. Comme

il y a 72 cases, le X:! moyen par case est de 27.6 : on a mis en gris les cases o le X2 dpasse 60 : ce sont les cases o il existe une sur- ou une sous-reprsentation importante par rapport une rpartition au hasard .
TABLEAU

6.6
Rspa 23.46 1.78 Tente 9.8 26.77 Caravane 14.33 7.45 AJ 4.92 3.38 VillageV 8.7 12.2

Hotel 33.35 1.75

Location 39.2 1.55

Rscc 21.99 3.67

Rppa 79.25 5.18

Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures

161.79 20.95

190.14 25.66

10.67 11.93

384.47 19

113.8 0.34

47.55 0.65

69.51 0.44

23.87 5.19

42.2 4.13

617.2 7.45

725.8 3.39 631.64 0.09 326.75 1.95 511.72 Il.28 600.79 71.86 65.38 15.06

406.93 1466.72 434.15 181.4 34,43 170.22 4.56 9.91 354.34 1177.18 378.05 157.96 10.97 0.58 1.05 6.10 183.3 73.79 660.68 35.12 195.56 5.42 81.71 1.3

265.18 77.31 230.91 7.67 119.45 14.45 187.07 75.6 219.63 2.76 23.9 14.95

91.05 0.88 79.29 1.61 41.02 1.55 64.23 1,48 75.41 10.71 8.21 0.59

160.99 5.96 140.18 19.9 75.52 0.00 113.57 0.00 133.34 2.52 14.51 0.02

Professions 537.44 intermdiaires 5.12 278.01 27.86 435.4[02.64 511.18 U5.34 55.63 10.91

Employs

Ouvriers

287.07 1034.7 306.7 127.97 17.70 51.24 76.63 68.34 337.03 1214.79 359.68 150.25 373.86 2.65 51.88 104.41 36.68 32.79 132.2 65.14 39.13 0.21 16.35 16.95

Retraits

Autres inactifs

L'analyse des correspondances tudie plus loin permet une reprsentation graphique des carts l'indpendance: on y retrouvera ces phnomnes.

152

6_Description bidimensionnelle et mesures de liaison entre variables

6.5.2.2

Cos des tableaux 2 x 2

Si et 6JJ n'ont que deux modalits chacune le tableau de contingence (tableau 6.7) n'a alors que 4 cases d'effectifs abcd.

gr

TABLEAU

6.7

JJ
f!t

1
2

a
c

b d

([2 peut alors s'exprimer par la formule:

d-

.,

=----------------------(a + b)(c + d)(a + c)(b + d)

l1(ad - bcf

Si l'on calcule le coefficient de corrlation linaire entre f!t: et CY en attribuant des valeurs arbitraires leurs catgories (par exemple 1 et 2 mais toutes les quantifications sont ici quivalentes) on montre que q.:>2 = r 2 Remarquons que dans le cas des variables dichotomiques la non corrlation entrane l'indpendance.

6.5.2.3

Caractre significatif de I:lcart l'indpendance

A partir de quelle valeur peut-on considrer que la Haison est significative? En anticipant sur la thorie des tests expose au chapitre l4 voici la dmarche: si les n observations raient prleves dans une population o .il' et q?J sont indpendantes (Pij = Pi. p) quelles seraient les valeurs probables de cJ2 ? En s'appuyant sur les rsultats du chapitre 4 paragraphe 4.4, on montre qu'alors dl est une ralisation d'une variable alatoire D2 suivant approximativement une loi Xfr-l)Lf~ 1) ; en effet les IlU - ~ sont lis par (1' - l)(s - 1) relations linaires puisque les marges sont
11

n n .

communes aux deux tableaux (ou encore en d'autres termes puisqu'on estime les Pi. par-.!:.. et les P.j par n. j ).
Il

Il

Il

Il suffit alors de se tixer un risque d'erreur a, c'est--dire une valeur qui, s'il y avait indpendance, n'aurait qu'une probabilit faible d'tre dpasse (on prend usuellement a=5%oul%).
On rejettera donc l'hypothse d'indpendance si d:! est suprieur 1a valeur critique qu'une variable xfr- 11(.\"-1) a une probabilit a de dpasser.

6aaDescription bidimensionnelle et mesures de liaison entre variables

153

trs leve :

Ainsi sur l'exemple: le degr de libert du X2 est (9 - 1)(8 d:! 1989.

1)

= 56. La valeur de dl est

La valeur critique 1 % d'un X6 est 83.5. On doit donc rejeter l'hypothse d'indpendance entre catgorie professionnelle et mode d' hbergement. pour les tableaux 2 X 2 o le degr de libert vaut 1 on recommande gnralement d'effectuer la correction de Yates :

d =
2

Il

[ lad -

bel -

'Il]:! 2

(a

+ b)(a + c)(b + d)(c + cl)

L'esprance d'un X2 tant gale son degr de libert on voit que d"!. est d'autant plus grand que le nombre de catgories des deux variables est lev. On ne peut donc comparer ~,-",-des (P correspondant des tableaux de tailles diffrentes pour une mme valeur de Il : un d 2 de 4 pour un tableau 2 X 4 ne rvle pas une dpendance plus forte qu'un dl de 2.7 pour un tableau 2 X 2 bien au contraire: afin de comparer ce qui est comparable el de s'affranchir du problme des degrs de libert il vaut mieux utiliser comme indice de liaison la probabilit p(X2 < d 2). On trouve ainsi:

P(XT < 2.7)

0.9

et

P(XJ

<

4) = 0.75

6.5.2.4

Autres mesures de dpendance

Les indices drivs du Xl sont loin d'tre les seules mesures de dpendance utilisables, elles ont d'ailleurs t souvent critiques. La littrature statistique abonde en la matire et le problme est d'ailleurs celui du trop grand nombre d'indices proposs. On se reportera utilement aux ouvrages de Goodman et Kruskal et de Marcotorchino (1979). Signalons toutefois pour son intrt thorique le G 2 ou khi-deux de vraisemblance:

qui sous l'hypothse d'indpendance suit une loi

X[r-Il(J-Il'

6.5.3

Un indice non symtrique de dpendance: le Tb de Goodman et Krusl<al

154

6eDescription bidimensionnelle et mesures de liaison entre variables

Cet indice rsulte du raisonnement suivant: si l'on ignore


11

la probabilit (estime)

qu'une observation appartienne la catgorie j de cy est -.:.1 : en affectant alatoirement cette observation selon les probabilits -.:.1 on a alors une proportion estime de classements
Il

11

11 .)l corrects gale L: (~ . Il


j

11

Si l'on connat la catgorie ide 2tTaffectation se fait alors selon les frquences conditionnelles ......!.l d'o une proportion estl me de classements corrects gale
ni.
11 nIl 2: 2: ......!.l-.!1.

11;. Il

Le 7' de Goodman el Kruskal mesure donc le taux de dcroissance du pourcentage de prdictions incorrectes. On a par dfinition 0 ::s lu liaison fonctionnelle.
Tll ::S

l avec

'TIJ

= 0 duns le cas de l'indpendance et 'Th =

1 pour

En introduisant les tableauX de variables indieatrices XI et Xl associes aux deux variables ft et t1JJ on trouve:
7=

Trace (X':! A? Xl) Trace V 22

o A? est le projecteur sur l'espace des combinaisons linaires de moyenne nulle des indicatrices de XI' n'est autre que le coefficient de redondance R 2 (X1, : chapitre 8).
'T

Xd

de Stewart et Love (voir

6.5.4

Le kappa de Cohen

Ce coefficient est destin mesurer l'accord entre deux variables qualitatives ayant les mmes modalits dans le contexte suivant: Il units statistiques sont rparties selon p catgories par deux observateurs. Si les deux observateurs concordent parfaitement, le tableau de contingence doit tre diagonal: seuls les effectifs nii sont non-nuls. Lu proportion d'accords observs est Po

1 fi - 2:l1ii'
lli=1

Si les deux variables taient indpendantes la probabilit d'tre dans l'une quelconque des
p

fi

cases diagonales serait 2:Pi.P.i que l'on estime par Pc = --:; Llli.n.; appel pourcentage d'accords alatoires. i= 1 n- 1 Le coefficient kappa s'crit alors:

I{=

Po - Pc 1 - Pc

1
1-

Il

"1111 L.J 1. .1 ;-=1

kappa est compris entre -1 et

+ 1 (accord

maximal).

.'analyse en composantes
principales

Dans la plupart des applications on observe non pas une variable par individu, mais un .J1o.!l::Ipre p souvent lev. L'tude spare de chacune de ces variables et celles des couples selon les techniques exposes prcdemment est une phase indispensable dans le processus de dpouillement des donnes mais tout fait insuffisante. Il faut donc analyser les donnes en tenant compte de leur caractre multidimensionnel; l'analyse en composantes principales est alors une mthode particulirement puissante pour explorer la structure de telles donnes. C'est galemenlla ({ mre de la plupart des mthodes descriptives multidimensionnelles.

7.1

TABLEAUX DE DONNES, RSUMS NUMRIQUES ET ESPACES ASSOCIS

7. 1. 1 Les donnes et leurs caractristiques


7.1.1.1 Le tableau des donnes

Les observations de p variables sur 11 individus sont rassembles en un tableau rectangulare X n lignes et p colonnes:
2 2

... P

xl 1

x{ est la valeur prise par la variable nO j sur le i n1c individu.

156

7L'analyse en composantes principales

Dans une optique purement descriptive on identifiera une variable la colonne de X correspondante: une variable n'est rien d'autre que la liste des Il valeurs qu'elle prend Sur les 11 individus:
.~

,-1f

On identitiera de mme l'individu i au vecteur ei p composantes:

e; = (x} ... xD
7.1.1.2
Il

Poids et centre de gravit

Si les donnes ont t recueillies la suite d'un tiragealeaioire probabilits gales, les individus ont tous mme importance, 1/11, dans le calcul des caractristiques de l'chantillon. Tl n'en est pas toujours ainsi et il est utile pour certaines applications de travailler avec des poids Pi ventuellement diffrents d'un individu l'autre (chantillons redresss; donnes regroupes ... ). Ces poids, qui sont des nombres positifs de somme 1 comparables des frquences, sont regroups dans une matrice diagonale D de taille JZ :

o
D=

o
Dans le cas le plus usuel de poids gaux, D =

Pli

~ I. 12

Le vecteur g des moyennes arithmtiques de chaque variable g' = (Xl; dfinit le point moyen, ou centre de gravit du nuage. Le tableau Y tel que

x2 ; ; xP)

On a g = X'DI o l dsigne le vecteur de IR!! dont toutes les composantes sont gales 1.

yi = xi -

:xj est le tableau centr associ X.

On a Y = X - 19' = (1 - Il ' D)X.

7.1.1.3

Matrice de variance-covariance et matrice de corrlation


J

La formule tablie au chapitre prcdent avec des poids gaux suit:

/Il se gnralise comme

Iv = X'DX -

gg' = Y'Dyl

7_ L'analyse en composantes princpales

157

On a galement:

X'DX =

LPje,e;
i=l

/1

Cette dernire formule est utile pour les calculs numriques car elle ne suppose pas la mise en mmoire du tableau X mais seulement la lecture successive des donnes. Si l'on note
D]h

la matrice diagonale des inverses des carts-types:

l/sl
Dllx

Ils"

et DlIsl la matrice diagonale des inverses des variances. le tableau des donnes centres et rduites Z tel que :

est donc:

YD 1/s

La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :

R=

Rappelons que R

= D l/sVD 1/.\' = Z'DZ.

R est la matrice de variance-covariance des donnes centres et rduites et rsume la structure des dpendances linaires entre les p variables prise 2 2.

7.1.1.4

Donnes actives et supplmentaires

Le tableau X ne reprsente souvent qu'une partie de l'information disponible, et cela pour diverses raisons: on ne s'intresse qu'aux liaisons entre cerlaines variables, les variables qualitatives sont par nature exclues de l'analyse etc. Les variables disponibles se partagent donc en deux ensembles: les variables actives qui serviront au calcul des axes principaux et les variables supplmentaires, appeles galement variables illustratives qui seront relies a posteriori aux rsultats de l'Aep. On peut galement n'utiliser qu'une partie des individus, soit pour valider les rsultats, soit parce que certains n'auront leur donnes disponibles qu'ultrieurement, ou parce que

158

7al'analyse en composantes principales

leurs donnes sont suspectes. Mettre des individus en supplmentaire revient leur attribuer un poids nul.

Variables actives

Variables supplmentaires

P1

P2
Individus actifs

s
Pn
0 0

Individus supplmentaires

'0

Matrice des poids

7.1.2

I!espace des individus

Chaque individu tant un point dfini par p coordonnes est considr comme un lment d'un espace vectoriel F appel l'espace des individus. L'ensemble des Il individus est alors un nuage de points dans F et g en est le centre de gravit.

e espace F est muni d'une structure euclidienne atin de pouvoir dfinir des distances entre individus.
7.1.2.1
Le rle de la mtrique

Comment mesurer la distance entre deux individus? Cette question primordiale doit tre rsolue avant toute tude statistique car les rsultats obtenus en dpendent dans une large mesure. En physique, la distance entre deux points de l'espace se calcule facilement par la formule de Pythagore : le carr de la distance est la somme des carrs des diffrences des coordonnes, car les dimensions sont de mme nature: ce sont des longueurs que l'on mesure avec la mme unit :
d 2 = (x1 - x~):!

(xi - x:!

+ ...

II n'en est pas de mme en statistique o chaque dimension correspond un caractre qui s'exprime avec son unit particulire : comment calculer la distance entre deux individus dcrits par les trois caractres: ge, salare, nombre d'enfants? La formule de Pythagore est alors aussi arbitraire qu'une autre. Si l'on veut donner des importances diffrentes chaque caractre, pourquoi ne pas prendre une formule du type:
d
2

lll(xl -

xlf + ll2(XY

- x~f

+ ... + ap(x'i -

x~f
a)

ce qui revent multiplier par ~ chaque caractre (on prendra bien sr des

positifs).

7_ L 'analyse en composantes principales

159

De plus, la l'onnule de Pythagore n'est valable que si les axes sont perpendiculaires, ce que l'on conoit aisment dans l'espace physique. Mais en statistique ce n'est que par pure convention que l'on reprsente les caractres par des axes perpendiculaires: on aurait pu tout aussi bien prendre des axes obliques. On utilisera donc la formulation gnrale suivante: la distance entre deux individus est dfinie par la fonne quadratique:
Ci

et Cj

o IVI est une matrice symtrique de taille [J dfinie positive. L'espace des individus est donc muni du produit scalaire: (Ci; Cj ) = e'; IVIcj En thorie, le choix de la matrice 1\11 dpend de l'utilisateur qui seul peut prciser la mtrique adquate. En pratique les mtriques usuelles en Analyse en Composantes ... Pril1 cipales (ACP) sont en nombre rduit: part la mtrique M = 1 qui revient utiliser le produit scalaire usuel~ la mtrique la plus utilise (et qui est souvent l'option par dfaut des logiciels) est la mtrique diagonale des inverses des variances:

1/ST
l/s~
1\11 = Dlh~

I/s~

ce qui revient diviser chaque caractre par son cart-type: entre autres avantages, la distance entre deux individus ne dpend plus des units de mesure puisque les nombres x{jSj sont sans dimension, ce qui est trs utile lorsque les variables ne s'expriment pas avec les mmes units. Surtout, cette mtrique donne chaque caractre la mme importance quelle que soit sa dispersion; l'utilisation de 1\11 = 1 conduirait privilgier les variables les plus disperses, pour lesquelles les diffrences entre individus sont les plus fortes, et ngliger les diffrences entre les autres variables. La mtrique D 1/s2 rtablit alors l'quilibre entre les variables en donnant toutes la variance 1. Nous avons vu qu'utliser une mtrique diagonale:

160

7. L'analyse en composantes principales

revient multiplier les caractres par ~ et utiliser ensuite la mtrique usuelle lVI Ce rsultat se gnralise une mtrique l\tl quelconque de la manire suivante: On sait que toute matrice symtrique positive M peut s'crire l\tI scalaire entre deux individus uvec la mtrique M peut donc s'crire:

= I.

= T'T.

Le produt

(e 1 ; e2) = c; l\tIc:! = el T'Te:!

= (Tc:!)' Tc 1
c'est~-dire

Tout se passe donc comme si l'on utilisait la mtrique 1 sur des donnes transformes, sur le tableau XT ' .

7.1.2.2
On appelle inertie totale du nuage de points la moyenne pondre des carrs des distances des points au centre de gravit:
Il

19 = ~Pi(ei - g)'M(c i
i"'l

g)

= ~Pi Ile; i

gl/2

L'inertie en un point a quelconque est dfinie par :

lu
On
li

= ~Pi(ei
i

- a)'l\tl(c i

a)

la relation de Huyghens:

Il

Si g = 0:

19 = ~Pie~IVIci
i=1

Par ailleurs, on dmontre aisment que l'inertie totale vrifie la relation:


/1
/1

Il

/1

21g

= ~ ~PiPj(ej
""I J;; 1

- c)/IVI(e;

e)

= ~ ~PiPjllCi i=lj-- 1
Il

eJ2

soit la moyenne des carrs de toutes les distances entre les L'inertie totale est la trace de la matrice MV (ou VM) :

individus.

/lg

= Trace MV = Trace VIVI 1

En effet, Pie;Mei tant un scalaire, grce la commutativit sous la trace:

= Trace IVDCDX

= Trace MV

si IVI = 1 l'inertie est gale lu somme des variances des p variables; si l\tl = Dlh' : Trace MV Trace (D,!s~V) = Trace (D'I.\,VD'/J, ce qui est gal Trace R = p. L'inerte est donc gale au nombre de variables et ne dpend pas de leurs valeurs. .

7_L'analyse en composantes principales

161

7.1.3

L'espace des variables

Chaque variable xi est en fait une liste de 11 valeurs numriques: on la considre comme un vecteur xi d'un espace E 11 dimensions appel espace des variables.

7.1.3.1

La mtrique des poids

Pour tudier la proximit des variables entre elles il faut munir cet espace d'une mtrique, c'est--dire trouver une matrice d'ordre Il dfinie positive symtrique. Ici il n'y a pas d'hsitation comme pour l'espace des individus et le choix se porte sur la matrice diagonale Il des poids D pour les raisons suivantes: Le produit scalare de deux variables xi et Xl;; qui vaul x'iDxk = LPiXfx{ n'est autre '" 1 que la covariance Sj/;; si les deux variables sont centres. La norme d'une variable Il xilln est alors IIxillfi = sJ ; en d'autres termes la longueur d'une variable est gale son cart-type. L'angle 6jl, entre deux variables centres est donn par:

(Xi; xl.:)

IIxill Il xl.: Il
Le cosnus de l'angle entre deux variables centres n'est autre que leur coefficient de corrlation linaire (chapitre 6). Si dans l'espace des indvidus on s'intresse aux dstances entre poinls, dans l'espace des variables on s'intressera plutt aux angles en raison de la proprit prcdente.

7.1.3.2

Variables engendres par un tableau de donnes

A une variable xi on peut associer un axe de l'espace des individus F et un vecteur de l'espace des variables E. On peut galement dduire de Xl, Xl, ... , xl' de nouvelles variables par combinaison linaire, ce qui revient projeter les individus sur de nouveaux axes de F. Considrons un axe il de l'espace des individus engendr par un vecteur unitaire a (c'est--dire de M-norme 1) et projetons les individus sur cet axe (projection lVI-orthogonale) (fig. 7.1).

:y: ei
1 1 1 1 1 1

FIGURE

7.1

162

711111111L'analyse en composantes

pru,cl~tale!~;@~i

La HSle des coordonnes Ci des individus sur il forme une nouvelle variable ou composante, c. Comme Ci a'Me j eilVIa (a; e;)1\1 on a:

fi

c=

XMa = Xu = 22xi uj
/=1

en posant u = Ma.
A la variable c sont donc associs trois tres mathmatiques: un axe il de F de vecteur unitaire a ; un vecteur c de E espace des variables; une forme linaire u appele facteur.

C ensemblds variablesCH'qTOripf rigridrrparcOfribsOri linaire des vecteurs-colonnes de X forme un sous-espace vectoriel de E de dimension gale (ou infrieure) p.
Remarquons que si a appartient l'espace des individus F, u appartient son dual F*, et que si a est M-norm l, u est M-I norm 1 :

F* est donc muni de la mtrique lVI- I .


(Lorsque M facteurs).

= 1 ces

distinctions disparaissent et on peut identifier totalement axes et

La variance de c vaut alors:


[ V(c)

s~

u'Vu [ u'X'DXu

En effet:

c'De

(Xu)'D(Xu)

7.2 7.2.1

l'ANALYSE Projection des individus sur un sous-espace

Le principe de la mthode est d'obtenr une reprsentation approche du nuage des JI individus dans un sous-espace de dimension faible. Ceci s'effectue par projection ainsi que l'lIustre la figure 7.2. Le chox de l'espace de projection s'effectue selon le critre suivant qui revient dformer le moins possible les distances en projection: le sous-espace de dimension k recherch est tel que la moyenne des carrs des distances entre projections soit la plus grande possible. (En effet, en projection les distances ne peuvent que diminuer). En d'autres termes il faut que l'inertie du nuage projet sur le sous-espace soit maximale.

7S1L'analyse en composantes principales

163

FIGURE

7.2

____ SoitP l'oprateur de projection M-orthogonale sur Fk : P est ter que p2

Pet P'M

MP.

Le nuage projet est alors associ au tableau de donnes XP', car chaque individu el (ou ligne de X) se projette sur Fk selon un vecteur colonne Pei ou un vecteur ligne eiP' (fig. 7.3).

FIGURE

7.3

La matrice de variance du tableau XP' est pour des variables centres: (XP')'D(XP') = PVP' L'inertie du nuage projet vaut donc: Trace (PVP'lVI). Par des oprations lmentaires on en dduit: Trace (PVP'lVI)

= Trace (PVMP)
= Trace (VMp:!) = Trace (VlVIP)

car P'lVl

= MP

car Trace AB = Trace BA car P est idempotent

Le problme est donc de trouver P, projecteur M-orthogonal de rang k maximisant Trace (VMP) ce qui dterminera donc Fk'

164

711111111L'analyse en composantes principales-

Si F et G sont deux sous-espaces orthogonaux alors:

Il suffit de remarquer que le projecteur associ la somme directe de deux sous-espaces lVI-orthogonaux est la somme des projecteurs associs chacun des espaces.
De ce rsultat on dduit le thorme fondamental suivant:
THORME

Soit F/.; lm ,'Wlls~espace portant l'inertie maxmale, alors le sous-espace de dimension k + 1 portallt l'inertie Inaximale est la somme directe de FI.; el du SOlls-espace de dimenson 1 lVI-orthogonal li Fk portant l'inertie maximale: Les solutions sOlIt emboUes .
_ Dmonstration : Soit El;: +1 un sous-espace de dimension k
Comme dlm E/.; + 1 = k

1:

1 et dim Ft

= 11

k, on a :
~ 1
12

dim (EHl car; dimEk+1

n Ft)

+ dimFl = Il + 1 >

Soit b un vecteur appartenant EH!

n Ft.

Posons EJ;;+1 = b EB G o G est le supplmentaire lVI-orthogonal de b dans EHI . G est FI; EB b. donc de dimension k et F
On a:
l/';+l

lF

+ IG = Ir'l + ft,
=
lb

Comme FI; tait le sous-espace de dimension k portant l'inertie maximale IG S ln, donc IH\ S lh + IFk' c'est--dire lHI S lF et ceci quel que soit Ek+]' Le maximum de l'inertie est donc ralis pour l'espace F lb soit maximal.

= b EB

F/.; et b doit tre tel que :

Pour obtenir FI; on pourra donc procder de proche en proche en cherchant d'abord le sous- : espace de dimension 1 d'inertie maximale, puis le sous-espace de dimension l lVI-orthogonal. l1li au prcdent d'inertie maxima1e, etc.

7.2.2
7.2.2.1

lments principaux
Axes principaux

Nous devons chercher la droite de [Rp passant par g maximisant l'inertie du nuage projet sur cette droite,

7. L'analyse en composantes principales

165

Soit a un vecteur port par cette droite; le projecteur M-orthogonal sur la droite est alors: P

= a(a'Ma)-'a'IVI

L'inertie du nuage projet sur cette droite vaut, d'aprs ce qui prcde: Trace VIVIP

= Trace VMa(a'lVla)-la'M

= -a'Ma

Trace VMaa'M

= ------

Trace a'MVlVIa aiMa

a'MVMa a'IVIa

puisque a'MVMa est un scalaire. La matrice MVIVI est appele matrice d'inertie du nuage ~ elle dfinit la forme quadratique d'inertie qui, toul vecteur a de M-norme 1, associe l'inertie projete sur l'axe dfini par a. La matrice d'inertie ne se confond avec la matrice de variance-covariance que """"siM = 1. =: . . . , 1 er a envee de cette expresslOn Pour 0 b temr 1e maXImum d e a'LVIVLVIa' l su f'llIt d' annu 1 1 d'" a Ma par rapport a :

~ (a'lVIVMa )
da a'Ma

(a'Ma)2IVIVMa - (a'lVIVIVIa)2Ma (a'Mar! aIMVMa) LVla a'IVla

d'o:

MVlVla = (

soit :

VIVla

= al

car ]\il est rgulire ~ donc a est vecteur propre de VM. S'il en est ainsi, le critre a'MVMa vaut a'Ma . Il faut donc que soit la plus grande valeur propre de VIVI. La matrice VM tant M-symtrique possde des vecteurs propres M-orthogonaux deux deux. D'o le rsultat suivant:
THORME

Le sous-espace FI. de dimension k est engendr par les k l'ecteufS propres de VIVI associs aux k plus grandes valeurs propres.

On appelle axes principaux d'inertie les vecteurs propres de VIVI, l\1-norms 1. Ils sont au nombre de p. Un calcul lmentaire montre que les axes principaux sont aussi V- I orthogonaux: on montre rciproquement que les axes principaux sont le seul systme de vecteurs la fois J\l1 et V-I-orthogonaux.

166

7.2.2.2

Facteurs principaux

(fi: ~~~~ a est associe la forme linaire u coordonne lVI-orthogonale sur l'axe dfini par a:~

[:~;~

\1

FIGURE

7.4

u est un lment de (~I')* (dual de l'espace des individus) qui dfinit une combinaison"'linaire des variables descriptives XI' X2, .. , xI"

A l'axe principal a lVI-norm 1 est associ le facteur principal u = 1\IIa.


Puisque a tait vecleur-propre de VM : VMa soit:

"'-a ~ 1\IIVlVIa

"'-Ma

1MVu

"'-ul

Les facteurs principaux sont les vecteurs propres M-1-norms de MV. En effet, on a vu que si [R;/' est muni de la mtrique M, son dual doit tre muni de la mtrique M-t, Donc U'M-lU = L Les facteurs principaux sont M- 1 et V-orthogonaux.

7.2.2.3

Composantes principales
Cj

Ce sont les variables

(lments de [R;II) dtinies par les facteurs principaux:

Ci est le vecteur renfermant les coordonnes des projections M-orthogonales des individus sur l'axe dfini par ai avec ai unitaire.

La variance d'une composante principale est gale la valeur propre

. :

En effet V(c) = c'Dc

= u'X'DXu =

U'VU or :

donc:

7_L'analyse en composantes principales

167

Les Cj sont les combinaisons linaires de . j la contramte U 'M-I Uj = 1.


En effet MVu

X'I XlI' "'

xp de variance maximale sous


:

Les composantes principales sont elles-mmes vecteurs propres d'une matrice de taille Il

= -u s'crit lVlX'DXu
1

-u ; en multipliant gauche par X et en remplaant

Xu par C on a:
XMX'Dc = -c
1

La matrice XMX' note West la matrice dont le terme gnral

wij

est le produit scalaire

(ei ;e)

e~Mej'

D'o pour rsumer : Facteurs principaux u Axes principaux a Composantes principales c lVIVu = -u VlVIa = -a M-I-orthonorms lVI-orthonormes D-orthogonales

= Xu

XMX'Dc u = Ma

-c

En pratique on calcule les u par diagonaIisation de lVIV, puis on obtient les c axes principaux an' ayant pas d'intrt pratique.

= Xu, les

1.2.2.4

Formules de reconsttuton

Comme XUj = cj en post-multipliant les deux membres par uiM-' et en sommant sur j il vient:

XLUjujM- '
j

= 2:cj ajlVlj

Or

ujujM-1

= 1 car les Uj sont M- 1 orthonorms, il suffit de vrifier que:

donc:

X = LcjujM- 1
j=1

"

On peut ainsi reconstituer le tableau de donnes (centr) au moyen des composantes principales et facteurs principaux. On a galement: MV = VM

" 2: -jujujM-!
j=l

2: -jajajM
j=1

168

7al'analyse en composantes principales

Lorsque IVI

= l, X =

2: cjuj
j=e
J

(J

2: 1i:;z v; o les
j

fl

Zj

sont les vecteurs propres de norme 1 de

j= 1

XXI el les vj les vecteurs propres de XIX de norme) (dcomposition en valeurs singulires),
Si l! on se contente de la somme des k premiers temles on obtient alors la meiHeure approximation de X pur une matrice de rang li. au sens des moindres carrs (thorme d'Eckart-Young).

7.2.3

Cas usuel. La mtrique 01/s2 ou l'ACP sur donnes centres-rduites

Le choix de la mtrique IVI est toujours dlicat: seul l'utilisateur peut dfinr correctement la notion de distance entre individus. Prendre IVI 1 revient travailler sur la matrice V des variances-covariances, il n' y a pas alors de distinction. entre axes principaux eL facteurs principaux. Cependant, les resultats J obtenus ne sont pas invariants si l'on change linairement l'unit de mesure des variables. Les covariances sont multiplies par un facteur k, la variance par un facteur ,,-2 si l'on choisit une unit de mesure li. fois plus petite pour une variable. Le choix de lVl = DlIs~ est le plus communment fait, et a pour consquence de rendre les distances enrre individus invariantes par transformation linaire spare de chaque variable et de s'affranchir des units de mesure ce qui est particulirement intressant lorsque les variables sont htrognes. On sait que l'usage de cette mtrique est quivalent la rduction des variables (division par l'cart-type). En pratique on travaillera donc sur le tableau centr-rduit Z associ X et on utilisera la mtrique M I. Comme la matrice de variance-covariance des donnes centres et rduites est la matrice de corrlation R, les facteurs principaux seront donc les vecteurs propres successifs de R rangs selon l'ordre dcroissant des valeurs propres. Ru ku avec Il u 11 2 1. La premire composante principale c (et les autres sous la contrainte d'orthogonalit) est la combinaison linaire des variables centres et rduites ayant une variance maximale

Zu.
On a de plus la proprit suivante lorsqu'on travaille sur donnes centres et rduites :

PROPRIT

c est la variable la plus lie aux x j au sens de la somme des carrs des corrlations:
1)

:2>:!(c; xi) est maximal

f='
Cette proprit pennet de gnraliser l'ACP il d'autres mthodes et d'autres type de variables en remplaant le coefficient de corrlation par un indice adapt (principe d'associaton maximale, voir plus loin),

7_L'analyse en composantes principales

169

.. Dmonstration: Supposons les variables centres:


r 2(c ; xi)

= r:l( c ; zi) o zi =
,

xi est la variable centre-rduite associe xi : si

r-(c;zl)

[cov(c ; zi)f
V(c) V(Zl)

= --V(c)

[c'Dzif

fi

or:

Lzi(zi)1 = ZZI
j=l

donc:

r; . c'DZZ1Dc L r-( c ; Xl) = --,-j=l

e De

le maximum de ce quotient est donc atteint pour e vecteur propre de ZZ'D associ sa plus grande valeur propre : ZZ'Dc c

on en dduit que c est combinaison linaire des zi donc que c ZZIDZu = Zu Comme ZIDZ

= Zu ;

= R, il

vient ZRu

Zu et si Z est de rang p . Ru = U.

Pour rsumer: l'ACP revient remplacer les variables x l, x 2, .. , XI' qui sont corrles, par de nouvelles variables, les composantes principales Cl, c2 , . combinaisons linaires des xi non corrles entre elles, de variance maximale et les plus lies en un certain sens aux xi : l' ACP est une mthode factorielle linaire.

7.3

INTERPRTATION DES RSULTATS

L'ACP construt de nouvelles variables, artificielles et fournit des reprsentations graphiques permettant de visualiser les relations entre variables ainsi que l'existence ventuelle de groupes d'individus el de groupes de variables. L'interprtation des rsultats est une phase dlicate qui dOt se faire en respectant une dmarche dont les lments sont les suivants.

7.3.1

Qualit des reprsentations sur les plans principaux

Le but de r ACP tant d'obtenir une reprsentation des individus dans un espace de dimension plus faible que p, la question se pose d'apprcier la perte d'infomlation subie et de savoir combien de facteurs retenir.

170

7mL'analyse en c.omposantes principales

7.3.1.1

Le pourcentage d'inerte

Le critre habituellement utilis est celui du pourcentage d'inertie totale explique. On mesure la qualit de FI.: par:

Si par exemple

+
Ig

'l

0.9 on conoit clairement que le nuage de points est presque

aplati sur un sous~espace deux dimensions et qu'une reprsentation du nuage dans le plan des deux premiers axes principaux sera trs satisfaisante. L'apprciation du pourcentage d'inertie doit faire intervenir le nombre de variables initiales: un % de 10 % n'a pas le mme intrt sur un tableau de 20 variables et sur un tableau de 100 variables.

7.3.1.2

Mesures locales

Le pourcentage d'inertie explique est un critre global qui doit tre complt par d'autres considrations. Supposons que le plan des deux premiers axes porte une inertie totale importante ( 1 + :!, lev) et que en projection sur ce plan deux individus soient trs proches: la figure 7.5 montre que cette proximit peut tre illusoire si les deux individus se trouvent loigns dans

el

g/::;:<1:I,
1 1 1

FIGURE

7.5

n faut en fait envisager pour chaque individu ei la qualit de sa reprsentation. Celle-ci est souvent dfinie par le cosinus de l'angle entre le plan principal et le vecteur ej Si ce cosinus est grand, e i est voisin du plan, on pourra alors examiner la position de sa projection sur le plan par rapport d'autres points; si ce cosinus est faible on se gardera de toute conclusion.
N.B. : Cette mesure du cosinus est d'autant meilleure que ei est loign de g ; si ei est proche de g, la valeur du cosinus peut ne pas tre significative.

7_L'analyse en composantes principales

171

Bien que moins utilise, une mesure lie la distance entre ei et Ft.. semble prfrable: en particulier la quantit:
d(e fi) -;================ (signe de ci
i ;

'+1

qui compare la distance entre e i et FI; la moyenne des carrs des distances de tous les individus Fk prsente un intrt statistique certain (on peut la comparer une variable de Laplace-Gauss centre-rduite).

7.3.1.3

A propos de la reprsentation simultane des individus et des variables en ACP

Certains logiciels prvoient la possibilit de superposer la reprsentation des individus (plan principal) et celle des variables (cercle des corrlations) avec ventuellement des chelles diffrentes.
Il convient d'tre trs prudent: en effet individus et variables sont des lments d'espaces diffrents: si une variable dfinit une direction de l'espace des individus elle ne peut tre rsume un point et on ne peut interprter une proximit entre points-variables et points-individus.

Les deux reprsentations individus et variables se compltent mas ne peuvent tre superposes, sauf en utllisant la technique particu lire du "biploe' (voir Gower et Hand, 1996).

7.3.2

Choix de la dimension

Le principal intrt de l'ACP consistant rduire la dimension de l'espace des individus le choix du nombre d'axes retenir est un point essentiel qui n'a pas de solution rigoureuse. Remarquons tout d; abord que la rduction de dimension n'est possible que s'il Y a redondance entre les variables Xl, x 2, . , xP : si celles-ci sont indpendantes, ce qui est un rsultat fort intressant en soi, l'ACP sera ineftcace rduire la dimension.

7.3.2.1

Critres thoriques

Ceux-ci consistent dterminer si les valeurs propres sont significativement diffrentes entre elles partir d'un certain rang: si la rponse est ngative on conserve les premires valeurs propres. On fait pour cela l'hypothse que les Tl individus proviennent d'un tirage alatoire dans une population gaussienne o k+ 1 = k+::! .. = Jl' Si cela est vrai la moyenne arithmtique a des k - p dernires valeurs propres et leur moyenne gomtrique 9 doivent tre peu diffrentes; on admet que:

+ 11 ) (p 6

- k) ln

(a) 9
k - 1)

. ., 'd 1 ' SUIt alors une 1 . du x- de degre e rh erte (p - k + 2)(p 01 2 thse d'galit des k

; on rejettera J'hypo-

p valeurs propres si c est trop grand.

172

7_L'analyse en composantes principales

On peut galement construire des intervalles de contiance pour les diffrentes valeurs propres en utilisant les formules de T. W. Anderson si Il est grand: si i est la iimc valeur propre de l'ACP, l'intervalle de confiance 95 % est donn par:

(voir chapitre 13) Ces proprits ne sont malheureusement utilisables que pour des matrices de variance dans le cas gaussien p-dmensionnel. Elles ne s'appliquent pas pour les matrices de corrlation ce qui est le cas le plus frquent en pratique; et ne doivent tre utilises qu' titre indicatif.

7.3.2.2

Critres empiriques

Ce sont en ralit les seuls applicables, le. critre de Kaiser est le plus connu: Lorsqu'on travaille sur donnes centres rduites on retient les composantes principales correspondant il des valeurs propres suprieures 1 : en effet les composantes principales seules les compoc tant des combinaisons linaires des zi de variance maximale V(c) santes de variance suprieure il celle des variables initiales prsentent un intrt.

.,

Cependant le seuil de ] ne peut tre considr comme absolu: 1.1 est-il signiticativement suprieur 1 ? Dans un travail rcent (Karlis, Saporta, Spinakis, 2003) nous avons montr l'intrt du critre suivant, inspir par une approche de type carte de contrle}) o on considre comme intressantes les valeurs propres qui dpassent leur moyenne (qui vaut ici 1) de plus de deux cart-types. Comme: et que l'esprance du carr du coefficient de corrlation entre deux variables indpendantes vaut Il (Il - 1), on trouve que:

E(f.f) =
1"'(

p + pep _- 1) n l

la dispersion espre des valeurs propres vaut alors:

Nous proposons donc de ne retenir que les valeurs propres telles que:

> 1+

2~P - l 11-1

7l111L'analyse en composantes principales

173

On recommande galement de dtecter sur le diagramme de dcroissance des valeurs propres l'exstence d'un coude (voir figure 7.8) sparant les valeurs propres utiles de celles qui sont peu diffrentes entre elles et n'apportent pas d'information. Il faut noter ici que les critres fOlmels bass sur les diftrences successives entre valeurs propres sont en gnral moins performants que l'inspection visuelle: nous ne les donnerons donc pas. Entin il faut rappeler avec force que les critres du type extraire au moins x % }) de l'inertie souvent prns par des praticiens, sont dnus de fondement et doivent tre bannis. car on ne peut donner de seuil universel sans tenir compte de la taille du tableau. et de la force des corrlations entre variables. Aucun des critres prsents n'est absolu: l'interprtation des rsultats d'une analyse relve aussi du mtier du statisticien.

7.3.3
7.3.3.1

Interprtation {{ interne
Corrlations (( variables - facteurs
)J

La mthode la plus naturelle pour donner une signitication une composante principale c est de la relier aux variables initiales xi en calculant les coefficients de corrlation linaire r(c; xj) et en s'intressant aux plus forts coefficients en valeur absolue. Lorsque l'on choisit la mtrique DI/s~ ce qui revent travailler sur donnes centresrduites et donc chercher les valeurs propres et vecteurs propres de R, le calcul de r( c ~ xj) est particulirement simple: En effet:
r( c ; Xl)

= r( c ; Zl) = - Sc

c'Dzj

comme V(c) =

. :

r(c; Xl) =

c'Dzi
~

or c = Zu o u, facteur principal associ c, est vecteur propre de R associ la valeur propre . :


r(c; Xl) = u'Z'Dz) =

(zj)'DZu
~

(zi)'DZ est la lme ligne de Z'DZ Comme Ru = .u, jl vient:

= R,

donc (zj)'DZu est la lme composante de Ru.

Ces calculs s'effectuent pour chaque composante principale. Pour un couple de compo~ santes principales Cl et c1 par exemp1e on synthtise usuellement les corrlations sur une figure appele cercle des corrlations o chaque variable x j est repre par un point d'abscisse r(c l ~ x';) et d'ordonne r(c 1 ; xi).

174

7111!1i11L'analyse en composantes principales

Ainsi la figure 7.6 montre une premire composante principale trs corrle positivement avec les variables 1, 2 et 3, anticorrle avec les variables 4 et 5 et non corrle avec 6, 7 et 8.

Axe 2

FIGURE

7.6

Par contre la deuxime composante principale oppose la variable nO 8 aux variables 6 et 7. On se gardera d'interprter des proximits entre points variables, si ceux-ci ne sont pas proches de la circonfrence. Dans le cas de la mtrique DlI,\'~ c'est--dire, rappelons-Je, de l'ACP sur donnes centres rduites, le cercle des corrlations n'est pas seulement une reprsentation symbolique commode: c'est la projection de l'ensemble des variables centres-rduites sur le sous-espace engendr par Cl et c2 En effet les zj tant de variance un, sont situes sur la surface de la sphre unit de l'espace des variables (isomorphe ~") (fig. 7.7). Projetons les extrmits des vecteurs zj sur le sous-espace de dimension 2 engendr par Cl et c2 (qui sont orthogonales) les projections tombent l'intrieur du grand cercle intersection de la sphre avec le plan Cl ; c 2. La projection se faisant avec la mtrique D de l'espace des variables, z se projette sur l'axe engendr par Cl en un point d'abscisse cos (zj; Cl) qui n'est autre que le coefticient de corrlation linaire r(x} ; Cl).

""'-----+-...... c 1

FIGURE

7.7

7_L'analyse en composantes principales

175

Le cercle de corrlation est donc, dans l'espace des variables, le pendant exact de la projection des individus sur le premier plan principa1. Comme k rapport:

2: r2(c k ; xi)
j=1

f1

on appelle parfois contribution de la variable j l'axe k le

mais cette quantit ne prsente que peu d'intrt en ACP et n'apporte rien de plus que le coefficient de corrlation.

7.3.3.2

La place et l'importance des individus

Dire que Cl est trs corrle avec une variable xi signifie que les individus ayant une forte .. coordonne positive sur l'axe 1 sont caractriss par une valeur de xi nettement suprieure la moyenne (rappelons que l'origine des axes principaux reprsente le centre de gravit du nuage). Inversement s les individus ne sont pas anonymes, ils aident l'interprtation des axes principaux et des composantes principales: on recherchera par exemple les individus opposs le long d'un axe. Il est trs utile aussi de calculer pour chaque axe la contribution apporte par les divers individus cet axe. Considrons la kiml: composante Ck ~ sot C,d la valeur de cette composante pour le iil1lc individu. On a :
Il

2:Pi di = k i=1
La contributon de J'individu i la composante Cl est dfinie par:

.,
PiC[i

La considration des contributions, quand elles ne sont pas excessives, aide l'interprtation des axes. Normalement, et ceci surtout pour les premires composantes, il n'est pas souhaitable qu'un individu ait une contribution excessive car cela serait un facteur d'instabilit, le fait de retirer cet individu modifiant profondment le rsultat de l'analyse. Si ce cas se produisait il y aurait intrt effectuer ranalyse en liminant cet individu puis en le mettant en lment supplmentaire, s'il ne s'agit pas d'une donne errone (erreur de saisie ... ) qui a t ainsi mise en vidence. Cette remarque est surtout valable lorsque les individus constituent un chantillon et ne prsentent donc pas d'intrt en eux-mmes. Lorsque les poids des individus sont tous gaux 1/11 les contributions n'apportent pas plus d'information que les coordonnes. Lorsque Il est grand, il est souvent possible de considrer que les coordonnes sur une composante principale (du moins pour les premires composantes) qui ont pour moyenne 0 et pour

176

7.L'analyse en composantes principales

variance la valeur propre, sont distribues selon une loi de Laplace-Gauss. Alors
,k

est distribu

1 c~ comme un X2 un degr de libert et la contributon - ~ a une probabilit 0.05 de dpasser


Il ,k

3.84/11. On pourra donc considrer qu'un individu a une contribution significative si elle dpasse 4 fois son poids.

7.3.3.3

Effet (( taille })

Lorsque toutes les variables Xj sont corrles positivement enlre enes, la premire composante principale dfinit un facteur de taille . On sait qu'une matrice symtrique ayant tous ses temles positifs admet un premier vecteur propre dont toutes les composantes sont de mme signe (thorme de Frobenius) : si l'on les choisit positives la premire composante principale est alors corrle positivement avec toutes variablest lesiridividus sont rangs sur l' axe 1 par valeurs croissantes de l'ensemble des variables (en moyenne). Si de plus les corrlations entre variables sont toutes de mme ordre la premire composante principale est proportionnelle la moyenne des variables initiales:
1 l' - 2:xj

P J=I
La deuxime composante principale diftrencie alors des individus de talle }) semblable: on }' appelle facteur de forme )).

7.3.4

Interprtation externe: variables et individus supplmentaires, valeur-test

Les interprtations fondes sur les remarques prcdentes prsentent le dfaut d'tre tautologiques: on explique les rsultats l'aide des donnes qui ont servi les obtenir. On risque de prendre pour une proprit des donnes ce qui pourrait n'tre qu'un artefact d la mthode: il n'est pas tonnant par exemple de trouver de fortes corrlations entre la premire composante principale Cl et certaines variables puisque Cl maximise:

2>2(C ; xJ)
i;1

On n'est donc pas sr d'avoir dcouvert un phnomne significatif. Par contre si l'on trouve une forte corrlation entre une composante principale et une variable qui n'a pas servi l'analyse, le caractre probant de ce phnomne sera bien plus lev. D'o la pratique courante de partager en deux groupes l'ensemble des variables: d'une part les variables ( actives ) qui servent dterminer les axes principaux, d'autre part les variables passives ou supplmentaires que t'on relie a posteriori aux composantes principales. On distinguera le cas des variables numriques supplmentaires de celui des variables qualitatives supplmentaires. Les variables numriques supplmentaires peuvent tre places dans les cercles de corrlation : il sutlit de calculer le coefi.1cient de corrlation entre chaque variable supplmentaire

7_L'analyse en composantes principales

177

y et les composantes principales Cl, c2 ... On peut alors utiliser les rsultats du chapitre prcdent pour dtecter une corrlation significative.
Une variable qualitative supplmentaire correspond la donne d'une partition des n individus en k catgories: on peut faire apparatre par des symboles diffrents les individus de chaque catgorie sur les plans principaux. En gnral on se contente de reprsenter chaque catgorie par son centre de gravit: on peut alors mesurer au moyen du rapport de corrlation la liaison entre une variable qualitative supplmentaire et une composante principale et vrifier son caractre significatif au moyen du F de Fisher-Snedecor (voir chapitre 6). Cependant la pratique la plus efficace consiste calculer ce que l'on appelle la valeurtest associe chaque modalit ou catgorie supplmentaire qui mesure sur chaque axe la diffrence entre ]a moyenne des individus concerns et la moyenne gnrale (nulle par construction puisque les composantes principales sont centres). Plus prcisment il s'agit de la diffrence divse par l'cart-type correspondant au raisonnement suivant (voir chapitre 12 el 20) : si les ll individus de la catgorie i tudie avaient t tirs au hasard avec probabilits gales parmi les Il de l'ensemble tudi, la moyenne cie leurs coordonnes sur

. . . k Il Il l'axe nO' seraIt une vana bl e a l' k eatolre d' esprance nul l e et de vanance - - -- - car l ' e tIrage
ni Il -

est sans remise. La valeur-test associe la coordonne

ail

du centre de gravit est alors:

En se rfrant la loi de Laplace-Gauss, ce qui se justifie si Il est assez grand, on dcidera qu'une modalit occupe une position significativement diffrente de la moyenne raie s en valeur absolue, lu valeur-test dpasse 2 voire 3. On peut galement ne pas faire participer l'analyse une partie des individus (on calcule les corrlations sans eux) ce qui permettra de vrifier sur cet chantillon-test des hypothses formules aprs uneACP sur les individus actifs. Tl est d'ailleurs immdiat de positionner de nouveaux individus sur les axes principaux puisqu'il suffil de calculer des combinaisons linaires de leurs caractristiques.

7.4

EXEMPLE

Les donnes concernent les caractristiques de 18 vhicules (anciens ... ) et figurent dans le tableau 17.1 page 428. Pour l'anulyse en composantes principales, les variables finition (qualitative) et prix ont t mises en lments supplmentaires, il y a donc 6 variables actives.

7.4.1

Valeurs propres

Comme les variables sont exprimes avec des unts diffrentes, on effectue l'ACP sur donnes centres rduites, ce qui conduit il chercher les valeurs et vecteurs propres de la matrice de corrlation R prsente en 6.1.2.3.

178

7 . L'analyse en composantes principales

Les calculs ont t effectus avec le logiciel SPAD version 5.6


DIAGRJ.j'jHE DES NUHERO
VALEUr.

6 ?HEllIERES 'LEUES PHOPRE5

POURCENTAGE

POURCalTj,GE CUNULE

PROPRE 4.4209
0.8561 73.68

0.3731
0.2139

0.0928
6

14.27 6.2:: .57 1. 55


0.72

73.68 87.95 94.17 97.73

99.28
100.00

0.0433

L'application des critres de choix de dimension ( 7.3.2) ne conduirait retenir qu'une seule valeur propre, ce qui moritibiii lurs limites. Nous conserverons deux dimensions"'" reprsentant 88 % de l'inertie. Remarquons que les intervaIJes d'Anderson des valeurs propres suivantes sont tous en dessous de 1.

INTERVALLES A 0.95 NUMEEO


1

BOENE INFERIEURE
1.4488 0.2806 0.1223 0.0701 0.0304

VALEUR PROPRE 4.4209


0.8561 0.3731 0.2139 0.0928

BORNE SUPERIEURE
7.3929 1.4316 0.6239 0.3577 0.1552

2 3 4 5

7.4.2 Interprtation des axes


Le tableau suivant ainsi que le cercle des corrlations montrent un effet taine sur le premier axe qui va donc classer les individus selon leur taille. Le deuxime axe s'interprte aisment comme opposant les vhicules sportifs aux autres.

VARIABLES IDEN - LIBELLE COURT


cyli
1 0.89 0.89 0.89 0.81 0.91 0.75 0.77

CORRELATIONS VARIABLE-FACTEUR
2
-0.11 -0.38 0.38 0.41 0.22 -0.57 -0.09
3
1}

5 -0.05 0.09 -0.22 0.15 0.09 -0.06 0.16

cylinre

Puis - puissance
Long - longueur Larg largeur Poi - pois Vite - vitesse Prix prix

0.22 0.11 -0.04 -0 _37 0.30 -0.30


0.13

-0.37 0.17 0.13 -0.10 o.H 0.03 0.23

7_ L'analyse en composantes principa.les

179

Facteur 2

Reprsentation des variables quantitalives dans le premier plan factoriel

0.8

0.4

largeur longueur

\ 1
poids

ire,
jPUiSSance
-0.8

-{l.a

-(l.4

0.4

0.8

Facteur 1

La prise en compte des variables supplmentaires montre en outre que la premire composante principale est lie la qualit et au prix.

DISTO.

Eini:.ion

F=3 ?=H

Finition~~

7.00
~i

O.':
0.1
0.1

finiticn=l-!

DO

(). 3
O.':

0.02
0.0)

!l.!l7
O. (17

-0.06

-0.06

.LO::'

7.4.3 Plan principal


Le tableau suivant fournit les composantes principales et les indices associs. Les indiet TOYOTfI.-COROLL.'\ qui s'opposent vidus les plus influents sur l'axe 1 sont HENAULT-30 par leur taille et sur l'axe 2 ALF;,SUD-TI-1350 et ALFET'l'A-l. 66 ,vhicules sportifs italiens.

-Jo

00

INDIVIDUS
~

.......

_-~-

.... __ ... -......

CClOP.DONNEES
,

COl-l'I'RIBU'I' lOHS

P.REL
ALFASUD-'l'l-j 350 AUDl-100I.. SHlCA-1307-GLS
Cl'rROEN-GS-CLUB
S~56

DIS'['O
8

-2,14

-1.7'.l

-0.57

-0.20
O.:: i

0.30 -0.15
0.3 fi

5.
3,1

20.7 15.

-1.9

1.1

0.56

0.39

0.04
0.26

0.00
{J.Ol

O.DI
Il. 00

5.56
':J6

6.67
2. .16

1. :'3

-1.
-O.IG

25.ll
l

1.2
0.7
0.0

1.J

0.37

o.
.21
,00
O. li

-1.12
-2,5'/
{} ~ fi]

(J.li7

0, i.7

1.6
8.
D.

3.0
0.3 0.6
.8
! .

8.4
3.1

o.
0.98

D.
00
0"

0.01

0.07 .06
0.17
.03
.O::!
0.01

5.

G.8
1.1 .13

-0.11

-0

.1~

o.
0.63 0.5r.

-0,23
-0.2.6

FIAT-132-1GOOGLS
LANCT.;-BE1'A-1300
PEUGEG'l'-501

S.Su .56
5.%
':). SU

-0.70
o.~o

0.19

3.

10.2
IL 1.1
:>. .

.,

00
?7

1G

0.31,

30
0,68

-0.68

0.4:;
-{J.

0.1

O.:::
.6

11.9

0,08

0.03

0.40
0.01

1-.51

0.93

U.26
.52 0.59
CI

-o. :.D
-0.5J
-0.a5
-0 0.76 30
0.77 -0.5B

::n
.1. 8
~ ~~

O.Jl
0.67
Il. Al)

.SB
O.
tl. 05

O.OJ

lW,UUl'-16-1'L RF.lll\UL'1'-30-TS
TOYOTA-CClHor.Lf",

.64
::1,79

-1.9:'
.41
-].99

O.'Hl
-1. 06
-0.2]

-0.29

5.7

.56
5.5G

0.]7

,1

7.3

.,

10,J
1!l.6

5.1
B ~ Il
I~
k

.07

O.G:;
O.

.29
.46
1. 95
11.11

-o.

20,

o.
23.7
of.6

.-1

1.8
7. ,~

.EHl
f},O\

0.00

j.LPE'I'TA-l. [i6

5. 5.56
5.
. 5G

o ..[il
.0:1
2.9,\ 1.
- 0 . Ci:1

PRINCESS-ISOO-HL
Di\'l'SUN-}()OL W.UIJIlB-JOOO-GL

1.91 0.84
0.56
.49
0 90

-0.02
-0.2.2. 1.24 -0.28
0 63

-o.
0.18
-(J.05 0.07
0 3ll

0.2

D.n 15.0
0.7
23.0 1.2 0.1 9.!1 1.5 [LE!
3 ]

1.7
.0
0.2 O.J
8 5

Il. OD
.02 0.03

.01
.0:;
0.05
0 . 0"
{1.0~

1.3 10.
J.2
0.6

0.53

1
;J Il.!

'J

.0 1.5
':) J.

O.7B
0 . 21

0.14

n.OO (LOD
0 . () '1

1'.1

r:

.45
1. 9G

0,'100.1.0

030.14 0.01 .10


0.0,;

Rf\.J1CHO
1,!';\ZDi\-9::?~'5

a. 3 6
-o.
-D.J'I -0.10

0 . H O . :2 (]

--<
ln
n
(!) ;J

5.56 5.56

O.

0.39
2.29 -2.71

-0.36 -0.10
D.14

.un
-(J.80 0 57

-o.
-0.34
0.38

O.
G.r) 9.2

0.3 0.1
(J.

0.3
1.5

.G
6.'1
."1

0.27.
0.86 0.93

0 19
(J.ao U.OO

O.H 0.02
0.02

OrEL-REi.:RD-I.

[j.OB .n

O.Oi {LOO

L.;DA-nOO

3 -c
Q
Q.J

III

;J r-t

III
III

-c ..,
;u

n '.

:f

if

7111!111L'analyse en composantes principales

181

Le plan principal donne la projection des 18 individus ainsi que les barycentres des modalits de la variable ( Finition ).

Facteur 2 - 1..\.27~~

1.50 RENAULT-16-TL

RANCHO SIMCA-130i-GLS

PEUGEOT-504 PRINCESS1BOQHL

0.75
LADA-1300

AUDI-l00-L

LANCIA-BETA'1300
Finilion""lI.f
0 :

DATSUN200L

o ..................................... l1li. .. _._._ ........ .. ---- .. ;11 ...... .......... ./111 .... .. .......... .. .............. -.............. .
TOYOTACOROLLA

Finition", TB

CITROE~.GS.ClUB

; Finitiofl=B OPEL.ROEI(ORD.L MAZDA.9295 0 TAUNUS-2QOQ-GL

!
!

-0.75

1 FlAT-132-16ooGLS
RENAULT-3D-Tf

-1.50 ALFASUD-TL 1350

: AlFEITA-l.6

-3.0

-1.5

1.5

3.0

Facteur 1 - 73.68%

7.5

ANALYSE FACTORIELLE SUR TABLEAUX DE DISTANCE ET DE DISSIMILARITS

Ces mthodes (multidimensional scaling) ont le mme objectif que l'ACP : trouver une configuration de n individus dans un espace de faible dimension, mais les donnes de dpart , , "1 1. erentes ; ICI on ne connmt que es sont dft'
11(11 -

, '1 ., ' 2 1) d'Istances, ou d'lSSlml antes entre III d'1-

vidus, et non les variables les dcrivant. Le cas o l'on dispose d'une vritable distance euclidienne entre individus n'est qu~une version de l'ACP, le cas de dissimilarits conduit des techniques originales.

7.5.1
7.5.1.1

Analyse d'un tableau de distances euclidiennes


La solution classique
Il

Soit il le tableau

X n des carrs des distances entre points:

et Si d est euclidienne, chaque individu peut tre reprsent dans un espace de dimension p (pour r nstant inconnue) par un point e tel que:

(e j

e)'(e j

e)

On peut en effet toujours supposer M 1 sinon on s'y ramne par la transformation T telle que l\tI = T'T. Si l'on place l'origine au centre de gravit, les produits scalaires wij = (e i ; e) sont alors entirement dtermins par les

d&.

182

7.L'analyse en composantes principales

Supposons Pi = lin du nuage.

V el posons

dT. = llj=IIJ et Cfl ~ d~ .

Il

Il

- ~df. = :lI o / est l'inertie


Tl i=l

On a alors la fonnule de Torgerson :

En effet:

. SOIt w IJ
d'o: car car l'origine est au centre de gravit. On a donc dT. =

1 = -- ( - d":IJ-: + :2

2:Wij = (e
j

i ;

2:e) = 0
j

lIedl:: + 1 et de mme d} =

l!ej

l1 2 + 1 d'o la formule par substitution.


=1Il' - : il y a donc n

1 Matriciellement W = --ALiA oll A est l'oprateur de centrage A 2 double centrage en ligne et en colonnes de Li.

On sait que les vecteurs propres de WD nuage des Il points.

(ici;; w)

sont les composantes principales du

Connaissant uniquement les distances di}, on peut donc calculer les composantes principales, et faire une reprsentation euclidienne de l'ensemble des points dans un espace de dimension fixe, car les composantes principales ne sont autres que des listes de coordonnes sur une base orthogonale. La dimension de l'espace est alors gale au rang de W : on vrifiera que d est euclidienne si "V a toutes ses valeurs propres positives ou nulles. Remarquons que rang W < 11 - 1 car Il points sont dans un espace de dimension 11 - 1 au plus.

7.5.1.2

Une transformation permettant de passer d'une distance non euclidienne une distance euclidienne

Si d n'est pas euclidienne, ce qui se produit quand "V a des valeurs propres ngatives la mthode de la constante additive permet d'en dduire une distance euclidienne. Il existe en effet une constante c 2 , telle que B& = d~ + Cl avec Bii = 0, soit euclidienne. La matrice "VI) associe 0 est alors telle que:

7- L'analyse en composantes principales

183

comme

=1-

- , Wc
Il

Il'

= - - ((Il

c 2A 2

1)1 - IlA)A

= -- ((Il

c2 2

- 1)A - nA)A

= -A

c2 :2

car A2 = A.
Les vecteurs propres associs des valeurs propres non nulles de Wei sont centrs. Comme A est l'oprateur de centrage, ils sont vecteurs propres de Wc avec pour valeur propre c2 /2. Aux vecteurs propres de W d correspondent les vecteurs propres de W fi avec pour valeurs propres . + c 2 /2. Il suffit donc de prendre c2 = 21 .IJ 1o . II est la plus petite valeur propre de W d (ici ngative) pour que 8 soit euclidienne. Remarquons que cette mthode pennet galement de transfonner une dissimilarit (pour laquelle l'ingalit triangulaire n'est pas vrifie) directemenl en une disLance euclidienne mais sans doute au prix d'une dformation importante des donnes. La mthode prcdente (la plus connue) ajoute donc une constante aux carrs des distances. F. Cailliez a rsolu en 1983 le problme consistant il ajouter la plus petite constante

::i:~~:::: :~~:~g~:e(: ~ette c~~~nte)


-1 -4Wv'"d
remplacs par les distances.

:s: :~l::t ~:a:::r:::: ~~::::s:: ~: :::::::::

7.5.2
7.5.2.1

le MDS
Analyse dJun tableau de dissimilarits

Lorsque les dij ne sont pas des distances mais seulement des mesures de proximit o l'infonnation est de nature ordinale, il est souvent prfrable d'utiliser des mthodes semimtriques de positionnement (mu/tidimensional scaling) qui consistent rechercher une configuration de Il points dans un espace euclidien de dimension fixe telle que les distances 8 entre ces points respectent au mieux l'ordre dtini par d : si dij < dkl on cherche avoir 8ij < 8kl pour le maximum de points. Dans l'algoriLhme MDSCAL de 1. B. Kruskal, on cherche minimiser la quantit suivante appele stress: L(8ij - M(dij))2 min
C,.AI
~i.J,,-_ _ _ __

~(8ijf
,j

o M est une application monotone croissante. La mthode est alors la suivante: on part d'une configuration euclidienne obtenue par exemple l'aide de la formule de Torgerson avec constante additive et on cherche alors

184

7.L'analyse en composantes principales

les k'I(dij) tels que '2(oij


.]

M(dij))"!.

soit minimum. Ce problme admet une solution unique

(rgression monotone) et on en dduit une valeur du stress. On modite ensuite la contiguration au moyen de petits dplacements des points selon une mthode de gradient pour diminuer le stress. On repasse ensuite la phase de rgression monotone, etc., jusqu' convergence. Une diffrence fondamentale avec l'analyse d'un tableau de distance euclidienne par ACP est que la dimension de l'espace de reprsentation doit tre fixe r avance et que les solutions ne sont pas embotes : la meilleure reprsentation trois dimensions ne se dduit pas de la meilleure reprsentation deux dimensions en rajoutant un troisime axe. Par ailleurs les distances dans l'analyse de Torgerson sont toujours approximes "par en dessous" car la projection raccourcit les distances. La solution du MDS est dfinie une transformation orthogonale prs (rotation, symtrie, etc.).

7.5.2.2

Analyse de plusieurs tableaux de distances

Pour les mmes Il individus on dispose de q tableaux de distances ou de dissimilarits (par exemple q juges donnent leurs apprciations sur les mmes objets). Le modle INDSCAL dvelopp par J.D. Carroll permet de donner une configuration unique des Il points et d'tudier les diffrences entre juges. On se ramne tout d'abord q matrices de distances euclidiennes par la mthode de la constante additive ~I, ~2, . , /j/l on note d~l la distance entre les objets i et j pour le tableau k. Le modle INDSCAL postule que:
r

(dW)f-#'2 1Jl}k) (x~


1=1

xJf

En d'autres termes il existe une configuration dans un espace r dimensions pour les objets (coordonnes xD, les juges utilisant des mtriques diagonales diffrentes:

MI"

[1Il~).. .11~~k)

c'est--dire pondrant diffremment les dimensions sous-jacentes. Il s'agit donc de trouver une dimension r, les mtriques M(k} et la configuration X approchant le mieux les donnes ~(k). On convertt tout d'abord les tableaux ~(k) en tableaux W(k} de produits scalaires par la formule de Torgerson et on pose:
w~ IJ

=~ >.
f; 1

111 I I } (k) a~ li

+E

111

Si les m et les a sont connus on estime les b par les moindres carrs. Ensuite on estime les en fixant (l et b, puis les a en fixant les 111 et les b, etc. Les proprits de symtrie des tableaux W(k) impliquent que les a et les b sont cohrents ({l~ = b~) et l'algorithme converge. Rien ne prouve cependant que les nd k) obtenus soient positifs mais l'exprience montre qu'il en est ainsi dans la plupart des cas avec r faible.

7_ L'analyse en composantes principales

185

7.6

EXTENSIONS NON LINAIRES

L'ACP est une mthode linaire au sens o les composantes principales sont des combinaisons linaires des variables initiales et aussi parce qu'elle est base sur les coefficients de corrlation linaire. Si les relations entre variables ne sont pas linaires, l' ACP choue en gnral reprsenter correctement les donnes et extraire de nouvelles variables intressantes. On sat en effet que le coefficient de corrlation linaire peut tre faible en prsence de liaisons fortement non linaires (cf chapitre 6). La solution est alors de transformer les variables pralablement l'ACP, afin d'obtenir des corrlations plus lves et se rapprocher de la linarit, ce qui revienl se rapprocher de la normalit (cf chapitre 3 page 84).

7.6.1

Recherche de transformations spares

Il est bien sur possible et souvent recommand d'utlliser des transformations analytiques classiques (logarithme, etc.), mais elles ne sont pas forcment optimales. Cette notion d'optimum doit tre : on cherchera en gnral maximiser le pourcentage d'inertie explique par les q premiers axes. La plupart du temps q = 2, mais Cf 1 correspond des solutions intressantes. Pour une variable donne Xj l'ensemble des transformations (I)i.\.) (au sens de carr intgrable) est bien trop vaste: il est de dimension infinie et conduit des solutions indtermines si 11 est fini, mme en imposant que la variable transforme soit centre-rduite(l). On se restreindra des ensembles de transformations correspondant des espaces vectoriels de dimension tinie. Les transformations polynomiales de degr fix conviendraient mais ont l'inconvnient d'tre trop globales et rigides. On leur prfre des transformations polynomiales par morceaux appeles fonctions splines. Soit x une variable dfinie sur [a, b] et k points intrieurs rgulirement espacs ou non, on appelle spline de degr d k nuds une fonction S(x) qui sur chacun des k + 1 intervalles est un polynme de degr d et est d - 1 fois drivable si cl> l, ou seulement continue si d = 1 (linaire par morceaux). Les splines de degr 2 ou 3 sont souvenl utilises pour leur aspect lisse Les splines permettent d'approcher toute fonction rgulire. Il est facile de montrer que les splines de degr d k nuds forment un espace vectoriel de dimension d + k + 1. Tout d'abord les combinaisons linaires de splines de degr d k nuds sont encore des splines de degr d k nuds. Sur l'intervalle If, le polynme est libre
.

I_Dans le cadre de l'ACP entre variables alatoires (n infini) le prublme admella solution suivante (sans dmonstration) lie l'analyse canonique gnralise de J.o. CaITOII.l.:l premire composante principale c des variables transformes de faon optimale vrifie donc tel que c (c ; <I)J (Xl)). Pour c fix max pL (c ; <Il) (Xi)) est atteint pour (Il/XI)
<Il;

E(C/Xl). c est

avec maximal.

186

7_ L'analyse en composantes principales

FIGURE

7.8

et dpend de d + 1 paramtres, mais sur chacun des k intervalles suivants, les conditions de raccordement (continuit et drivabilit d - 1 fois) ne laissent plus qu'un paramtre libre, d'o le rsultat. Puisque l'ensemble destransformatioIlsspljne est u,!espace vectoriel, on peut exprimer toute fonction S(x) comme une combinaison linaire de d + k + 1 lment~' d'une base, ce qui revient dans un tableau de donnes X remplacer chaque colonne-variable par d + k + 1 colonnes. On utilisera pour sa simplicit une base permettant des calculs rapides: les B-splines. En voici deux exemples en supposant que a = 0 et b = l avec des nuds rgulirement espacs. Les splines de degr 0 qui correspondent des transformations constantes par morceaux (fonctions en escalier) :

BiX) = 1 s~x E Ij { Blt) = 0 smon


La variable .r est alors remplace par un tableau disjonctif.

o ...........................I-------i-------------i

i - - - - - -............................... ---~--------~

t-~~____..I
1

..........................

12
FIGURE

13

14

7.9

Les splines de degr 1 correspondent des transfolmations continues. linaires par morceaux. la figure 7.10 donne les cinq fonctions de base associes trois nuds.

7111 L'analyse en composantes principales

187

{ Bl\) Bl(x) { Bl(x)

BI(.~): 1 ~ (k

l)xslx

I(

0 SlOon

o~ o
o
o

B"')(X) = (k

1)x si x

E II
XE

2 - (k

l)x si

11

/ '~ /
.~

0 sinon

Bj+I(X) = ~k Bj+J(x) {

l)x
(k

(j - 1) six

J + 1

I)x si

XE Jj + 1

Bj+l(x) = 0 sinon

/ '~
11

Bk+1(X) = (k ~ I)x - k si XE 1"+1 { Bk+2(X) = 0 smon

12

13

/1
14

FIGURE

7.10

Les splines de degr 1

Nous ne donnerons pas les formules pour les degrs suprieurs, car de nombreux logiciels les intgrent. tant donn un point x seules d + l fonctions de base sont non nulles et de somme gale 1 (codage ~< flou). La recherche de la transformation de chaque variable ou combinaison linaire des B-splines. maximisant l'inertie du premier axe de l'ACP s'obtient en effectuant simplement l' ACP du tableau augment 11 lignes et p(d + k + 1) colonnes. La maximisation de la somme des inerties sur q axes requiert un algorithme plus complexe que nous ne dtaillerons pas ici. Les tranformations splines ne sont pas monotones: on peut aisment y remdier si l'on veut des transformations bijectives. Les B-splines tant positives leurs primitives sont alors des fonctions splines croissantes de degr augment d'une unit (I-splines) ; on effectuera alors des combinaisons linaires coefficients positifs (cf la. Ramsay, 1988).

7.6.2

La l<ernel ..ACP

Cette mthode rcente (B. Sch61kopf et al., 1996) consiste chercher non plus des transformations spares de chaque variable mais transformer tout le vecteur x = (Xl, x 1, ... , x fl ). Chaque point de E est alors envoy dans un espace (lJ(E) muni d'un produit scalaire. La dimension de clJ(E) peut tre trs grande et la notion de variable se perd. On effectue alors une analyse factorielle sur tableau de distances entre points transforms selon la mthode de Torgerson qui revient l'ACP dans (P(E). TOUL repose sur le choix du produit scalaire dans <P(E) : si l'on prend un produit scalaire qui s'exprime aisment en fonction du produit scalaire de il n'est plus ncessaire de connatre la transformation cP qui est alors implicite. Tous les calculs s'effectuent en dimension n.

188

7 . l'analyse en composantes

pnr)CIClalp,~in:&.m

Soit k.(x,y) un produit scalaire dans (P(E) et <x,y> celui de E. Les choix suivants couramment utiliss:
k.(x. y)

x, y)

+cyl

1 k(x, y) = exp 1

k(x, y)

2ertanh(x, y) +c)

!Ix - ~vii:!)

n suffit alors de remplacer la matrice W usuelle par celle o chaque terme est k.(x, y), de la centrer en lignes et colonnes et d'en extraire les vecteurs propres pour obtenir les composantes principales dans (p(E).
Pour que k(x,y) soit bien un produit scalaire, on doit vrifier les conditions de Mercer qui signifient que toule matrice symtrique de terme k(x,y) doit avoir des valeurs propres positives ou nulles.

L'analyse canonique et la comparaison de grolJpes de variables

8.1

ANALYSE CANONIQUE POUR DEUX GROUPES

Lorsque Il individus sont dcrits par deux ensembles de variables (en nombre p et q respectivement) on cherche examiner les liens existant entre ces deux ensembles afin de _,,_ savoir s'ils mesurent ou non les mmes proprits.
_ Exemples: Les deux groupes de notes des disciplines littraires et scientifiques; des rsultats d'analyses mdicales faites par deux laboratoires diffrents.

Le tableau de donnes analys est donc de la forme suivante: 2 ...

2 ...

11

On considre alors les deux sous-espaces de IRS II engendrs par les colonnes de XI et X:!, respectivement: et
W) et W2 sont les deux ensembles de variables que l'on peut construire par combinaisons linaires des variables de deux groupes. Ces deux espaces peuvent tre appels potentiels de prvision (Camiez, Pags, 1976).

Si ces deux espaces sont confondus cela prouve que l'on peut se contenter d'un seul des deux ensembles de variables, car ils ont alors mme pouvoir de description; s'ils sont orthogonaux, c'est que les deux ensembles de variables apprhendent des phnomnes totalement diffrents. Ces deux cas extrmes tant exceptionnels~ on tudiera les positions gomtriques de WI et W::: en cherchant les lments les plus proches, ce qui permettra en particulier de connatre dme HI) n W:::).

190

B_L'analyse canonique et la comparaison de groupes de variables

Si les applications directes de l'analyse canonique sont peu nombreuses, elle n'en COflsurUe pas moins une mthode fondamentale car sa dmarche (rechercher des couples de variables en corrlation maximale) se retrouve dans d'autres mthodes comme l'analyse des correspondances, la rgression multiple, l'analyse discriminante: si la dimension q de l'un des groupes de variables est gale l, l'analyse canonique est quivalente la rgression linaire multiple tudie au chapitre 17. Si un des groupes est compos des Cf variables indicatrices d'une variable qualitative (donnes rparties en q catgories) et l'autre de p variables numriques, l'analyse canonique conduit l'analyse factorielle discriminante prsente au chapitre 18. Si les deux groupes des variables sont composs respectivement des indicatrices de deux variables qualitatives p et q catgories, on obtient l'analyse des correspondances prsente au chapitre 9.

8.1 .1

Recherche des variables canoniques

On supposera que ~'l est muni de la mtrique D. La technique est alors la suivante: chercher le couple (b TI!) d\lcteurs norms o~! eW1et'YIl eW2 forment l'angle le plus.,~: faible ~ l et Tl, sont des combinaisons linaires respectives des variables du premier et du second groupe appeles variables canoniques. On recherche ensuite un couple (2' 'YI2) avec :! D-orthogonal , et 112 D-orthogonal Tli tels que leur angle soit minimal et ainsi de suite. On obtient ainsi les p couples de variables canoniques (on posera p = dim Wl et q = dim W;2 avec p :5 Cf). Notons AI et A 2 les oprateurs de projection D-orthogonale sur HI) et Wl respectivement.

Il est facile de vrifier que les expressions matricielles explicites de Al et Al sont (si dim WI = pet dim W2 = q) : Al

= X\(X;DXI)-lX~D
1I

Al = X2(X2DX:J-IX~D
8.1.1.1

.tude de la solution dans !R

Il s'agit de rechercher deux vecteurs ~I et 'YJ, de WJy tels que cos ('J)\> t) soit maximal. . En supposant pour l'instant que 'YJ\ et ~! ne sont pas confondus, on voit gomtriquement

o ~------------------------FIGURE

VV1

8.1

8_L'analyse canonique et la comparaison de groupes de variables

191

que 1')1 doit tre tel que AITII sa projection sur W I soit colinaire ~I' En effet, l'lment le plus proche de TIl est la projection D-orthogonale de TIl sur W I Rciproquement, TIl doit tre l'lment de W:! le plus proche de I (ou de A 11')1), donc TIl doit tre colinaire tl

A:2AITlt
Notre problme revient donc trouver les valeurs propres et les vecteurs propres de A::!AJ puisque A!AITII ITlI' Inversement, il est immdiat que ~I est vecteur propre de AJA! associ la mme valeur propre. , reprsente le carr du cosinus de ('angle form par 1']\ et " ce qui entrane
1 :s; l.

Le cas I = 1 nous donne ~I TIl' donc TIl E W n W!. Les vecteurs propres de A2 A \ appartiennent W 2 : en effet, en prmultipliant A 2A\1']\ = ,TI par Alan trouve puisque A~ A::AITI = ,A::TI, donc A:>.Tll 1'],; on trouve de mme que les vecteurs propres de AJA::! appartiennent li W 1
J

A::!,

Montrons que A2A, est diagonalisable: puisque les vecteurs propres de A2AI appartiennent ncessairement W::! il suffit d'tudier la restricton de A::!AI W2 .

THORME

La restriction de A.:: A , il W;.? est D-symtrique.

Si nous notons (x ; y> le produit scalaire associ la mtrique D :


(x;

y> =

x'Dy

il faut montrer que quel que soit

K,

y E W2 :

on a :

(x ; A::! AI Y ) = (Al X ; AI y>

car A 2 est D-symtrique car x E W 2 car Al est D-symtrique car y


E

= (x; AtY)
=(A\x;y)
= (AIx; A 2y)

W2

(A 2A l x;y)

car A::! est D-symtrique

c.q.f.d.

Ceci entrane que la restricton de A:2AI W::!, et par suite A2At. est diagonalisable, ses vecteurs propres sont D-orthogonaux et ses valeurs propres j sont relles. De plus, les . j sont:;::::: 0 car A] et Al sont des matrices positives.

AlA, possde au plus min (p, q) valeurs propres non identiquement nulles. L'ordre de multiplicit de J = 1 est alors la dimension de W1n W2 ; les vecteurs propres associs des valeurs propres nulles de rang infrieur q engendrent la partie de W:! D-orthogonale W\.

192

8aL'analyse canonique et la comparaison de groupes de variables

Les vecteurs propres ~i et l1i D-norms de A,A::: et de AzA, sont associs aux mmes valeurs propres et vrifient les relations suivantes:

-f}:"t\. '1 i"1I = A,. _~I


AIA2~j = j~i

11~ D1'Jj

=0

et

pour i::foj

qui entranent de plus: pour i::foj

8.1. 1.2

Solutions dans IR? et IRtI

Les variables canoniques ~i et l1i s'expriment comme combinaisons linaires des colonnes de XI et X::: respectivement: et Les ai et b i sont les facteurs canoniques qui s'obtiennent directement de la manire suivante:
AI A2~i

= i~i :>

A 1A 2X [a,

= iX,a;

en remplaant les projecteurs par leur expression on a :


X! (X/,DX,)-IX;DX::.(X/:::DX:J-IX'2DX,ai = iXla j

Si le rang de XI est gal au nombre de ses colonnes, on peul simp1ifier de part et par XI (multiplication par (X~ XI )-'XD et on trouve:
(X;DX,)-IX~DX2(X2DX2rIX2DXlai

= iai

et de mme: Dans le cas o toutes les variables sont centres:


X~Dl = X~Dl

=0

les matrices X;DXj s'interprtent comme des matrices de covariance. On note usuellement:

V" V22

X;DX 1

= X~DX2

V,:! = X,DX 2 V::: 1 = X 2 DX,

= (V,:!)'

Les quations des facteurs canoniques s'crivent alors:

Vj,IV,.2V 22IV 2I a i V22IV::'IVj,IVnbi

= iai = jb
j

et les valeurs propres sont les carrs des coefficients de corrlation canonique entre les variables canoniques. Sur le plan pratique, on diagonalisera videmment la matrice de taille la plus faible.

8111L'analyse canonique et la comparaison de groupes de variables

193

Comme on a: ~ XIa; et 'lli = X::b i si l'on dsire que les variables canoniques soient de variance unit, on normera les facteurs principaux de la manire suivante: et

On en dduit:

_ 1 _1 b1 - -V" V'la1

.Ji:; -- -

et

_ 1 _1 a.--V11V\.,b. 1 _h - 1
-V i

Comme seuls comptent les sous-espaces WI et W::, il est quivalent de travaller avec des variables de variance 1. On utilisera donc en gnral les matrices de corrlation RII' RI:!, etc la place des matrices de variance.

8.1.2

Reprsentation des variables et des individus

Deux sortes de reprsentations sont possibles selon qu'on choisit les variables canoniques de WI ou de W:!> Si l'on fait choix de W] on reprsentera l'ensemble des variables de dpart D-normes (colonnes de XI et de X 2 ) en projection sur la base D~orthonorme forme par les ~j. En particulier, la projection sur le plan engendr par ~I et ~2 donne un cercle des corrlations (fig. 8.2) car, s les colonnes de XI sont D-normes ainsi que celles de Xl' les composantes sur la base des ~i sont les coefficients de corrlation entre les variables initiales et les variables canoniques.

- + - - - - - j - - - - ' - - - i - ~1

FIGURE

8.2

Xt

Si x" est la kii!me colonne de XIan a x~D~1 = X"DXI31 ; le coefficient de corrlation entre et ~I est la killlc composante de V lI al car Xk est gal Xlo" o l' est le vecteur de IR" dont toutes les composantes sont nulles sauf la kimt! qui vaut 1. Si YI est la
zime

colonne de X 2

la corrlation entre YI et ~i est alors la ziemc composante de V].[ai ou encore la li~H1C compo~ sante de ~IV 22b j

194

B_L'analyse canonique et la comparaison de groupes de

v,"-":ll"\'.,_

Si les colonnes de Xl et X:! ne sont pas D-normes il faut diviser les expressions dentes par les normes de Xk ou YI' Les reprsentations sur (Sb S2) et (111- ''-12) sont d'autant plus voisines que ] et 2 proches de 1. Pour les individus deux reprsentations des individus sont possibles selon les canoniques choisies.
var]at)lf'~

Si l'on choisit le plan dfini par (g[, gz) les coordonnes dufi:mc point sont lesjime posantes des variables canoniques SI et S2'

8.1.3

Test du nombre de variables canoniques significatives

On peut arrter l'extraction des valeurs propres et des vecteurs propres au moyen du de Bartlett. L'hypothse que les deux ensembles de variables sont indpendants revient tester [ :: Si cette hypothse est rejete, on teste la nullit de ""1' etc. D'une faon gnrale, si [. 2, . , k sont jugs signiticativement diffrents de zro, on teste la nullit des valeurs propres suivantes en utilisant la quantit:

- [Tl -

1 - Ir. -

~ (p + Cf +
2

1)

+ ~] ln (lUil
i=Ii

k+1

rr

f/)(1 -

J)
de
k +2"')

qui suit approximativement un Xfr-k)(q-k), si la valeur thorique de nune.

1 (donc

est

Le test prcdent n'est valide que dans le cas de variables normales et ne s'applique en aucune faon aux cas particuliers que sonl l'analyse des correspondances et l'analyse discrimnante.

8.2

MTHODES NON SYMTRIQUES POUR DEUX GROUPES DE VARIABLES

L'analyse canonique est une mthode faisant jouer des rles symtriques aux deux groupes de variables. Si l'un d'entre eux est privilgi diverses approches sont possibles.

8.2.1

Mthodes procustennes de comparaison de deux configurations d'individus

On suppose ici que les deux groupes de variables ont mme dimension (cas auquel on peut toujours se ramener en rajoutant des coordonnes nulles) afin de confondre les espaces W1 et W2' On dispose donc de deux cartes p-dmensionnelles des mmes des procds diffrents et on cherche les comparer.
11

individus obtenues par

Le principe consiste alors tixer l'une des deux configurations (le tableau XI) et faire subir l'autre une transformation gomtrique simple eX 2 = X 1T) telle que les deux configurations deviennent les plus proches possibles, un critre naturel tant: mJn

;2: \ICi 1=1

1/

ill~

mJn Trace [(XI - X 2T)(X I

X 2T)']

8- L'analyse canonique et la comparaison de groupes de variables

195

Ce type de problme se rencontre en particulier pour comparer des solutions diffrentes de multidimensional scalillg o les axes ne sont pas les mmes. On suppose dans la suite que les poids des individus sont gaux d'tendre les rsultats au cas gnral.

1/11,

mais il est facile

Si T est une transformation quelconque la soluton des moindres carrs est donne par:

En gnral, on impose T d'tre une transformation orthogonale: l'ide est de faire subir il l'une des deux configurations une srie de rotations, symtries, retournements de faon l'amener le plus possible sur l'autre. Le problme devient: avec

TT' = 1

soit p( p

+
2

1) contraintes.

Rcrivons tout cl' abord le critre:

TT'

Trace (XI - X 2T) (XI - X:!Tf Trace X1X'1 + Trace X 2TT'X; - 2 Trace X~X2T. Si Ion voit que T doit maximiser Trace V I2T sous la contrainte TT' = 1. Introduisons alors la matrice A/2 symtrique de taille p des multiplicateurs de Lagrange

aSSOCieS

.,

aux

pC p 2 +

1)

. ad' 1 d . contramtes. n Olt a ors ren re maximum:

Trace [ V "T -

~ A(TT' -

1)]

en drivant cette expression par rapport la matrice T on obtient le systme d'quations: soit
d car - Trace V l 1T = dT -

en multipliant par T'

V11

et

d -Trace ATT ' = ?AT dT .

Pour trouver T nous crivons V lI sous forme de dcomposition en valeurs singulres.

V 21 = VSU' o S est la matrice diagonale des valeurs propres de Y!IV I2 , V la matrice orthogonale des vecteurs propres norms de V21 V12' U la matrice orthogonale des vecteurs propres norms de V 12V 21
On en dduit:

A = VSU'T' = TUSV'
d'o A2

car

A est symtrique

= VSU'T'TUSV' = VS:!V' donc A

VSV' et V 21

= AT donne VSU'

VSV'T

La meilleure transformation orthogonale T est donc telle que:

IT =vu'j

196

8_L'analyse canonique et la comparaison de groupes de

vOIr''' .... ' __ .",:.",

8.2.2

Mthodes factorielles

Leur principe consiste chercher des combinaisons linaires de variables d'un des groupes vrifiant certaines conditions ou contraintes lies ]' existence du deuxime crrnl1~~.""<' de variables. Selon que l'on cherche se rapprocher du deuxime groupe ou au contraire s'affranchir de son intluence on pourra utiliser:

8.2.2.1

L'analyse en composantes principales de variables instrumentales (ACPVI)

On recherche des combinaisons linaires ~ des variables du premier groupe expliquant le mieux les variables du deuxime groupe. C. R. Rao a introduit le critre sUvant :

Si l'on rgresse les tre minimale. "


Cf

/112

variables du tableau Xz sur~, fa somme des variances rsiduelles

En pOPcl1t~. :::::HX,a, ce critre revient rendre maximale la somme des variances ques soit un coefficient prs:
2:(x~)' ~(~'~)-I f(x~)
j=l
IJ!'

je;: ,

~(x~rXI aa'X; (x~) _ . X~X,aalXIX1 .rt.J 'X - Trace a XI.i 1a a 'X'X Ja 1


l .1

a'V'2 = Trace V21 aa'V I2 = - - -2I-

V a

a'V; la

a'Vlla

a est donc vecteur propre associ sa plus grande valeur propre, de la matrice:
1

Vl lV 12V 211

Les valeurs propres suivantes conduisent d'autres solutions non corrles entre elles. Lorsque X2 est un ensemble de variables de variance unit, ~ est la combinaison des variables de XI la plus corrle avec les variables de X2 au sens o :
IHI''-'(.UH,,,,;'

2: r2(~ ; x~) est maximal


j=1

Oh

On reconnat ici une expression voisine du critre usuel de l' ACP rduite: ici on les corrlations avec des variables externes. Les variables ~ sont les composanLes principales de l'ACP de XI avec pour mtrique: M = V, IV I2V 2,V,1 = (Vl'V'2)(VIIV12)' ou, ce qui est quivalent, les composantes principales du tableau X,Vl'V 12 avec la mtrique identit: en d'autres termes on effectue: l'ACP des projections des variables de X 2 sur Xl' Le coefficient de redondance de Stewart et Love entre deux groupes de variables: R2(X 2 : Xi) (notons que R2(X, : X 2) =f= R2(X 2 : XI : . est: R-(

., X

2:.i ,)

Trace (V 21 Vl'V I2 ) = ------..:.-"-'--~ Trace V 22

a_L'analyse canonique et la comparaison de groupes de variables

197
1

Lorsque V:;:;

= R 11

(variables de Xl standardises) R:;(X::: Xl) = -.-

L R1(X~; XI)

1112

1Il2j=J

moyenne des carrs des coefficients de corrlation multiple des rgressions des x~ sur XI' On voit alors que les composantes principales des variables instrumentales ~ sont les combinaisons linaires des colonnes de XI ayant une redondance maximale avec X:!. On vrifie aisment que ~ est vecteur propre de AI W:'. o : et

ACP sous contrainte d'orthogonalit


On peut inversement rechercher des combinaisons linaires des variables de XI de variance maximale sous la contrainte d'tre non corrles aux variables de X:,! afin d'liminer leur effet. Pour que le problme ait une solution il faut que 1112 < ml_ On montre alors que les facteurs ""!l!~Jsque ~ = Xia sont vecteurs propres de :
(1 VI1(V2IV12)-IV21)VII

8.2.2.3

ACP des covariances partielles

Une autre manire d'liminer l'intluence des variables extrieures X:! consiste utlliser la matrice des covariances (ou des corrlations) partielles de Xl X:; fix:
VIII:! = Vll V I2V 2 :!IV:'!1

On cherche alors les vecteurs propres de cette matrice_ Il s'agit ici d'une ACP du nuage des rsidus des rgressions des variables de Xl sur Xl : les composantes principales ne sont pas ici des combinaisons linaires des variables de XI_

8.3

l'ANALYSE CANONIQUE GNRALISE

tendre l'analyse canonique plus de deux groupes de variables se heurte d'emble

la difficult suivante: il n'existe pas de mesure simple de la liaison entre plus de deux
variables. Il y aura donc autant de faons d'obtenir des variables canoniques que de manires de dtinir une corrlation ~) entre p variables: on peut prendre par exemple comme mesure la somme des corrlations deux deux, la somme des carrs des corrlations, le dterminant de la matrice des corrlations, etc. Toule gnralisation est donc plus ou moins arbitraire. Celle que nous prsentons ici a l'avantage d'tre sans doute la plus simple et la plus riche d'interprtations, car elle se relie aisment toutes les autres mthodes d'analyse des donnes.

8.3.1

Une proprit de l'analyse canonique ordinaire

tant donn deux ensembles de variables centres Xl et X;!, les variables canoniques ~ et 11, vecteurs propres de A lA] et A2Al respectivement, possdent la proprit suivante:
~

+ 11 est vecteur propre de AI + A 2

198

BaL'analyse canonique et la comparaison de groupes de

V::II"',,,k'I_..:.'cC'!,,,

En effet, posons z tel que (A, + A 2)z = I-lz ; en prmultipliant par AI ou quation, on trouve en utilisant r idempotence de At et A 2 :

soit: ce qui donne :


AIA:!A,z A:!A,A:!z

et

(I-l - lfA,z

= (I-l

- l):!A:;z

donc au mme coefficient multiplicateur prs, A!z et A 2z ne sont autres que les VilllutllestJ*! canoniques ~ et 'YI ; comme A ,z + A:!z = I-lZ on trouve I-lz ~ + 'YI, ce qui dmontre proprit annonce (fig. 8.3).

FIGURE

8.3

La variable z possde la proprit d'tre la plus lie aux deux ensembles XI et X:!. en sens qu'eHe a une somme des carrs des coefficients de corrlation multiple maximale XI et X 2 . En effet, le coefficient de corrlation multiple de z avec Xi vaut:

car les variables tant centres, Ri est le cosinus de l'angle form par z et Wj

8.3.2

la gnralisation de J. D. Carroll (1968)

De la proprit prcdente dcoule la gnralisation suivante due 1. D. Carroll: plutt;' que de rechercher directement des variables canoniques dans chacun des sous-espaces W; t associs des tableaux de donnes Xi> on cherche une variable auxiHaire z appartenant la; somme des Wj telle que

2: R2(z ; Xi) soit max.imal.


1='

l'

canonique et la comparaison de groupes de variables

199

z est alors vecteur propre de AI + A:! + ... + AI' :

On obtient ensute, si ncessaire, des variables canoniques ~i en projetant z sur les Wi (X I IX2 1 ...
SOUS

Ix/,), matrice Il lignes et Lm; colonnes, la variable z se met


i=1

11

la forme Xb et plutt que de rechercher z comme vecteur propre d'une matrice vaut mieux chercher b qui possde SnI i composantes. Comme Ai = Xi(X~DX)-!X;D, en posant Vu

Il,

n il

X;DX j matrice de variance-covariance

V -I 11 V -I 22
matrice bloc-diagonale des Vii l, on

v- I Pl'
p

trouve asment que LAi


1"'1

LXjV~[X;D s'crit en fat LAi = XMX'D.

l'

i=!

;=!

Donc z est vecteur propre de Xl\tIX'D, et puisque z = Xb, si X est de plein rang, b est vecteur propre de MX'DX :

XMX'Dz

= /.lZ

l\tlX'DXb = /.lb
On reconnat alors les quations donnant les composantes principales et les facteurs principaux, dans l' ACP du tableau total X avec la mtrique M. En particulier si chaque groupe est rduit une seule variable (mi retrouve l'ACP avec la mtrique Dl!s~ puisque z rend alors maximal

= l, i =
i=!

l, 2, ... , p) on

" L r 2(z ; Xi).

L'analyse canonique gnralise est donc une ACP sur des groupes de variables, ce qui nous ramne une optique de description des individus tenant compte des liaisons par blocs plutt qu' une optique de description des relations entre variables. On a toujours 2:J.Lk = 2:111 i Si /.l = p, il existe une intersection commune tous les lVi . Les variables canoniques ~~k) que l'on dduit des zU:.) par projection orthogonale sur les

Wi ont alors la proprit suivante, du moins pour l'ordre 1 : le p-uple (t)I), ~~I), ... , ~;,1) a une
matrice de corrlation dont la plus grande valeur propre Contrairement l'analyse canonique usuelle avec p
I

est maximale. a pas orthogonalit entre

= 2, il n'y

les ~~k) et les t~/).

200

B_L'analyse canonique et la comparaison de groupes de variables

On verra au chapitre lOque si chaque groupe est celui des variables indicatrices de p variables qualitatives, l'analyse canonique gnralise conduit l'analyse des correspon_ dances multiples. L'analyse canonique gnralise de Carroll n'est pas la seule mthode de traitement simultan de p groupes de variables; de trs nombreuses techniques ont t proposes: la mthode Statis, l'analyse factorielle multiple sont les plus connues. Le lecteur intress est invit consulter les ouvrages de B. Escofier, du Ger, ains que l'article de synthse de P. Cazes (2004) cits en bibliographie.

L'analyse des

correspondances

Cette mthode a t propose en France par J.-P. Benzcri dans le but d'tudier la liaison (dite encore correspondance) entre deux variables qualitatives; un exemple de correspondance nous est fourni, par exemple, par la ventilation des sjours de vacances selon le mode d'hbergement eL la catgorie socio-professionnelle (CSP) (voir chapitre 6, 6.5). Sur le plan mathmatique, on peut considrer l'analyse des correspondances soit comme une analyse en composantes principales avec une mtrique spciale, la mtrique du X2 , soit comme une variante de l'analyse canonique. Nous dvelopperons ces deux aspects en accordant toutefois la prfrence l'aspect analyse canonique qui a entre autres avantages de respecter la symtrie entre les deux variables el de gnraliser sans difficult l'ana1yse des correspondances plusieurs variables qualitatives.

9.1 9.1.1

TABLEAU DE CONTINGENCE ET NUAGES ASSOCIS Reprsentations gomtriques des profils associs un tableau de contingence

Le tableau des donnes est un tableau de contingence N ml lignes et 1112 colonnes rsultant du croisement de deux variables qualitatives 1/11 el 111 2 catgories respectivement (voir chapitre 6, paragr. 6.5). Si

r on note DI et D'2. les matrices diagonales des effectifs marginaux des deux variables:
Ill.
Il,!.

o
D}

n. 1
n.2

Dl =

0
Il ..

Le tableau des profils des lignes d'lments

-.!l.. eSL
11 i.

alors D 1 N. est alors ND;- l,

Le tableau des protils des colonnes d'lments


1l.j

202

9_L'analyse des correspondances

Les protils de lignes forment un nuage de m, points dans

; chacun de ces points

affect d'un poids proportionnel sa frquence marginale (matrice de poids: Le centre de gravit de ce nuage de points est:

~' ).

Il.,
Il

P.I

c' est--dire le profil marginal. Rciproquement, les profils-colonnes fonnent un nuage de poids donns par la matrice D
Il 2 ;

111::..

points dans lit'" avec

leur centre de gravit g(, est le point de coordonnes:

Pour garder les conventions du chapitre 7, les profils des colonnes de N sont les lignes du tableau transpos D l N' (<< individus en lignes, variables en colonnes). Dans le cas de l'indpendance statistique: et
Il 11 .J
Il

les deux nuages sont alors rduits chacun un point, leurs centres de gravit respectifs. L'tude de la forme de ces nuages au moyen de l'analyse en composantes principales permettra donc de rendre compte de la structure des carts r indpendance mais il faut choisir alors une mtrique pour chacun de ces espaces.

FIGURE 9.1

. 9_ L 'analyse des correspondances

203

Remarquons que les profils ayant pour somme l, les 11/1 profils-lignes sont en ralil situs
III>

dans le sous-espace W:! de dimension

1112

1 dfini par 2:x}


}=!

l (avec en plus x)

0) ainsi

que leur centre de gravit (fig. 9.1). De mme pour les rn2 protils des colonnes.

9.1.2

la mtrique du X2

pour calculer la distance entre deux profils-lignes i el i' on utilise la formule suivante:

11 s'agit donc de la mtrique diagonale nDil, La considration suivante justifie dans une certaine mesure l'emploi de la distance du X1 La pondration par
:

!!... de
11.)

chaque carr de diffrence revient donner des importances

comparables aux diverses variables ) : ainsi, dans l'exemple de la correspondance modes d'hbergement X CSP, (voir chapitre 6 et 9.3) si l'on calculait la dislance entre deux modes par la formule usuel1e : somme des carrs des diffrences des pourcentages des diverses CSP , il est clair que cette distance reflterait surtout la diffrence entre les CSP les plus importantes en nombre; pour pallier cet inconvnient la division par Il.} est un bon remde (quoiqu'un peu arbitraire). L'argument le plus frquemment utilis en faveur de la mtrique du X'2 est le principe d'quivalence distributionnelle: si deux colonnes de N,.i et j', ont mme protil il est logique de les regrouper en une seule d'effectifs (ni} + 11;/.), il faut alors que cette opration ne modifie pas les distances entre profils-lignes. On vrifie en effet par simple calcul que:
Ji

(11 ij Il.)'

Il i'j 11 1. .,

n.) ni.

)" + (
11

n ij'
Tl /. .
H /., .

Il, .J

)'

- _

11 11' J .11 ., . J

11 ij

+
11 1. .

11 li'

Il i'j

+ Il i'J'):!
Il i',

lorsque

Il ..

.-Ji.
Il,}

Cette proprit n'est pas vrifie pour la mtrique euclidienne usuelle. Lajustification la plus profonde, mais la plus difficile, est en fait la suivante: les profils-lignes sont des lois de probabilit sur des ensembles finis de ml lments (les modalits de la deuxi~ me variable). Au moyen de l'esprance mathmatique, ces lois de probabilit sont associes des formes linaires (qu'on leur identifie) sur les variables quantitatives compatibles avec la deuxime variable qualitative. Ces variables quantitatives (qui ralisent une quantification de la deuxime variable qualitative) formant un espace vectoriel, les individus sont donc des lmenL~ du dual de cet espace (pas tout le dual, mais un simplexe de ce dual). Les modalits de la deuxime variable ayant pour poids P.I' P.:!, ... , les variables 1 quantitatives associes sont munies de la mtrique - D:! qui est la mtrique de la covariance,
11

204

911111L'analyse des correspondances

si l'on se restreint des codages centrs. Le dual doit donc tre muni de la mtrique inverse

nDi l .
On dfinit de mme la mtrique du X:! entre profils-colonnes (matrice nDl1) par la fonnule :

Le terme de mtrique du X:! vient de ce que les deux nuages ont alors pour inertie totale la quantit mesurant l'cart l'indpendance :

cp:! = 1 L
Il

(nu -

Il, Il ,)1 ~
Il

(voir chapitre 6)

11 i. 11 .j

11

En effet, l'inertie du nuage des profils-lignes par rapport g;vut:


111, '" kJ

Il,

;=1 Il

,. d" (' g/) x' l, -

"'V ..i.J /. ..i.J "'V - - i=lj=1 Il Il.j

III 1

1111

Il,

Il

('1"

'.1

- -

11 ,)2
.}

IIi.

Il

ce qui donne cp:! aprs un calcul lmentaire. Il en est de mme pour l'inertie du nuage des profils-colonnes. Nous avons remarqu que le nuage des points profils-lignes tait dans un sous-espace \VI : le vecteur Og, est alors orthogonal au sens de la mtrique du X2 ce sous-espace (fig. 9.2) :

o
FIGURE

9.2

En effet, soit

x un lment de W1 :
(x - gl)'I1Di l g, = < Og[; g,x >x!

=0

car:

et pour tout lment de WI

x'l
L

= 1 donc g; 1 =

l.

De plus "gdl~~

= gl =

91111L'analyse des correspondances

205

9.2

ANALYSES EN COMPOSANTES PRINCIPALES DES DEUX NUAGES DE PROFilS

Deux ACP sont alors possibles: 1) Celle du nuage des profils-lignes avec: - tableau de donnes X = DtlN ; - mtrique M = uDi l ; _
2)

poids

= Dl.
Tl

Celle du nuage des profils-colonnes avec: - tableau de donnes X = DiIN '

(Le tableau des profils colonnes est ND;-I mais, pour garder l'usage de mettre les "individus" en ligne, il faut le transposer; d'o X = DilN') ;

mtrique poids

LVi D

= IID I l = D 2
11

Nous allons voir gue leurs rsultats sont en dualit exacte.

9.2.1

ACP non centres et facteur trivial

La matrice de variance d'un nuage de protil est V

= X'DX

- gg'.

D'aprs la proprit tablie la fin du paragraphe 9.1.2 Og est orthogonal au support du nuage, il est donc axe principal, c'est--dire vecteur propre de VM, associ = O. Les vecteurs propres de VM sont alors les mmes que ceux de X'DXl\t1 avec les mmes valeurs propres sauf g qui a pour valeur propre L. En effet gg'M est de rang 1 et :

X'DXl\'1
d'o:

VM

+ gg'M

X'DXMg

= VMg + gg'Mg = 0 + gllgll~~


=g

Il est donc inutile de centrer les tableaux de profils et on effectuera des ACP non centres: la valeur propre l dont on verra plus tard qu'elle est maximale sera ensuite liminer. A cette valeur propre triviale est associ l'axe principal g et le facteur principal constant:

206

9l11i1111L'analyse des correspondances

9.2.2

ACP non centres des nuages de profils

Il suffit d'appliquer ici les rsultats du chapitre 7 : les facteurs principaux sont les vecteurs propres de lVIX'DX, les composantes principales les vecteurs propres de XlV!X'D. 1 Pour les lignes on a X = D,'N d'o X'DX = - N'D,IN, MX'DX = D1 1 N'D l Net J XlVIX'D = Di' ND 1 N'. n Pour les protils-colonnes il suftit de transposer N et d'inverser les indices 1 et 2, comme le montre le tableau 9. t :

TABLEAU

9.1

ACP des profils-lignes Facteurs principaux Vecteurs propres de D1"' N/D,I N

ACP des profils-colonnes Vecteurs propres de D,' ND 1" , N'

Vecteurs propres de D,' ND 1" 1 N' Composantes principales normaliss par

---------4-----------------------Vecteurs propres de

D;-' N'D,' N
normaliss par
b / D:! b = X.

a' D I a n

= X.

On constate que les deux analyses conduisent aux mmes valeurs propres et que les facteurs principaux de l'une sont les composantes principales de l'autre ( un coefficient multiplicateur prs). En pratique on s'intresse ici exclusivemenL aux composantes principales pour obtenir directemenL les coordonnes factorielles des points reprsentatifs des profils-lignes ou colonnes. On remarque que les matrices ayant comme vecteurs propres les composantes principales sont les produits des deux matrices [D,' N] et [D1"' N'l dans un ordre ou dans l'autre: Les coordonnes des points-lignes et points-colonnes s'obtiennent en cherchant les vecteurs propres des produits des deux tableaux de profils. La parfaite symtrie entre ACP des profils-lignes et ACP des profils-colonnes conduit alors superposer les plans principaux des deux ACP atin d'obtenir une reprsentation simultane des catgories des deux variables croises dans le tableau de contingence N. Cette pratique sera justifie plus en dtail au paragraphe 9.4.4 Les cercles de corrlation n'ayant aucun intrt ici dans le contexte de variables qualitatives l'interprtation des composantes se fait essentiellement en utilisant les contributions des diverses catgories aux inerties des axes factoriels, c'est--dire aux valeurs propres.

91111BL'analyse des correspondances

207

Comme: On appelle contribution (CTR) du profil-ligne i t'inertie le quotient:

CTR(i)

11

-.:L (b.f-

Il-

On a de mme:

CTR(j) =

--

Comme en ACP on considre ra les catgories ayanlles plus fortes contributions comme constitutives des axes: un critre simple consistant retenir les CTR(i) > .....!:. La contribution
11

JI-

doit tre complte par le signe de la coordonne car certaines catgories peuvent avoir des contributions de sens opposs. Remarquons qu'ici
n 2: -.!.:.lli = L _hj =
i

0 (les composantes sont centres) ; il ne peut

Il

11

Y avor d'effet de taille car les coordonnes des points ne peuvent tre toutes positives ou toutes ngatives.

9.2.3

Formules de transition

Les coordonnes des points-lignes et les coordonnes des points-colonnes sont relies par des fom1UJes simples dont le premier intrt est d'viter de raliser deux diagonalisations. On diagonalisera la matrice la plus petite, par exemple Dt ND l ' N' si 1111 < ln"].. Connaissant les solutions a de l'quation:

il suffit de prmultiplier les deux membres de cette quation par Dli N' pour obtenir un vecteur proportionnel b :

On a donc b normalisation ND2' I N ' a =

= kD2'1 Nia. Pour dterminer k il suffit ., Di k2 b ' -= b = soit k-a'ND;1 -=. D;I Nia = II -11 n
D-,
a il vient
k 2 a '

d'utiliser la condition de

a'ND;1 N'a 1l

=
.

Comme

Dl

DI a
Il

= soit P =

1 puisque a' Dl a =

208
On a donc les formules suivantes pour chaque axe: soit soit
l'Jj -

9_L'analyse des ... r>rr<>." ..... n'n..l'..... ~, __

'l.

r. " 1-. 1 ai .l.J


=

111\

Il"

1 }l.j

avec:

a=

b=

.Ces formuls dites de transition sont des formules pselldo~barycentriques au sens suivant

...J'X. prs la coordonne d'une catgorie i d'une variable est la moyenne des coordonnes des
catgories de l'autre variable pondres par les frquences conditionnelles du profil de i.

9.2.4
9.2.4.1

Trace et reconstitution des donnes


Dcomposition du <pl

Nous avons dj vu que l'inertie totale des deux nuages tait gale au <.pl, En liminant la valeur propre triviale on a donc si 111,
1111-

<

m2 :

~ . k =
k=l

<.p2

car il Y a au plus min 111, - 1) ; (m2 - 1)) valeurs propres. Chaque direction principale explique une partie de l'cart l'indpendance mesure par le <.p2, Les pourcentages de variance (ou d'inertie) sont donc les
.d <.p'2 ,

P. Cibois (1983) a mis en vidence la proprit suivante qui montre que l'analyse des correspondances tudie la structure des carts l'indpendance plus que les carts eux-mmes; Le tableau N* dfini par:
~+a, ",.-~
1l
1)

n,

11 '

11 ,)

JI

a mmes marges que N donc mme tableau d'indpendance mais des carts il l'indpendance. rduits de ct (si 0 < ct < 1). L'analyse des correspondances de N* est alors presque identique celle de N : mmes' graphiques, mmes pourcentages d'inertie, mmes contributions. Seul <.p2 et les valeurs pro pres ont chang :
(<.p2r~

= a,2 <.p2 et .*=

a'2 .

Un utilisateur ne regardant que les pourcentages et non les valeurs absolues ne verrait aucune diffrence. Le problme est alors de savoir si l'on analyse des cart." significatifs ou non.

des correspondances

209

Formule de reconstitution
La formule X

= L cl;,uJ,lVl- 1 tablie
k

au chapitre 7 s'applique ici pour X tableau des

profils-lignes, CI;, vecteur des coordonnes des lignes sur r axe na k, Uk facteur principal (identique au vecteur des coordonnes des colonnes sur r axe k divis par ~) et IVI = llD~ 1. On a alors:
...21
Tl i .

n..

= 2: _1_-'_
k

a!k)//k)

-{

Il

mais il faut utiliser tous les facteurs y compris le facteur trivial correspondant h = l, d'o :

Il s'agit donc bien d'une reconstitution des carts l'indpendance l'aide des coordon"'isfactorielles des points associs aux profils-lignes et aux profils-colonnes.

9.2.5

Choix du nombre de valeurs propres en AFC

L'AFC est une ACP particulre mais on ne peut appliquer exactement les mmes rgles car la mtrique du khi~deux n'est pas la mtrique usuelle. On peut ne retenir que les valeurs propres suprieures leur moyenne comme le fail la rgle de Kaiser, mais cette pratique est peu usite. La rgle du coude reste cependant valide, mais est toujours quelque peu subjective. Lorsque la taille de l'chantillon le permet, le critre suivant propos par E. Malinvaud peut se rveler trs efficace. Il est bas sur la comparaison entre effectifs observs lIu et effectifs calculs raide de la formule de reconstitution dans le contexte suivant: on fait l'hypothse que [es donnes forment un chantillon tir alatoirement et avec quiprobabilit dans une population teHe que Pij = Pi.P.j(l

Ciik {3jk)' En d'autres termes la loi bidimensionnelle


k=1

sous-jacente est un tableau de rang K. Dans ces conditions, si ,ij};) case ij, raide des K premiers

= (n i .ll d )
11

(1

aikbik/~) est la reconstitution de la


k=l
~

axes~

on peut montrer que la quantit


)' (11 ij
~

Il

ii)

K :!

I.j

Il i.ll~i
Il

suit asymptotiquement une loi du X (1' - K - 1) (q - K 1) degrs de libert. Il s'agt donc d~une gnralisation du test d'cart l'indpendance qui correspond au cas K = O. On trouve sans difficult que QK se calcule l'aide des valeurs propres et est gal rI fois l'inertie au del de la dimension K :
QK
n(l - hl - h 2 -

o r ::::: lIlin(p - l ; q - 1)

210

9. L'analyse des

I..c,-,o.ll,rr,e5J)Orldance~..

-.
-.,

On peut donc tester successivement les valeurs de K depuis K = 0 (hypothse " l' 1" dance),jusqu au moment ou on ne peut p us rejeter ajustement.

;
'l1e1'::.
r

.i.
i

Les conditions d'application sont celles du test du khi-deux: effectifs thoriques au 1I1ins gaux 5. Cependant si :' est tr.s lev le test ~on?~it ~onserver un .tr~p grand nombre de) valeurs propres: on ne l' emplOIera que pour Il mfeneur a quelques millIers. "'.

9.3

UN EXEMPLE

Nous avons soumis l'analyse des correspondances (logiciel SPAD Version .'. le tableau de contingence sur les vacances des franais en 1999 dj tudi dans le: chapitre 6. Le tableau des valeurs propres montre clairement que deux axes suffisent dcrire la liaison entre la catgorie socio-professionnelle et le mode d'hbergement:
.. c

;'

SQt..!1v1E DES VALEURS PROPRES . 0.1073

..'~

HISTOGFLL.J:,!NE DES 7 PREMIERES Vl'.LEURS PROPRES

'.
....

NUHERO

VALEUR PROPRE 0.0657 0.0254 0.0081 0.0037 0.0028 0.0014 0.0002

POURCENT.

POUHCENT.
C-1ULE

1 2

61.24
23.70

3 4 5 6 7

7.55 3.46 2.60 1. 29 0.16

61. 24 84,94. 92.49 95.95 98.55 99.811 100.00

********************************** ******************* ********** ***** "*** **

*
...

Ici le test de Malinvaud est inoprant car 11 = 18352 est trop lev.
Les tableaux suivants permettent de reprer les modalits ayant des contributions significatives : Sur l'axe 1 Hotet, Rsidence seconda re lis avec retraits et opposs tente et ollvriel: L'axe 2 est caractris par Rsidence secondaire de parents et amis et
i

cadres.
On retrouve des associations dtectes par la dcomposition (figure 9.3) du khi-deux, mais le graphique pennet de les illustrer de manire vocatrice. Rappelons que l'interprtation des proximits sur le graphique doit respecter certains principes: si deux modalits d'une mme variable sont proches et bien reprsentes, cela signifie que leurs profils sont semblables (c'est le cas d' ouvrers et employs par exemple qui frquentent les mmes lieux dans des proportions proches). Par contre la proximit entre une modaHt d'une variable et une modalit de l'autre, comme prt~fession illfermdiaire et village de l'acances, est plus dlicate interprter: ce que l'on peut seulement dire c'est que: le barycentre des 3787 sjours des professions n/enndiaires est proche du barycentre des . 686 sjours en village de vacances (voir plus loin).

HODES D' HEBERGEt'lEN'['

COORDONNEES

CONTRIBU'l'IONS

COSInUS CI\ERES

mEN

LIBELLE
14.19 .68 .36 33.73 9.98 4.17 6.10 2.09 3.70

DIS'I'O
0.11 0.0,: 0.33 0.03 0.15 0.31 0.18 0.07 0.07 -0.32 13 -0.55 0.11 -0.06 0.52 0.25 0.15 0.10

2
-0.03 -0.11 0.15 0.09 -0.37 -0.02 0.27 O. 0.12 0 00 -0.10 -0 0.01 0.16 0.10 0.02

4
-0.03 0.03 -0.01 0.02 0.0/1 -0.19 0.09 0.00 -O.lB

5
-0.08 -0.01 0.07

5
,\'329. 3.3.3 0.6 15.2 3.9 LB 3.9 17.0 40.2 0.3 U.2 13.2 0.0 7.3 31.7 11 7

!-lOTE ![ote1 LOCA-Locat.lon RSE:C-Rsid. I1PPA-Rsid. Par RSPA -Hsid. 'l'EN'l'-'l'ent.e CAR.~ Caravane .".J Auberge VILL Village

-o.

-0.13
0.03

0.09

.6 0.:1 3.9 4.1 .628.2 113.2 8.'1 6.3 10.7 38.4 0.5 53.9 .8 17.1 0.1 0.0 6017.3.6 D.7 1..1 .'/ 0.5 O.:': 0.2

0.27 0.07 0.27 O. 0.00 0.360.41 0.33 0.:2'1 0.1,1 0.02

O.
0.30 0.04 0.00 O.LS 0.01 01 .11

.01 0.01 0.01 0.03 0.00 0.03

Ci'.1'EGORIES
SOCIa-PROFESSIONNELLES

COORDONNEES

i
5 -0.11 -0.1'1 O. 0.06 -0.0'1 .02 -0.01 -0.13

CONTRIBUTIONS

COSINUS Cl.. RRES

j
.2

P.HEL
!>.griculteurs 1.27 6.15 23.4'7 20 13 10.57 0.27 0.08

0.15
-0.01 -0.13

Artisans,
Cadres Prof. interm. Employs Ouvriers P.et.raits
J

o.
O. Dl

O.OB
. 26 0.33 -O.,B 0.36

-0.14 -0.15 -0.23 -0.01

0.13

O.lB
-0.03 0.02 -0.04 0.05

O.OB
.1'1
0.40

0.06
.13 0.01

-0 .'14 0.03 0.02 -0 .0'1 0.08


0.01

0.4 0.0 5.6


10.9 28.2 lB .6 4

0.9

5.6 49.9

.6

67.3 1.2

5.5
1 ~l

OB

0.07

o.
1 11. 30 3

3.0 0.9
1.7 :1.7.

16.56
19 . 41 2.12

2.5 7.6 16.3 0.3


-1.7

3.6

0.22 O. '1 ()

.1
13 .

.B2 0.83
0.80

.75 0.00 0.0"1

0.06 0.42 O. O.

73 0.01 0.01 0.10

O. Cll

o
0.01 0.23 0.02
.

o.
0.02 .00 .60

.07
0.00 0.00 0.02

.13

-o.
-0.'19

0.00

O.
62.8

o.
0.00

0.00
0.0'1

Aut.res inactifs

-o.

0.33

212

9 . L'analyse des correspondances

Dans la figure 9.3, les points ont des tailles proportionnelles leurs frqences marginales.
Facleur2,---_ _ _ _ _ _ _ _ _ _ _ _ _,--_ _ _ _ _ varavanE! _ _ _ _ _-.

Ouvriers

0.15

Rsidence Principale Parents


A

Amis

Employs A.utres inactifs

villag1 de vacances

o ---

---1It-----------------------Professions intermdiaires
.... Location Tente

-0.15

Agriculteurs .... Auberge de Jeunesse

Artisans, commerants, chefs d'entreprise

-0.30 -0.50

Cadres et professions intellectuelles suprIeures


i
1 1 1
1

-0.25

Rsidence Secondaire Parents

Amis 0.25

0.50
Facteur 1

FIGURE

9.3

9.4

ANALYSE CANONIQUE DE OEUXVARIABLES QUALITATIVES, JUSTIFICATION DE LA REPRSENTATION SIMULTANE

9.4.1

Mise sous forme disjonctive de donnes qualitatives

Le tableau de contingence N ne constitue pas en ralit le tableau de donnes brutes: il est le rsultat d'un traitement lmentaire (tri crois) de donnes releves sur 11 individus du type : (x}; xl) pour i l , 2, ... , Il o xl et xf sont les numros des catgories des variables qualitatives 2f1 et 3:2 La numrotation des catgories est arbitraire et on introduit , alors la reprsentation suivante comme au paragraphe 6.4.3 : A une variable qualitative gr 111 catgories on associe les 111 variables indicatrices de ses catgories: li 1; li 2, ]m. :[X(i) vaut 1 si x est dans la catgorie i, 0 sinon. Pour un individu i une seule des nI indicatrices vaut l les III - 1 autres valent o. Pour Il individus la variable binaires X suivant:

zr peut

tre reprsente par le tableau de donnes


2

nt

1
2

0 0 ...

0 0

17

...

'analyse des correspondances 9 .. L

213

On dit que f!l'a t mise sous forme disjonctive. On remarque que vecteur 1.
Il

2: ll.x

111

1 donc que les

III

colonnes de X ont pour somme le

A deux variables qualitatives stl et g[,'J;. correspondent donc deux matrices XI et X:. lignes et respectivement ml et 111:. colonnes. On vrifie alors les formules suivantes liant Xl et X:. au tableau de contingence N

et aux deux matrices d'effectifs marginaux DI et D:. :

N = Xi X 2 D,=X,X 1
D2

= xzX"!.

En effet, faire le produit scalaire de deux vecteurs d'indicatrices revient compter le nombre de co-occurrences.

9.4.2

Quantifications de variables qualitatives

Si chaque catgorie d'une variable qualitative ~r on associe une valeur numrique, on transforme gr! en une variable discrte III valeurs: on ralise ainsi une quantification de !Ze en une variable numrique x (cerlains auteurs parlent de codage }). Il existe une infinit de quantifications possibles dont la structure est celle d'un sous-espace vectoriel de l'espace des variables. Si
Clj

est la valeur numrique associe la catgorie j, on a :

2: aj]/
j=1

III

Une quantification n'est donc qu'une combinaison linaire des variables indicatrices.
Pour l'ensemble des n individus on a :

soit si a

=
a III

= Xa

L'ensemble des x est donc le sous-espace Wengendr par les combinaisons linaires des colonnes de X.

214

9aL'analyse des correspondances

9.4.3

Analyse canonique de deux groupes d'indicatrices

L'tude de la dpendance entre fIl'! et f!{~ est donc cene des relations entre les deux groupes de variables indicatrices associes. On peut donc appliquer l'analyse canonique tudie au chapitre prcdent. Les deux tableaux de donnes analyser sont les tableaux disjonctifs XI et X 2 . On constate immdiatement que les deux espaces WI et W2 engendrs par les colonnes de ces tableaux ont en commun le vecteur 1 qui est le vecteur somme des colonnes de Xl ou de X 2 (donc dim (W 1 n W2) 2:!: 1). Les variables canoniques autres que 1 formant des systmes D-orthonorms de WI et W:b sont donc centres, car elles sont orthogonales au vecteur 1. En supposant ici que les on a:
11

individus ont mmes poids 1ln, avec les notations du chapitre 8

v.,., --

1 t 1 =-X.,X., =-D"l
Il Il -

Vil;::::

-Xl X 2 =-N
11 11

V21

= -- N
Il

Les facteurs canoniques du groupe l sont les vecteurs propres de VIIIV 12V;-21V21 c'est-dire de DlNDlN' : ce sont donc les composantes principales de l'ACP des profils-lignes un facteur multiplicatif prs. De mme les facteurs canoniques du groupe 2 sont les vecteurs propres de D;-IN'D1N et fournissent les coordonnes des profils-colonnes sur les axes principaux. Les valeurs propres de \' analyse des correspondances sont donc les carrs des coefticents de corrlation canonique (ce qui prouve que :::;: 1) et la valeur propre triviale = 1 correspond au fait que W1 et W2 ont 1 dans leur intersection. Les facteurs canoniques donnent des combinaisons linaires des variables indicatrices, donc des quantifications de 2r( et 2C2 : on peut interprter l'analyse des correspondances comme la recherche d'une transformation simultane de 2f, et 2l':. en variables numriques telles que leur coefficient de corrlation linaire soit maximal. Cette prsentation plus connue des statisticiens anglophones est attribue Fisher, elle remonte en fait des travaux de Hirschfeld, alias H.O. Hartley, de 1936. Les valeurs numriques optimales attribuer aux catgories sont donc leurs coordonnes sur le premier axe de l'analyse des correspondances. Si l'on rordonne I1gnes et colonnes du tableau de contingence N selon l'ordre des points sur le premier axe principal on obtient un tableau tel que les termes diagonaux aent des effectifs maximaux. Les formules de transition sont identiques ceBes permettant de passer des facteurs canoniques d'un groupe ceux de l'autre groupe.

9111L'analyse des correspondances

215

Il n'est donc pas ncessaire dans ce contexte d'introduire la mtrique du X2 et on voit que les catgories des deux variables et sont traites de la mme faon en tant qu'lments de [R'! grce aux variables indicatrices ce qui justitie le fait de les reprsenter simultanment sur les mmes graphiques. Les reprsentations graphiques de l'analyse canonique (cercle des corrlations) sont cependant ici inadquates car la notion de corrlation avec une variable indicatrice n \a gure de sens: on se contentera de reprsenter chaque catgorie par ses codages ) successifs sur les axes.

9.4.4

Reprsentation simultane optimale des (m 1 + m2) catgories d'individus

Les catgories des variables qualitatives !!CJ et dfinissent des sous-groupes d'individus 2 d'effectifs Ili. (i = l, 2, ... ,1111) et 1l.j (j = l, 2, ... , 111:1). Si l'on dispose d'une variable numrique z de moyenne nulle reprsentant les coordonnes des Il individus sur un axe on reprsentera la catgorie i de !!Cl par un point dont la coordonne Cli est la moyenne des coordonnes des l1j. individus de la catgorie en question;

Xii

est la

[me

colonne de

XI'

On en dduit que le vecteur a renfermant les coordonnes des

n11

catgories de XI est:

de mme pour les

1112

catgories de X 2

La variable z est d'autant plus intressante pour Xl qu'elle permet de bien sparer les ai.
c'est-~dire

que la variance - a/DJa est plus grande. Le maximum de cette variance est
Il

obtenu s tous les individus appartenant une mme catgorie de de z.

, ont la mme valeur

Cherchons alors la variable z et les coordonnes a et b telles que en moyenne a'Dla et b ' D 2b soient maximales: on aura alors en un certain sens une reprsentation simultane optimale des catgories des deux variables sur un axe. Comme a'Dla b ' D 2b =
1 (A ,
Zl A 2 z,

= z'X1(X;

X1)-IX;Z = z'Alz o AI est le projecteur sur WI ; et

le maximum de

~ [a'D I a + b ' D2 b] s'obtient lorsque ~ [z/(AI + A 2)z] est

maximal. En supposant V(z) fix ce maxmum est atteint pour z vecteur propre de

+ A:):

216

9. L'analyse des correspondances

Comme Al

= X! D Il X '1 Z = X 1 a

et

soit en prmultipliant les deux membres de cette quation par DII X;

soit : et en prmultipliant par Di 1 X 2:

a + DI! Nb

2Jl.a

ou il vient alors:

DI!Nb = (21-L -1)a { Di'N'a (2f.L-1)b

On reconnat les formules de transition et par substitution on a :

DI! NDil N'a = (2f.L - l)Za { Di! N'DII Nb = (2f.L - Ifb


Ce sont les quations de l'analyse factorielle des correspondances avec (2f.L - 1)2 =
.

Remarquons que l'on aurait pu appliquer directement les rsultats du paragraphe 8.3.1 du chapitre prcdent: z est alors le compromis un facteur prs des deux variables canoniques ~ et Y). Les coordonnes des points catgories donnes par Je premier axe de l'analyse des correspondances sont donc optimales; les axes suivants correspondent au choix d'autres variables z orthogonales aux prcdentes. La signification relle de la reprsentation simultane est donc celle-ci: les points reprsentatifs des catgories des deux variables sont les barycentres des groupes d'indiv;dus qu'elles dfinissent. Les proximits entre points reprsentatifs doivent tre inlerprtes comme des proximits entre moyennes: pour deux catgories i et i' d'une mme variable cela entrane une proximit de leurs profils. Pour deux catgories i et j l'une de 2l'l l'autre de gr:. l'interprtation est plus dlicate. On peut galement reprsenter sur le graphique les cases du tableau de contingence: tout et j de a pour coordonne z sur un axe: individu de la catgorie i de
""
'7

= -

l 1 (a + b.) = --_-=1. 2f.L 1 l + 'l


2f.LZ.

(lli

+ bj )

d'aprs la formule XI a

+ Xl b

des correspondances

217

La mthode des moyennes rciproques


La prsentation suivante connue sous le nom de reciprocal al'eragillg ou de dual scaling claire galement la reprsentation simultane de l'analyse des correspondances. comme des points de Supposons que l'on place sur un axe les catgories de ln variable coordonnes [li' Par exemple les CSP dans le cas tudi prcdemment: CSP 1 CSP 2 CSP

o
Pour reprsenter une catgorie j de l'autre variable 2r::.., ici le mode d'hbergement, il semble logique de la reprsenter comme le barycentre des catgories professionnelles avec pour coefficients les importances relatives des diverses CSP dans le mode d'hbergement en ques-

soit b =

Di l N'a

L'idal serai t que la rciproque soit vraie, c'est--dire que l'on puisse reprsenter les catgories de gel comme barycentres des catgories de

a=DilNb
La simultanit de ces deux relations est impossible: on cherchera alors une reprsentation barycentrique simultane approche avec:

aa = D'Nb { ab = D;-' N'a


o a est le plus grand possible car a correspondances avec a = ..JI.

<

1. On retrouve alors les quations de l'analyse des

L'algorithme consistant partir d'un vecteur a O arbitraire, en dduire b(l) = D;-I N'ao puis a(l) = D 1 Nb(ll, etc., avec normalisation chaque tape jusqu' convergence fournit en gnral la premire solution de l'analyse des correspondances relative il ,I'

9.4.6

Conclusion

L'analyse des correspondances est la mthode privilgie d'tude des relations entre deux variables qualitatives et l'une de ses principales proprits est la facult de reprsenter simultanment lignes et colonnes d'un tableau de contingence. Si en thorie elle ne s'applique qu' des tableaux de contingence, elle peut tre tendue moyennant certaines prcautions d'autres types de tableaux comme le prouvera le chapitre suivant.

L'analyse des correspondances multiples

des correspondances multiples (ACM) est une technique de description de donnes qualitatives: on considre ici Il individus dcrits par p variables 2/;"1' . , !!l~} ml' m'l' ... , ml' catgories. Cette mthode est partculirement bien adapte l'exploration d'enqutes o les questions sont rponses multiples. Sur le plan formel il s'agit d'une simple application de l'analyse des correspondances au tableau disjonctif des 1111 + 1112 + ... + ln!, indicatrices des catgories. Cette mthode possde cependant des proprits qui la relient d'autres mthodes statistiques et lui donnent son statut particulier et en font l'quivalent de l'analyse en composantes principales pour des variables qualitatives.

10.1 10.1.1

PRSENTATION FORMELLE Donnes et notations

Chaque individu est dcrit par les numros des catgories des p variables auxquelles il appartient. Ces donnes brutes se prsentent donc sous forme d'un tableau Il lignes et p colonnes. Les lments de ce tableau sont des codes arbitraires sur lesquels aucune opration arithmtique n'est licite. La forme mathmatique utile pour les calculs est alors le tableau disjonctif des indicatrices des p variables obtenu en juxtaposant les p tableaux d'indicatrices de chaque variable Ainsi le tableau brut suivant:

1
2 2

2 2
2

2 2

3 3

220

10aL'analyse des correspondances

ITIUI[IDIF>~,~f!@

correspondant 5 observations de trois variables Ff2, 3, 2, 3 catgories ment engendre le tableau disjonctif X 5 lignes et 8 colonnes:
1 0

rpcnp,,..l-i ~

(X,IX:;IX 3 )

0 0 0 0

1 0 1 0:0 1 : 0 1 0 0 1:0 1: 1 0 0 0 1 : 1 0:0 0

0:0

1:0
l

o: 1 o:

0 0

La somme des lments de chaque ligne de X est gale p, nombre de variables. La somme des lments d'une colonne de X donne 1'effectif marginal de la catgorie correspondan te. La somme des colonnes de chaque tableau d'indicatrices est gale au vecteur 1 ; le de X est donc

2: 111
i=1

fl

i -

1.

On notera D le tableau diagonal des effectifs marginaux des ml

+ J11:; + ... + m" catgories:

10.1 .2

Une proprit remarquable pour p

=2
J

Pour deux variables qualitatives fit, et fIt; m, et ml modalits l'analyse facto .. rielle des correspondances du tableau disjonctif X = (X, 1Xl) est quivalente l'onalyse factorielle des correspondances (AFC) du tableau de contingence N X , X 1

Cette proprit est l'origine du nom de la mthode tudie ici.

10.1.2.1

AFC formelle du tableau disjonctif

L'AFC d'un tableau X revient chercher les valeurs propres et les vecteurs propres du produit des deux tableaux de profils associs X. Le tableau des profils-lignes vaut ici X/2. Le tableau des profils des colonnes XD- ' est tel que:

7O_ L'analyse des correspondances multiples

221

Les coordonnes des profils des colonnes sont les vecteurs propres de :

(XD- 1)'

1
-

= - D-IX'X
2

ml

L'quation donnant les 1111 + 111::. coordonnes des profils des colonnes est, en notant a les premires composantes et b les 111::. suivantes:

d'o les quations:

a + D'Nb = 2j.1a { D I N'a + b = 2j.1b 2

ou

DlNb { D 1N'a 2

= (2j.1 = (2j.1 -

1)a l)b

On reconnat les quations de l'analyse des correspondances de N (formules de transition) et par substitution: D 2 I N'D I Nb { DIND;-IN'a avec ~

= (2j.1 = (2j.1

- lfb - Ifa

= (2j.1

- 1)2.

Les coordonnes des nll + 111::. points colonnes de X sont donc identiques ( un coefficient de proportionnalit prs) aux coordonnes des lignes et des colonnes de N dans la reprsentation simultane.

10.1.2.2
Si
11

Proprits particulires des valeurs propres et vecteurs propres


111 1

>

+ 1112' l'AFC du

Lableau X va aboutir plus de facteurs que l'AFC de N.

D'o viennent les solutions supplmentaires? Notons tout d'abord l'existence d'une solution triviale supplmentaire correspondant une valeur propre nulle puisque les colonnes de X sont lies par une relation linaire (la somme des colonnes de XI est gale la somme des colonnes de X::.). Il y a donc 1111 + 1112 - :2 valeurs propres non trivialement nulles ou gales l. Comme ~

= (2j.1

- 1f, chaque

correspondent deux valeurs propres:


1 - {};.

et

j.1=---

222

10. L'analyse des correspondances multipl

correspondant aux vec te urs propres (:) et ( _ :) soit, si Il Ya en plus /Il,


de multiplicit 1112
-

/Il,

<

1/1,. 2(1/1, -

1) valeurs 11rn'........... _

."""

/Il,

vecteurs propres du type

(~) associs la valeur propre 1/2 qui est

JJ1 l'

Seules les (m 1 - 1) valeurs propres suprieures l/2 ont une signification. Comme:

l'inertie totale est gale

ml + m,
2

- - ].

Bien que fournissant des axes identiques l'analyse des correspondances de N, inerties assoies et les parts d' inertie sont trs diffrentes et ne peuvent tre sans prcaution. Ainsi l'analyse des correspondances sur le tableau disjonctif associ au tableau tudi au chapitre prcdent conduit aux rsultats suivants: (m, = 9 et ml = 8) :
~I =

0.628 0.545 7.5

8.37% 7.77% 7.27%

~I ~2 ~3
7

= 0.0657
= 0.0254

61.24% 23.7% 7.55%

/-L2 = 0.580
~3 =
15

= 0.0081

2: /-Li =
i=1

ml

+ Ill;! 2

2: ~i = 0.1073
""I

Les valeurs propres qui taient trs spares dans l'AFC de N, ne le sont plus dans l'AFC de X.

10.1.3

Le cas gnral

p> 2

La proprit prcdente conduit l'extension p variables qui consiste effectuer une analyse des correspondances sur le tableau disjonctif X = (X, 1X:!I .. X,,) pour obtenir: ainsi une reprsentation simultane des ml + Ill;! + ... + 1111' catgories comme points' d'un espace de faible dimension.

10.1.3.1

Coordonnes des catgories

On notera a

=
ap

le vecteur

2: 11l
1=1

l'

composantes des coordonnes factorielles des ca t-

gories de toutes les variables sur un axe.

to_L'analyse des corresponda.nc.es multiples

223

pour chaque valeur propre /-L on a donc:

D l
01
soit:
1

X;X I
X~XI

X;X 2 ... X(X,,- al


X~X1
a:.>
=j.L

al a:.>

p
()

n- I

"

X~XI .......... X; X" _ al'

aIl

On note B le tableau dont les blocs sont les X;-X j . Ce tableau, dt tableau de Burt, est un super-tableau de contingence puisque chaque bloc X;Xj est le tableau de contingence croisant i?ti avec &'l1. L'quation des coordonnes des catgories est donc:

[~D~IBa = ~a
On prendra comme convention de normalisation:

=JJ.
car la somme des lments de X vaut np.

10.1.3.2

Coordonnes des individus

Les lignes de X reprsentant les individus, les coordonnes des points-lignes s'obtiennent en diagonalisant le produit, effectu dans l'ordre inverse, des deux tableaux des protils. Soit z le vecteur Il composantes des coordonnes des 11 individus sur un axe factoriel. On a :

[~XD~IX'Z = ~Z[
En dveloppant par blocs XO-IX ' il vient:

(X', X 1)-'
(X~X1)-1

j.LZ

224

10. L'analyse des correspondances multipl

I-Lz = - 2:A j z. P ;=1


Xi(X~ XJ-1X/; est le projecteur orthogonal Ai sur l'espace engendr par les cOlmD1mllS(Jns linaires des indicatrices des catgories de !!t~.

Jl

ZO

tant la solution triviale associe ~ = ] les autres solutions lui sont orthogonales.

Les coordonnes des individus sur un axe sont donc de moyenne nulle. La condition habituelle de normalisation est: 1
-

/1

"" ~~/

7'~

= - z'z =
Il

11. r-

Il i= 1

10.1.3.3

Formules de transition et relations barycentriques

D'aprs les rsultats du chapitre prcdent on a :

1 -Xa

et

La premire formule s'interprte comme suit:

A 1/ {ji prs la coordonne d'un individu est gale la moyenne arithmtique simple des coordonnes des catgories auxquelles il appartient.
fi

En effet Xa

2:Xj3j. Pour un individu i les seuls termes non nuls sont ceux
j=1

correspondant aux catgories possdes (une par variable). La deuxime formule montre que :

A 1/{ji prs la coordonne d'une catgorie j est gale la moyenne arithmtique des coordonnes des nJ individus de cette catgorie.
Les points reprsentatifs des catgories dans les graphiques factoriels doivent donc tre considrs comme des barycentres : les proximits devront tre interprtes en terme de proximits entre points moyens de groupes d'individus.

10_ L'analyse des correspondances multiples

225

On a l/~ prs, la proprit des moyennes rciproques ) qui est l'origine de certaines prsentations de r analyse des correspondances multiples (dual scaling). z tant une variable de moyenne nulle il s'ensuit que pour chaque variable coordonnes de ses catgores (pondres par les effectifs) sont de moyenne nulle. est possible de reprsenter simultanment individus et catgories des variables les points reprsentatifs des catgories sont barycentres de groupes d'individus. les
Et~

car

Nous conseillons toutefois d'utiliser le systme suivant de coordonnes afin de conserver la proprit barycentrique :

z de variance IJ. et a = n- 1x'z


10.1.3.4

J;.a

Proprits des valeurs propres


(1

Le rang de X tant ~ 1Jl j


;=1
jJ

l, si

11

> Lm;. le nombre de valeurs propres non trivia-

ement gales 0 ou 1 est

2:mi - P =
;=1 li

q.

La somme des valeurs propres non triviales vaut:

2:f.1i = ;=1

Pi

~
1

J.l

1/1;-

L'inertie est donc gale au nombre moyen de catgories diminu d'une unit: c'est une quantit qui ne dpend pas des liaisons entre les variables et n'a donc aucune signification statistique. La moyenne des q valeurs propres vaut Ilp. Cette quantit peut jouer dans une certaine mesure le rle d'un seuil d'limination pour les valeurs propres infrieures comme nous allons le voir. La somme des carrs des valeurs propres est lie, eHe, des indices statistiques.
f.1::! tant valeur propre du carr de la matrice diagonaliser on a :

1+

2: (f.1rf
<=I

Il

o <P~ est Je

c.p='-

de K. Pearson du croisement de

avec Et).

226

10.L'analyse des correspondances

Si les p variables 2r}>

,,"
P-

2l~,

sont indpendantes deux

"" ") 2./1-1-,)i

] 2.;(m, = -:; ""


Pi

1)

1 -:; q.

On a donc:

La moyenne des carrs ne peut tre gale au carr de la moyenne que si toutes les "'r" ....,"""
V

propres sont gales, Le cas de l'indpendance correspond donc il I-I-i

1
l'

Vi.

On retrouve galement cette situation si les donnes sont recueillies selon un quilibr o les ml 111'). /Ill' combinaisons possibles des modalits des sont '""h"'-'L-,,',,;,!, ves avec le mme effectif car tous les tableaux croiss X j ont alors les protils. Pour un tel plan d'exprience l'analyse des correspondances multiples est inutile.

X;

10.1.3.5

AFC du tableau de Burt

Si l'on soumet le tableau B il une analyse des correspondances on retrouve, une constante multiplicative prs, les mmes coordonnes factorielles des catgories. Le tableau de Burt tant symtrique les totaux de lignes et de colonnes sont gaux (on retrouve P fois les totaux marginaux). Le tableau des pronIs-lignes associes il B est donc (pD)-1 B. Le tableau des profilscolonnes associ B est B(pD)- 1. L'AFC de B revient donc diagonaliser:

qui conduit aux mmes vecteurs propres que - D~IB avec des valeurs propres gales f.L2,

10.2

AUTRES PRSENTATIONS

L'extension formelle du cas p = 2 au cas gnral ne suffit pas pour confrer un statut de mthode statistique l'analyse des correspondances multiples. Les prsentations qui suivent, la relianl d'autres mthodes, y contribuent en apportanL des clairages diffrents. Chacune de ces prsentations correspond une "dcouverte" indpendante de rACM.

des correspondances multiples

227

Analyse canonique gnralise de p tableaux d'indicatrices


On sait que l'analyse des correspondances d'un tableau de contingence est une analyse canonique particulire, cene des tableaux XI et X::!. Lorsqu'il Y a P tableaux d'indicatrices associs p variables qualitatives 21;'" .. " est naturel d'utiliser la gnralisation de l'analyse canonique tudie au chapitre 8.

3:;1'

Celle-ci revient chercher les vecteurs propres de la somme des oprateurs de projection

sur les sous-espaces engendrs par les colonnes des Xi'


Au coefficient l/p prs, les valeurs propres sont donc les mmes qu'en analyse des correspondances multiples. Les composantes z sont donc identiques aux variables auxiliaires de la gnralisation de Carron de l'analyse canonique.

Un critre d'association maximale


Puisque l'analyse des correspondances mulLiples est identique l'analyse canonique gnralise de X" X2,
,

X p' les variables z rendent maximale

2: R2(z : X;).
1

fI

Or X j tant un tableau d'indicatrices, le coefficient de corrlation multiple n'est autre que le rapport de corrlation ll(z/X i ) (chapitre 6, paragr. 6.4). Les variables z sont donc les variables de variance J.L, non corrles deux deux vritiant : max
z

2: TJ2( z/ !ft,)
i= 1

f'

Si l'on se rappelle qu'en ACP norme, les composantes principales rendaient maximale

r= 1

L rl( c ; xj) on a ici l'quivalent d'une ACP sur variables qualitatives, la mesure de liaison
,.2.

l'

tant Tl 2 au lieu de

L'analyse des correspondances multiples revient donc rsumer p variables qualitatives par des variables numriques de variance maximale les plus corrles possible, au sens dfini prcdemment, avec les f!e;. Lorsque les variables

a:':!. ... ,

sont dichotomiques (mi

= 2) le

tableau X possde

2p colonnes.
01
tO 01

228

10. L'analyse des correspondances multipl

Le coefficient de corrlation multiple au carr entre z et Xi est alors au carr coefficient de corrlation linaire simpJe entre z et l'une des deux indicatrices de puisque la somme des deux indicatrices vaut L

On a donc:

2: TJ2(Z ; g()
=I

l'

i=l

i=1

Dans ce cas r analyse des correspondances multiples de X revient effectuer une norme, c'est--dire sur la matrice de corrlation, sur un tableau JI lignes et p COllonne.~:U; obtenu en ne conservant qu'une indicatrice par variable qualitative.

10.2.3

Quantification optimale de variables qualitatives

On retrouve la solution de l'analyse des correspondances multiples. tout au l'quation du premier facteur, en cherchant rsoudre le problme suivant : tr~n",I'l"\"'''''''l,,~:.';i de faon optimale (selon un critre dfinir) chaque variable qualitative mi modalits une variable discrte il mi valeurs. On sait qu'une telle quantitication s'crit ~i = Xiai ~i est la variable numrique obtenue, ai le vecteur des valeurs numriques attribuer modalits. 10.2.3.1

ACP de variables quantifies

On cherche ici obtenir une ACP des ~i qui soit la meilleure possible au sens o premire valeur propre I de la matrice de corrlation des ~j est maximale. Ceci il chercher:

or:

mrx r (z ; ~)
2
-1

R 2(z ; X)
fI

on est donc amen rechercher le max de

2: R
j=1

(z;

X). Les

codages

optimaux des

catgories ne sont donc autres que les coordonnes de ces catgories sur le premier axe de l'analyse des correspondances multiples de X.

10.2.3.2

Guttman et l'homognit maximale

En 1941 L. L. Guttman avait abouti aux quations de l'analyse des correspondances multiples en rsolvant le problme suivant: tant donn un questionnaire choix multiple il p questions ayant chacune mj modalits de rponse (une seule rponse possible chaque question), on veut attribuer des notes chaque modalit de telle sone que les variables numriques ainsi cres ~j sOent les plus cohrentes au sens suivant : les rponses aux p questions doivent conduire des notes proches, tout en donnant une note globale moyenne la plus disperse possible.

L'analyse des correspondances multiples

229

Considrons le tableau

Il,

p des variables
~I

~j:

., .....

~/'

ll .. 11'

Il

notons ~I' 2. .. ' ;" les moyennes des diffrentes lignes:

Supposons, ce qui ne nuit pas la gnralit que chaque ~j est une variable de moyenne nulle. On cherche alors avoir des mesures les plus homognes possible en minimisant en moyenne la dispersion intra-individuelle.

l~t: . Pour caque 0 bservatlOn cel l ' vaut- L.J (Sij h e-Cl
P J=I

t"ld one en moyenne elle vaut: e:,;)-

La variance totale du tableau des moyennes :

(~ij)

tant gale la moyenne des variances plus la variance

il revient au mme de maximiser:

- 2:(Y
ni;;:;1
/1

II

- 2: 2: (ijf!
np
i=1 j= 1

l'

Or:

l
P

Xa

donc:

230

10.L'analyse des correspondances

/1

2.:c~j)1 = ~jj = (Xja)'(Xja)


i=l

ajDjaj

d'o: La quantit critre vaut donc:

-.,a'X1Xa
I1P-

1 a'X'Xa
p aiDa

-a'Da
IIp

Son maximum est atteint pour a vecteur propre associ la plus grande valeur nromp'"'j'0 l l 4e - D-1X'?C On retrouve bien le premier facteur de l'ACM de X.
p

10.2.4

Approximation d'ACP non linaire


Xl,

Revenons sur le chapitre 7, 7.6 : pour P variables numriques che une combinaison linaire de variance maximale :

x\ ... , xl', ]' ACP

Si l'on veut s'affranchir de la linarit, on peut chercher des transformations les


!.p1(XI), ... , !.pJl(xP)

rorlCUOnIlel-

des variables telles que

v(.
1;;1

!.pj(x ))

soit maximal.

Choisissons pour les i.pj des fonctions en escalier (conSlantes par morceaux) ou splines de degr O. On sait que ces fonctions permettent d'approximer n'importe quelle fonction numrique. Concrtement on dcoupera l'intervalle de variation de x j en mj classes (fig. 10.1).

.
j
2
FIGURE

j
xl

10.1

des correspondances multiples

231

<pj(x j ) est une fonction prenant les valeurs al' a~, ... , amj sur les intervalles de dcoupage;

s'explicite comme la combinaison linaire des variables indicatrices des classes du ,iirMcloUr)uge, coefficients al. a2' ... , (lm/

Le cri tre max

v(7

cpJ(XJ

) est donc identique au critre max v( ~ XJ" j). La solution est

donne par la premire composante de l'analyse des correspondances multiples du X obtenu en dcoupant en classes chacune des variables numriques. La pratique qui consiste dcouper en classes des variables numriques, donc les rendre pour ensuite effectuer une analyse des correspondances multiples se justifie par fait qu'il s'agit d'une analyse non linaire des donnes. Sous rserve d'avoir suftsamment d'observations par classe on peut ainsi visualiser des liaisons non linaires entre variables qui ne seraient pas apparues en ACP ordinaire o )'on travaille avec la matrice R des corrlations linaires.

10.3

PRATIQUE DE l'ANALYSE DES CORRESPONDANCES MULTIPLES

L'interprtation des rsultats d'une ACM se fait grosso-modo comme en analyse des correspondances sur tableau de contingence et comme en ACP. On prendra garde ici au fat que les pourcentages d'inertie n'ont qu'un intrt restreint. La slection et r interprtation des axes factoriels se fera essentiellement raide des contributions des variables actives et des valeur-tests associes aux variables supplmentaires. Rappelons une fois encore la signtication des proximits entre points-colonnes sur un plan factoriel : il s'agit d'une proximit, en projection, de points moyens de catgories reprsentant plusieurs individus.

10.3 . 1 les contributions


10.3.1.1 Contributions un axe factoriel
Clj

Une catgorie d'effectif Jlj qui a une coordonne contribution (CTR) gale :
-L(ai
j.L
Il

sur un axe factoriel fournit une

. np J CTR(j) = - -

On

les modalits intressantes qui ont une contribution suprieure leur poids n j.
np

En correspondances multiples, les modalits d'une mme variable tians qui peuvent tre cumules.

ont des con tribu-

232

10aL'analyse des correspondances

"'11I't' ..... I.__

On dfinit la contribution cumule de


Ill,

comme:

CTR(Er;) = ~CTR(j)
j=1 a) tant {J, prs la moyenne des coordonnes des individus de la catgorie j de Z~'i' contributions cumules sont relies au rapport de corrlation entre la composante z de variance J.1 et la variable par:

Remarquons que

1']2

< 1 entrane CTR(2Ti ) < - et que PfL


Il

P i=1

2.: T)2(z/~) =

l'

J-L.

1 On utilise comme en ACP les contflbutims des individus - (zJ! / J-L, et comme en ACP
AFC les cosinus carrs avec les axes pour juger de la qualit d'une projection. On pourra utiliser ici le rsultat donn au chapitre 7 : un individu aura une contribution signiticative si celle-ci dpasse 3.84 fois son poids.

10.3.1.2

Contributions l'inertie totale


-

. L' . mertle totale vau L, rappelons- le, -l.f, nl; L


Pi;ol

-1 1. Le nuage des prott s-colonnes a pour centre

de gravit le vecteur de ~Jl dont toutes les composantes valent 1/11 : en effet la somme des colonnes du tableau disjonctif est le vecteur constant dont toutes les composantes valent p. La mtrique du X2 pour le nuage des profils-colonnes est donc la mtrique diagonale nln (diagonale des inverses des frquences marginales). Le carr de dislance d'un point catgorie j au centre de gravit g vaut donc: d 2 ; g) = (j o
11

Il})X i)/1l)
i=1

l/Ilf!
0 ou 1 on a

Xij

est le terme courant de la/Ille colonne du tableau disjonctif. Comme xi)

X~ = xijd'o:

comme ~ x ij
1

11)

il vient ;

11

Une catgorie est donc d'autant plus loigne du centre que son effectif est faible.

tO_L'analyse des correspondances multiples

233

11" Son inertie vaut -L d 2(j, g) =


'W

(11,) -: l - -1 1
n

ll j )

La contribution d'une modalit l'inertie est fonction dcroissante de son effectif. Il convient donc d'viter de travailler avec des catgories d'effectif trop faible, qui risquent de perturber les rsultats de l'analyse (absence de robustesse). L'inertie totale d'une variable! I(n;), vaut:

ni) ~ = ___
Il

1_)

P
p

P
1)

sa contribution est donc:

1 - Lm p

L(mi - 1)
i

Elle est d'autant plus importante que son nombre de catgories est lev. On recommande gnralement pour cette raison d'viter des disparits trop grandes entre les nombres de catgories des variables f1~, lorsque l'on a le choix du dcoupage.

10.3.2

L'usage de variables supplmentaires

Dj voqu lors de l'tude de r ACP, l'usage de variables supplmentaires est trs courant en analyse des correspondances multiples. Rappelons que les variables actives sont celles qui dterminent les axes. Les variables supplmentaires ne participent pas au calcul des valeurs propres et vecteurs propres mais peuvent tre reprsentes sur les plans factoriels selon le principe barycentrique pour les variables qualitatives: chaque catgorie est le point-moyen d'un groupe d'individus. Pour les catgories des variables suplmentaires qualitatives on calcule comme en ACP des valeurs-test mesurant en nombre d'cart-type l'loignement de r origine. Entn il est possible de mettre en variables supplmentaires les variables numriques qui ne peuvent pas tre aClves ( moins de les rendre qualitatives par dcoupage en classes) : Elles peuvent tre positionnes dans un cercle de corrlation avec pour coordonnes les corrlations avec les composantes de l'analyse. Soit aj la coordonne d'une catgorie d'une variable supplmentaire, d'effectif l1i , sur un certain axe d'inertie gale J.L :

234

10.L'analyse des correspondances multples

On sait que si les I1j individus de cette catgorie taient pris au hasard parmi les Il individus de r chantillon (sans remise) la moyenne des coordonnes des I1j individus concerns serait une variable alatoire centre (puisque par construction les composantes z sont de moyenne nulle) et de variance gale 1:: 11
nj Il -

(voir chapitre 7)_


J

Avec les conventions habituelles de la reprsentation simultane llj est gale 1/~ fois l-I la moyenne des coordonnes, la quantit est donc la valeur-test

aj-r;;; --Il -

nj

Le calcul des valeurs-test n'est lgitime que pour des variables supplmentaires n'ayant pas servi il la dtennination des axes. Leur utilisation pour des variables actives ne doit tre considre qu' titre indicatif: les valeurs-test pour les variables actives sout en gnral trs leves, ce qui est normal car les variables actives dterminent les axes.

10.4

UN EXEMPLE: lES RACES CANINES

Les donnes communiques par M. Tenenhaus (tableau 10.1) dcrivent les caractristiques de 27 races de chiens au moyen de variables qualitatives, les 6 premires ont t considres comme actives, la septime, ~< fonction , comme supplmentaire: ses trois modalits sont compagnie chasse utilit . On remarquera que les paires d'individus (5, 26) (8, 22) (11, 19) ont des valeurs identiques pour les 7 variables, il y aura donc des observations confondues. Le nombre de modalits actives est 16, ce qui conduit 10 facteurs et une inertie totale de 16

1.667, le critre f.L

> l/p conduit ne retenir que trois axes, le diagramme

des valeurs propres montre cependant une chute aprs /Jw2- On interprtera donc uniquement les deux premiers axes (tableau 10.2)1. L'axe 1 oppose ( droite) les chiens de petite taille, affectueux, qui concident avec les chiens de compagnie (valeur-test 4.06), aux chiens de grande taille, trs rapides et agressifs (fonction utilit). L'axe 2 oppose (en bas) les chiens de chasse, de taille moyenne, trs intelligents fI des chiens lents et peu intelligents. Le tableau 10.3 eSlle tableau de Burt qui rsume les liaisons deux deux entre les 6 variables actives. Le tableau 1004 permet de reprer les modalits contribuant fortement l'inertie des axes et sa lecture doit tre complte par celle du tableau 10.5 qui fournit les valeurs tests. Le tableau 10.6 permet d'apprcier la qualit de la reprsentation graphique (tig. 10.2).

(_Les calculs ont t effectus l'aide du logicel SPAD, version 5.6.

TABLEAU

10.1

TABLEAU DISJONCTIF

2 Taille Poids

3 Vlocit

4 Intelligence

5 Affection

6 Agressivit

1 3 4
5

+
0 0 1 0

++
1

+
0 0 1 0 0 1 0 0

++
)

+
0 0 1
1

++
1

+
1 1 1 1

Fonction Co. Ch. Ut.

Cl..
(1)

6 7 8
9

la
II 12 13 14 J5 16 J7 18 19

2a
21
21

23 24 25 26 27

Beauceron Basset Berger Allemand Boxer Bull-Dog Bull-Mastiff Caniche Chihuahua Cocker Colley Dalmatien Dobermann Dogue Allemand pagneul Breton pagneul Franais Fox-Hound Fox-Terrier Grand Bleu de Gascogne Labrador Lvrier MuSliff Pkinois Pointer Saint-Bernard Setter Teckel Terre-Neuve

a a
1

a
l

a
1

a
1 1 0 0 0 0 0
1 1

a a
0 0

a a
0 0
1
J

a a

0
)

0 0
1

0
1

a
0 0
1

a
1 0 0 0 l

0 0 1

a
0 0 0
1 0 0 0

a
1 0 0 1 1 0 0 0 0
1

a
1 0

a
1 1 1

a
1

1 0 0

a a a 0 a a a
0 1 0
0

0 1

a
1 1 0 1
1

a
0 0 0 0 0 0 1 0

0 0 0 0 0

0 1
1

0 0 0 0 0 0
1

a a
1

0 0
()

0 0
0 0 0
[
j

l 0 1 1 1 0 1 t
1

a
0 0 0
1

a
0
0

a
1 0 0

a
1 0

1
()

a
1

a a a 1
0 0 0

1 1
J

0 1 1 0
l

1 1 0

1
1 1

0
1

a
1 1 0

1 1
J

a
0

a
1 l

a a a
0
1

a
0 1

a a 0 a a a
0 0
1 1

0 1 0
t

a
1 1 1 0 0 1 0 1

a
0
0

0 0

a
1 1 1 0

a
1 0 0
0

0 0 1
1 0

a
1

0
1

0 1 0 0 0
0

0 1 1

1 1 0 0 1 0

1 0

a
1 1 0
()

a
1 0 1

a a a
0 1 0

a a
1 0

0
0 0 1 1

a
1 1 1 0 1

0 1 0

a
1

a
0

a a

a
0

a
1

a a J a a 0
1

a a
J

0 1
()

0 1 1 1 0 0 0

a
0 0
l

1 0 1

0 0 1 1 0 0 1 1
1

1 1

0 0 0 0 0 0

1 0 1 0 0 1

VI

o ..., ...,
(1)

VI

"'0 :J

o
n

lU :J
VI

Cl..

0 0
()

l'Il

-5'

c ;:;-

a
0

a a
0 1
1 1

if

a
1 1 0

a a a
1

a
1
J J

0
1 1

0 0 0

a
0 1

a
1
1 1 1

a
0 0

1 0 l

0
1

0 0 1

a a
0 1

1 1

0 0

a a

a
0

a
1

a a a
1 0

1 0
1

a a
l 0

a
0
l

0 0 0 0 0 0
1

a
0

a
0
1

a
1

1 1

0 1 0

0 0 1

N
l.U

V1

Q)

N W

TABLEAU 10.2
lT.:"C.RAMt.!F. DES l r'lUl'lERO VALEUR PROPRE
10

'!.'"-L,EURS PROPHE3 POURCENTAGE CUt-IULE


28~90

POURn~NTAGE

0.4816

28.90

2 4 5

8
10

.3847 0.2110 0.1576 0.1501 0.1233 0.0815 0.0457 0.0235


0.0077

23.0B 12 66 9.45 9.01 7.40 4.89


J.7~

1.41
0.46

51.98 64.64 74.09 83.10 90 50 95.38 98.13 99.54


100.00

r~*.**~**~Y*~*.~*.'**k*j~*~**~**~*.~*~.*.**~*****.**.k*.*A * * * *.* * *~k.r* * *.** * ** *.*** _ *

*****.**~*****.*

*, *.* *.* *.*ko* **_**o *.**.**A _* * * * *


w

Cl

....

** *~.*.* *

1
::J
11'

p.1

~ fi)
0fi)
VI

..." ..." fi)

{;
::J
pJ

0-

::J
fi) VI

-5' iD VI

;;:"

3 c:

..... c::,:, 1
~

r:
::l
~

..:c
VI

rD

TABLEAU TABLEAU DE BUR'I' TAI


'l'Al TA:::!. 'l'A 3 7 0 0

10.3
VEJ : IN1 IN2 H13 APl AF2 :
.L\.G1

0.
rD
VI

T1\2
0 5 0

TA3
0 0 15

POl

P02

P03

VEI

VE2

AG2

o o
VEl VE2 VE3 5 2 0

l 4 0
1 4 0

0 10

0 14

0 0

5
4 2 9

0
6 2 0

0
0 6 8

5
4 0 1

10 0 0

0 8 0

0 0 9

nn
11'12 IN3
l1 ?F2

3 3 l
1 6
5 2 Tl

0 4 1
0 5
3 2 1'1\2

5 6 4
12 J
6 9 TA3

3
Il 1

3 2 7:2 '1 l.
7 7
8 6 PO}

4 5 1
5

l 5 2

3 3 3
6 J
1]

8 0 0
6 2

0 13 0
4 9
8 5 IN2

0 0 6
3 3
3 3 IN3

1
"1

5 0
l /1 P03

13 0

1]

14
14 0 AGl
0

AGI

5 3 POL

5 5

8
AFl

5
AF2

13
AG2

VEl

VE2

VE3

"'-J

l'V W

l'V W

co

TABLEAU
BODALITES COOHDONNEES

10.4
CON'l'IUBOTIOHS COSINUS ChRRES

IDEN-Lf3ELLE

P.REL

DrS'I'O

1:2

<1

Tai1 'l'Al PE'ITT'E T;'.ILLE 'l'A2 - 'l'AILLE J:<10YENNE '1'/,3 - GE.Il.NDE 'l'AILLE

1.32
0.84

0.93 -0.62 0.12 -0.02 12.6 .6 7.8 -1.23 1.U2 0.34 -0.31 4.612. 15.1 -0.02 -0.05 -0.17 011 13 0.0 0.1 CUl-lULEE = 30. :n.823.0
-o. -0.23

0.4 1

01.'1

0.0 2.0 0.8 2.8

0.49 0.30 0.13 0.01 0.00 0.16 34 O. 0.030.02 0.88 O.GO 0.00 0.()1j 0.02

Pois
pal
1'02 1'03 -

PET11' POIDS POIDS '!OYEN POIDS ELEVE

4.94 64 ] 09

0.16

-0.05 -0.19 0.61

H.O .7 3.0 0.9 1.7 15.1 .2 0.8 .6 7.6 :21.8.1

O. 0.29 0.05 0.01 0.00 0.10 0.7:. 0.06 0.0::1 0.04 0.230.22 0.3' 0.00 0.09

CUMULEE

3 . Vlocit
VEl - LENT VE2 ASSEZ Ri"PIDE VE3 TRES RAPIDE
Intelligenc~

22.3
.3 3.7 9.2

31.4

.0
0.3 1.3 2.0 .6 3.8 .5 0.0 8.4 0 06 O. 6 <1 O. 09 O. 00 O. 0 (, O. 0.33 () OS O. 0.06 O.lQ 0.07 0.29 0.D3 0.00

G 17

O. 3 l -0.37 .01

14.2
PEU INTELLIGENT IN~ - INTELLIGENCE ImYEHNE IN] THI':S INTELLIGENT INl 4.94 8.02 3.70 0.81 -0.29 -0.35 0 119 02

17. 5 tl 7 10.1 3.0 2. 15.3 29.6 23.0

-1.

-o. .15 1.28 1.06 CUMULEE

1. .3 0.9
~.4

8.4 9 0.0 35.2 .'f 9. 1.5 .1 2.0 O. 38.2 12.1 18.5 56.8 1.7 1.6 .3

0.05

a.oo

1
O. 0.02 0.32
Il.)

...... c

~f
ro
c.. ro

~
ln

AEtection
IL 8.6'1

APl PI::U hFFEC'PUEUX AF2 - AFFECTUEUX


fi

.OB 0.93

0.84 0.29 -0.78 -0.27

0.07 -O.OB -D 04 08 0.04 Cur1ULEE -0.31 -0.51 0.35 0.33 0.55 .37 CUHULEE

11.6 10. 22.'[

O.::: 0.2 0 3

O. 0.3 0.7

08 0.00 .01 0.00 0.08 0.00 D.Ol O.DO

o '"1
'"1
VI

ro

AGl AG2 - AGRESSIF

Agressiv,it PEU AGRESSIF

8.61 8.02

0.93 1.

-G.llQ

-o.
0.21

0.,13

.9 .1

O. 1. a

3.914.4 7. il.':: .5 7.5 J :2 9 14 5

0.17

!l.Ol 0.10 0.280.13 .0,: 0.10 0.21:l 0.13

" c..
:::J :::J
~

-6'

3 c

ff

~
TABLEAU
1'!ODALI'l'ES IDEN -

10.5
COORDONNEES

1 r

w::l
pJ

V_~LEURS-TEST

--<
VI

!tl

LIBELLE

EFF,

P .l\BS

;)

DT S'l'O.

Taille
TAI TA 2 TA3 - PE"TITE 'ri,ILLE - TI,ILLE NOYEt]NE 'rAILLE 7 5 15 7 .00 -3.6 -2.1 il.B 2.f:l -3.0 -0.1 -1.9 2.5 -0.3

.,1
-1.

-O.L -0.8 O.G

-1.18

-o.
0.84

0.92 -1.23 -0.02

-0, 1. -o.

.12 0.34 .17

-0.02 -0.31 0.11

J.86 4.40 0.80

m .., o
::l

m n o .., ..,
a.
w
VI

a.

Poids
l'Dl PETIT POIDS POIDS --10YEN POIDS ELEVE

::l

14

.00 H.OO 5.00

-3.9 1.6 2.5

:::.7 -4.3 2.4

-1.2 .0

() -G.G 0.2

-O.::: -1.0 1.

-1.17 0.31 ,2

0 -0 0.97

-0.36

-o.:n
1.22

O.lG -0.12 0.07

.05 -0.19 O.Gl

2 38

!tl

3
VI

vlodt6
VEi. ifE? VE3 - j,EN'!' - ASSEZ HAPID2 - 'l'HES Rf1PIDE 10 B 9 10.00 B.OO 9.00 -1.3 -2.0 3.2 1.6

-6'

rt

c::

1.:::
-1.

-:L8

-0.3 1. -0.9

1.2 -1.2 o.a

-o. -o. 0.89

.04 -0.89 -0.37

0.,10 0.36 -0.76

-0.08 0.37 -0.24

0.31 -0.37 .01

1.70 2.3f:l 2.00

ml IN2 IN3

rntelligence PEU Hl'L'ELLIGENT


- HJ'i'ELLlGEHCE llOYENNE - THES IN'l'ELLiGENT

a 13 fi

B.OO 13.00 6.00

1.2 .B

2.7 -1.,1 -1.3

-1.2 2.,1 -1.

0.1 -3.0 ].5

-3.4 0.7 ::1.9

.37 0.34

0.81 -0.29 -0.'l6

-0.35 0.49 -O.GO

0.02 -0 1.

.0<1 0.15 LOG

::.38 1.08 3.

Affection
AFl liF:! PEU Ai~FECTUEUX AFPEC'l'UEUX 13 1\ 13.00 4.1

14.00

-,.1.1

1.,1 -1.'1

0.3 -0.3

-0.4 0.4

O.

0.84 -0.78

0.29 -0.27

0.07

-O.

-O. 0.08

-0.04 0.01

l.08 0.93

".gress i vit:
AG1
!IG2

..;GRESSIF i\GRESSTF

14 13

1'1.00
DO

-2.1 2.1

-1.0 l.0

-1.6 1.6

.7

LB -1.8

.40
(J.1;3

-0.19 O.

-0.31
0.33

-0.51 0.55

0.35 .37

0.93 1.

7 ml
F02 -

Fonction
COf.!PAGNIE CHi\SSE

- UT l L TT 1\ lE E

10.00 9.00 8 . 00

-4..1

1.:::
J .1

O.'i -1.6

-0.3 -G.'! 1. 1

0.0 -1.
L -,

-1.[;,1 0.32 0 . 5' '1

O.

-0.,13
0 . 37

-O.O -0.35 0 . 'lll

-0.09 -0 18 0 . 3::'

-0.01 -0.-1:1 0 . 51

1.'10 .00 ::. . 3 B

N W \.D

I\J

o
TABLEAU 10.6
INDIVIDUS
IDS1'l'l'Ifo" ICA'rEUR BEAUC!'.:HON P. REIJ

COOP.DONNEES

SASSE'l' BElmEfI. ALLE1,lII.ND 30XEP.


BULL-DOG BULL,-I.!ASTTFF

3.70 3.70 3.70 3.70 3.70


3.70

CANICHE
CH l HU1\1!IJA

COCKER CQ[,f,c,Y DM. "\1I n EN DOIlCRNAl'lll


ALLE1!.-\ND

J.70 J.70 .70 3.70 3 70 3.


BRr:;TON

1.6.1 .09 2.15


1.86

J.
:1.'/0 3.70 3,'10 3.70
] .70

1.93 1.11 1. 77 .56 1.95 2.18

FR!,HClHS FOX-'fERHIER GP'i,l']O BLEU DE GASCOGNE


LABJ\ADOR

-0.,12 1.10 -0.,16 -0.88 -LOLO. 0.75 -0.91 -0.84 0.8:1 -0.73 0.08 0.12 -O. 6 5 - 0 . 99 0.87 -0.32 1. 0.51 -o. -1.04 0.14 -0.52 0.03

-0.10 -0.19 -0.50 0.G9 -O.Hi 0.50 -O.5fJ -0,17 (l.Ut)


-(J.J)

-0, 0.17 0.06

-0.21 0.29 0.58 0.26 -0.35 0.66 O. -0.09 0.19 -0.66 - O. 1 9 0.51 O,OG

-0 -O.':):! 028 -0.46 0.33 0.72 0.43 -0.i8 -0.10 0.19 - 0 . 14 0.J4 -0.32 0.::'5

0.13 0.5

1.7 11.7

5.'1

4.1 0.1 3 . ::: 5.9


IL~

0.13 -0.36 0.05 0.04


a <\ G 0.::>1 - 0 19

a.oo
-0.66

LB O. 5,

J.l 2.D J.1 7.0 7.5 1.6 .9 O.~i J.9 .9 4.:\.1 0.0 s.n 9.3 3.~! O. 0.8 .fI 10.2 3. 0 . il 1.0 G.! 7..5 0.1 10.,1 Il.S 2.6 5.:: O.O.

O.:! O.G .'l 8.';

0.63 n.02 O.H 0,16 0.22 il.43 0 0.04 0.18 O. 0.07 0.1<10.120.210.25 D,DO U.l~ 0.180.09 0.12 0.00 0.02 0.23 O. 0.01 10 0.39 0.0] (l. 0:; 0.0l 13 0.17 0.04 0.01 [l.OO 0.'190.00 D,l? 0.22 0.01 0.00 0.00 O. 0.3:.! 0.01 .01
0

1 r::J CJ
VI

CJ-

0.14 -0.11
- il. 9:1

-0.27 -0.il2

6.00.20.11. 2.i n.l 0.0


3 :: 9 . ,I ] . '1 fi . J 0 (3

0.00
0 . 1:; a

0.04 0.46
0

-<
lb Cl.. lb
VI

LEVRiER
H;'SI'IFF

. 7U 3.7U 3.7U

PEKINOiS

1. 3 ') l.90 l.86


1.5,~

0,
81 0.67

- il . 0 9

- 0 . 60 O.
-o.

- 0 . ,1 fi
09 O.OG

3.

0.l 7.6
6.9 1.7

S. 0

0.0l U . .n D.]fJ 0.12

0 . 2 ij 0.113

POHn'E:n.
SJ\HiT-[!EPJ/AJW SETTER TECl,EL TERRE-NEUVE

3.7U 3.7D 3.70 3.70 .70

n.H9 n.!H -042

cL4
5.4

G.l

o.,j
U.2

-0.69 -U.29 -0.16 0.66

,Il 8,j
1,1.0

0.12 0.31

0,1 0.0 0.00 0.00

n
0.U2

D.JO
(l.OG 0.0:::

.,
ro VI
-0
::J

o "'t

1.69 .H

0.513 O.

0.89.13

-0.73 -0.35 -0.58

0.33 0.16
0.33

3.-'
1.4 1.1

0.2!

a.,n
0.07

1.5

1.6-! 1.66

-1.01 0.3[1

0.64

VI

Cl..

lb

10_ L'analyse des correspondances multiples

241

Facteurr2~

____________________
Lent

Reprsenlaton des individus et des variables dans le premier plan factorial


~

______________________________________--,
Poids lev

A. 08ASSET
MASTIFF .\
PelJ/fJ taille

1.0

CHIHUAHUA PEKINOIS

Pelil poids :) BULLDOG TECI<EL A.

A
SAINTBERNARD .\ BULLMASTIFF DOGUE ALLEMAND TERRENEUVE A Ulllil
Peu affectuewc

0.5

ompagnie

FOX- TERRI ER Jo COCIR

Jo
CANICHE : FOXHOUND

o ...... ..... .......................... ......... ...... ... ...... t ..... ......................................................1:':.5" ......... .
GRAND BLEU DE GASCOGNE A
Affec/Ue}U!( Grande taille

o
-0.5

lnlellfgence moyenne

DOBERMANN BEAUCERON SETTER

Jo

Chasse
~
': . :.

EPAGNEUL FRANCAIS
,\

POINTER 0 t.J...ct::"..,<:n ALLEMAND Trs rapide

Jo

A".'R" ''"Rnl,~n

BOXER

COLLEY
Poids moyen

-1.0

LABRADOR EPAGNEUL BRETON DALMATIEN

"

Taille moyenm!

n
-1.0

-0.5
FIGURE

o
10.2

0.5

1.0

Facteur 1

1 11

Mthodes de

classification

Le but des mthodes de classification est de construire une partition, ou une suite de partitions embotes, d'un ensemble d'objets dont on connat les distances deux deux. Les classes formes dOvent tre le plus homogne possible. *

Il.1

GNRALITS

Il.1.1

Distances et dissmilarits

En classification, que les donnes se prsentent initialement sous forme d'un tableau individus-variables ou non, toule l'information utile est contenue dans un tableau Il X Il donnant les dissemblances entre les Il individus classer.

Il.1.1.1

Dfinitions
Il

Notons E l'ensemble des dans ~+ telle que:

objets classer. Une distance est une application de EX E dU,j) d(i,j)

= dU, i)
~

( d(i, j) = 0 ~ i = j dU,j) :::; dU, k) + d(k,j) Rappelons que toute distance n'est pas euclidienne engendre par un produit scalaire (voir chapitre 7). Lorsque r on a seulement:

il faut pour cela qu'elle soit

dU, j) = dU, i) { dU,}) ;:::: 0 dU, i) = 0


on parle de dissimilnrit. Une similarit est une application s telle que:

sU, j) = sU, i) {
l

s(i,j)

s(i, i) ;:::: s(i,j)


(lU

Le lecteur dsireux d'approfondir ce chapitre se reportera avec profit

livre de Nakache et Confais, 2004.

244

11_ Mthodes de classification

Lorsque l'on a seulement une infonnation du type sUvant : i etj sont plus semblables que k et I, on parle de prordonnance ; il s'agt d'un prordre total sur les paires d'lments de E. Shepard, puis Benzcri, ont montr que la connaissance d'une pr ordonnance suffit reconstituer une tigure gomtrique de 11 points dans un espace euclidien de dimension rduite. Benzcri a donn la fonnule approche suivante pour reconstituer une distance dij connaissant seulement le rang de cette distance parmi les n(n - l )/2 possibles:

., 1 P ( Xi> < ;;: cl ij L.


o p est la dimension de l'espace.

2) =

1 ( nn- 1)

Lorsque les donnes se prsentent sous forme d'un tableau X de p caractres numriques. on utilise souvent la mtrique euclidienne classique 1\11 = 1, ou

= D Il.r1,

la mtrique de MahaJanobis IV1 = V-l, la distance LI: dU, j)

= 2:1 x}
k

xJ 1,

la distance de Minkowski LI, : d(i, j) = (

10

(X7 - xJ)" )

Il.1.1.2

Similarits entre objets dcrits par des variables binaires

Ce cas trs frquent concerne des donnes du type suivant: 11 individus sont dcrits par la prsence ou l'absence de p caractristiques. De nombreux indices de similarit ont t proposs qui combinent de diverses manires les quatre nombres suivants associs un couple d'individus:
a = nombre de caractristiques communes; b = nombre de caractristiques possdes par i et pas par j ; c = nombre de caractristiques possdes par j et pas par i ; d = nombre de caractristiques que ne possdent ni i, ni j.

Bien que possder une caractristique ou ne pas possder la caractristique contraire soient logiquement quivalent, a et d ne jouent pas le mme rle pour des donnes relles: le fait que deux vgtaux ne poussent pas dans la mme rgion ne les rend pas ncessairement semblables. Les indices suivants compris entre a et 1 sont aisment transfonnables en dissmilarit par complmentation il l :
a Jaccard : - - - -

a+b+c

. k' Dlce ou CzekanOWS"I: - - 2a - -

2a + b + c

Ochia : -======
(a

li

+ 11)(a +

c)

Russel et Rao:

a+b+c+d a+d Rogers et Tanlmoto : b


a

+d+

2(

De nombreux autres indices ont t proposs.

11_Methodes de classification

245

11.1.1.3

Accord entre distances et dissimilarits

Deux distances ou dssimilarits s'accordent d'autant mieux qu'elles respectent les ordres entre proximits. A toute distance d correspond un ordre sur les parties d'lments de E dfinies par des relations du type d(a, b) ::5 d(c, d). Pour comparer deux distances dl et dl, on formera tous les quadruplets possibles de points de E et on comptera le nombre d'ingalits modities (ceci constitue une distance entre classes de fonctions de E X E dans !Ri-+- dfinies un automorphisme croissant prs). L'ordre sur les paires dfini par une distance s'appelle une ordonnance. Si .1 dsigne l'ensemble des paires de E, cette ordonnance peut tre reprsente par un graphe sur i, c'est--dire une partie Ede i X i. Le nombre des ingalits modifies n'est autre que le cardinal de la diffrence symtrique des graphes G I et G"]. associs d, et d"]. d(d, ; d"].) = card (GILlG"].).

1 1.1.2

Accord entre partitions, indice de Rand

Une partition dtnit une variable qualitative dont les catgories sont les classes de la partition. On pourrait donc comparer deux partitions PI et Pl en tudiant le croisement des deux variables qualitatives associes. Cependant, la numrotaLion des classes tant arbitraire, il est prfrable de considrer les paires d'individus afin de savoir si quand deux individus font partie de la mme classe de P" ils sont dans une mme classe de P"]..

11.1.2.1

Tableau des comparaisons par paires associ une partition

On notera C le tableau de taille Il, telle que cij = 1 si les individus i et j font partie de la mme classe, cij = 0 sinon. Il est facile de voir que C = XX' o X est le tableau disjonctif associ une partition P Les cij vrifient des relations particulires puisqu'une partition est une relation d'quivalence : Rflexi vit : Cfi { Symtrie: cij Transitivit: cij

=1
Cik ::;

= cp + Cjk -

La dernire relation peut ne pas sembler naturelle, mais elle traduit linairement le fait que, si i et j sont dans une mme classe, j et k dans une mme classe, alors les 3 lments sont dans la mme classe. On a de plus les formules suivantes: Le nombre m de classes de la partition est tel que:
111

" 1 = )'-.;;...J/I

1=1"" L.Jcij
j=1

Si

11 110

dsigne le nombre d'individus de la classe

Il :
/Il

2:. :Lcij =
i=1 j=1

Il

Tl

Trace(CC')

:Ln r~.
11=1

246

11_Mthodes de classification

Il.1.2.2

Accord entre deux partitions

Considrons les n 2 paires d'individus, on notera: a : le nombre de paires dans une mme classe de Pl et dans une mme classe de Pz (accords positifs) b : le nombre de paires dans une mme classe de PI et spares dans P2 c: le nombre de paires spares dans PI et dans une mme classe de P2 d: le nombre de paires spares dans PI et spares dans P2 (accords ngatifs) Le pourcentage de paires concordantes a/1l 2 est un coefficient semblable celui de Kendall pour les ordres, mais il est plus courant d'utiliser (a + d)//12 si l'on donne la mme importance l'appartenance au complmentaire d'une classe. On a ainsi dfini le coefficient de Rand R dans la version donne par Marcotorchino et Michaud (1l 2 paires au lieu de /1(n - 1)/2 paires dans la version orginale de Rand). En notant CI et C2}es deux matrices de comparaisons par paire, on trouve facilement:
a

=~

Il

...:..J

"I

I "I k.J C!cf.:: Trace(C C2) = k.J "In 1/1' l] IJ k.J


0=\ \'=\

11

11/1

Ill!

i""l )=\

Il III'

est le terme gnral du tableau de contingence X'IX:, croisant les deux partitions.

ana:

d =

L L(1 ""l j-=\

/1

Il

cij)(l - c~)

Le coefficient de Rand vaut alors:

Il prend ses valeurs entre 0 et 1 ; il est gal 1 lorsque les deux partitions sont identiques. La version suivante (correction de Hubert et Arabie) est galement utilise:

Son avantage est que son esprance est nulle si les deux partitions sont indpendantes, mais l'inconvnient est que l'on peut avoir des valeurs ngatives.

_ Exemple: Considrons les deux partitions PI ana:

= (ab)(cd) et Pl = (a)(bcd) de 4 objets.

Cl

(j

l 1

o o

1)

c' =

(~

o
l

1)

11_Mthodes de classification

247

Le tableau crois est: a ab cd L'indice de Rand R


1

bcd 2

10/16. ---.,"':"---';;;"- ou G1LlG:; est la dlfference symetnque des graphes


11II1II

On notera que ] - R

card(GI~G1)

. ..

induits par les deux partitions.

ad da

ExE
FIGURE

Il.1

1 1.1 .3

Aspects combinatoires de la classification

On pourrait penser que. muni d'un critre, la recherche de la me11eure partition soit chose facile: E tant fini, il suftirait de considrer toutes les partitions possibles ( nombre tix de classes ou non) et de choisir ce]]e qui optimise le critre de qualit choisi. Les rsultats suivants montrent que cette tche est insurmontable car le nombre de partitions devent vite astronomique: un calculateur pouvant traiter un million de partitions par seconde mettrait plus de 126 000 annes pour tudier toutes les partitions d'un ensemble de 25 lments ! Il faudra donc, dans la plupart des cas, se contenter de solutions approches.

11.1.3.1

Nombre de partitions en k classes de n lments

Notons Pli, k' ce nombre appel nombre de Stirling de deuxime espce. On a les rsultats triviaux suivants : P/l. 1

Pn.1I = l

~ Pll,tI-1

11(11 -

])
.

Le nombre de dIchotomies

248

11_ Mthodes de classification

possibles est : PlI, '1

=2

11

1 - 1. En effet, il y a 2" parties de E, donc ; partitions de E ou

')11

couples de parties complmentaires, mais parmi eUes il y a la partition {E, 0} liminer. Les nombres Pn, k satisfont l'quation de rcurrence suivante qui permet de les calculer de proche en proche : (tableau Il. 1)

_ Dmonstration: Soit une partition de E en k classes et soit un lment e de E : de deux choses l'une, ou bien e est seul dans sa classe, ou il ne r est pas: si e est seul dans sa classe il y a PII _I, k-) partitions de cette sorte; si en' est pas seul dans sa classe c'est que E - {e 1 est partitionn aussi en k classes et 11 y a PII -1. J.. manires de le faire et e peut se trouver alors _ dans l'une quelconque de ces k classes soit kP II _ u possibilits.
On peut montrer que :

Il,~

=k'

~ C i .(-l )k-i i ll
~
k

, 1"'1

et donc

SI Tl

--'J> 00

Pn. k

-,

kn
k!

Il.1.3.2
On a:

Nombre total de partitions Pn (nombre de Bell)

k=1I

Pli

2:PIl ,k
1;;1

On peut aussi obtenir une fonnule de rcurrence sur les Pli" Considrons, comme prcdemment, un lment e : pour une partition donne de E, e se trouve dans une classe ; si cette classe a un lment, il y a PII _ 1 partitions de E laissant e seul dans une classe; si cette classe a deux lments, il y a C 1~-1 manires de choisir le compagnon de e dans sa classe et P/I-1 manires de constituer les autres classes; si cette classe a k lments, il y a C~: \ manires de choisir les compagnons de e et Pn - k manires de constituer les autres classes d'o:

Si l'on pose par convention Po

= l, on a la fonnule :

11IIIIIIII Mthodes de classification

249
kil

1
On dmontre que P'I = e

2: k=1

k!

TABLEAU

r 1.1

TABLE DES

PI!, k
7

k
Il

1 1 1 1

'1

.\.

.5

l)

10

LJ
1 66

P"
1 2

3
../

;
7 15 31

.5
1 10

1
1 1 1

5
6 7 8

15
90
30\

15 52 1
21

65
350 1701 7770 3..J. 105 145750 6\\ SOI

63
127

15 140
1050 6951 42525 146730 \ 379400

203 877
1 36 750 11880 159 on
1 45 1 155 22275

9 10
1\ Il

1 1
1

255
511

1
1

1 o:!3
2047

966 3 OlS l) 330 28501 86526

266 2646 22IQ7 179487 1 313652

28 462
5880
63987 627396

1 55 1705

..J. 140 21 147 115975 678970 42\3 597

1 1.1.4

Sur l'existence et la caractrisation des classes d'un ensemble

La dfinition de classes ~< naturelles )} pose cl' pineux problmes. Si dans certaines situations simples comme celle de la figure 11.2 on voit clairement de quoi il s'agit, il est loin d'en tre ainsi la plupart du temps et il faut bien admettre que l'on ne peut donner de dfinition clare des classes II priori. D'o la difficult de valider des mthodes de classification en essayant de reconnatre des classes prexistantes.

){ )(
JI(

)(
)(

JI( JI(

JI( JI(

)(

x
JI(

le )(

le le

FIGURE

Il.2

Bien souvent, les classes ne seront que ce qu'a produit un algorithme de classification. Sur le plan pratique, la dtermimuion du nombre rel solution satisfaisante.

de classes n'admet pas de

Notons enfin qu'il ne suftt pas de produire des classes: il faut encore les interprter et utiliser alors l'ensemble des infonnations disponibles et pas seulement les distances deux deux.

250

11_Mthodes de cla5iSfication

Il.2

LES MTHODES DE PARTITIONNEMENT

1 1.2.1

les mthodes du type nues dynamiques ou k-means

Ces mthodes permettent de traiter rapidement des ensembles d'effectif assez lev en optimisant localement un critre de type inertie. On supposera que les individus sont des points de IRI' muni d'une distance euclidienne.

Il.2.1.1

Inertie interclasse et inertie intraclasse

tant donn une partition en k groupes d'un nuage de Il points, on dfinira les quantits suivantes: g" g:! .... , gk centres de gravit des k groupes et II. l:!, ... , lk inerties des k groupes. On rappelle que l'inertie est la moyenne des carrs des distances au centre de gravit. L'inertie totale 1 des II points autour du centre de gravit global g est alors gal li la somme de deux termes (thorme de Knig-Huyghens) :

o III' est l'inertie intraclasse Ill' = 'LPij' Pi tant le poids de la classe i et l/J l'inertie interclasse ou inertie du nuage des k centres de gravit: lB = LPid2(gi. g). Un critre usuel de classitication consiste chercher la partition telle que IH' soit minimal pour avoir en moyenne des classes bien homognes, ce qui revient chercher le maximum de lB' Remarquons que ce critre ne s'applique qu' nombre de classes fix: si k n'tait pas fix la solution serait la partition triviale en 11 classes (un individu = une classe) qui annule III"

Il.2.1.2

La mthode des centres mobiles

Due Forgy, elle consiste partir de k poinlli pris parmi E (en gnral tirs au hasard) ; ces k points dfinissent une partition de l'espace, donc une partition de E en k classes Ec E C1 ' , EI.'.(' La partition de IR JI associe k centres CI> c:!' ... , Ck est un ensemble de domaines polydraux convexes dtermin par les hyperplans mdiateurs des centres. ECI est la classe constitue par rensemble des points de E plus proches de Cj que de Lout autre centre (fig. 11.3).
j ,

x
)(

FIGURE

Il.3

11_Mthodes de dassificar.ion

251

On remplace alors les k pOnts pris au hasard par les Il. centres de gravit de ces classes et on recommence: l'algorithme converge rapidement vers un optimum local car le passage d'un centre arbitraire Ci un centre de gravit diminue ncessairement la variance interne des classes. Soit ErJ,1 la classe obtenue en remplaant Ci par gj centre de gravit de Er.::,. TI suffit de montrez que:

car, d'aprs le thorme de Konig-Huyghens, gi n'tant pas le centre de gravit de E"'I' le membre de droite sera suprieur la variance intrac1asse de la partition EgJ' Or, si r on considre un point quelconque, il figurera dans le membre de droite avec son carr de distance au gi qui sera le plus proche de lui par construction des E/!", tandis que dans le membre de gauche il tigurera avec sa distance un gi qui ne sera pas forcment le plus proche de lui. mais qui sera seulement son centre de gravit dans la partition Er!" Ceci dmontre donc le rsultat annonc: le nuage tant fini (l'ensemble de toutes les partitions possibles aussi), 1'algorithme converge car la variance intraclasse ne peut que diminuer; elle atteindra donc son minimum accessible partir du systme initial de centres Ci en un nombre tini d'itrations, le thorme de Huyghens indiquant que cette dcrossance est stricte si gj n'est pas confondu avec Ci' L'exprience montre que le nombre d'itrations ncessaires est trs faible. Si au cours d'une itration une classe se vide, il est possible de tirer au hasard un nouveau centre. La tigure lIA montre le droulement de l'algorithme sur un cas d'cole: on voit qu'en deux itrations on a reconnu ) la structure existante.

x x
x )(
x

FIGURE

liA

Cette mthode peut s'appliquer des donnes qualitatives condition de travailler sur des coordonnes factorielles. On a ainsi effectu une partition en quatre classes de l'ensemble des 27 chiens tudis au chapitre prcdent en utilisant les coordonnes issues de l' ACM du tableau disjonctif (on utilise ici les la facteurs). Quatre centres ont t tirs au hasard (les individus Il, 7, 18, 25) et on a abouti en moins de 10 itrations la partition suivante: Classe Classe Classe Classe l : individus 2 : individus 3 : individus 4: individus n" n n n 2, 5, 7, 8, 17, 22, 26. 4,9, Il, 14, 19. 6, 21, 24. 27.

1,3,10,12,13,15,16,18,20,23,25.

252

11_Mthodes de Classitic:aticln

On a : inertie interclasse 1.66667 = (; 2;'" ,)

0.93665, inertie intruclasse = 0.7300 l, l'inertie totale

l.

Dans la mthode prcedente, on attend que tous les individus aient t affects une classe pour recalculer les centres de gravit. La variante de Mac Queen procde diffremment: les centres sont recalculs aprs l'affectation de chaque point. La mthode des nues dynamiques, propose par E. Diday, est une extension de la prcdenle. Elle en diftre notamment par les traits suivants: au lieu de reprsenter une classe uniquement par son centre de gravit, on la caractrise par un noyau )}. Ce noyau peut tre un ensemble de q points (les plus centraux), un axe principal ou un plan principal, etc.

Il faut donc disposer formellement d'une fonction de reprsentation qui, un ensemble de points, associe son noyau.

Il faut ensuite disposer d'un algorithme de raffectation des points aux noyaux. On procde alors par alternance des deux phases: affectation, reprsentation jusqu' convergence d critre choisi. La mthode des nues dynamiques ne se limite pas au cas de """"UII'-\...:I euclidiennes.
Comme la partition finale peut dpendre du tirage des noyaux de dpart (problme d'optimum local), on recommence alors toute l'opration avec s autres tirages. On appelle formes fortes ou groupements stables les ensembles d'lments ayant toujours t regroups lors de la partition finale pour les s passages de l'algorithme.

1 1.2.2

La mthode de Condorcet
,1111'

Considrons un ensemble de Il individus dcrits par p variables qualitatives 11lb 1n2' modalits respectivement: on a p partitions diffrentes du mme ensemble.
p partitions initiales.

La recherche d'une nouvelle partition revient donc rechercher un compromis entre ces Soit Cl, et C
Cij

e\ ... , CP

les tableaux des comparaisons par paires associs

... , f~"

= :LC/.:.
k

est le nombre de fois parmi p o les objets i etj ont t mis dans une mme classe.

Soit C' = 2C - p. On a alors cij > 0 si i etj sont dans une mme classe pour une majorit de variables g{'k' cij < 0 si il y a une majorit de variables o i et j sont dans des classes di ffrentes ; cij = 0 s'il y a autant de variables pour lesquelles i et j sont spars que de variables pour lesquelles i etj sont runis. Un critre naturel pour former une partition centrale , compromis entre les p partitions, consiste alors mettre i et j dans une mme classe chaque fois que cij est positif et il les sparer il chaque fois que cij est ngatif. Malheureusement, ce critre ne fournit pas ncessairement une partition: il peut y avoir non transitivit de la rgle majoritaire. C'est le paradoxe de Poincar: ce n'est pas parce qu'il y a une majorit pour runir et j, jet k qu'il y a une majorit pour runir i et k.. Il faut donc imposer les contraintes des relations d'quivalence ce qui revient chercher la partition satisfaisant au mieux la majorit des partitions initiales.

It_Mthodes de classification

253

Si Y est le tableau des comparaisons par pares de la partition cherche, on a donc rsoudre le problme suivant:

i
.IJ

avec:

Yij + )jk - )'ik { v, = Oou 1 lJ


~

"" + -\'., JI

:5

C'est un problme de programmation linaire bivalente dont on peut trouver une solution exacte (pas forcment unique) si Il est faible, ou une solution approche si 11 n'est pas trop lev en utilisant des heuristiques (voir l'ouvrage de Marcotorchino et Michaud cit en rfrence). . Il Y a. en eftet, d e l'ord re de w1 tnconnues contraintes. On aura remarqu que le nombre de classes n'a pas tre impos, il fat partie de la solution. La distance de la diffrence symtrique entre les deux partitions associes aux tableaux Cl: et Y vaut: 2:2:1 Yu
i j

(11(11 2 -

1) exactement ) et d e l'ord re de n'3

c~,1 1)

..::.-..::.-

"''''(v" 1]

k C 1).)1

La partition cherche est donc celle qui est distance moyenne minimale des partitions initiales puisque:

ce qui revient chercher max2:2:cijYij'


i j

D'aprs le paragraphe 11.1.2, la partition optimale est donc celle qui maximise la somme des indices de Rand avec chacune des partitions associes aux p varables qualitatives. On retrouve ici une proprit d'association maximale: max2: c (qy, gek) I)
k

o <I> est un critre d'association entre variables qualitatives. Lorsque <I> n'est pas l'indice de Rand, il faut en gnral fixer te nombre de classes de OY, En l'exprimant en termes de comparaison par paires, c'est--dire en explicitant la mesure d'association (1) en fonction des tableaux Y et Cl:., on peut se ramener un problme de programmation linaire dans certains cas. Ainsi l'indice d'association de Belson entre deux variables qualitatives dfini par:
lIu.

2:2:(1111\'
Il l'

Il.I'):!

Il

254

11_Mthodes de classification

O 11/H'

est le terme gnral du tableau de contingence croisant CfY et tableaux Y et C k :

s'crit avec les

1 1.3

MTHODES HIRARCHIQUES

Elles consistent en un ensemble de partitions de E en classes de moins en moins fines obtenues par regroupements successifs de parties. Une classification hirarchique se reprsente par un delldrograw1Ile ou arbre de classification (fig. 11.5) :

d
Il.5

FIGURE

Cet arbre est obtenu de manire ascendante dans la plupart des mthodes: on regroupe d'abord les deux individus les plus proches qui fonnent un noeud , il ne reste plus que 11 - l objets et on itre le processus jusqu' regroupement complet. Un des problmes consiste dfinir une mesure de dissimilarit entre parties. Les mthodes descendantes, ou algorithmes divisifs, sont plus rarement utilises.

11.3.1
Il.3.1.1

Aspect formel
Hirarchie de parties d'un ensemble E

Une famille H de parties de E est une hirarchie si :


CI) E et les parties un lment appartiennent H.

b) \tA, B E HAn BE lA, B, 0}. En d'autres termes, deux classes sont soit disjointes, soit contenues l'une dans l'autre. ( c) Toute classe est la runion des classes qui sont incluses en elle.

A toute hirarchie correspond un arbre de classification:


_ Exemple: H

= {0, a, b, c, d, e, f; ab ; abc, de, deJ, abcdef}

(fig. 11.6)

Une partition de E compatible avec H est une partition dont les classes sont des lments de H. D'une manire image, c'est une partition obtenue en coupant l'arbre selon une horizontale et en recueillant les morceaux.

11_Mthodes de classificaton

255

FIGURE

Il.6

Lorsque l'on peut dire qu'un lment ou L1ne partie A est relie B avant que C ne soit relie D, autrement dit s'il existe une relation de prordre totale compatible avec la relation d'ordre naturelle par inclusion, on dit qu'on a une hirarchie stratifie. Une hirarchie est indice s'il existe une application ide H dans lR!+ croissante, c'est-dire telle que si A C B : i(A) ~ i(B). A toute hirarchie indice correspond une hirarchie stratifie. Les indices sont appels niveaux d'agrgaton : i(A) est le niveau auquel on trouve agrgs pour la premire fOs tous les constituants de A. Ainsi, dans la figure Il.7 on a i(c, d) = 1 et i(a, b, c) = 0.5.

0.5
0.4

1 1 1 1 1 1 1 -J,.---1

t---------1 1

0.2

+---.....-----.. . .
1 1

o!
a
b
FIGURE

Il.7

Les niveaux d'agrgation sont pris gaux, en gnral, lndice de dissimilarit des deux parties constituant la runion i(a, b, c) = 8(([/, b), c). Le problme se pose alors de savoir si )a hirarchie peut prsenter ou non des inversions : si li, b sont runis avant c, d dans l'algorithme, on doit avoir i(ll, b) < i(e, d) sinon il y a inversion.

Il.3.1.2

Distances ultramtriques

A toute hirarchie indice H correspond un indice de dis Lance entre lments de H : d(A, B) est le niveau d'agrgation de A et de B, c'est--dire nndice de la plus petite partie de H contenant la fois A et B.

256

Cette distance possde la proprit suivante, dite proprit ultramtrique:


d(a, b) $ sup {d(a, c); d(b, c)}
\;/a, b, c
'x

En effet, de deux choses l'une, quand

a a t runi

b pour la premire fois:

ou bien c n'est pas encore runi a (ni b par consquent), il sera donc runi tard, donc d(a, c) qui est gal d(b, c), puisque a et b sont maintenant runis, suprieur d(a, b) ; ou bien c est dj runi 11 ou b, supposons CI pour fixer les ides, avant que a ne soit runi b. Donc d(a, c) < d(a, b). Mais alors d(b, c) = d(a, b), car c est runi b en mme temps que b l'est a. Ce qui dmontre la relation ultramtrique. Rciproquement, toute ultramtrique correspond une hirarchie indice; la recherche d'une classification hirarchique est donc quivalente celle d'une ultramtrique; le problme cl de la classtication est donc le suivant : connaissant une mtrique sur E, en dduire une ultramtrique aussi proche que possible de la mtrique de dpart. Les proprits suivantes de gomtrie ultramtrique prcisent le lien avec les hirarchies indices: En gomtrie ultramtrique, tout triangle est soit isocle pointu (la base est infrieure la longueur commune des deux autres cts), soit quilatral. En effet:
d(a, c) $ sup {d(u, c) ; d(b, c)} d(a, c) ::=; sup {d(a, b); d(b, c)}

d(b, c) ::=; sup {d(a, b) ~ d(b, c)}

Supposons par exemple d(a, b) > d(a, c) > d(b, c). Cette hypothse est absurde car une des trois relations ultramtriques n'est plus vritie. Il faut donc que deux cts soient gaux et on vot aisment que ce sont forcment les deux plus grands qui le sont. En gomtre ultramtrique, tout point d'une boule est centre de cette boule. En effet, soit B la boule ensemble des points dont la distance un centre a est infrieur
r:B(u,r) {xld(a,x)::=;r}.
E

Soient x et)' deux points

B : d(x, y) ::=; sup (d(x, a) ~ d(o, y)}.

On en dduit que, si deux boules ont une intersection non vide, l'une est ncessairement incluse dans l'autre puisqu'elles sont concentriques. On retrouve bien ici la proprit d'inclusion des parties d'une hirarchie.

1 1.3.2

Stratgies d'agrgation sur dissimilarits

On suppose ici que l'on connat un indice de dissimilarit d. Diffrentes solutions existent qui correspondent des choix diffrents de la dissimlart entre parties de E, appels stratgies. Le problme est en effet de dfinir la dissimilarit entre la runion de deux lments et un troisime: du, b) ; c). A chaque solution correspond une ultramtrique diffrente.

11_Mthodes de c1assificaton

257

Il.3.2.1

Le saut minimum

dll, b) ; c)

Cette mthode (connue sous le nom de single linkage en anglais) consiste crire que: inf(d(ll, c) ; d(b, e)). La distance entre parties est donc la plus petite distance (fig. 11.8) entre lments des deux parties.

FIGURE

Il.8

Cette stratgie conduit une ultramtrique particulire : la sous-dominante

qui est

parmi les ultramtriques infrieures d (8(i,j) s; d(i,j)) la plus leve (S(i,j) maximum).
En effet, la construction de l'arbre aboutit une suite de partitions Pli embotes, conduisant chacune une dissimilarit cl" entre parties. Nous allons montrer que dIt, qui est forcment infrieure 8, est suprieure toute ultramtrique infrieure fi : comme, la limite, dl: devient ultramtrique, c'est que l'on a obtenu l'ultramtrique infrieure maximale. Montrons ceci par rcurrence; si c'est vrai pour dll-l~ montrons que c'est encore vrai pour th. Il suffit d'examiner les couples pour lesquels d,,(u, i) =J:. d"_1 (u, i). Ceci n'est possible que si Il (ou i) vient d'tre agrg. Nous sommes donc dans la situation suivante o, au pas h, on vient d'agrger i l' (fig. 11.9).

n
a alors:
d,,(i, i')
dh-l(i, i')

i'

FIGURE

Il.9

Sil' on a agrg i i' , c'est qu'ils taient les plus proches avec la dissimilarit

d,,_, et l'on

s inf (dll-I(U,

i), dlt-I(u, i')}


,

D'autre part, on a prcisment d,,(u, i) =


d(u, i) s; d"-l (u, i).

d,lu, l') = inf {dlt -

(li, i), d"-l (u, i)} par hypothse.


I

Sot d ) une ultramtrique infrieure ou

S, donc d lt -

(rcurrence)

Comme d est ultramtrque, d(ll, i) s; sup [d(i, i') ; lI(u, i')} donc:
d(u, i)

s sup

{dit-ICi, i') ; dll-I(U, i')}

Comme dh-1U, i') s; inf (d"_l(ll, i), dIJ-1(u, t)]. On a d(u, i) s; dh-l(lI, i'). On a donc la fois d(u, i) s; d"_1 (li, i'), d(u, i) s; d h - I (li, i) et:

dil (lI, i)
C'est donc que d(u, i) S dl!(u, i).

inf {dll-I(U, i') ; d,,_,(u, t)}

258

11_Mthodes de classification

Une autre mthode pour aboutir l'ultramtrique infrieure maximale, due M. Roux, consiste passer en revue tous les triangles possibles faits avec les points de E el les rendre isocles pointus (on remplace la longueur du plus grand ct par celle du ct mdian), de manire obtenir directement l'ultramtrique infrieure maximale. On passe en revue tous les tr,mglesjusqu'~l ce qu'on ne puisse plus rien modifier; le reste ensuite tracer l'arbre.

Il.3.2.2

Le diamtre et autres stratgies

On prend ici comme distance entre parties la plus grande distance:


d(a, b) ; c)

= sup(d(a, c), d(b, e

On aboutit alors une des ultramtriques suprieures minimales, contrairement au cas prcdent o la sous-dominante est unique. Il n'existe pas en effet une seule ultramtrique minimale parmi les ultramtriques suprieures d; on montre mme qu'il en existe (Il - 1)1 dans le cas o toutes les valeurs de la dissimilart sont diffrentes. De nombreuses autres mthodes de calcul de distances entre parties ont t proposes (moyenne des distances, etc.) toutes sont des cas particuliers de la formule de Lance et Williams gnralise par Jambu :
da, b) ; c)

= a\d(a, c) + alll(b, c) + 113d(a, b) + ll~i(a)


+ lI si(b) +
al {
a6i(c)

+ ll71 d(a, b)
1
0

- d(b, (')/

Pour qu'il n'y ail pas d'inversion, il faut que les coefficients vrifient:

+ a2 + [/3

;::

a!, a2' ll), ll.4' il;;, 06;::

Ch 2!: - mm(a\ ; a2)

Ainsi la mthode du saut minimal consiste prendre:


al

= Cl:! = 1/2,03 = Cl~

= as

= 116 =

0,a7

= 1/2

11.3.3

La mthode de Ward pour distances euclidiennes

Si l'on peut considrer E comme un nuage d'un espace IRJ!, on agrge les individus qui font le moins varier l'inertie intrac1asse. En d'autres termes, on cherche obtenir chaque pas un minimum local de l'inertie intraclasse ou un maximum de l'inertie interclasse. L'indice de dissimilarit entre deux classes (ou niveau d'agrgation de ces deux classes) est alors gal la perte d'inertie interclasse rsultant de leur regroupement. Calculons cette perte d'inertie. Soit gA et gl! les centres de gravit de deux classes et gMI le centre de gravit de leur runion. Ona:

PA et PB sont les poids des deux classes (fig. 11.10).

11- Mthodes de classification

259

9AB
FIGURE

9a

11.10

L'inertie interclasse tant la moyenne des carrs des distances des centres de classe au centre de gravit total, la variation d'inertie est gale :
PAd"!(gA' g)

+ PBd"!(g/J' g)

- (PA

+ pl1)d 1(gAl1'
PA

g)

. . . cu ~] , qUI Un ca1 1 e ementmre montre que cette vanatlOn vaut PA PB d'l( gr\, g[J) ( ' est done

+ Pl1

positive). Si l'on pose : Cette mthode rentre dans le cadre de la formule de Lance et Williams gnralise car:
((A, B) ~ C) = (PA

+ pd(A, C) + (Pu + pd(B, C) PA + Pu + Pc

- Pc(A, B)

on peut donc utiliser l'algorithme gnraL On notera que la somme des niveaux d'agrgation des diffrents nuds de l'arbre est gale l'inertie totale du nuage puisque la somme des pertes d'inertie est gale l'inertie totale. Cette mthode est donc complmentaire de l'analyse en composantes princpales et repose sur un critre d'optmisation assez naturel. Elle constitue notre avis la mthode de classification hirarchique de rfrence sur donnes euclidiennes. Tl ne faut pas oublier cependant que le choix de la mtrique dans l'espace des individus conditionne galement les rsultats.

Il.3.4

Classification de donnes qualitatives

Lorsque les 11 individus classer sont dcrits par des variables qualitatives, divers cas se prsentent. Pour les donnes de prsence-absence, on utilisera un des indices de dissimlarit prsents au paragraphe 11. 1.1.2. Pour des donnes du type P variables qualitatives 111!, m"! ... , mp modalits, on utilisera la reprsentation disjonctive complte :
001 . [ 0 lOOI'...'1 001 ] lOOO X

260

11_Mthodes de c:lassification

La distance du X:! entre lignes du tableau possde alors des proprits intressantes: d (i, i') =

2: !!..(Xii - XO)2
) Il.)

P
Il 2:- (xij xr)) xi) tant
) Il.)

L'indice de similarit associ tP est alors le produit scalaire du X2 :

gal 0 ou 1. On voit que la similarit dpend non seulement du nombre de modalits possdes en commun par i et i' mais de leur frquence, ce qui revient dire que deux individus qui onl en commun une modalit rare sont plus proches que deux individus ayant en commun une modalit frquente: cette proprit semble assez naturelle. On utilisera alors la mthode de Ward (puisque la distance Xl est euclidienne) sur le tableau des distances. Une autre solution consiste effectuer une classification hirarchique sur le tableau des coordonnes des 11 individus aprs analyse des correspondances multiples de X. Il faut prendre garde ici que ces deux approches ne seront quivalentes qu' la condition d'utiliser tous les facteurs de l'ACM (soit

2: mi
i=1

Jl

p). En effet, une classification effectue sur un trop petit

nombre de facteurs peut tre fallacieuse car elle peut laisser de ct certaines particularits du nuage de points, Par ailleurs, il ne faut pas oublier de conserver la normalisation -{X. de chaque axe car ceux-ci ont des importances diffrentes. Ces remarques sont valables galement pour des classifications effectues sur des composantes principales. La classification hirarchique des lignes ou des colonnes d'un tableau de contingence s'effectuera avec la mthode de Ward et la distance du X2 entre 1ignes (ou entre colonnes). Cette mthode revient regrouper les catgories d'une variable qualitative de la faon suivante: chaque tape, on runit les deux catgories (en sommant les effectifs) qui font diminuer le moins possible le <.pl puisque l'inertie totale est ici X2/n = q/-.

1 1.3.5

Considrations algorithmiques

.. . 'b ' 1 etape un tabl eau d e ll(n - 1) d' gont lstances L , a1 . llme genera1 conSIste a al ayer a claque' 2 ou dissimilarits afin d'en rechercher l'lment de valeur minimale, runir les deux individus correspondant, mettre jour les distances aprs cette runion et li recommencer avec Il - 1 objets au lieu de Il.

La complexit d'lm tel algorithme est en 11 3 (ordre du nombre d'oprations effectuer) et on atteint rapidement les limites d'un ordinateur mme puissant pour quelques centaines d'observations. Diverses techniques ont l proposes pour acclrer les oprations et pouvoir traiter des ensembles plus vastes d'individus. La mthode des voisinages rductibles (M. Bruynhooghe) consiste n'effectuer les comparaisons de distances que pour celles qui sont infrieures un seuil fix. Il faut ensuite ractualiser ce seu 1 au fur et il mesure que la classHcation s'effectue. La mthode des voisins rciproques (Mac Quitty et 1. P. Benzecri) consiste runir simultanment plusieurs paires d'individus (les voisins rciproques) chaque lecture du tableau

11_Mchodes de dassificacion

261

des distances. la complexit de l'algorithme devient alors en Il'1. La recherche des voisns rciproques s'effectue alors en chane: on part d'un objet quelconque et on cherche son plus proche voisin, puis le plus proche voisin de celui-ci, etc., jusqu' aboutir un lment dont le plus pro~ che voisin est son prdcesseur dans la liste. On runit ces deux lments et on recommence partir du nud cr ou de ravant-dernier lment de la liste jusqu' cration de tous les nuds.

Il.4

MTHODES MIXTES POUR GRANDS ENSEMBLES

La dtermination du nombre de classes est relativement aise en classification hirarchique en tudiant le dendrogramme et en s'aidant de l'histogramme des indices de niveau. La coupure de l'arbre en k classes ne fournit cependant pas la partition optimale en k classes de l'ensemble en mison de la contrainte d'embotement des partitions issues d'une hirarchie. Mais cette coupure fournit une excellente initialisation pour un algorithme de partitionnement de type nues dynamiques. De cette faon on peut rsoudre pratiquement le problme pineux du choix du nombre de classes d'une partition. Cependant les mthodes de classification hirarchique ne sont pas utilisables lorsque le nombre d'individus dac;;ser est trop lev (suprieur plusieurs milliers), alors que les mthodes de partitionnement ne connaissent pas ce genre de limites et sont trs rapides. Le principe des mthodes mixtes, galement apeles hybrides, tire parti des avantages des deux techniques. Concrtement, on procde de la faon suivante en trois tapes: l. 2. 3. Recherche d'une partition en un grand nombre K de classes (par exemple 100) avec une mthode de type nues dynamiques Regroupement hirarchique des K classes partir de leurs centres de gravit et dtermination d'une coupure en k classes Consolidation: amlioration de la partition en II. classes par une mthode de type nues dynamiques

Il.5

CLASSIFICATION DE VARIABLES

La plupart des mthodes exposes prcdemment ont t conues pour classer des individus. Lorsque )' on veut faire des regroupements de variables, il convient de prendre certaines prcautions car la notion de distance entre deux variables pose souvent de dlicats problmes dus la nature des variables.

Il.5.1

Variables numriques

Pour des variables numriques, le coeHicient de corrlation linaire constitue l'indice naturel et 1 - r est alors un indice de dissimilarit qui est en plus une distance euclidienne. On peut alors utiliser la mthode hirarchique de Ward et celle des nues dynamiques puisque l'on dispose d'une distance euclidienne. Une variante consiste utiliser les coordonnes des variables sur des axes factoriels. Mentionnons galement lu mthode divisive (ou descendante) disponible dans le logiciel SAS (procdure varclus) qui revient 11 dterminer les groupes de variables les plus unidimensionnels possible au sens o l'ACP de chaque groupe ne fournit qu'une seule

262

11_Mthodes de classification

dimension : une seule valeur propre suprieure 1. L'algorithme est sommairement le suivant: on part de l'ensemble des p variables et on effectue une Aep. Si il n'y a qu'une seule valeur propre suprieure l> on s'arrte. Sinon on classe les variables en deux groupes selon leurs proximits avec la premere ou la deuxime composante principale. On recommence alors la procdure dans chaque groupe.

1 1.5.2

Ltapproche de Lerman et l'algorithme de la vraisemblance du lien

Pour des variables qualitatives, un problme vient du fait que les mesures de liaison ne sont comparables que pour des nombres gaux de catgories, ou du degr de libert du couple. I. C. Lerman a propos de remplacer la valeur de l'indice de similarit entre variables de mme nature (corrlation, X~, etc.) par la probabilit de trouver une valeur infrieure dans le cadre de l'hypothse d'indpendance (appele <,( absence de lien}). Ainsi, au lieu de prendre r, on prendra P(R < r). L'avantage est incontestable pour les mesures de similarit entre variables qualitatives qui deviennent ds lors comparables indpendamment des nombres de catgories: un X-r gal 4 correspond une similarit de 0.6 alors qu'un Xfo gal 5 correspond une similarit de 0.12. L'algorithme de la vraisemblance du lien (AVL) consiste alors utiliser comme mesure de proximit entre deux groupes A et B de /Il et 1 variables respectivement, la probabilit associe la plus grande valeur observe de l'indice probabiliste de smilarit. Soit:
10 = sup s(x, y)
xEA .l'EH

o s(x, y)

= P(R <

r(x, y)) par exemple.

Dans l'hypothse d'absence de lien, on a : P(sup s(x, y)


xEII

<

t)

= tm

(voir chapitre 12, paragr. 12.1.3.2), d'o: P(sup


.l'ER

s(x, y)

<

t) = (1111)' =

!/Il1

xE ,t

On prendra donc comme indice de dissimilarit entre A et B : Ifjl/. On peut alors obtenir une classification hirarchique des variables.

1 1.6

EXEMPLES

Reprenons c-dessous les diffrents exemples dj tudis dans les chapitres prcdents, pour montrer la complmentarit entre les rntll0des factorielles et les mthodes de classification.

Il.6.1

Donnes voitures

Les donnes tant euclidiennes, on utilisera tout d'abord la mthode de Ward sur donnes rduites.

1l_Mthodes de classification

263

Le tableau suivant donne l'historique des regroupements. On vrifie que la somme des indices de niveau (ou somme des pertes d'inertie) est gale l'inertie totale. L'appellation an benjamin est sans signification el ne fait que dsigner les deux lments runis. On constate des sauts importants aprs le nud 34 quand on passe de 3 classes deux classes. Une coupure de l'arbre en 3 classes est alors naturelle.
DESCRIPTIOl:J DES NOEUDS J:..INE BEru EFF. NDl-!. POIDS INDICE HLSTOGH.tlNHS DES INiJLCES DE NIVEAU

19

1"\ 16
1)

20
21 2:3
23

7 5

-.
.00

O.Ol'i

J.DO
4 14 15
:!J II 19

le.
17
21

:1

.00

'2

.00 3.00
3.00 3.00 3.00

0.O::!'i32 0.03061 0.03581 0 04593 06556


0.07693 o .08 1178 0.11771 0.12 1185 0.17 159
{J.

25 J6 27

8
'2

28 23
30

:::5
2J
'}

10
,~

4.00 5.00
2

31

28 26 29

13 1

'2.00 .00
.00 11.00 13.00 18.00

**"'****

0.23849
0.36099
0.5~~497

24
32

J3
35
sOtn'IE DES

6 11 13

.06604
.79117 .00000

34

31

18

INDICES DE NIVEAU

RENAULT-30- TS DATSUN-200L OPEL-REKORD-L TAUNUS-2000-GL AUDI-100-L PRINCESS-1800-HL PEUGEOT-504 MAZDA-929S FIAT-132-1600GLS ALFETIA-1.66 LANCIA-BETA- i 300 SIMCA-1307 -GLS RANC HO RENAULT-16-TL LADA-1300 CITROEN-GS-CLUB TOYOT A-COROLLA ALFASUD-TI-1350

FIGURE 11.1 1

264

11_Mthodes de classification

La coupure en 3 classes semble optimale car aucune amlioration passage d'une mthode de centres mobiles:

n~est

obtenue aprs

CONSOLID.i\TION DE LA PI\RTITION i\UTOUR DES CENTHES DE CLASSES J REALISEE PAR 10 l'l'EB.liTIONS A CENTRES HOBILES ; PHOGRESSIOH DE L'INERTIE INTER-CLI".SSES ITERA'1'ION 1. TO'l'ALE . INTER QUorl'IEN?

o
1

6.00000 6.00000 6.00000

3.85720
3.35720

3.85720

0.64287 0.64287 0.6/1287

ARRET APRES L'ITERATION 2 L' ACCF.OISSm-!ENT DE L'INERTIE IN'rER-CLf..SSES PAR RJ\PPORT AL' ITEH..A.TION PRECEDENTE N' EST QUE DE 0.000 %.

La figure suivante donne dans le plan 1-2 la visualisation des 3 classes.

FIGURE

11. Il

Ces 3 classes correspondent pour l'essentiel la taille des individus

1 1.6.2

Vacances

Reprenons maintenant le tableau de contingence tudi en 9.3 avec une AFC. La distance du khi-deux entre profils-lignes ou protils-colonnes tant une disatnce euclidienne, il est ici possible d'effectuer deux classifications, l'une sur les lignes, l'autre sur les colonnes du tableau de contingence.

, 1.6.2.1
HUt,!.

Classification des professions


BEHJ

AINE

EFF.
:;

poros
50:::7 .00 1375.00 5162.00 5'\19.00 9511. 00 1<1930. 1.8532.00

INDICE

HISTOGR.!\li[!.!E DES INDICES DE NIVEJ\U

10

..,

fi

0.00239 0.00274

12 13
1,1 15

'}

12

10 8 11 13

0.00473
0.00587 0.01107
O.031~5

k,**,
**,~.k'~**

tr*"1I'**>Jrk*".f'r~**""**'ft'*
,,,.*~**+~**~*k,,.****w*kk*~**k****~*****~,,.~**** ~*".~k****k~k*~f'r**wk*"'***f'r***k*p**~*~~k~.*w**

0.04930

SOI.jHE DES iNDICES

rE HIVSAU

11liliiii Mthodes de classification

265

Retraits Ouvriers Employs Autres inactifs Cadres el professions intellecluelles suprieures Professions intermdiaires Artisans, commerants, chers d'entreprise Agriculteurs
FIGURE

11.13

Il.6.2.2
NUIl.

Classification des modes d"hbergement


BENJ
EFF.
2
2

AINE
J -1

POIDS
3479.00

INDICE

HIS'l'OGHAMHE DES IlmrCES DE NIVEAU

10
11

693G.OO
1j364 00 1903.00

12
14

0.00025 0.00276 0.00650


0.OO67~

7fit'w,l,'I't"*1t.lr..lr'f't

15
16 17

7 11 10

5
5

14 16

15 12

8839.00 5329.00 7 HJ68.00 9 18532.00

2 .:1

***ir**f/;)y***

0.OOB64
0.00%9

*** .. *~*ltl'!*-.;***
*"*k*.,.,.***,******~

0.01974 0.05291 0.10734

** r

****.* ** *.

**~*It**~*****.*'f't*1t**~*~*'I't"N***~*~***~*k**~~***

SOHHE DES INDICES DE NIVE1\U

On vrifie dans les deux cas que la somme des indices de niveau est bien gale au phideux de Pearson. On constate que 3 modalits.

r on

pourrait regrouper aussi bien ]es lignes que les colonnes en

RPPA VILLAGEV CARAVANE TENTE LOCATION


AJ

RSPA RSEC HOTEL


FIGURE

11.14

266

11_Mthodes de classification

11.6.3

Races canines

Les donnes du chapitre 10 concernant 27 races canines ont t soumises une classification ascendante hirarchique selon la mthode de Ward sur les 10 composantes de l'analyse des correspondances multiples. On trouve ci-aprs la liste de fonnation des nuds et le dendrogramme (fig. 1 L 15) et tableau 11.2. Il est clair qu'une coupure est effectuer au-dessus du nud n 50 (coude dans le diagramme des indices de niveau) et que l'on distingue nettement quatre classes homognes, ces classes sont ici voisines de celles obtenues par la mthode des centres mobiles.

,----------------.53

eeaucer.m
Collay
10

Seller
Pointer

25
23

CLASSE 1

Beloer al.
Dobmmann Levrlor Fox.hound Epngnoul F Bleu Gnsc. DOrlun
Mas!i/!

12
20 16

15 III 13 21
24

51

52

BullMn5IJIf SI B~mar CtlCker Epa[Jnoul8 Boxer Lnbmdor DalmallOl1


Fox Terrier

TOHo-Neuve 27

14 4 H) 11
17

Canlcho Tockol 26 47

50

r------;~9

Bulldarl

44
43

Bassel
Chil\unhua Plikinais II

22 1102523312201615161321 fi 24 27!l

29

1<1"

19 1117 7265 2 8 22

FIGURE

11.15

11_ Mthodes de classification

267

TABLEAU

1 1.2
DESCP.!:P'1'10l1
liOElJDS

CLASST'lCAl'IOH ASCI::lm."-.1iTE HIERAPCHIOUE :


l'lUH.

!\INE
1.9

BElI,T
Il

Er':,.

TiOlDS

IODICE 0.00000 0.00000 0.00000


0.01:::~6

III.:?l'C!GRi\lINE DES HlDICES DE !HIJ2AU

:::.00
~,()(l

J2
30

26

.00

J::
33

12
16
2i

.,
:::0
2

~.OO

(JO

(l.Ol:::;!,

~.OO
~.O[)

O.Ol::::i!;
O.Ol~36

35

::8
21 32 18

JG
38 39
40
~~

13
7.5

.00 2.00 2.00


3.00

0.016 1;B a.0175;)


O.Ol9Gil

34 35
:::9

III

12
113
4:j
I~ :J 46 47

17

37
,13

3.00 4.00 . 00 3.00 .00


5.00 5.00 5.00 7.00 7.00 00 15.00 .00 .00

O.020GO O.OJOJ6 0.03119 O.OJ251

n.
0.03297 0.04074 0.04698
{}. lJll9J9
O

30

:10

':1
j.}
,j :;

4fJ

49 50
51 5:::

38
46
~9

10

0.07512 0.0789B 0.D8497

50

o .::::n80
0.:::757
li. '13314

47
51
INDTCES

12

5.2
SQl-U1E

n::s

llTVE;!.U

'" .l.6ii6G7

268

11_Mthodes de classification

Reprsentation des individus et des centres de gravit des classes dans le premier plan factoriel Facteur 2

0.8

~~\~~U/dsET
CLASSE-1/-l BULLDOG
TECKEL FOXTERRIER

MASTIFF

CLAS 1:2/-1 SAINTBERNARD BU!J::."'MSTIFF DOGUE ALLEMAND

OA

o .......... ,............................................................1'........ .... .... .... 7............


:

CANiHE COCKER

l
j

1GRAND BLEU DE GASCOOf'


CLASS

FOXiHOUND

LEVRIER

14

DOBEAMANN

l
\

BEAUCERON

:..k"
;

!EPAGNEUL FRANCAIS
CO~EV

syrrER
BERGER ALLEMAND

-0.8

CLAS~314
BOXER

DAL~ATIEN

LABRADOR

EPAGNEUL BRETON

0.4

o.a
Facteur 1

FIGURE 11.16

TROISIME PARTIE

1 Statistique infrentielle

Distributions des caractristiques


d'un chantillon

Le problme central de l'infrence statistique est rappelons-le, le suivant : disposant d'observations sur un chantillon de taille n on dsire en dduire les proprits de la population dont il est issu. Ainsi on cherchera estimer, par exemple, la moyenne III de ]a population partir de la moyenne x d'un chantillon. Ceci n'est possible que si l'chantillon a t tir selon des rgles rigoureuses destines en a.ssurer la reprsentativit }) (voir chapitre 20). Le mode de tirage le plus simple et aussi le plus important est l'chantillonnage alatoire simple correspondant des tirages quiprobables et indpendants les uns des autres. Dans ces conditions les observations deviennent des variables alatoires ainsi que les rsums numriques usuels: il convient donc d'en chercher les lois de probabilit avant de tenter d'extrapoler la population .

.. Exemple : On prlve au hasard 11 ampoules lectriques dans une production et on mesure leurs dures de fonctionnement. Si les caractristiques de fabrication n' ont pas vari une ampoule l'autre, les diffrences entre les Xi peuvent tre considres comme des tluctuations de nature alatoire. _
Cette dernire remarque justifie l'hypothse fondan1entale de la thorie de r chantillonnage: les valeurs observes Xi sont des ralisations d'une mme variable alatoire X, appele variable parente. Dans notre exemple, ceci revient postuler l'existence d'une variable abstraite, la dure de vie d'une ampoule de type donn, fabrique dans des conditions donnes. On peut cependant introduire aussi le modle suivant: chaque individu; tir, on associe une variable alatoire Xi dont on observe une seule ralisation Xi (exemple: Xi est la dure de vie de l'ampoule nO i qui, une fois l'exprience faite, a pris la valeur Xi)' L'hypothse fonnule plus haut revient alors dire que les Xi sont des variables alatoires ayant toutes la mme distribution, celle de X. Pour des raisons de commodit, on supposera gnralement les Xi mutuellement indpendantes (dans certains cas, l'indpendance deux deux sera suffisante). On a donc la double conception suivante, qui est la buse de la statistique mathmatique: les valeurs observes (Xl, X2' , xH ) constituent 11 ralisations indpendantes d'une variable alatoire X ou encore, une ralisation unique du n-uple (Xl' X 2, .. , XII) o les Xi sont 11 varables alatoires indpendantes et de mme loi.

272

12 I11\III Distributions des caractristiques d'un chantillon

Par extension, nous appellerons dsormais chantillon Je il-upIe de variables alatoires (X), X 2, , X,I)' La thorie de l'chantillonnage se propose d'tudier les proprits du n-uple (X" Xl, .. " X;l) et des caractristiques le rsumant, encore appeles statistiques, pru1ir de la distribution suppose connue de la variable parente X, et d'tudier en particulier ce qui se passe lorsque la tal1e de l'chantillon est leve. Il est d'usage de rsumer les Il valeurs d'un chantillon XI' X2' .. , X'I par quelques caractristiques simples telles que moyenne, plus grande valeur, etc. Ces caractristiques sont elles-mmes des ralisations de variables alatoires issues de XI' X,2, ... , X'I'
DFINITION

L
12.1

Une statistique T est une variable alatoire fOllction mesurable de X" X::., .. " XII' T f(X}l X::" ... , X,J,

Une statistique peut tre valeurs dans [f,g ou ~f1 ; dans le cas de !FR", on parlera de statis- . tique vectorielle. Les premiers paragraphes de ce chapitre sont consacrs au cas des chantllons d'une variable alatoire relle. On donnera ensuite quelques rsultats concernant les chantillons de vecteurs alatoires.

FONCTION DE RPARTITION D'UN CHANTILLON, STATISTIQUES D'ORDRE ET QUANTI lES


Fonction de rpartition empirique d'un chantillon
F,~I:(X)

12.1.1
x.

Dsignons par

la proportion des

11

variables XI' X2, ... ,

XII

qui sont infrieures

F,~I;(X) est donc une variable alatoire pour tout X qui dtnit ainsi une fonction alatoire appele foncton de rpartition empirique de l'chantillon, dont les ralisations sont des fonctions en escalier de sauts gaux J /n (fig. 12.1).

FIGURE

12.1

12- Distributions des caractristiques d'un chantillon

273

Si les

Xi

sont ordonns par valeurs croissantes:


Fl~!:{X)
F~l:(X)

0
=- -

six

<

XI

si

Xi-I

::s; x

<

Xj

F~!:(x)

= l

12.1.2

Convergence de F;-(x) vers F(x)

Ces trois thormes sont fondamentaux et justifient l'usage des chantillons en statistique.
THORME

1
ps

POlir tout x, 011 a F,1:(x) ~ F(x).

_ Dmonstration : A x fix, soit Y le nombre alatoire de valeurs infrieures x, qui est une somme de variables de Bernoulli de paramtre F(.r). D'aprs ce qui prcde F,~}:(x) qui n'est autre que Y/Il converge presque srement vers la probabilit F(x). _
THORME

(GLIVENKO-CANTELLI)

La

cml\'el~f?ellce de Fl~l; vers F est presque srement WI~r0I111e, c'est--dire que:

DII

sup IF,~I'(X)
x

F(x) 1 ~

_ Dmonstration: voir Renyi, chapitre 7, p. 378.


THORME

(KOLMOGOROV)
+:x::

lim P({,;Dn
Il ........

<

y)

K(y) =

.:c

~ (- 1)kexp ( - 2f!y2)
k;-cc

Ce thorme signifie que la distribution asymptotique de la variable alatoire Dn est connue et ne dpend pas de la variable de dpart X, et permet de calculer des lmites pour les valeurs de DII" La loi exacte de la variable Dn a t tabule (table A 1.14 du recueil).

12.1.3
x]>

chantillons ordonns et lois des valeurs extrmes

, x" un Il-chantillon d'une variable alatoire X. Les ralisations peuvent tre rordonnes en YI' )'2' . . . , )'n o YI < Y2 < ... < )'n' les Yi constituent une permutation particulire des Xi- Les Yi sont des ralisations du n-uple de variables alatoires (YI' Y2' ... , l'Il) qui constitue l'chantillon ordonn de X. Soit F(x) la fonction de rpartition de X de densit f(x) et Hl. et h" les fonctions de rpartition et densi l de Yk -

Soit X], X 2,
X2' , XII

274

12_ Distributions des caractristiques d'un chantillon

12.1.3.1
On a PO"I

Loi de Y,

= inf XI
1/

<

y)

1 - P(Y I > y) et P(inf Xi> y)


HI(y) = 1

rIP(Xj > y) donc:


1=1

[1 - F(y)f' - F(y)]/!-l.f(y)

Il le)')

= n[I

12.1.3.2

Lo; de Yn

= sup XI
11

P(Y'I

<

y) = rI P(Xi
i=1

<

y)

H/I(Y) = [F(y)J'

hile,,)

nfF(y)]!I-lf(y)

Ces deux lois servent en particulier pour la dtection des valeurs aberrantes chantillon: valeurs ( troP petites ou trop ) grandes.
lllIIllII l1l

dans un

Exemple: On sait que pour une loi LG(m ; cr) il y a une probabilit 1.35%0 de dpasser

+ 3cr. Sur un chantillon de 100 observations la probabilit qu'il yen ait au moins une qui dpasse 111 + 3cr monte l - (0.99865)JIlo = 0.126. Si inversement on cherche quelle est la
valeur que YI! a une probabilit L35%0 de dpasser on trouve: F(y/!) 100 environ III + 4.3cr.
(0.99865)1//1 soit pour

Il

12.1.3.3

Loi de l'tendue W
W
Yll - YI

La loi du couple (Y], YlI ) sobtient en crivant:


P(Y,

<

YI)

n (Y

II

<

)'11)) = P(YII

<

.l'II) - PY/!

<

YIl)

n (YI> YI))

(F(YII))" - (F(YII) - F(YI))"

d'o la densit du couple YI 1'/1 en drivant deux fOls:


h(Yld'lI) =
11(11 -

1)(F(Yll) - F(YI))J1- 1.f(y,,).f(YI)


~ (Y], Hl)

Avec le changement de variables (YI! Y,I ) de W:

on obtient la fonction de rpartition

G(u = (Il[F(X

Jp.

w) - F(x)]/I-lf(x)dx

et sa densit:

g(w)

1l(1l -

1) ( [F(x

J~

III) -

F(X)]/I-lf(x)f(x

w)dx

On trouve alors:

E(W)
-

Jf1

r(l -

(F(x))1/ - (l

F(x))/!)dx

en intgrant par parties E(Y,T )

E(Y 1 ).

12_Distributons des caractristiques d'un chantillon

275

'2.' .3.4

Loi de Yh

Appelons Rn(x) le nombre de rptitions de l'vnement X < x en n expriences indpendantes, qui suit donc une loi binomiale:

L'vnement Yk < x peut tre obtenu de plusieurs manires, soit que les k premires valeurs de X soient infrieures x et elles seules, soit qu'il y en ail k + 1, etc.
Il

Donc:

P(Yk < x)

2:C:/[F(x)J[l - F(X)]II-i
j=k

L'vnement x < Yk < X + dx se ralise si un des Xj est compris entre x et x + dx, si (k - 1)xi sont infrieurs x et si les 11 - k restant sont suprieurs x. Les probabilits respectives de ces diffrents vnements sont f(x)dx, [F(x)Y- 1 , [1 - F(x)]/I-k. Il y a
Il

manires de raliser le premier vnement el C~=\ manires de raliser les deux autres (C~= ~ faons de choisir les Xi infrieurs x, les autres tant alors suprieurs) :

F(Yt ) suit donc une IO bta l de paramtres k et

11 -

1.

12.1.3.5

Rsultats asymptotiques pour les extrmes

L'tude du comportement de YI et l'Il lorsque 12 ~ 00 est r objet de la thorie des valeurs extrmes dont nous donnons ci-dessous quelques rsultats. Nous nous bornerons tudier l'II puisque YI = -sup( -XI! -X:!, ... , - X1J Remarquons que si n
~
00 :

(F(y)yr ~

0
1

si F(y)

< 1

(F(y))'1

si F(y) = 1

ce qui est sans intrt. Il convient plutt de rechercher s'il existe des coefticients an et hl! tels que G/I.1';/ + h'l tende vers une limite non dgnre, par une opration semblable au centrage~rduction dans le thorme central-limite.

Nil valeurs XI. X2,

La mthode est la suivante: soit G(y) la loi limite de all J'1I + hl!' Puisque la plus grande des , XNII est aussi la plus grande des N maxima suivants: sup(X1, X2, , XII) ; sup(XIl + 1, , X2J1 ) ; ; sUP(X<N-l}lI ; ... XNII ) on doit avoir:

On dmontre alors que les seules solutions de cette quation fonctionnelle sont les suivantes pour X non born : type l : G(y) = exp( -exp( -y)) loi de Gumbel obtenue si 1 - F(x) tend vers 0 comme exp( -x) quand x ~ 00 ; type II : G(y) = exp( -il) ; y > 0 loi de Weibull (ou de Frchet) si 1 - F(x) tend quand x ~ co (voir chapitre 2, paragr. 2.3.8 et 2.3.9). vers 0 comme

276

12_ Distributions des caractristiques d'un chantillon

Ceci permet en pratique de pouvoir faire les approximations suivantes si


H,,(y)

Il

est trs grand:

exp( -ex p (

-(y a 1;))

ou

X exp ( - ( - b

a)a)

12.1.3.6
F(x) =

Distributions asymptotiques des quanti/es

Si F est continue, rappelons que le quantile d'ordre p not qp est la valeur de x telle que p_ Le quantle empirique d'un n-chantillon Q" est gal YI1l1'1+ 1 o [np] est la partie entire de np suppos non entier. On dmontre (voir Fourgeaud-Fuchs, 1972) que si
Il ~
':X; :

D'o en particulier pour la mdiane:

{,;(Q,12

qll2) -->

LO(ql/, ; 2f(~Ii')

12.2

DISTRIBUTIONS D'CHANTILLONNAGE DE CERTAINS MOMENTS

12.2.1

tude de la statistique X

DFINITION

La statistique X ml moyenne empirique de l'chantillon est:


1
/1

X = - LXi
11 i= 1

12.2.1.1

Proprits lmentaires

Soit m et cr l'esprance et l'cart-type de la variable parente; on a alors:

_ Dmonstration :
1
E(X) = ni:::; 1

2: E(X
l

Il

i)

1 = -ml!
11

111
2

V(X)

=2
Il

(/1 Xi) 2:
i= 1

-:;

1 2:1V(XJ = -:;110-2 = l1-i= 11Il

0-

11

d'aprs l' indpendance des Xi-

12_Distributions des caractristiques d'un chantillon

277

Si I-L3 et I-L-I sont les moments centrs d'ordre 3 et 4 de X on a : et


1)

On en dduit:

o 'YI et 'Y2 sont les coefficients Lorsque


Il ~:::c,

asymtrie et d'aplatissement de X.

V(X) -3> 0, il s'ensuit que X converge en moyenne quadratique vers

m puisque E[(X - m)2] -3> O.

Ce dernier rsultat est une forme des lois des grands nombres que nous allons noncer sous un aspect plus gnral. On voit!ie plus que si 11 -3> x, 'Y,(X) -3> totique de X .

et 'l'2(X) -3> 3, ce qui traduit la normalit asymp_

12.2.1.2

Lois des grands nombres

Elles sont de deux types: lois faibles mettant en jeu la convergence en probabilit et lois fortes relatives la convergence presque sre, Nous considrons ici des suites de variables alatoires XI> Xl, .. " Xli non ncessairement de mme loi.

Loi faible des grands nombres


Soit XI' X 2, , XI! indpendantes d'esprance 1111. 11l2, , 11l '1 finies et de variance crT, cr~ .. " cr~ tinies, Il l Il 1 /1 Si - L111j -3> III et si crl-3> 0, alors XLXi est tel que:

2:

lli;1

/li=1

Loi forte des grands nombres


1 If Soit Xl, X::!" , X'I indpendantes telles que - Lmj-3> m et
lli=1

i=1

2: -+ est convergente ;
'"

cr~

alors:
-

X-3>m

[15

(Pour la dmonstraton,

ci Reny, chapitre 7).

278

12IIIIIIII Distributions des caractristiques d'un chantillon

Application: Cas des chanti110ns : on voiL aisment que


convergente est ralise puisque:

, X~ 111 car la condition 2: ~:


~ ~

1 l-

et ]' on sait que la srie

1 2: 7 converge. r

Distribution
Le thorme central-limite tabli au chapitre 2 peut s'crre :
X
m ::.f
-)0

- -

cr/..hz

ULG(O, 1)

Il suffit en effet de poser: Xl

+ Xz + ... + XII

= IlX.

Ce rsultat est d'une importance capitale en statistique.

12.2.1.3

Application: loi d'un pourcentage

On prlve ndpen~ammenL et avec remise 11 individus d'une population spare en deux sous-populations A et A de proportions p et 1 - fJ (pices dfectueuses ou correctes dans une production industrielle par exemple). Soit K le nombre d'individus de la sous-population A obtenus dans J'chantillon. On sait que K suit une loi binomiale @(n ; p). Notons F

K/n la frquence empirique de la catgorie fi.

F est la moyenne arithmtique de n variables de Bernoulli de paramtre p indpendantes.

On a donc:

E(F) V(F)

=p = pO 11

p)

. . et S1 Il est gran d F = LO( p : -~~ en raIson d u th' eoreme centra1-l'ImIte. La convergence de F vers p, connue sous le nom de thorme de De Moivre-Laplace, est une des premires applications de la loi des grands nombres. Ce rsultat a inspir la thorie frquentiste des probablts (voir chapitre]).

~ fP(1=-p))

Application numrique: Comme pour la loi binomiale l'approximation gaussienne de F est valable si np et n( 1 - p) sont tous deux suprieurs 5.
Ainsi pour un chantillon de 400 pices issues d'une fabrication o 10 % sont dfectueuses, on peut s'attendre trouver dans 95 % des cas un pourcentage de dfectueux dans l'chantillon

. "' /0.10 X 0.90 compns entre 10 % l.96 400 '

'i

SOIt

9.7 % < F < 10.3%.

12- Distributions des caractristiques d'un chantillon

279

12.2.2

tude de la statistique 52

DFINITION

La statistique S1 Olt variance empirique d'chantillon est: 1 S2 = (Xi - Xf

2:

/1

l1i=1

12.2.2.1

Proprits
1 = - 2: x r -

(II ) (Xf _
i;;;;J
IIIIIIII

_ Dmonstration : Il suffit de dvelopper.

.. Convergence presque sre de 52 vers u 1


D'aprs les lois des grands nombres:

1 2: p~ - (II Xr) ~ E(X


Il
i""'J

et :

x<! ~ [E(X)F
~

donc:

ps

E(X-) - [E(X)]-

"

0--

Dcomposition de S2
Partons de X j
On a alors:
Il

Il

III

= Xi
1I1Y~'

+ X-m.

2: (Xi i=J

2: (Xi

Il

xf + 2: (X - 111)'2 + 2(X
II

m)

2: (X;
i= 1

11

)()

;=1

Comme

2: (Xi - X) = 0; on trouve:
;=J

1
n

Il

2:(Xi
i=1

xf + (X mf

Biais de S1
THORME

E(S-) =

"

--0-Il
2

n - 1 ,

Ce thorme montre que E(S2)

* ,On dit que S2 est une statistique biaise pour cr

280
_ Dmonstration :
E(S2)

12_ Distributions des caractristiques d'un chantillon

==-

1
1

Il

2. E(X i
Il

1Il)2 - E(X - m)2


-

11 i=1

2:V(X i )
1

V(X)

=-

Il

2.(T2

Il

11i=1

Le biais vaut

cr /n et tend donc vers Q.


2

Varance de S2

Un calcul dont la longueur est la seule difticult montre que:


V(S2) = --[(11 3
11

11-]

1)f.1.; - (n - 3)cr"]

el

si

Il

--,)0.

oc :

La variance S'!. tant biaise et ayant donc tendance il sous-estimer (T-, on utilise frquemment la variance corrige dont l'esprance vaut exactement (T2 :
S*1 =
Il

11 -

1 E(S*'!.) = cr:!.
II -

--2:U( - xi1

1/

Cependant. l'cart-type corrig S* reste biais pour cr car :

E(~)
mais est asymptotiquement sans biais.

=1=

~ E(S*:!.)

Il n'existe pas d'expression gnrale donnant E(S*) pour toute distribution. On verra plus loin une formule exacte dans le cas o les Xi suivent des lois normales.

12.2.2.2

Thorme limite pour 52


- - c r2
---===--11
!f
--,)0.

n - 1

U E LO(Q, t)

ce qui peut

5' crire

avec l'approximation prcdente:

:' _cr', {,; .!. U E LG(O, 1)


f.1.;

cr

12.2.2.3

Corrlation entre X et 52

Cherchons cov(X, S2) :


-, Il 1 ,)] cov(X, S-) = E [ (X - 111) ( " \ - -,-,-(TS-

12 _ Distributions des caractristiques d'un chantillon

281

Nous pouvons supposer sans nuire la gnralit que 111 = 0, car on sait que la covariance est insensible un changement par translation sur un des tennes : cov(X, 52)

E(XS2)

E(X5!.) =

E[(! X (~ XJ Xl)] n
i)

llj=1

= 1E[(2:X)(D/~)]
11,

E(X 3 )

Il

\E[2:22 X XJ] j
i

E(X 3 )
3

= 11- E(2: XT) ~ i

11

~ E(2:X~)
i
Il

car E(X; XJ) = 0 pour i =F j cause de l'indpendance :


--.,-f.L3

n-

Avec la formule tablie prcdemment pour V(S:''), on trouve que:

rr~

/-L.I

11 -

3 rr..t n- 1

el n'est donc nul que si f.LJ est nul, ce qui est le cas des distributions symtriques. Il faut se garder de passer de la non corrlation l'indpendance et nous verrons dans un paragraphe suivant que X et S"l ne sont indpendants que si X suit une loi de Laplace-Gauss.

12.2.3

Cas des chantillons gaussiens

On suppose maintenant que X E LG(m, cr) :

12.2.3.1

Loi de X

X combinaison linaire de variables de Laplace-Gauss est aussi de Laplace-Gauss et

XE LG("'. ::n)
Il s'agt ici d'une loi exacte.

12.2.3.2

Loi de 52 et indpendance entre X et S2

D'aprs la dcomposition de S2 on peut crire:


Il

L(Xj
;=1

m)2 =

2: (X; i= 1

Il

X)!.

+ n(X

m?

282

12IIIIIIII Distributions des caractristiques d'un chantillon

Divisons par cr l de chaque ct:

(Xi - Ill):!
cr

-== 1

= IlS,,2 + cr-

(X - 1Il)2
cr;-..Jn

Nous sommes dans les conditions d'application du thorme de Cochran. Le premier membre est une somme de 11 carrs de variables centres rduites et suit donc un X~. Le deuxime membre est constitu de la somme de deux formes quadratiques sur ces 2 " . 111)2 lIS varIables de rang 1 pour - y de rang 11 1 pour en effet X est h aux Xi et ('on cr;~11 cr

(X

---r :

a la relation

2: (Xi =l

Il

X)

= O.

On en dduit les deux rsultats suivants:


THORME 1

l
THORME

I1S 2

suif une loi de X~-I

L
, X

Xel S2 sont indpendants

On peut de plus dmontrer la rciproque du thorme 2 : si Xet S2 sont indpendants alors X est LG (Ill, cr), il s'agit donc d'une proprit caractristique.

Application: Puisque - - " V i l cr

/11 _

TlS 2 LG(O, 1) et -.., cr-

E X~-l

"l

on aura:

X 111_1 ---"VII
cr

x - m_,--;
---"Vil - l

o Tn - I est une variable de Student

Il

1 degrs de libert.

Ce rsultat est extrmement utile car il ne dpend pas de cr et servira donc chaque fois que cr est inconnu.

_ Exemple: On prlve 25 pices dans une production industrielle. Une tude pralable a montr que Je diamtre de ces pices suivait une loi gaussienne LG (10; 2). Entre quelles valeurs a-t-on 90 chances sur 100 de trouver le diamtre moyen de ces 25 pices et leur cart-type?

XLG(IO;~)
avec une probabilit 0.90 on trouvera

10

L64_r;:;-;: < X < 10


'J25

+ 1.64r;:;-;:

9.34 < X < 10.66 car pour la variable centre-rduite U: P( - 1.64 < U <

soit 'J25 1.64) = 0.9.

12&- Distributions des caractristiques d'un chantillon

283

Comme

115"2

"1 X~ - 1 on

1 . se reporte aux ta bl es d l 01 d u X2.t. E n prenant conventIOnne1 e la ' -

lement des risques d'erreur symtriques on trouve: 13.848

< - - < 36.415 (fig.l2.2)


4

255 2

FIGURE

12.2
'J

soit: d'o 1.49 5

< 5 < ~~36.4(5 < 2.41.

12.2.3.3

Esprance et variance des principales caractristiques d'un chantillon gaussien


II

Le tableau 12.1 rcapitule les rsultats:


I/TlL(Xi - X)3 '"\11 = --'-..:...---TABLEAU

'""12 = - - - - - -

12.1

Statistique

Esprance
11/

Variance

x
Il -

l , --cr
Il

11

5*
R
'YI

(1

=0
=3

6
n

=11
'Ti

24

..,

{T-

Mdiane

111

11

284

12_ Distributions des caractristiques d'un chantillon

Un calcul d'intgrale permet de trouver la valeur de E(S*) :

que l'on exprime souvent sous la forme E(S*) = C.icr, o c..\ tend vers 1 quand n augmente (table AiS). S* est donc asymptotiquement sans biais pour cr. On en dduit aisment la variance V(S*)

= E(S*2)

- (E(s*)f = cr 2 - (C.)cr)2

= cr 2( 1

d)

Pour r tendue R, les calculs ne sont pas aiss: les coefficients usuellement nots dl et d 3 qui permettent de calculer E(R) = d 2cr et VeR) (d3(Jf figurent dans la table AI8. On notera que quand Il augmente, d;. tend vers l'infini, car la loi nonnale a pour support l'ensemble des nombres rels.

12.2.4

Application aux cartes de contrle

Il s'agit d'une des plus importantes applications industrielles directes de la thorie de l'chantillonnage.
Introduites par W.A. Shewhart ds 1931, les cartes de contrle permettent de suivre au cours du temps la moyenne el la dispersion d'un procd de fabriacation afin de dtecter des carts significatifs (drglages ou drives) par rapport aux valeurs nominales ou consignes respecter. En effet, tout procd est soumis des variations, que r on modlise souvent par une loi normale: par exemple le diamtre de pices mcaniques suit une loi N(m, cr). Soit mu et (Jo les valeurs nominales. On prl~ve intervalles rguliers des chantillons de n pices. La carte de Shewhart (X ; S) est un double graphique o l'on reporte les valeurs successives de la moyenne et de l'cart-type corrig de chaque chantillon. La ligEe centrale correspond l'esprance de la statistique si le procd est bien rgl: E(X) = 1110 E(S*) C.I(JO' Les limites de contrle sonl conventionnellement 3 cart-types de la valeur centrale soit:

Pour Il :::5 5 la limile infrieure de contrle pour S est mise zro, pour viter une valeur ngative. La probabilit de sortir des limites de contrle tant trs faible lorsque le procd est bien rgl, on interviendra ds que l'une des deux statistiques sort des limites. La figure suivante illustre une carte de contrle pour un procd o nI/) = 24 et (J'o = 2 avec des chantillons de taille 5. Des interventions auraient du avoir lieu aux instants 7, 9 et 20, car la moyenne tait sortie des limites.

12_Distributions des caractristiques d'un chantillon

285

33 31
c
QJ

LCS=26.68 CTR=24.00 LCI=21.32

29

c ~

27

:2: 25

23
21~~~~~~~~~~~~~~

15 10 chantillon

20

25

4[ ___- -_____________________
LCS=3.93 CTR=1.88 LCI=O.OO

10

15
FIGURE

20

25

12.3

Il existe bien d'autres cartes de contrle,

(:f. L. Jaupi, 2002.

12.3

DISTRIBUTION DU CENTRE DE GRAVIT ET DE LA MATRICE OEVARIANCE D'UN CHANTILLON GAUSSIEN p-DIMENSIONNEL

SoiL un chantillon de taille 11 de la loi NI'(p. ;~) (c'est--dire un tableau de donnes 11 lignes et p colonnes), il suffit alors d'appliquer les rsultats du chapitre 4 pour obtenir que:

{,;g

N,,( {,; f'- ; };)

SOil

g - N"

(IL ;;;};)
1) degrs de libert:

La matrice de variance V suit alors une loi de Wishart (11

IlV --

~)(n -

1 ;~)

V et g sont des slaListiques indpendantes.

286

12_ Distributions des caractristiques d'un chantillon

La distance de g f.L au sens de Mahalanobis est :


(g -

f.L)'

2:- I (g

- f.L)

et on a :

n(g - f.L)' :L-1Cg

f.L) - X~

Le rsultat suivant est cependant plus utile car il ne fat intervenir que la matrice V observe et non la matrice 2: thorique:
(n

l)(g

J.t)' V-1(g - J.t) = TJ,(1l - 1)

soit:

il tend la formule unidimensionnelle du T de Student.

12.4

LA MTHODE DELTA ET LES STATISTIQUES ASYMPTOTIQUEMENT NORMALES

Soi t Tune statistique telle que si

Il

--> oc

T --> LG ( e ;

IT~)) el 9 une foncti on drivable. Alors

, . . , ( 91(f))C(J)) g(T) est egalement une statistIque asymptotIquement normale et T ~ LG g(6); -{;; .

En effet d'aprs la formule des accroissements finis: g(T) - g(6) = (T - 6)g'(8) + E Oll E est iC une variable alatoire qui tend vers 0 lorsque T tend vers 6, donc quand
Il
~

cc,

La distribution asymptotique de g(T) - g(8) est donc celle de g'(O)(T - 0) et on a V(g(T # (g'(8))2 V(T) d'o le rsultat annonc. Ce rsultat est particulirement utile lorsque l'on veut obtenir une variance asymptotique indpendante de fl: il suHitde rsoudre l'quation diftrentielle g'(6)<r(6) c. En voici trois applications:

12.4.1

Stabilisation de la variance d'un pourcentage

On a vu que F ~ LG ( p;

~p(l 11-

Pl) d" : ou
'

g(F)

~ LO(9(P); ~p(1

_;hz

- P)g/(P)

12- Distributions des caractristiques d'un chantillon

287

Si g'(p)

il vient g( p)

2c Arc sin

-{p +

K. En prenant c = I/2 et

K = 0 on en dduil que:

Arc sin{F -> LG( Arc sinfJ;;

2~)

12.4.2

Stabilisation de la variance d'une loi de Poisson

Soil X fi}(). On sait que X - ' ? LG( ; -{.) d'o:

12.4.3

Valeurs propres d'une matrice de variance

Soit un Il*chantillon d'une 101 normale p-dimensionnelle NI,(V-. 1':) et V* = matrice de variance corrige de J'chantillon. Si
;

--v
Il

Il

la

et

a montr que ~(li -

'i dsignent les ;~I!It! valeurs propres de 1': el de V* respectivement, T. W. Anderson


j)

converge vers une loi normale LG(O ;

i-{2).
i ;

On en dduit que In li a pour distribution approche une LO(ln permet d'crire: 0.95

~11-1 ), ce qui 2

p(ln

i -

1.96~ ,,-1 < ln 2

'i

< ln

1.96~ n-l ) 2

d'o:

lieXP(-1.96~11-1 ) < i < l;ex p( 1.96~11-) ) (cf ch 7, 7.3.2) 2 2


Gnralisation au cas multidimensionnel

12.4.4

SiX -> NI' ( ,.. ;

~) et si y

<p( X) avec <p appli cation de n;l" dans n;l" di ffren tiabl e alors :

o il. est la matrice des drives partielles de <fi au point f.l. Ce rsultat est souvent utilis pour calculer des intervalles de confiance asymptotiques pour des paramtres multidimensionnels, le nom de mthode delta provient de l'usage des drives.

L'estimation

13.1

GNRALITS

L'estimation consiste donner des valeurs approches aux paramtres d'une population (m ; rr, etc.) l'aide d'un chantillon de 11 observations issues de cette population. On supposera vrifie l'hypothse d'chantillonnage alatoire simple.

13.1.1

Exemples lmentaires
2

Les lois des grands nombres justifient l'usage de respectivement: on sail que X 111 et S1 ~ rr vnement est une estimation de sa probabilit p.

x et de :;;2 comme estimations de 11l et rr! De mme, la frquence empirique f d'un


,p respectivement.

Les variables alatoires X, S'2, F sont appeles alors estimateurs de m,

Cependant le mme paramtre peut tre estim l'aide d'estimateurs diiTrents : pour une distribution symtrique la mdiane de l'chantillon est galement une estimaton de m. Afin de choisir entre plusieurs estimateurs possibles d'un mme paramtre il faut dfinir les qualils exiges d'un estimateur.

13. 1.2

Qualits d'un estimateur

Soit e le paramtre estimer et Tun estimateur, c'est--dire une fonction des Xi valeurs dans un domaine acceptable pour e.
Il ~

La premire qualit d'un estimateur est d'tre convergent. Il est souhaitable que si JJ T ~ e. C'est le cas des estimateurs prsents au paragraphe prcdent. Deux estimateurs convergents ne convergent cependant pas ncessairement la mme vitesse, cec est li, pour une taille d'chantillon donne, la notion de prcision d'un estimateur. Un estimateur est une variable alatoire. Supposons connue sa loi de probabilit pour une valeur donne de e. La tgure 13.1 illustre alors les deux composantes de l'erreur d'estimation. L'erreur d'estimation T - e qui est une variable alatoire se dcompose de faon lmentaire en T E(T) + E(T) - e ou E(T) est l'esprance de l'estimateur.

T - E(T) reprsente les fluctuations alatoires de T autour de sa valeur moyenne tandis que E(T) - e est assimilable une erreur systmatique due au fait que T varie autour de sa valeur centrale E(T) et non autour de e.

290

13111i1111L'estimation

Biais
FIGURE

13.1

La quantit E(T) (} s'appelle le biais. Il est donc souhaitable d'utiliser des estimateurs sans biais, tels que E(T) = 8. Ainsi est sans biais pour m, mais S1 est biais pour cr:'.

Il est donc souvent prfrable d'utiliser S*2

= -- I S2 pour estimer cr 2 Il

11

On sait cependant que S* n'est pas un estimateur sans biais de cr.


On mesure gnralement la prcision d'un estimateur T par l'erreur quadratique

moyenne:
ET - 8f)

On peut crire :
E[(T

8)21

= EHT - E(T) + E(T) + 2E[(T - E(T)(E(T)


+

0)2]
- 8)1

= E[(T -

E(T)f]

+ E[(E(T)

Of]

Comme E(T) - fl est une constante et que E[T - E(T)]


1

= 0 il vient:
Op
1

E[(T - 0)2] = V(T)

lE(T) -

De deux estimateurs sans biais, le plus prcis est donc celui de variance minimale. 1 Il Montrons ainsi que si 111 est connu l'estimateur T = (Xi - 111)2 est meilleur que S*:. :

2:

lli==1

En effet:

V(T)
V(T)

1 = "2 V(/J :L(X


Il
j;!

j -

mf- ) =
[E(X -

1
11

V[(X - mf!]
"l ,

1 = - [E(X n

m)

-1

1 111)-1-1 = - [t-L-t
Il

rr 4]

et :

V(S*2) = V(S*2) =

- - ) "l V(S1) =
Il

-Il -

Il-Il

)"l

! [J.L-t 11

Il - 3 - - c r -1] Il 1

donc V(T)

<

V(S*1).

13_L'estimaton

291

13.1.3

Recherche du meilleur estimateur d'un paramtre

On ne peut rsoudre d'une faon gnrale le problme de la recherche du meilleur estimateur d'un paramtre sans faire d'hypothses sur le phnomne chantillonn. En effet la variance d'un estimateur ne peut en gnra] se calculer que si l'on connat la loi de T qui dpend de celle des Xi. Le modle utilis en thorie classique de l'estimation est alors le suivant: on observe un chantillon d'une variable X dont on connat la loi de probabilit l'exception de la valeur numrique d'un ou de plusieurs paramtres (par exemple: X suit une loi de Poisson 0'l(fJ) de paramtre e inconnu). En d'autres termes la variable X est dfinie par une famille paramtre de lois f(x ; 8) o / a une expression analytique connue. Cependant la thorie de l'estimation ne permet pas de rsoudre le problme de la recherche d'estimateurs d'erreur quadratique minimale. On se contentera de rechercher pour une famille de loi donne/(x; 8) l'estimateur sans biais de e de variance minimale. II reste toutefois possible dans certains cas particuliers de trouver des estimateurs biaiss plus prcis que le meilleur estimateur sans biais. La recherche d'estimateurs sans biais de variance minimale est intimement lie l'existence de slatistiques exhaustives.

13.2

l'EXHAUSTIVIT

Dans un problme statistique o tigure un paramtre e inconnu, un chantillon apporte une certaine information sur ce paramtre (information qui serait diffrente pour un autre paramtre avec le mme chantillon). Lorsque l'on rsume cet chantillon par une statistique, il s'agit de ne pas perdre cette information; une statistique qui conserve l'information sera qualifie d'exhaustive.

II convient de donner un sens prcis la notion d'information: une premire approche consiSle remarquer qu'une variable alatoire T ne peut nous renseigner sur la valeur d'un paramtre que dans la mesure o sa loi de probabilit dpend de ce paramtre; si la variable T est une statistique relative l'chantillon (X" Xl' ... , XJl) et que la loi conditionnelle de (XI> X"2~ ... , XII) T fix ne dpend plus du paramtre e, on peut dire alors, qu'une fois Tconnu, nous n'obtenons plus d'autre information de l'chantillon concernant fi et donc que T porte taule l'information disponible sur f1. Une deuxime approche consiste dfinir mathmatiquement une quantit d'information et chercher dans quelles circonstances cette quantit se conserve lorsque les donnes sont rsumes par une statistique.

13.2.1

Dfinition d'une statistique exhaustive

Soit un n-chantiHon d'une variable alatoire X. On notera L(x" X1' . , x" ; 8) soit la densit de (X!, Xl ... , XII) si X est absolument continue. soit la probabilit conjointe P(X) = XI n ... n XIl XII) si X est discrte.
L(x; 6) considr comme fonction de 8 seul est appel ( vraisemblance de 8 (voir plus loin).

Soit T une statistique fonction de XI' X,!, ... , XII de loi g(r ; 8) (densit dans le cas continu,

peT = t) dans le cas discret).

292

13. L'estimation

DFINITION

Tsera dite exhaustive si l'Oll a L(x, e) = g(l, e)lz(x) (principe defactorisatioll) e11 d'autres tenues si la densit conditionnelle de l'chamilloll est indpendante du"paramtre.
Ceci veut dire qu'une fois T connu, aucune valeur de l'chantillon ni aucune autre statistique ne nous apportera de renseignements supplmentaires sur O.

_ Exemples:
Loi normale, m connu (J'inconnu :

Posons T =

2: (Xi 1

/1

mf-. On sait que T/cr'2 suit une loi de X~. La densit de Test

alors:

g(t, cr)

d'o:

r(1l/2)
[(X, a) = g(1, cr)
[

n
Il

llll

2: (Xi - mf
i""l

Il

]11/:'-1

g(1, a)h(x)

T = 2:(Xi
=I

mf" est donc exhaustif pour a 2,

Loi de Poisson. inconnu:


Il

11 exp( - ) -,-,1 = exp ( -n)--' '/' 11-'


/1

Xi

"5'x~
r

i==1

/1

Xi-

i=1

s=

X[

+ X2 + ... + Xn est ex1mustive : S suit une loi 2P(Il), d'o


s!

(l1Y g(s: ) = exp(-n)--et:

[
9

s!
lI,ITIX!

Le principe de factorisation nous donne donc un moyen de reconnatre si une statistique est exhaustive, mais ne permet pas de la construire ou mme de savoir s'il en existe une.

13-L'esCmation

293

13.2.2

Lois permettant une statistique exhaustive

Le thorme suivant rpond aux deux proccupations prcdentes:


THORME DE DARMOrs

Soit une variable alatoire X dont le domaine de dfinition Ile dpend pas de 8. Vne cOlldition ncessaire et st~flsante pour que l'chantillon (Xl' X]., ... , XI!) admette une statistique exltazlstl'e est que la forme de la dellsit soit: f(x. 8)

exp[a(x)Cl(a)

+ b(x) +

~(8):I

(famille expone1ltielle)

Si la densit est de cette forme et ,i de plus l'application x 1 ~ contmlnent dUfrentiable pour tout i. alors T particulire.

2: a(x j) est bijective et


1=1

If

2: a(X
;;1

Il

j)

est LIlle statistique exlulllsth'e

_ Dmonstration :
Condition ncessaire: T

= <.p(X 1, X::!, ... , X1J est telle que: = g(l, 8) "(x) = II f(xj, a)
1
1/

L(x, 8)

Ona:

Posons:
\j~,

k(~, a) =

a ln ,'(t, a)
. ':,.

aa

eE lR il existe un point x de

avec

Xi

~x}

Tl. En ce point on a :

ak(~, a)ja~

a<.p(X)j[)Xi d<.p(X)j ilx}

ak(Tl,8)jaTl

ce qui est indpendant de H ~ ceci n' est possible que si :


ilk(x, H) ilx
u(x)1'(8) a(x)\'(O)

d'o en intgrant par rapport x : k(x, 0) lnf(x, e) a(x)ClC8) + 13(0) + b(x).

+ w(O), et en

intgrant par rapport e :

Condition suffisante: L(x, 8) = exp [ n(O),t,O(X,)

,t,b(X,) +

11

13

(0)].

Posons 1

2:a(x i) et effectuons le changement de variable :

294

13_L'estimation

lgitime si l'application est bijective

Xl

" 2:a(xJ :
i=\

car Je jacobien de la transformation se rduit aIl ih l - Pour obtenir la densit g(t, B) de t, iJ ' . fl1l1l~ f aut " Inlegrer L' par rapport il x::' X3' . . . , Xli SOIt dans U\i. 1 :

il Y a donc

bi~n

factorisation de L(x, B).

Ce thorme est un outil trs puissant dans la recherche des statistiques exhaustives et l'on remarque que la plupart des lois usuelles, lois de POsson, de Gauss, lois 'Y sont de la forme exponentielle.
_ Exemple: X suit une loi 'Y de paramtre inconnu:

f{x, B)

f{H) exp( -x)x

IJ

Inf(x, El) = -x

(e - 1) Inx - ln f(e)

La statistique exhaustive est ~I ln Xi = ln

Il

(11

~ il] Xij-

On peut remarquer que toute fonction injective d'une statistique exhaustive est encore exhaustive, ce qui indique que dans )' exemple prcdent la moyenne gomtrique des observations est exhaustive pour e. Une statistique exhaustive T, qui est foncton de toute statistique exhaustive, est dite exhaustive minimale. Remarquons cependant que si le domaine de dfinition de X dpend de e, le thorme de Darmois ne s'applique pas, ce qui n'empche pas de trouver dans certains cas des stalistiques exhaustives. Ainsi si X suit une loi uniforme sur [0 ; H], T sup Xi est exhaustive pour

e.

En effet:

L(x ; fl) = ( 1 )"

et

g(t ~ H)

car peT

<

t) =

(!.-)11 il s'ensuit que!::.. = ~I est indpendant de e.


e
9
nt"

13_L'est:imat:ion

295

_ Autres exemples de statistiques exhaustives: le lecteur pourra vrifier les rsultats


suivants titre d'exercice:
loi de Bernoulli de paramtre
11

p inconnu: T

2:Xi est exhaustif pour p ;


i=1

loi de Laplace-Gauss: N(III ; cr) :


Il

si cr est connu, T = si m est cqnnu, T

:LXi est exhaustif pour m ;


i=1

2: (Xi

Il

m)2 est exhaustif pour

si

/II

el cr sonl tous

d::~ inconnus, le couple (t,x" t,(X; - X)' ) ou (x, S') est


~exp( -~ )
:T

exhaustif pour le couple (m, cr). loi exponentielle de densit

,x; est exhaustif pour e.

13.2.3

l'information de Fisher
sllr

DFINITION

011 appelle quantit d'iI~fonnatioll de Fisher 11/(0) apporte par lUI ll-cllCl1ltilloll paramtre e la quantit suival1te positive Olt nlllle (si elle existe) :

le

Note: L(X, 0) peut tre considre comme une variable alatoire, car fonction de variable
alatoire:
II

L(X" X 2, , X n ; 0)
THORME

IIf(X i ; 0)
i=1

Si le domaine de dfinitio1f de X Ile dpend pas de


- E (--iJe:!

e a/ors:

Pln

L)

si cette quantit existe

- Dmonstration: L tant une densit L,L(X, e)dx

1.

En drivant les deux membres par rapport e et en remarquant que:


aL(x,

ae

e) =

L x.

e a ln L(x, 0) ( .) ae

296

13aL'estimation

il vient:

i
( rJ2 ln L(x, 8)

aln L(x, 0)

~.. .'

ao

L(x, O)dx = 0

ce qui prouve que la variable alatoire Drivons une deuxime fois:

a ln L(X, 0) est centre et que 11/(fJ) = V (ri ln - L) -.

ae

ao

J~"
en utilisant
~l

ao

O)dx

cl ln L(x, e) aL(x. 0)

ao

ao

dx = 0

nouveau la remarque sur

ilL(x,O) . . , il Vient:

ao

' L(x, i (a ln aA th):!L(x,O)d . aoJ ---,-..,--Ldx +


i):!ln

0)

L(x,

[~'J

G~n

ce qui dmontre la proposition.

Remarque: L'utilisation de l'hypothse du domaine indpendant de 0 intervient lors de la drivation sous le signe

J.

Un exemple de variable alatoire domaine non indpendant de 0 est fourni par X de densit exp( -(x - e)) si x ~ e ~ 0 sinon.
PROPRIT DE ' n(6}

Additivit. Si le domaine de dfinition ne dpend pas de

e on a :

En effet les oprnteurs esprance et drive seconde sont linaires. Ceci veut dire que chaque observation a la mme importance, ce qui n'est pas le cas pour la loi uniforme sur rO, 8] o la plus grande observation est la plus intressante. .. Prcison. SOt X une variable alatoire de Laplace-Gauss N(O, rr) o rr est connu. On a 11(0) 1frr:!; l'information apporte par une observation sur la moyenne est d'autant plus grande que la dispersion est petite . Dgradation de l'information. Montrons que l'information porte par une statistique est infrieure ou gale celle apporte par l'chantillon. Soit T de densit g(1, 0) la statistique que l'on substitue l'chantillon, on a :
L(x,O)

g(l, 0)1t (x, Olt)

131i11!11L'estimation

297

o h(x, Olt) est la densit conditionnelle de l'chantillon. On a donc, en prenant l'esprance des drives secondes:

le dernier terme est la quantit d'information conditionnelle 111 /1'(0) (ou information supplmentaire) ; elle est postive ou nulle, donc:
11'((3) ::; 1/1(0)

on voit donc que si T est exhaustive 11"(0) domaine de X est indpendant de e.

= liO)

et que la rciproque est vraie si le

Remarque: On a suppos le domaine indpendant de


1'1(0)

IlO)

a ln h)2] [( - - + 2E ao

[a dO 9adB h]
ln ln - .---.-

car sinon on aurait d crire:

et on n'aurait pas pu conclure une diminution de l'information cause du signe inconnu du dernier terme.
11'(0)

Ce dernier tenne peut laisser supposer, s'il est ngatif et grand en valeur absolue, que > l,/U)) ; jusqu' prsent aucun exemple d'augmentation de j'information n'a t dcouvert mais le problme reste entier.

13.2.4

Gnralisation plusieurs dimensions 6 paramtre vectoriel E~.I"

On consultera Fourgeaud, p. 216, pour un traitement complet. En rsum, on a, si le domaine ne dpend pas de 6 : La matrice de l'information ill a pour terme gnral :
(f,_ .

= cov[a Inf(X, 0). a Inf(X, 8)]

rfl.j

ao.'
1

lO.
J

c'est une matrice symtrique dfinie positive.

Sail Tl' T 2, , T un systme de s statistiques fonctionnellement indpendantes; la notion de dgradation de l'information se gnralise comme suit:

On appelle systme exhaustif un systme de s statistiques fonctionnellement indpendantes, tel que :


L(.y l , X~ .... ,
XI/;

6)

g(tl!

t'2'"''

t~;

6)11 (x},

.1:'2, ... ,

xu)

et l'on a J'/I(O) -

JiT/' 'l':' ... ,-,;(6)

= 0 si et seulement si le systme (Tl' T2 . . . , TJ est exhaustif.

298

13_L'estimation

THORME DE DARMOIS

Ulle condition ncessaire et suffisallte pour qu'ull ll-clwntil/oll admette 1111 systme rsl/m exhaustif est que:
s

lnf(x. 0)
/1

Lalx)ai(O)
j;1

h(x)

+ 13(0)
llIl

en particulier:

T; = La;(Xj )
j=!

l, 2, ... , s est

systme ex/wl/stri'

13.3
13~3.1

L'ESTIMATION SANS BIAIS DEVARIANCE MINIMALE

Les rsultats thoriques

On dispose pour rsoudre ce problme d'une suite de quatre thormes qui montrent en dfinitive que l'estimateur de variance minimale est li l'existence d'une statistique exhaustive.
THORME

1 UNICIT
Wl

l
lIIIIIIiI

S'il existe slrement.

estimateur de

e sans biais, de

l'ariance minimale, il est lIniqlle presque

Dmonstration: Raisonnons par l'absurde et supposons qu'il existe deux estimateurs sans biais TI et T'2. de e de variance minimale V.
Soit:
E(T I )

T) est sans biais car:

E(T) =

+
2

E(T2 )

=--

+
2

et : o p est le coefficient de corrlation linaire entre TI et T:!. Puisque V(T1)


V(T3 ) = V(T:!)

V il vent

~ (l + p). Si p <

1 on a V(T3 )

<

V ce qui est impossible, donc p = 1. C'est--dire V(T:!) il vient

Tl - E(Td = (T2 - E(T2 ) avec > O. Comme V(T,) E(Td = E(T]J = 0 on a Tl (ps).
THORME

= 1 et

pUsque _

2 : RAO-BLACKWELL

Soit T Wl estimateur qllelconljue sans biais de 0 et U lI1le statistiqlle exhaustive pour O. Alors T* = E(T 1 U) est Ull estimateur salis biais de e au moins aussi bail qlle T.

13_L'estmation

299

_ Dmonstration : T* est un estimateur de e. Cette proposition est non triviale car il faut montrer que T* dpend seulement des Xi et non de B.
Puisque U est exhaustive, la densit conditionnelle de l'chantlIon sachant U ne dpend pas de 6 et E(T 1 U) = L.,IL(X,6 1 u)dx ne dpend donc pas de 6 mais des -' seuls. e T* est sans biais. D' aprs le thorme de l'esprance totale:

E(T*)

= E[E(T 1 Un
V(E(T 1 U)} V(T*)

E(T)

T* est au moins aussi bon que T. D'aprs le thorme de la variance totale:


V(T) V(T)

E(V(T 1 U)

+ E(V(T 1 U)
2;:

Comme E( V(T 1 U est positif ou nul on a V(T)

V(T*).

De plus si E(V(TI U)) = 0 c'est que presque srement T=f(U), il y a relation fonctionnelle entre Tet U. Ce thorme fournit une mthode pour amliorer un estmateur sans biais donn.
THORME
lIlIII

S'il existe /Ille statistique exlwllstl'e U, alors l'estimateur T sans biais de 6 de l'lIrallce mhlimale (unique d'aprs le thorme 1) ne dpend que de U.
C'est un corollaire du thorme 2. On ne peut amliorer T par la mthode de Rao-Blackwell puisque T est de variance minimale. Donc V(T*) = V(T) et T = f( U). Cependant, comme il peut exister plusieurs estimateurs sans biais de e fonction de U, on n'est pas sr que j'estimateur T* obtenu par la mthode de Rao-81ackwell soit le meilleur, il faut alors introduire la notion de statistique complte.
DFINITION

si E[h(U)]

On dit qll'ulle statistique U est complte pour zme.tmille de lois de probabilitsf(x, 8) = O\l6=::;.1z = Ops.

On montre en particulier que la statistique exhaustive des familles exponentielles est complte. /1 Ainsi par exemple pour une loi de Poisson 0J() o est inconnu S = ~Xj' est complte.
i=1

En effet:

E[h(S).I =

s=o

2: Iz(s) exp( -J/)-I


s.
:.:: 2: lz(s) (IlY
.>""0

(Il )"

= exp( -n)

s!

300

13111!1l1L'estimation

La srie
lI(s) = 0
THORME

L - - : ' ne
.s=O

;: : Iz(s )I1 J

s!

peut tre nulle 'd. que si elle est nulle terme terme donc si

'ds

N.

4 : LEHMANN-SCHEFF

Si T* estllll estimatellr SllllS billis de e dpendant d'Lille statistique exhai/stive c01nplte U alors T* est l'unique estimateur sans biais de variallce minimale de e. EH particulier si 1'011 dispose dj de T estmateur sans biais de e, T* = E(T 1 U).
En effet l'estimateur de variance minimale est unique et dpend de U, d'autre part U tant complte il n'existe qu'un seul estimateur sans biais dpendant de U (soit TI = f(V) et T2 = g( V) E(T,) - E(T2 ) 0 'de=!>f 9 ps) l'estimateur obtenu est donc ncessuirement le meilleur. En conclusion si "on dispose d'un estimateur sans biais fonction dune statistique exhaustive complte, c'est le meilleur estimateur possible.

13.3.2

Exemple

Le nombre de demandes hebdomadaires d'un certain produit est une variable X qui suit une loi de Poisson f1>(.) o . est inconnu. On cherche valuer la probabilit que X soit nul. On note XI> Xl' ... , XII les observations de X pendant Il semaines. Le paramtre estimer est exp (- .) P(X = 0). Une premire mthode consiste . compter le nombre de fois et estimer P(X = 0) par la frquence K/lI. On a bien sr: exp( - .)(1 exp( - )
f(

o r on a observ X

------"exp~(._) = exp( -2.) ( Tl

_1)

K/Il est sans biais, convergent, mais ne tient pas compte du fat que X suit une loi de Poisson. 11 ne peut donc tre optimal, ce qui se vrifie en remarquant que K/11 n'est pas une fonction

de S

Il

Xi qui est une statistique exhaustive complte pour ..


X)

X est l'estimateur de variance minimale de ., mais exp( L'estimateur sans biais de variance minimale T de exp K/ll par l'application du thorme de Rao-Blackwell : Introduisons les variables de Bernoulli: YJ , Y2' ... , Y siX j 0 si Xi> 1
ll :

est biais pour exp ( - .).

.) peut tre obtenu en amliorant

d'o P(Yi = L) = exp(-) d'o P(Yj 0) = 1 - exp( - )

13- L'estimation

301

On a: Or:

T= E[Y1/S
=

E[~I sJ = ~ E[K/S] n
Il

EIT,/S]
s)

sJ = P(Y I

= l/S = s)

= P(X 1 = OIS =

D'aprs la formule de Bayes:

P(X I

= OIS

s) = -------~P(S s)

P(S

= s/X 1 = O)P(X, = 0)

S suit une loi de Poisson 2P(ll). La loi de S, sachant que XI


fJIll -

0, est une loi de Poisson

1)) car alors S/(X l

= 0)

X'}.

+ X3 + ... + Xw

[exp( -(n - 1))l


D'o:

n s!

1))S

' exp( - )

P(X,

OIS = s)

[exp( -n)] - sI

(IlY

_(Il

-Il

l).\' -_ ( 1
~)
l\nX

~)Il.r
11

Donc:

Un calcul laiss au ;oin du lecteur montre que VtT) = exp( -2) (ex p(;) donc bien V(n

1) ; on a

< V (-;;)

car :

V(T)

= exp( -2) [~
Il

v(li) = "
13.3.3

exp( -2)

[~
n

); +-+ ... +-+ ... ]

2n

k!n

Ingalit de Frchet.. Darmos-Cramer-Rao (FDCR)

Le rsultat suivant nous indique que la variance d'un estimateur ne peut tre infrieure une certane borne, qui dpend de la quantit d'information de Fisher apporte par l'chantillon sur le paramtre e.

Si le domaine de dfinition de X ne dpend pas de biais de e :


V(1') 2 : -

e, on a pour tout estimateur T sans

InCe)

302

1311i111111L'estimation

et si T est un estimateur sans biais de

/zee) :

_ Dmonstration : Considrons:
ln cov T - T ln L) ( , aao L) =E(a - ae

a ln L puisque - - est centre. Donc:


ae
cov ( T,

a ln ae

ae " Jt--Ldx =
-

a ln L

Jt aL dx
ao
h'(e)

de

dJ tLdx = -de E(T) d


VCT)

D'autre part l'ingalit de Schwarz donne:

a InL)]:! [ cov ( T, as ::5


c'est--dire:

v (a

InL) ae

c.q.f.d.

La question se pose de savoir si l'on peut atteindre la borne minimale de la variance; un tel estimateur sera qualiti d'efficace. L'efficacit n'est donc dfinie que dans les conditions de rgularit suivantes qui sont celles de FDCR:

a)

Le domaine de dfinition Eo est indpendant de -

e.

b)

aL

ae

eXIste et est contmue par rapport a

Cl

u.

c)
d)

1,/8) est finie.


-, T -

aL

aL

ae

ae sont intgrables par rapport e.

Dire que T est efficace c'est dire que sous ces conditions:

T est donc un estimateur sans biais de variance minimale de l1(e).

13_L'estimation

303

On a alors le rsultat suivant:


THORME SUR L'EFFICACIT

.. La borne de Cramer-Rao ne peut tre atteinte que si la loi de X est de j'orme exponel1tielle :

Inf(x,S) = a(x)a(8)
car Test 1lcessairemellt
exhaust~f pOlil'

+ b(x) + f3(O)
O .

Si la loi de X est bien de lafonlle pl'cdeme, il n'existe ( ulle transfo17l1ationlinaire prs) qu'ulle seule fonction lr(9) du paramtre qui puisse tre estime eiJcaceme11l : c'est MEl) = - - - , L'estmateur de I1(S) est alors:
W(B) al(S)

La l'arance minimale est:


1

\CT)

(W(S)
a/(O)
::=

-lla'(9) dO

/i'(f}) na'(f})

_ Dmonstration:
ct

T est exhaustif si T est efficace de I1(S).

Comme Eu ne dpend pas de El on a toujours:

Une consquence de FDCR est que:


V(T)~--

[I1'(S)]1 11'(0)

Si T est efficace on a :

donc: donc lie)


{T(EI). T est donc exhaustive.

D'aprs le thorme de Dannois on a alors:


Inf(x, 9) = a(x)a(O)

f3(9)

+ b(x)

304
1 /1 Si T est efficace pour /z(0) et si - ~ l1(X;) est exhaustif alors:
ll i =1

13_L'estimation

h(6)

W(8)
a'(8)

et

=-

2: a(X

1/

i)

lI i =[

L'ingalit de FDCR tant une ingalit de Schwarz, l'galit n'est ralise que s'il y a colinarit pour presque tout e, c'est--dire:

-- =
a8
Il

a ln L

{S)[T - h(8)1

Or. si L

IIexp(a(xi)a(8)
i=J

13(8)
Il

b(Xi)) on doit avoir:

ln L = a(8)

2: [/(Xi)
i=l

Il

+ "13(0) +

~b(Xi)
;=1

et:

JlnL --

ae

Il

a'(8)2:a(x;)
i= 1

1113'(8)

= lIa'(O)

[1
=

- 2:a(xJ
j=

Il

W + -,Il

(O)]
1

Il

a (0)

a ln L . En identifiant les deux expressions de - - on obtient:


as
T

=-

1 '1

2: a (X;)

et

/z(0)

_weB)
a/(e)

Il i= 1

h(O) et T sont donc uniques par construction une transformation affine prs.

La rciproque est alors immdiate: Si la loi est de la famille exponentielle, la statistique exhaustive T

=-

2: a(X;) est efficace


=

ri

13'(8)
pour - - - . a'(S) Calcul de la variance V(T) :

11

D e 1nC 8)

'VT ' = Ir a '(0 )- ( ) et

VT ) (

[h'(S)f = - - - on d'd' e Ult:

InC 8 )

h'(S) V(T) = -1 1 - , - 1 n a (8)


1 h'(O) On peut montrer que V(r) = - -,li a (8)

Le thorme qui vient d'tre dmontr montre qu'on ne peut estimer efficacement qu'une seule fonction h{ 8) qui peul ne pas tre intressante.

13_L'estimation

305

.. Exemple 1. Esti mation du paramtre 0 d'une loi -Vo :

Inl(.\, 8) = (0
Si l'on prend T =
J
Il

1)ln x - x - ln fCO) comme estimuteur, on voit que l'on estime effi-

i~1 ln Xi

Il

= ln

(II

D )1/11
Xi III

cacement 1i(0)

= dO ln Cf( e)).

cl

.. Exemple 2. Dans une loi N(m, cr), si

est connu cr 2 est le seul paramtre que l'on

peut estimer efficacement et ceci par T = 1

.
~~., .

Il

2: (Xi - mY!.. L'estimaleur


Il

il
2

st sans biais pour cr, de variance minimale car T est exhaustive, mais n'est pas efficace au

sens de 1a b orne cle FDCR .

s, .
1/11

est mconnu

1"

estlmaleur

~ '\12

r(y )
r(~)

est sans laIs et

b' .

de variance minimale pour 0'. En pratique on utilisent S* biais (voir 12.2.3).

~~

11 -

S qui est trs lgrement _

Remarque: Si X ne suit pas une loi N(m, cr) on ne peut donner d'expression universelle d'un estimateur sans biais de cr.
La recherche de statistiques exhaustives peut ne pas aboutir. on possde cependant une mthode d'obtention de bons estimateurs.

13.4

LA MTHODE DU MAXIMUM DE VRAISEMBLANCE (MV)


XII

Cette mthode consiste, tant donn un chantillon de valeurs XI' '\2, . . . , comme estimaton de f) la valeur de 0 qui rend maximale la vraisemblance:

prendre

En pratique on prend comme estimation de f) une solution de l'quation dite "quation de la vraisemblance".

ao

ln L(X; 0) = 0,

Intuitivement, puisque L reprsente une densit de probabilit, cela revient supposer que l'vnement qui s'est produit tait le plus probable ).

306

13_L'estimation

Les justifications mathmatiques sont les suivantes:


PROPRIT

S'il existe une statistique exhaustive U, alors l'estimateur du MV en dpend. () ln L , 0 revIent rsoudre

En effet L(x, 0) = g(u, O)It(x) et rsoudre

aB =

aln 9 aB =

0 donc

o = f(u),
Si est sans biais, ce qui n'est pas toujours ralis, sera la meilleure estimation possible de 0 si les conditions des thormes prcdents sont ralises.
PROPRIT

2.

INVARIANCE FONCTIONNELLE

Si

est l'estimateur du MV de 0, f()

est l'estmateur du MV de f(8),

Ldmonstralion est lmentaire si f est bijective, plus dlicate dans le cas gnral. S'il n'existe pas de statistique exhaustive U on a les proprits asymptotiques suivantes.
PROPRIT

3 (ADMise)

l
A

Il existe une suite de valeurs 6 racines de l'quation de la vraisemblance qui converge 11 presque srement vers 0 si ~ 00, De plus 3N tel que 11 > N entrane que n ralise effectivement un maximum pour L.
4 (ADMise)

PROPRIT

il" ~ e -'!." N(O,


~Il/(O)

1)

On peut donc affirmer, avec certaines rserves, qu'asymptotiquement V( 81/)


que 811 est asymptotIquement efficace.

1 - - , donc 111 (8)

Remarques: L'quation de la vraisemblance n'a pas ncessairement une racine unique. De plus cette mthode n'est valable utilement que pour de grands chantillons, cause de ses proprits asymptotiques, s'il n'existe pas de statistique exhaustive U.
liliiii

Exemple: Estimation du paramtre de la loi de \Veibull standard:


F(x) = exp( .lB)

fCx

~ e)

= Bxll-1exp( -x")

Le domaine de dfinition ne dpend pas de B, mais la loi n'est pas de la forme de Darmois, cause du terme en x H Appliquons la mthode du maximum de vraisemblance:
L(x;

e) = o"I1 x~l-lexp( - 2: X~l )


i=1 1

Il

Il

13_L'estimation

307

ln L(x ; 8)
ri ln L

11

ln
Il

e + (a /1

l)

L ln Xi - :Lxl'
i'=l i=l
/1

Il

Il

-- - - +
aS El

:Llnxi - :L xplnxi
i=l 1

est donc solution de l'quation: = ____ __ 11

2: (x~\ i=t

1/

1)ln Xi

Cette quation non linaire ne peut se rsoudre que numriquement par approximations suc_ cessives et on ne peut donc pas obtenir de forme explicite pour l'estimateur de e.

Extension plusieurs paramtres 9" 9 2J , 9 p :


La mthode consiste alors rsoudre le systme d'quations simulLanes :

aInL =
as)

j = 1,2, .... p

Les proprits de convergence et d'invariance fonctionnelle s'tendent sans difficult et on a galement la proprit de normalit asymptotique suivante ( l , 2, . a, quand Il tend vers l'intini, une distribution qui tend vers une loi gaussienne il p dimensions de vecteur esprance Sb S}, ... , el' et dont la matrice de variance est l'inverse de la matrice d'infomlation de Fisher.

,e,,)

Plus prcisment si le doma[~~elnd~ d]tnitiOn ne dpend pas des paramtres estimer:

'L-! a pour terme gnral - E - - .


aS i aa)

13.5

L'ESTIMATION PAR INTERVAllES (lES FOURCHETTES D'UNE ESTIMATION)

Il est souvent plus raliste et plus intressant de fournir un renseignement du type a < plutt que d'crire schement = c. Fournir un tel intervalle [a, estimation ensembliste.

e< b
a ou

bl

s'appelle donner une estimation par nterval1e de

13.5.1

Principe

La mthode des intervalles de confiance est la suivante: Soit Tun estimateur de B~ (on prendra videmment le meilleur estimateur possible), dont on connait la loi de probabilit pour chaque valeur de a. tant donn une valeur en de S, on dtermine un intervalle de probabilit de niveau 1 pour T, c'est--dire deux bornes t 1 et t2 telles que :
P(t 1
CL

<

<

t 21

e = eo) = 1 -

308

13_l'estimation

Ces bornes dpendent videmment de 00 , On choisit dans la plupart des cas un intervalle de probabilit risques symtriques /2 et Ci/2. On adopte alors la rgle de dcision suivante: soit t la valeur observe de T: si t E (1" f;.] on conserve 6(J comme valeur possible de 6 ; si f ~ ft" 12] on limine 80 , On rpte cette opration pour toutes les valeurs de

e.

On peut traduire graphiquement celte mthode dans un plan (6; (fig. 13.2).

n o l'on trace f,(8) tie)

e
FIGURE

13.2

On lit donc selon une verticale les intervalles de probabilit et, selon l'horizontale issue de f, l'intervalle de confiance [a, bl de niveau 1 - Ci (coefficient de confiance).

[a, b] est un intervalle alatoire car il dpend de t.

Si l'on augmente l - . on augmente la longueur de l'intervalle de probabilit, donc les courbes s'cartent. Si Il augmente, comme T est suppos convergent, V(T) diminue, donc [lb t;.] diminue et les courbes se rapprochent de la premire bissectrice.

13_L'estimation

309

13.5.2
13.5.2.1

Esprance d'une variable normale


(J'est connu

Xest le meilleur estimateur de 111 et Xsuit une loi LG (III. :tn ).


L'intervalle de probabilit de X l Ci

est:

d'o l'intervalle de confiance:

si 1 -

ct =

0.95 on a 110./1

1.96.

13.5.2.2

(J'est inconnu

On utilise le fat gue T libert.

--s- 'Ill

X -

1/1 _ r----;

l suit une loi de Student il (JI - 1) degrs de

L'intervalle de probabilit pour 1 est:

-t a/ 2 <
d'o l'intervalle de confiance:

x - m _r----; --s- 'In - 1 <

t{l/:!

X-

s
[(1./2-===

<

III

<.x + tnn._~
< .x +
t u/ :' _ r

Vil - 1

ou bien:

<

s*

111

'Ill

Le thorme central-limite a pour consquence que les intervalles prcdents sont valables pour estimer III d'une loi quelconque que 11 est assez grand.

13.5.3
13.5.3.1
T
Il

Variance d'une loi normale


m est connu
'1 ") nT 1 (Xi - 11/)- est le mel' 1 1 ' cur estimateur de <r et -:;- suit un X~ comme somme de (r

= -1 ~ L.J
Il i=1

carrs de LG(O, 1") indpendantes.

310

13_L'estimation

Soit /.:1 et k:. les bornes de l'intervalle de probabilit d'un X~ (fig. 13.3) :

P ( kt < nT < k:. ) = 1 -

Ci

L'interval1e de confiance est:

13.5.3.2

m est inconnu

'"1 1 On utli1se S - = -

JI i=

2: (Xi Il

X)- et on

..,

Sal t

nS!., . que - , SUl t Xn -" SOlt II et


(T-

/2

les bornes de

l'intervalle de probabilit:

On a alors:

_ Exemple:

Il

= 30; !p- = 12; 1 - a = 0.90; 8.46

<

(T2

< 20.33 d'o 2.9l <

(T

< 4.51._

Note importante: Ces formules ne sont valables que si x suit une loi nonnale.

13.5.4

Intervalle de confiance pour une proportion p

tant donn une population infinie (ou finie si le tirage s'effectue avec remise) o une proportion p des individus possde un certain caractre, il s'agit de trouver un intervalle de confiance pour p partir de J, proportion trouve dans un chantillon de taille 11. On sait que I~f suit une loi binomiale @ (n, p) ; si loi binomiale ou l'abaque (voir Table A3. bis).
Il

est faible on utilisera les tables de la

13_L'estimation

311

Si Il est grand on sait que nF - N(np ; ~llp(1 - p)) donc que:

L'intervalle de probabilit symtrique est:


p

Uu/"l

(l-P) ~ < F< P+


Il

t1(l/2

~(l-P)
Il

Posons

llu/"l

= k pour simplifier les notatons.

Les bornes de l'intervalle de probabilit sont donnes par :

y=p/i. ~p(l - pl
Il
"J k~p(1 - p) (y - p)- = - - - - : . -

soit:

JZ

ou:

y-

"1

+ p-

,(

1+

k -

k'2p 2py - - = 0
n

J1

quation d'une ellipse passant par l'origine et le point O. 1), points pour lesquels elle a une langenle verticale (fig. 13.4).
y

FIGURE

13.4

Les parties de l'ellipse extrieure au carr unit sont sans sign fication ; elles correspondent aux zones o 1'approximation normale n'est pas valable. tant donn une valeur f observe, l'intervalle de confiance s'obtient en rsolvant en
p l'quation :

k' .e + p'2( 1 + -;;1) -

2pf

-p=O
Tl

k:'

312

13_L.'estimation

ou :

p2 1 + -;; - p -;;

k2)

(k2 + ~r) + .f- = 0

Rsolvons-la compltement:

(2/+ -k2)
d'o:
p
11

formule encombrante mais dont on peut trouver une approximation en considrant que 11 est grand et en faisant un dveloppement limit au premier ordre en 0/11) ; le premier terme

k:! 2f+
_ _ __ Il _ /

+ 0 (~), le second se rduit en simplifiant par 11"!.


Ir

I(~

+ 4fnk'2 - 4(-nk2
4(11

+ e-)2

ce radical est quivalent au suivant (en crivant que chaque terme est quivalent celui du plus haut degr en 11) :

_ _ _ = I(,/f(l
-~

- f)
Il

donc, on a si n est grand, l'expression approche suivante pour l'intervalle de confiance :

_ Exemple:

Il

= 400

;f= 36 % ; 1 -

= 0.95. On a 0.31 < p < OA1.

Application: Dtermination de la taille d'un chantillon en fonction de la prcision souhaite.


Supposons que t'on dsre connatre p avec une incertitude ilp pour un niveau de confiance donn 1 - Ci risques symtriques. La formule prcdente nous indique que:

ilp soit:

"l.t/2

-V{O - J)
Il

Il

(lt a i"!.)2 f(1

- f)

(ilp)2

1311!1i1111L'estimation

313

Sifest inconnu on obtient une majoration de pour un sondage). D'o la relation:

11

en posantf

1/2 (eus le plus dfavorable

Dans le cas

d~un

intervalle 95 %,

lI{Y12

= 1.96 # 2, ce qui donne la formule approche:

11 lI1ax

1 {ilpf

on a les valeurs approches suivantes de

11 :

~
!J.p
0.01 0.02 0.05

0.90 6760

0.95 9600 2400 380

0.98 13530 3380 540

1 700
270

Remarque: Les formules prcdentes sont souvent abusivement utilises (en particulier dans les mdias) pour expliquer les marges d'erreur des sondages d'opinion. On ne peut en ralit pas les appliquer aux sondages d'opinion, sauf la rigueur pour donner une borne suprieure de l'erreur d'chantillonnage: en effet, les sondages d'opinion ne sont pas effectus selon la mthode du tirage alaLoire simple quiprobable dans la totalit de la population, mais selon des techniques bien plus complexes (stratification, quotas etc. cl chapitre 20) qui conduisent diminuer la marge d'erreur du sondage simple en utilisant des informations auxiliaires. Signalons enfin que ces calculs de variance ne servent qu' calculer l'erreur de au tirage alatoire des observations; l'chantillonnage n'est qu'une des sources d'erreur, pas toujours la plus importante, laquelle s'ajoute bien d'autres types d'erreurs : non-rponse ou refus. dissimulation, incomprhension des questions etc.

13.5.5

Intervalle de confiance pour le paramtre d'une loi de Poisson

Soil x la moyenne d'un l1-chantillon d'une variable ::P(h). Comme on sait que P(X ::.s k) = P(X~a.+ 1) pour h risques symtriques de niveau 1 -

> 2h), on en dduit l'intervalle de confiance


:

o Xz.; u est le quantile d ~ ordre

d'un X:! c degrs de libert.

314

13_L'estimation

Il

IIIIIIExemple:11

l5;nx= ~x
i=\

20; = O.L

- - :5 x.:5--

26.5 3D

58.1 30

soit 0.88 :5 X. :5 1.94

Pour les grandes valeurs de 11, lorsque 2nx dpasse les possibilits des tables de X2, on utilisera une des approximations normales de la loi du X2. Si l'on utilise l'approximation de Wilson et Hilferty, qui est de loin la plus prcise, on a :

__ 1

9nx

)3

S(x + ~)( 3-1llx + 1 + 1 li


11

9(nx

))3

13.5.6

Ellip~ode de conf.i~nc:e pOiJr la moyenne d'une loi de Gauss multidimensionnelle

On a vu au chapitre 12 paragr. 12.3 que le centre de gravit d'un Il-chantillon suivant une loi N/,(fJ. ; ~) tait tel que si ~ est connu:

ou si ~ est inconnu :
(II - p) (g _ fJ.)'V-1 (g

fJ.)

= F(p ; II

p)

On peut donc en dduire des zones de confiance ellipsodales de ..... uutour de g dtines par :
1 (g

- I1YV- (g - Il)

:0;

~ F1-a(p ; Il -

p)

Pour p = 2 on a des zones eUiptiques duns le plan. Lorsque Il est trs grand; toujours pour 2, l'ellipse 95 % a pour quation approximative:

Les rsultats prcdents s'appliquent en particulier pour les estimateurs du maximum de vraisemblance car ils sont asymptoliquement normaux. La tigure suivante donne l'ellipse de confiance 95 % pour la position simultane des moyennes de deux variables dans un chanti110n de 24 observations (prix et superficie d'apparlements parisiens*). La forme elliptique est ici trs accentue car le coefficient de corrlation entre les deux variables est lev r = 0.9733
Les donnes sont prsentes au chapit 16, 16.4,1.

13.L'estimation

315

800 ~--------~----------~--------~--------~~~~----~

600

------------. ---f---------------. ----------. ----- ----------------r.---------------1


1

)(

400

-- . . ------ -:-:--------; ------------------------------ ---r---- --- ------1 1 1

~_

-~---t

200

...: ... . ------- ----. . . ---.. . . ------ . -------.. ,. . - ---.. . . --r--------.


1

: :
-----------~:
1

------_-------.

'.
20

: :
1
1

: :
1 1
1

o ~--------~.----------~------------------~'--------~
60

100

140

180

220

Superficie
FIGURE

13.5

Ellipse de confiance 95 90

13.6 13.6.1

INTERVAllES DE PRDICTION ET DE TOLRANCE


Prvision d'une valeur d'une loi normale

Lorsque m et er sont connus, J'intervalle de probabilit 0.95 il risques symtriques pour une valeur isole est 111 1.96er. Supposons maintenant que III soit inconnu et estim par la moyenne d'un n-chantil1~n x. Soit X une nouvelle observation, indpendante des 11 prcdentes. L'cart entre X et X suit alors une IO nonnale :

N( 0; rr~ 1 + ~) car V(X - Xl

er2

..J... -

. .
Il

On en dduit l'intervalle de prvision pour une valeur future

1.96cr'" 1 -~

W;, +

S~S*~ @ f+,l
X-X X-X
Il

Lorsque cr est aussi inconnu, en appliquant la mthode de Student, on trouve aisment que
= T,I-I d'ou 1'IIltervalle

'-'

ts

--. 11-1

11+1

n-l

L'intervalle prcdent est une estmation de l'intervalle TH 1.96cr. On voit aisment qu'il est plus large et converge vers lui lorsque 11 augmente indfiniment. On l'appelle intervalle de tolrance sans niveau de contiance, car il existe aussi des intervalles de tolrance avec niveau de confiance 1 - Ct, tels que l'intervalle 111 1.96rr soit contenu avec une probabilit 1 - Cl dans l'intervalle de tolrance. Les intervalles de tolrance avec

316

1311111111 L'estimatiol'l

niveau de confiance sont plus larges que les intervalles de tolrance sans niveau de confiance. Les formules sont plus complexes et nous renvoyons le lecteur intress l'ouvrage de Hahn & Meeker (1991).

13.6.2

Ellipsode de tolrance pour une distribution normale Npl. ; 2;)

De manire similaire, l'ellipsode d'quation (x - J.L)' ~-I (x J.L) k, o k est le frac tile de niveau 1 Ci d'un X7" est un domaine de probabilit 1 Ci pour x.

Si J.L est estim par g, centre de gravit d'un nuage de

Il

ralisations indpendantes de X.

alors x

g suit une loi

NI'( 0; l:( [ + ~) ). Si l'on estime de plus l: pur la la matrice de variance


g)'y-I (x -

du nuage Y, en appliquant les formules du chapitre prcdent, on trouve que:

g)=

( Il Il

I)J)

- - F(n~, Il
Il

Il

+1

.- ,0)

ce qui donne l'quation de l'ellipsode de tolrance en remplaant la variable de Fisher par son tractile. En reprenant les donnes des 24 appartements parisiens, on trouve l'ellipse de tolrance suivante avec p 2. On distingue clairement l'existence de deux points atypiques.

950~--~----------------------------------------------~

750

..

550

350

..
150

.. .

: :G1

. ".
o
20 40 60

80 100 Superiicie

120

140

160

180

200

FIGURE

13.6

Ellipse de tolrance il 95 %

Les ellipses de tolrance sont trs utHes en analyse discriminante.

13l1i1111L'estmation

317

13.7

ESTIMATION BAYSIENNE

Le point de vue baysien ne fat pas de distinction de nature entre paramtres et observations : ce sont des variables alatoires. Le problme de )' estimation est alors rsolu (en thorie du moins) de faon simple et lgante: il suffit de calculer la distribution CI posteriori des paramtres sachant les observations.

13.7.1

Prsentation

Soit un n-chantlIon d varables indpendantes et identiquement distribues telles que leurs densits conditionneIJes xJe soientf(xi : 8). Si ron note comme d'habitude L(x ; 0)

= il f(x
i= 1

Il

j ;

8), la vraisemblance (ici conditionnelle),

la loi conjointe des observations et du paramtre (Xl' X::., ... , XII' 8) est L(x ; O)g(O) o g(8) est la densit a priori de O. La 1 01
Cl

"d . postenort u parametre est g( 01x) =

L(x;8)g(S)

f(x)

. El e est donc proportIOnnelle

au produit de la vraisemblance par la densit a priori. On peut donc en dduire des rgions probables pour e, analogues baysiens des rgons de confiance classiques, mais aussi des estimations ponctuelles : il suftt de calculer un paramtre de tendance centrale de la loi CI posteriori, le plus souvent l'esprance, mais aussi le mode ou la mdiane.

13.7.2

Estimation baysienne de la moyenne p.. d'une loi normale de variance connue

On suppose ici que la loi de XI fL est une N(fL ; cr) et que la loi a priori de fL est une N(fLo ; ,.). Un calcul simple montre que la loi Cl pOSTeriori de I-L/X)! X=,-, ... , XII est une loi nonnale

d, "esprance E(fL1x) =

cr='-J.Lo
11

+ 'j2X

et de vanance V(I-L 1 x)

Il

- +,.='Il

L'esprance a posteriori de I-L est donc une moyenne pondre de l'esprance a priori et de la moyenne empirique des observations. Si l'on introduit le concept de prcision qui est l'inverse de la variance, la prcision rique est Tb =
ri
(l

pl~iori est 111 = ~, la prcision de la moyenne empi'j-

On VOlt alors que E(fL x) =

111/-Ln 111

+ 1l,X et --1- = 1 ll:!

V(I-L x)

111

+ 112' La preCISion de l'estlma-

, . .

teur baysien est donc la somme de la prcision de l'estimation Cl priori et de celle de la moyenne empirique, r estimateur baysien est alors la moyenne des deux estimations (a pror; et empirique) pondres par les prcisions. Si 1'informaLion il priori sur le

318

13_L'escimation

paramtre est trs prcise, les observations ne la modifient gure. Si la prcis~n ri tend vers zro, ou si 11 tend vers l'intini, on retrouve l'estimateur classique X.

Cl

prio.

13.7.3

Estimation baysienne d'une proportion p

Illustrons ce cas par un exemple issu du contrle de qualit: on est amen fI estimer la probabilit p qu'une marchandise soit dfectueuse partir de l'observation du nombre de marchandises dfectueuses X dans un lot de Il marchandises. Pour une va]eur donne de p, X suit une loi binomiale @(n ; p). L'ensemble des valeurs possibles de p peut tre probabilis si des expriences antrieures ont permis d'tudier les variations de p. Tout se passe donc comme si p tait une ralisation d'une variable TI valeurs dans [0 ; 1] que l'on supposera de densit g(p) (loi Cl priori). On a donc le modle suivant: la loi conditionnelle de X/TI = p est une g}J(n ; p) et la loi marginale de 7r de densit g(p). On cherche en gnral dduire p de la valeur de X. Il faut donc pour cela trouver la loi de probabilit a posteriori de '1T.ou loi de TI/X x. La formule de Bayes donne:

l(p /

x _ . _ P(X = x/7i
.1 -

J:) -

p)g(p) P(X = x)

soit :

f(p/X = x)

(1 P'~(1 Jo

p)"-.f g(p)dp

on pourra alors estimer p en choisissant la valeur la plus probable a posteriori ou la valeur moyenne a posteriori.

Si

'TT

suit une IO bta de paramtre a et b on a :


g(p)

r(a+b)

11-1

r(a)r(b) p

( - p)/J-l

d'o:

donc la lO de TI/X = x est une loi bta de paramtres a

+ x et Il + b - x.

L'esprance

Cl

posteriori vaut alors

a+x b . a+ +11
(l

Tout se passe donc comme si l'on avait effectu men li dfectueux.

+ b expriences suplmentaires ayant

Le choix des paramtres a et b de la loi bta se fat en gnral partir de considrations sur la valeur la plus probable a priori et son incertitude. Si l'on choisit II = b 1 ce qui correspond une distribution uniforme de TI sur [0 ; l] (toutes les valeurs de p sont li priori quiprobables) on trouve comme estimation de p

13_L'estimation

319

, soit x + 1 (esperance

11+

Cl

. . . posterwrl') SOtt x / Il ( de ou valeur de p correspon d ant au maXlmo

mum de g(p/x)). Remarquons que la loi marginale de X peut s'obtenir aisment:

- C,\
/1

f(x + l)f(n - x fCn + 2)

1)

Il! .t!Cn - x)! - ---- xl(n x)1 (Il + l)!

P(X = x)
Il

+1

La loi de X est alors la loi discrte unifom1e sur [0 ; l ; .. , ; Ill.

13.7.4

Gnralisation

Les deux cas prcdents se rsolvaient simplement car les lois Cl priori et conditionnelles permettaient de trouver la loi Cl posferori dans la mme famille que la loi a priori: les lois a priori et conditionnelles sont dtes ( conjugues )1, Cette facilit mathmatique disparat si l'on travallle avec des lois quelconques et les calculs des distributions a poslen'ori deviennent impossibles mener analytiquement. Il faul alors recourir des techniques spcifiques de simulation pour obtenir de bonnes approximations des lois il posteriori (C. Robert, 2001). On peut considrer la statistique baysienne comme un raffinement de la statistique paramtrique et lui appliquer les mmes critiques sur le caractre plus ou moins raliste des modles. De plus le choix de la distribution Cl priori peut donner lieu des divergences entre spcialistes et reste fatalement subjectif (voir la discussion sur la nature des probabilits au chapitre 1). Il n'en reste pas moins que cette approche est la seule qui permette d'incorporer de l'information pralable et se rvle trs utile dans des cas limites comme des essais de fiabilit o on ne constate que trs peu de dfaillances (voire mme aucune) sur 11 essais: les estimations classiques du taux de dfaillance sont alors impossibles ou trs imprcises,

13.8

NOTIONS SUR l'ESTIMATION ROBUSTE

La thorie classique de l'estimation permet de dterminer les estimateurs optimaux pour une famille de lois de probabilit dfine l'avance. Ces estimateurs dpendent en gnral fortement de la loi hypothtique: s celle-ci n'est pas correcte, les estimateurs ne le seront pas. On peut donc chercher des classes d'estimateurs relativement insensibles des modifications des lois'a priori: c'est un premier type de robustesse, Un deuxime type de robustesse concerne l'insensibilit des valeurs aberrantes }) : la moyenne arithmtique est sans doute le meilleur estimateur de l'esprance pour une vaste classe de lois mais elle est trs sensible aux grandes valeurs. L'attention des thoriciens et des praticiens a donc t attire sur la recherche d'estimateurs robustes en particulier pour la valeur centraIe d'une distribution.

320

On se proccupera ici d'estimer la valeur centrale l1l d'une distribution symtrique. 1 Il La moyenne arithmtique x = est trs sensible aux valeurs extrmes: on {"\hl~,,>.,..1_.. "'' ,''

2:Xi

Hi='

un estimateur robuste de nI en liminant les valeurs extrmes. On appelle ainsi mCIVf'lnnl> tronque d'ordre Ct la moyenne arithmtique obtenue en liminant les Cln plus grandes et petites valeurs (une valeur gnralement recommande est Cl = 15 %). La mdiane est le cas extrme d'une moyenne tronque
(Cl

= 50 %) et est trs robuste.

Au lieu d'liminer les Clll plus grandes et plus petites valeurs, on peut les rendre toutes gales aux dernires valeurs prises en compte: c'est la "winsorization". Une autre approche est cene des M-estimateurs introduits par P. Huber : on cherche ici IL qui minimise une fonction du type:

i=l

p(~) S

o s est un estimateur robuste de la dispersion ce qui revient annuler

*=p'.

\I/(X
i=l

f.L) o

On retrouve la moyenne arithmtique avec p(x) = x2 , la mdiane avec p(x) = Ixl. Les estimateurs du maximum de vraisemblance sont des cas partculiers de NI-estimateurs avec: p(x) -lnf(x) et lIJ(x) =

j'ex)

Remarquons que le NI-estimateur f.L peut s'crire comme une moyenne pondre des observations :
Il

2:HJ;Xi

f.L=-'l--

i=l

2:w;
i= 1

Wi

dpend des donnes

ll'i

Pour la moyenne arithmtique Pour la mdiane tIJ(x)

x t!J(x)

= x.

1 si x> 0 et t!J(x) =

l si x

< O.

On obtiendra toute une famlle d'estimateur en utilisant diverses formes de \11 :


'I/(x) = x

(1 - X:)2 c-k {
x

pour

lx 1::5 C
k k

(Tukey)

si x <-k

lV(X) =

si Ixl <
si x >

(Huber)

+k

Ces estimateurs sont obtenus par un processus de calcul itratif.

13_ L'estimation

321

L' estmation robuste de dispersion s est prise gnralement gale la mdiane des carts absolus la mdiane.

1.5

-1.5

FoncHon de Huber
FIGURE

Fonction de Tukey

13.7

Dans l'exemple du chapitre 5, la variable (~ taux de taxe d'habitation a une moyenne arithmtique de 17.7707, mais prsentait quelques valeurs extrmes. Les estimations robustes sont: Moyenne tronque 5 % : Estimateur de Huber avec k = 1.339 : Estimateur de Tukey avec c = 4.685 : 17.6182 17.8149 17.6872

13.9

ESTIMATION DE DENSIT

La densit f(x) d'une variable continue donne une information visuelle importante sur la rpmttion des valeurs. Nous prsentons ci-dessous les lments de la thorie de l'estimation de la densit en l'absence de tout mod1e paramtrique: on parle d'estimation fonctionnelle ou non-paramtrique. On supposera que f(x) est une fonction continue. La plupart des dmonstrations seront omises au profit d'une prsentation pratique. Le lecteur intress se reportera aux ouvrages de M. Delecrox et B. Slvemlan cits en bibliographie.

13.9.1

Gnralits

Pour tout point x on cherche une fonction des observations (XI> Xl' ) iJx) possdant les proprits d'une estimation de la densit inconnue f(x). Il semble lgitime de souhaiter que:

.f~(x) soit une densit (positive, d'intgrale gale il 1)

.tlr:) soit convergent .ilr:) soit sans biais


Un rsultat d'apparence paradoxale est que la proprit d'tre sans biais est impossible satisfaire: il n'existe pas d'estimateur sans biais en tout point x de ]a densit.

322
Pour la convergence, on se proccupera non seulement de la convergence en tout point mais aussi de la convergence uniforme atin de borner l'erreur d'estimation maximale suplj~l(x) - f(x) 1.
x

L'erreur quadratique moyenne intgre (MISE en anglais) est souvent utilise pour mesurer l'cart quand Il est fini entre l'estimateur et la densit inconnue:

13.9.2

De l'histogramme la fentre mobile

Considrons des histogrammes classes d'gales amplitudes h. L'histogramme est l' estimateur de la densit le plus lmentaire. Pour qu'il soit convergent, il faut faire tendre la largeur de classe vers a quand 11 tend vers l'infini, mais il ne faut pas que Il tende vers zro trop vite pour que l'effectif par classe puisse quand mme tendre vers l'infini et assurer la convergence au point x. 11 faut que 1111 ~ 00 ce qui peut tre assur par Il = _ ~.
'1/1

Mais en pratique 11 est fini et l'histogramme souffre de dfauts vidents: il est discontinu, et constitue donc une approximation rustique d'une fonction continue. De plus par construction, tous les ponts d'un intervalle ont la mme densit estime, ce qui n'est pas raliste. Une premire amlioration due Rosenblatt est la mthode de la fentre mobile ); : on construit autour de chaque x une classe de longueur h centre sur x: I.x - 11/2 ~ x + h/2] et on fait ensuite varer x. L'estimation en x esl i,(x) tombant dans la classe. --:.. o Il, est le nombre d'observations I1h Tl r

Cet estimateur reste cependant discontinu, car n,t' varie de plus ou moins une unit chaque fois gue x correspond une des valeurs Xi de l'chantillon. L'exemple suivant montre le rsultat pour les donnes dj tudies au chapitre 5 :

0.12 0.1
~

0.08 0.06 0.04 0.02

eii
Cl
ID

c:

Taux de taxe d'habitation


FIGURE

13.8

13_L'estimation

323

13.9.3

La mthode du noyau (Parzen)

Remarquons que l'estimateur de la fentre mobile peut s'crire : ll(X) =

~ K(X - Xi)
nh
1

o le

noyau)} K est la fonction indicatrice de l'intervalle [-1/2 ; 1/2].


K(u) = 1 SI - - S LI S -

K(u)

0 sinon
Xi

ilt) est donc une moyenne arithmtique de fonctions donnant chaque observation poids l/h si elle appartient l'intervalle centr sur x.

un

C'est parce que K est discontinue que ir(x) l'est. Pour obtenir une estimation continue, on prendra une fonction noyau K(lI) continue ; on la choisira de plus paire par raison de symtrie, dcroissante quand li s'loigne de zro. ir(x) est alors une moyenne de fonctions donnant chaque observation Xi un poids d'autant plus petit que 1 Xi X 1 est grand. Si K est une densit alors h(x) le sera galement. Les noyaux les plus couramment utiliss sont: le noyau triangulaire K(u)

1-

lui

si

-lSusl
-(l-Ir)

le noyau parabolique d'Epanechnikov K(lI)

"1

si
S

lsu

15 . , "l ' . l 1 blwelg1t de Tu k K(a) = 16 (1 - Ir)e oey


le noyau sinusodal K(u) le noyau gaussien K(li)

si

1 S li
Il

=:

cos (

i Il)
--lr

si

-1 oS

oS

-1 exp -

ili

(1 ,)
2

Les noyaux support born ncessitent moins de calculs que le noyau gaussien. La constante de lissage h dtermine la rgularit de /'I(X), Comme pour la largeur des classes d'un histogramme un Il trop grand lisse trop et un lz trop petit conduit une estimation trs chaotique alors que le choix du noyau n'est pas crucia1. Ainsi pour les mmes donnes que prcdemment on trouve les estimations suivantes pour le noyau sinusodal avec trois largeurs de fentre 10 %, 20 % et 30 % de }' tendue de X) :
0.12 0.1
'(ij
(]J

0.1 0.08
~ [il 0.06

0.06 0.05 0.04 0.03 0.02 0.01 10


FIGURE

0.08 0.06 0,04 0.02 10 20 30 40

c:

c:

"in
c:
(]J

(]J

0.04 0.02 20 30 40

10

20

30

40

13.9

324

13111111L'estimation

Le choix de la valeur optimale de Il a fuit l'objel d'une abondante littrature. Outre le choix subjectif par inspection visuelle (les logiciels permettent souvent de faire varier lz en continu avec un curseur). mentionnons: la rgle gaussienne Iz = cr 1'4/ (31l)] 1/5 . D.9min 1.34] la rgle de Sllverman Il = -------'-::-------Il

la validation croise gnralise o on cherche en quelque sorte une estmation du maximum de vraisemblance mais en enlevant Xi pour l'estimation en Xi maxlli ;~I(X;).
" i=1
/1

4 11
14.1

Les tests statistiques

INTRODUCTION

14.1.1

les faiseurs de pluie

Des relevs effectus pendant de nombreuses annes ont permis d'tablir que le niveau naturel des pluies dans la Beauce en miHimtres par an suit Llne loi de Laplace-Gauss LG(600, 100). Des entrepreneurs, surnomms faiseurs de pluie, prtendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par insmination des nuages au moyen d'iodure cl' argent. Leur procd fut mis l'essai entre 1951 et 1959 et on releva les hauteurs de pluies suivantes: Anne mm 1951 510 1952 614 1953 780

1954
512

ts955
501

1956 534

1957 603

1958 788

1959 650

Que pouvait-on en conclure? Deux hypothses s'affrontaient: ou bien l'insmination tait sans effet, ou bien elle augmentait rellement le niveau moyen de pluie de 50 mm. Ces hypothses pouvaient se fOImaliser comme suit, si de X variable alatoire gale au nveau annuel de pluie:
III

dsigne l'esprance mathmatique

Ho: m { Hl: 111

= 600 mm
650mm

Les agriculteurs hsisant opter pour le procd forcment onreux des faiseurs de pluie tenaient pour l'hypothse Ho et il fallait donc que l'exprience pUsse les convaincre ~ c'est--dire que les faits observs contredisent nettement la validit de l'hypothse Ho dite hypothse nulle (Hl s'appelle l'hypothse alternative). Les agriculteurs n'taient donc dcids abandonner Ho qu'en prsence de faits exprimentaux traduisant une ventualit improbable compte tenu de HoIls choisirent ( 0.05 comme niveau de probabilit, c'est--dire qu'ils taient prts accepter HI si le rsultat obtenu faisait partie d'une ventualit improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que

326

14_ Les tests statistiques

des vnements rares ne sauraent se produire sans remettre en cause le bien-fond de l'hypothse de dpart Hn ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas o prcisment les vnements rares arrivent quand mme. _Comment dcider? Puisqu'il s'agit de tester la valeur m il est naturel de s'intresser X moyenne des observations qui nous apporte le plus de renseignements sur m. X est la variable de dcision . Si Ho est vraie, comme l'exprience a port sur Laplace-Gauss LG( 600, : ) . En principe, de grandes valeurs de X sont improbables et on prendra comme rgle de dci~ sion la suivante: Si X est trop grand, c'est--dire si X est suprieur un seuil k qui n'a que 5 chances sur 100 d'tre dpass, on optera pour HI avec une probabilit 0.05 de se tromper. Si X < k on conservera Ho faute de preuves suffisantes. Il est facile de calculer k grce aux tables et on trouve : 100 k = 600 + -3- 1.64
11

9 ans, X dOt suivre une loi de

655

(fig. 14.1)

600
FIGURE

14.1

La rgle de dcision est donc la suivante: si !S. > 655 mm, repousser Ho et accepter HI ; si X < 655 mm, conserver Ho. L'ensemble d'vnements {X> 655} s'appelle la rgion critique ou rgion de rejet de Ho. L'ensemble complmentaire {X < 655} s'appelle la rgion d'acceptation de Ho. Or, les donnes releves indiquent que = 610.2 mm. La conclusion tait donc de conserver Ho ; c'est--dire que l'insmination tait sans effet notable sur le niveau des pluies: les valeurs observes pouvaient donc tre dues au hasard en l'absence de toute influence de l'iodure d'argent. Cependant, rien ne dit que conserver Ho mette l'abri de se tromper: en effet, les faiseurs de pluie ont peut-tre raison, mais on ne s'en est pas aperu. Il y avait deux manires de se tromper: croire les faiseurs de pluie, alors qu'ils n'taient pour rien dans le rsultat obtenu (probabilit cr 0.05); ne pas croire les faiseurs de pluie, alors que leur mthode est bonne et que seul le hasard (malencontreux pour eux), d au faible nombre d'observations, a donn des rsultats insuffisants pour convaincre les agricul teurs.

14_Les tests statistiques

327

, . 100) Supposons que les fmseurs de plUie ont raison, alors - LG ( 650, 3 ' 0 n commet XE
une erreur chaque fois que X prend une valeur infrieure probabilit:

a 655 mm, c'est~-dire avec une


13 = 0.56

ce qui est considrable.

s'appelle le risque de premire espce; fJ s'appelle le risque de deuxime espce. On aura au cours de cet exemple Je rle particulier jou par Ho : si la forme de la rgion critique > k est indique par la nature de HI (650 plus grand que 600) la valeur de k ne dpend que de Ho. Les deux hypothses ne jouent pas des rles symtriques, k est dtermin par Ho et a. ;

13 est dtermin par la considration supplmentaire de HI'

14. 1.2

Les grandes catgories de tests

On peut classer les tests selon leur objet (ajustement, indpendance, de moyenne, de variance, etc.), ainsi qu'il est fait dans la suite du livre ou selon leurs proprits mathmatiques: on parIe ainsi de tests paramtriques ou non, de tests robustes, de tests libres. Un lest est dit paramtrique si son objet est de tester certaine hypothse relative un ou plusieurs paramtres d'une variable alatoire de loi spcifie ou non: le paragraphe 14.2 en donne des exemples. Dans la plupart des cas, ces tests sont bnss sur la loi normale et supposent donc explicitement l'existence d'une variable alatoire de rfrence X suivant une loi LO. La question se pose alors de savoir si les rsultats restent encore valables lorsque X n'est pas normale: si les rsultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport un certain modle est donc la qunlit de rester relativement insensible certaines modifications du modle : on constatera que les tests de moyenne ou de non corrlation sont robustes. Une catgorie particulirement intressante de tests robusles est la classe des tests libres (en anglais distribution free) : il s'agit de Lests valables quelle que soit la loi de la variable ala~ toire tudie, donc valables en particulier lorsque l'on ignore tout de cette loi (cas trs frquent en pratique) ; on peut dire qu'il s'agit de tests robustes par rapport la loi de probabilit. Exemple: les tests d'ajustement du X2 Ces tests sont bien souvent des tests non paramtriques mais pas ncessairement (tests de moyenne). Pour les tests paramtriques on distingue gnralement hypothses simples et hypothses composites:

une hypothse simple est du type H : 9 = eC) o eo esL une valeur isole du paramtre ; une hypothse composite est du type H : 9 E A o A est une partie de ~ non rduite un lment.
La plupart ds hypothses composites se ramnent aux cas: 9

> 90 ou 9 < 90 ou 9 =f:: eo-

En fait, on construira les rgions critiques en utilisant la valeur eo seule. Lorsque l'hypothse alternative est composite, la puissance du test est variable et on parle de fonction puissance 1 13(9).

328

141111B1Les tests statistiques

14.2

THORIE CLASSIQUE DES TESTS

Un test est un mcanisme qui permet de trancher entre deux hypothses au vu des rsultats d'un chantillon. Soient Ho et HI ces deux hypothses, dont une et une seule est vraie. La dcision aboutira choisir Ho ou Hf. Il y a donc 4 cas possibles schmatiss dans le tableau 14.1 avec les probabilits correspondantes:

TABLEAU

14.1

Dcision

~
Ho
Hl

Ho
1 -a.
a.

Hl

~
l-~

14.2.1
a. et
~

Risques et probabilits d'erreur


sont les probabilits d'erreur de premire et deuxime espce:

a. probabilit de choisir Hl alors que Ho est vraie: ~ probabilit de conserver Ho alors que Hl est vraie.
Ces erreurs correspondent des risques diffrents en pratique; ainsi dans l'exemple des faiseurs de pluie le risque de premire espce consiste acheter un procd d'insmination inefficace; le risque de deuxime espce laisser perdre une occasion d'augmenter le niveau de pluie et peut-tre de rcoltes plus abondantes. Dans la pratique des tests slatistiques, il est de rgle de se fixer a. comme donn (les valeurs courantes sont par exemple 0.05, 0.01 ou 0.1) de prfrence en fonction du risque de premire espce couru, ce qui fait jouer Ho un rle prminent. Le choix de Ho est dict par des motifs assez variables: pUsqu'on ne veut pas abandonner trop souvent Ho, Ho doit tre une hypothse solidement tablie et qui n'a pas t contredite jusqu' prsent par l'exprience; Ho est une hypothse laquelle on tient particulirement pour des raisons qui peuvent tre subjectives; Ho correspond une hypothse de prudence; exemple: test de l'innocuit d'un vaccin; il est prudent de partir d'une hypothse dfavorable au nouveau produit; Hu est la seule hypothse facile fOlmuJer ; exemple: tesler m = m() contre 111 1110; il est vident que seule Ho : 111 = m() permettra d'effectuer des calculs.

'*

a. tant fix, ~ sera dtermin comme rsultat d'un calcul (ceci n'est possible que si l'on connat les lois de probabilits sous Hl)'
Cependant iJ faut savoir que ~ varie en sens contraire de a.. Si l'on veut diminuer a. risque d'erreur de premire espce, on augmente 1 a. probabilit d'accepter Ho. si Ho est vraie ~ mais surtout on est conduit une rgle de dcision plus stricte qui aboutit n'abandonner Ho que dans des cas rarissimes donc conserver Ho bien souvent tort.

14_Les tests statistiques

329

A force de ne pas vouloir abandonner Ho on finiL par la garder presque tout le temps, donc on augmente [3.

[3 est la probabilit d'opter pour HI en ayant raison. 1


test JJ.

J3 s'appelle (( puissance du

a tant fix, il importe de choisir une variable de dcision: variable qui doit apporter le maximum d'informations sur le problme pos et dont la loi sera diffrente selon que Ho ou Hl est vraie (sinon elle ne servirait rien). Il faut que sa loi soit entirement connue au moins si Ho est vraie.

La rgion critique West l'ensemble des valeurs de la variable de dcision qui conduisent carter Ho au profit de H" La forme de la critique est dtermine
par la nature de HI, sa dtermination exacte se fait en crivant que:
p(WIHo)

La rgion d'acceptation est son complmemaire W et l'on a donc: et La construction d'un test n'est rien d'autre que la dtermination de la rgion critique, cette dtermination se faisant sans connatre le rsultat de l'exprience, donc a priori. La dmarche d'un test est la suivante (pour rsumer) : 1) 2) 3) 4) 5) 6) 7) Choix de Ho el HI_ Dtermination de la variable de dcision. Allure de la rgion critique en fonction de HI' Calcul de la rgion critique en fonction de ct. Calcul ventuel de la puissance 1 - [3. Calcul de la valeur exprimentale de la variable de dcision. Conclusion: rejet ou acceptation de Ho-

14.2.2

Choix de la variable de dcision et de la rgion critique optimales: la mthode de Neyman et Pearson

La faon de choisir la variable de dcision n'a pas encore t lucide dans les paragraphes prcdents o nous nous sommes contents de formaliser l'intuition. Le choix de la meilleure variable de dcision il t rsolu thoriquement par les statisticiens J.Neyman et E.S.Pemson dans une srie d'articles clbres pams de 1933 1938. Mais que veut dire meilleure variable rgion critique optimale?
,

ou plutl ainsi que nous l'utiliserons dsormais,

NOLIS cherchons la rgion critique optimale c'est-~l-dire un domaine de [R'I parmi l'ensemble de toutes les ralisations possibles de l'chantillon (X" Xl' ... , XII) dont la forme dfinira ensuite une variable statistique.

Il s'agit de maximiser la puissance 1 - J3 ceci pour une valeur donne de de premire espce.

fi'

risque

Nous allons tout d'abord envisager le test entre deux hypothses paramtriques simples puis nous gnraliserons d'autres types d'hypothses.

330

14_ Les tests statistiques

Soit X une variable alatoire de densitf(x, 8) o 8 est un paramtre rel inconnu; L(x, 8) dsignera en abrg la densit de l'chantillon.

Il s'agit de tester:

Ho: 8 { HI: 8

= 80 = 81

Supposons a connu. Soit HI une rgion de ~" telle que:

1.
Il s'agit de maximiser: Nous pouvons crire :

L(x, O())dx

= P(WIHo} =
p(WI Hl)

Il'

l - [3

1
Il'

L(x, 8 1)dx

THORME DE NEYMAN ET PEARSON

l
lIIIlI

La rgion critique optimale est d4finie par l'e11semble des points de ~Il tels que:

Dmonstration

.. S'il existe une constante k e" telle que l'ensemble HI des points de ~,r o :
1 ---=- > (I

L(x ; 8 ) L(x ; Sn)

soit de probabilit a sous Ho : P( WIHo) de 1 - [3.

= a,

alors cette rgion HI ralise le maximum

En effet soit HI' une autre rgion de ~Il telle que p(HI'IHo}

= a; W'

diffre alors de Wpar

. ,L(x;8 1) <k. a (fi19. 14')) L" Integrale : ~ cl es pomts ou .~.


L(x; 80 )

1
IV

L(x; 8 1) L(x ; 8 )dx o L(x ; 00)

FIGURE

14.2

14_Les tests statistiques

331

diffre de l'intgrale: pour les parties non communes W et W' . Wet W' ayant sous Ho mme mesure a, l'ensemble (W - '\V') des points de W n'appartenant pas W' a mme mesure sous Ho que l'ensemble (W I - W) des points de lV' n'appartenant pas W. L'intgrale:

est alors strictement suprieure :

f f

W-W'

L(x ~ 8,) ---'-L(x: 0o)dx L(x ~ 00)

L(x; 8 ,) --..;..-L(x; So)dx W'-IV L(x ~ 80 )

comme intgrale, prise par rapport la mesure L(x ; 8o)dx sur un ensemble de mme mesure, d'une fonction strictement suprieure; le thorme de la moyenne indique en effet:

JIV'-w L(x ; S()

L(x;

L(x ; 8 )dx = L(;: ; 8 1) P(W' - W IHo) o L(~ ; 80)

avec

fE W'

- W

JII'-W' L(x ; 8

L(x ; 8 1) L(x ; 8 )dx = o


0)

L(~ ; 8n)

L(~ : 8,) P(W

avec ~E W - W'

ce qui dmontre le point a) car:

Montrons que cetle constante ka existe.


SoitA(K) la rgion de ~II o L(x, 8 1) > KL(x, 00) et considrons P(A(K) 1Ho) qui est une fonction continue monotone de K, si X est densit continue. Comme L(x, 8,) est toujours positif, car c'est une densit, on a p(A(O)IHo) = 1. D'autre part si K ~ cc, avec une densit borne on a P(A(K) 1Hn) ~ O. II existe donc une valeur intermdiaire ktt telle que P(A(k[l = . _

14.2.3

tude de 1 -

Il : puissance du
.

test

Nous allons montrer que 1 - 13 >

Un tel test est dit sans biais:

P(WIH,)

> p(WIHo}

puisque: d'o:

L(x, 8 ,} > k(l L(x, 80 )

f.
:

L(x, 8\)dx > k ..

IV

f.

L(x,Oo)dx

li'

Si ka est> 1 la proposition est triviale ; si kt! est < i nous allons montrer, ce qui est
quivalent, que 13 < 1 et

332
L(x, fll) West tel que - - L(x, 00)

14_Les tests statistiques

< ka' donc:

ce qui dmontre la proposition.

Convergence du test: On peut dmontrer que si

Il ~ cr.;"

13 ~

1.

Remarque: Comme P(A(K)) est une fonction monotone de K, on voit que si a. diminue, ku augmente; donc diminuer le risque de premire espce Ci fait augmenter le risque de
deuxime espce

131 - f3 = p(L(X, 1) >


L(x, 90 )

ka

HI) est une fonction dcroissante de k.

14.2.4

Tests et statistiques exhaustives

La considration d'une statistique exhaustive simplifie considrablement la pratique du test car alors la rgion critique en dpend exclusivement.

S'il existe une statistique exhaustive T pour 0, de densit 9U,


L(x, 9) = 9(1, fl)lt(x)

(i), on a :

Le test de Neyman et Pearson se rduit alors :

14.2.5

Exemple
contre

Test de la moyenne d'une loi de Laplace-Gauss, d'cart-type cr connu:

Ho : LG(m 0' (f)


La statistique exhaustive pour /Il est x el :
g(x,11I) =

HI : LG(m" cr)

(f'"

.'V-;;
Le rapport des denSits
. g("i,1I1
g(x, mo)

1 exp(1 (xcr- Ill):!) (2; -2 /..[;;

donne:
Il

g(x,m

g("i,11lo)

exp ( --,-., [(x :2 cr11l0)-

" g("i, ml) ,.". Ecnre que _ > kil est eqmvalent a ecnre que (x g(x, 1110)

. .,

(x -

111 1

f >

k~ soit:

14- Les tests statistiques

333
k~~. k~'.

Si ml> mo il est quivalent d'crire.x > Si


ml

<

n10

il est quivalent d'crire .x <

Ce rsultat vident l'intuition ~e si 1111 > m, on rejettera Ho si X est trop grand. On trouve la constante k en crivant P(X > k 1 Ho) = . En reprsentant sur un mme graphique les densits de X dans Ho et dans HI on a la figure 14.3.

FIGURE

14.3

14.2.6
14.2.6.1
&III

Tests entre hypothses composites


Test d'une hypothse simple contre une hypothse composite
T -) e

Exemples:

{e

III

La fonction puissance
L'hypothse HI tant compose d'un ensemble de valeurs de e, pour chaque valeur particulire de e on peut calculer 1 (3(6), d'o une fonction, dite fonction puissance, dcrivant les variations de 1 - j3 selon les valeurs de e dans Hl' La figure 14.4 montre la fonction puissance du test Ho : correspondant l'exemple introductif.

= 600 contre HI

111

> 600

0.9 0.9
o

:t al 0.6
'p[ 0.5

0.7

DA

a. 0.3

0.2
0.1
Or---~=-~--.---~---r---r--~---.-

550

575

600

625

650

675

700

725

750

Moyenne
FIGURE

14.4

Fonclion puissance. Test unilatml Ho

= 600.

Note: la courbe donnant j3 en fonction du paramlre est appele courbe d'efficacit.

334

14 _ Les tests statistiques

ID

Tests UPP

Un test est dit unifoffilment le plus puissant (UPP) si, quelle que soit la valeur de 8 appartenant l'hypothse allernative, sa puissance 1 - f3(8) est suprieure la puissance de tout autre test.
II1II Exemple: Dans le test Ho : /Il = 1110 contre HI: 111 = 111 1 > 1110, on a pu remarquer que la rgion critique ne dpend pas explicitement de 1111 et donc que celte rgion critique est la mme pour n'importe quel 1111 > nlo. Le test prcdent est donc UPP pour Ho : 111 = 1110 contre H 1 : III > 1110'

n est vident cependant qu'il n'existe pas de test VPP pour Ho: 111 = 1110 contre H 1 : l1l 1= 1110 car, s'il en existait un il devrait tre VPP pour les deux sous-hypothses H; : 111 > 11lo et H;': 11/ < 11l(). Or les tests de Ho contre HI et Ho contre H'1' sont prcisment VPP et diffrents l'un de l'autre. _
14.2.6.2

Test entre deux hypothses composites

Si Ho est elle-mme composite, a dpend de exiger aCe) :5 a donn.

e selon les valeurs de e E


ou 8 2: 82
:5

Ho, et l'on devra

L'existence de tests UPP pour les cas suivants:

Ho: 8 < 80 { H] : 8 2: 8 0

JHo : e
et

lHI: 8

:5 el
1

< 8

82

est assure par le thorme de Lehmann que nous ne dmontrerons pas.

, .. ee theoreme suppose 1" eXIstence d' une statIstique G te Ile que 1e rapport L(x;; 8 ) est une L(x 8
1)

fonction monotone croissante de G si SI > 82 (thorme dit du rapport de vraisemblance monotone )). De telles statistiques sont fournies par les statistiques exhaustives des lois de forme exponentielle. D'autre part il n'existe pas de tests VPP pour les cas Ho : 8] :5 8 :5 82 contre H 1 : 8 > 82 ou 8 < 8] et a fortiori: Ho : 8 = Bo contre HI : 8 =1= 80 , Dans les cas o il n'existe pas de tests UPP, on cherchera s'il existe de bons tests parm une classe plus restreinte, celle des tests sans biais par exemple. Ainsi pour le test prcdent il existe un test UPP sans bias s'il existe une statistique G(x) rpondant la condition de Lehmann et la rgion critique est: ou G(x) > Cl G(x) < CI

14.2.6.3

Test du rapport des vraisemblances maximales

Ce test est fort utile l o les mthodes prcdentes ont chou:

Test de Ho
8

= 8n contre H 1 : 8 =1=

80 o 8 peut tre un paramtre vectoriel de dimension p.

Posons: on a donc 0 :5 :5 1.

L(x, 80)

sup L(x, 8) o

14-Les tests statistiques

335

est intuitivement une statistique convenable pour un test car plus . est grand, plus l'hypotbse Ho est vraisemblable (principe du maximum de vraisemblance). Cela revient remplacer 0 par son estimation par la mthode du maximum de vraisemblance.

La rgion critique du lest sera:

<K

THORME

1
.

La distribution de -21n

est asymptotiquement celle d'lm X~ dans l'hypothse Ho

_ Dmonstration: Nous la ferons pour p


A

1. On a, en dveloppant en srie de Taylor:


A

ln L(x, 00 )

ln L(x, 8) = (O{) - O)-In L(x, 8)

ao

+
ou 8*
E

l 2(0 0

ri 0) ae21n L(x, 8*)


A

[8 o ].

Comme S est l'estimateur du MV on a -ln L(x, S) = 0, d'o: ilO

-2 ln

= -(So

- S)--.., ln L(x. S*)

a ae-

Dans l'hypothse Ho: 8 = 80 , on sait que l'estimation du MV converge presque srement vers 80 ; donc 0* ~ On et lorsque Il ~ 'J.) :
-----11 ~ cc,

a2 1n L(x ; 0*)

if! 1nf(x;; 8) _ 1 ~ a2 Inf(xi; 8) -1l-,L...i HJ2 n Hf!

Lorsque

la loi des grands nombres nous indique que:

;; 2:
Donc: On a alors:

1 a2 1nf(x;; e)
ae i

~E

[a:!.ln f ]
a8 2

= 11(0)

- - - - - ~ 11/ 1(8)

a2 ln L(x ; 0*) ao

:::: l'ICO)

Note: Le domaine de dfinition doit tre indpendant du paramtre.


THORME

2
la suite des tests est cOll\'ergente, c'est-cl-dire que la pUlssallce l

Si Il

~ ,

f3 ~

Test entre deux hypothses composites.


\. A n f ormera l\.
::::;:

1) E

sup L(x, 8) !fn bt' , 'd L( _ 0) e t on OIen t l mernes proprIetes que prece emrnent. es A . . , sup x,

Belli

336

14111111111Les tests statistiques

14.2.7

Niveau de signification, risques, vraisemblance et approche baysienne

Dans la thorie classique que nous venons d'exposer, issue des travaux de J. Neyman et E.S. Pearson, un test se prsente sous forme d'une rgle de dcision binaire fonnule a prori, c'est--dire avant d'avoir failles observations, et intangible ds que le rsque a a t fix. Les donnes recueillies ne peuvent modifier cette et ne sont utilises qu'a posteriori: on est, ou on n'est pas, dans la rgion critique. Cette manire de procder interdit toute manipulation des rsultats et garantit l'objectivit de la dcision: elle convient bien dans des problmes de rglementation ou de normalisation. Il y a cependant quelques inconvnients: Seule une partie de l'information est utilise. On aboutit parfois des conclusions paradoxales: Ainsi si on rejette Ho avec Cl 5 %, avec les mmes observations on la rejettera a fortiori si }' on avait choisi a 20 %. Quel est alors le risque de la rejeter tort: 5 ou 20 % ? Ce genre de questions perturbe bon droit le praticien. Une pratique courante, utilise notamment dans les logiciels, consiste alors calculer le niveau de signification, appel ~< p-value }) en anglais: c'est la probabilit de dpassement de la valeur observe de la variable de dcision sous Hn. Ainsi dans l'exemple des faiseurs 0.38. de pluie, le niveau de signification est p(X > 610.2/ Ho) Cela veut dire que pour tout a<O.38 on conserve Ho. Cette valeur leve est donc en faveur de l'hypothse nulle: les donnes la confortent. Inversement plus le niveau de significaton est faible, plus les donnes sont en faveur de l'hypothse alternative et du rejet de Ho. La dmarche classique de Neyman-Pearson revient simplement comparer le niveau de signification avec le risque Cl, mais on a ici une information plus prcise. On aimerait pouvoir dire que Ho est plus probable que HI' Il faut se garder de telles expressions, dnues de sens dans un contexte non-baysien. Par contre on peut parler de la vraisemblance de chacune des deux hypothses (du moins quand elles sont simples) Lo et LI' Il faut noter ici que le test de Neyman-Pearson ne consiste pas se prononcer en faveur de l'hypothse la plus vraisemblable puisque la constante k(l du rapport des vraisemblances n'est pas gale 1 : il faut que HI soit k(l fois plus vraisemblable que Ho, et kt! est gnrale ment plus grand que 1, ce qui traduit le rait que Ho est privilgie. Dans r exemple des faiseurs de pluie, il est facile de calculer ku qui vaut (f. 14.2.5) :
w

eXP(-~[(655 2.10

650f

(655 - 600f!J)

exp(1.35) = 3.857

Pour rejeter Hn, il aurait fallu que HI soit prs de 4 fois plus vraisemblable que Ho. Dans un contexte baysien on peut parler de probabilits a posteriori (c'est dire une fois connues les observations) si on s'est donn des probabilits Cl priori sur les tats de la nature.

Il faut donc ici se donner TIo et TIl notre infom1ation pralable.

=1

TI!),

probabilits

Cl

priori de Ho et Hl qui quantifient

14_Les tests statistiques

337

Si x dsigne le vecteur des observations:

P(Ho/x)

= -----7oLo(x) + 7 I L,(x)

On peut remplacer les vraisemblances par les densits de la varable de dcision T, si Test une statistique exhaustive. La rgle baysienne consiste choisir l'hypothse la plus probable li posteriori, donc celle qui a une probabilit suprieure 0.5, On vrifie alors que le test de Neyman-Pearson est en fait un test baysien avec une probabilit Cl priori implicite que l'on peuL calculer aisment (1 - 7o)LI(x) L 1(x) en combinant P(H1/x) = . > 0.5 et - - > k 7oL()(x) + (l - 7o)L1(x) Lo(x) Ce qui donne:
7o = 1

+k
'iio

Pour l'exemple des faiseurs de pluie, on trouve que une fois que Ho est favorise.

0,79 ce qui montre bien encore

Lorsque les probabilits Cl priori sont connues, on dfinit le facleur de Bayes qui est le rapport des odds ratos ) des deux hypothses:

B = P(Ho/x)/ P(HI/x)
7O/'ii1

On peut interprter B comme mesurant la variation du rapport des chances en faveur de

Ho contre H[? de la prise en compte des donnes.


Pour des hypothses simples, on trouve facilement que B est gal au rapport des vraisem bl ances B
Lo{x) / . ct - - , ce qUi. reconci'J' le pOInt e vue b ' . et 1 pomt d l ' le ayeslen e . e vue c asslque, L1(x) car B ne dpend pas des probabilits li prori.

14.3
14.3.1

TESTS PORTANT SUR UN PARAMTRE


Moyenne d'une loi LG(m, 0")
(J

14.3.1. 1

connu

Le test repose sur la variable de dcision X. Ainsi pour Ho : par


111

= nlo contre Hl : m =

111 1

avec

1111

>

l11(),

la rgion critique est dfinie

X>

K. k se dtermine en considrant que

X slIitlIne LG(m ;;,;) :

1110) P(X> k 1 mo) = PU> -----;=- =

(k -

rr/'JJl

Pour un exemple on se reportera l'introduction de ce chapitre.

338

1411111i11Les tests statistiques

14.3.1.2

0'

inconnu

La variable de dcision est la variable de Student :

s
Ainsi pour Ho : nt = mn contre HI:
11l =1=

111n la rgion critique est dfinie par:

TII _ I
_ Exemple: Ho : m

=X

nln~
JI -

30 contre HI : m > 30

Un chantillon de 15 observations a donn . 37.2 - 30_r:-. On en ddmt t = ~ 14 6.2 La valeur critique

37.2 et s = 6.2.

4.35. _

= 0.05

(test unilatral) pour un T'4 est 1.761 : on rejette Hn.

Remarque sur les tests de moyenne: Si la variable parente ne suit pas une loi de Gauss, les tests prcdents s'appliquent encore ds que Il est assez grand (n > 30 environ) en raison du thorme central-limite.

14.3.2
14.3.2.1

Variance d'une loi de LG(m, (J')


m connu

La variable de dcision est D Ainsi pour Ho: a

- 2: (Xi - mf
Jl=1

Il

ao contre HI : a

= al avec al >

ao la rgion critique est dfinie par

:2 (X,
Il

m)1

> k et K est dtermin en considrant que


P(D > k)

12D

suit un X~ :

Jli=1

p(x~ > Tl: ~ ao)

14.3.2.2

m inconnu
-

. L a vana bl e d e d' . . est S" = -1 ~(Xi eCISlOn ~


lli=!

-X)'l' est te Il e que I1S - qUI

2 SUit

un

., X~-

,.

Ainsi pour Ho : a = cro contre Hl : cr S2 > k et k est dtermin par :


P(S-

cr, avec cri > ao la rgion critique est dfinie par

,>

k) = P X~-l

( ') > a J1k)

Ci

14aLes tests stiltistiques

339

II1II

Exemple: Ho : CT

3 contre Hl : cr > 3
soit
S2

Avec 20 observations on a trouv s = La valeur critique d'un X19 pour


Ct

12.25.

= 0.05 est 30.144 d'o:

30.144 X 9

20

13.56

La valeur constate s"2 tant infrieure, on ne peut donc rejeter Ho au seuil choisi de 0.05. _

Remarque sur les tests de varance : Les tests prcdents utilisant la loi du X"2 ne sont valables que dans le cas o X sUt une loi de Gauss.

14.3.3

Test de la valeur thorique p d'un pourcentage pour un grand chantillon

On utilise la frquence empirique F qui suit approximativement une loi:

LG(p; ~P(l,~ P))


Ho : P = Po contre HI : P

'* Po. La rgion critique est:


1F

- Po 1 >

lI a /2

(l - Po) Po--Il

_ Exemple: Sur un chantillon de 200 individus d'une commune, 45 % sont favorables l'implantation d'un centre commercial. Ceci contredit-il l'hypothse qu'un habitant sur deux y est t~1Vorable ?
Ho: P = 0.5 {
avec
Ct

HI: P

'* 0.5
W=

0.05

li

1.96 d'o la rgion critique: 1.96

IF - 0.51 >
Comme

~(O.5)'

200 '

SOIt

IIF - 0.51 > 0.07}

If -

0.501 = 0.05, on ne peut rejeter Ho au seuil Ct = 0.05.

Si 11 est trop petit pour que l'on puisse appliquer la loi de Laplace-Gauss, on utilisera l'abaque elliptique (table A.3 bis). lIlIilIII

14.4
14.4.1

TESTS DE COMPARAISON DtCHANTlllONS


Tests de Fisher-Snedecor et de Student pour chantillons indpendants

tant donn deux chantillons de taille III et n:!~ peut-on admettre qu'ils ont t prlevs dans une mme population relativement la variable tudie, ces deux chantillons ayant t prlevs indpendamment l'un de J'autre?

340

14_Les tests statistiques

_ Exemples:
Les rsultats scolaires des tilles et des garons sont-ils comparables? Les demandes de deux produits A et B chantillonnes sur un an sont-elles comparables? _ Mathmatiquement le problme se formalise de la manire suivante: on observe sur le premier chantillon les ralisations d'une variable alatoire XI de fonction de rpartition FICx) et sur le deuxime chantillon les ralisations d'une variable alatoire X2 de fonction de rpartition Flx) on veut tester:

Ho: FlY) = F1(x) { HI : FI(x) ':f: F:.(x)


Le choix de Ho est dict par des considrations pratiques car FI(x) pour obtenir une rgion critique.

'* F

2(x)

est trop vague

Dans la pratique on se contentera de vrifier l'galit des esprances et des variances de XI et X~; en disposant de x1 et et ST et si moyennes et variances empiriques des deux chantillons si les lois de XI et Xl sont gaussiennes.

14.4.1.1

Cas de deux chantillons gaussiens Xl et X 2 E LG(rn2' (Tl)

LG(rnh

(TI)

Les hypothses deviennent alors:

Le test va consister tester d'abord les variances et si elles ne sont pas significativement diffrentes tester ensuite les esprances en admettant 0'1 = cr:.:.
l1li

Test des variances de Fisher-Snedecor


En appliquant les rsultats de la thorie de l'chantillonnage:
-..,- E Xnl

Il,ST
01
0"1

.,

Dans l'hypothse Ho : 0'1 =

et l'on a :
111 S T

111 -

Fil

1 ;lIl-1

n2S~

Si

On peut interprter F comme le rapport des deux estimateurs de crI et cr~ respectivement. = :.:, ce rapport ne doit pas diffrer significativement de 1. F sera la variable de dcision. En pratique on met toujours au numrateur la plus grande des deux quantits:
0'1

et
111 11 2 -

et la rgion critique est de la forme F > k avec k

> 1.

14_Les tests statistiques

341

Si les deux chantillons ont mme taille

111

Il}

= 11, le calcul se simplifie et :

Si le test de Fisher-Snedecor aboutit la conclusion esprances.


_ Exemple:
ni = 25,

(TI

(T:!,

on passe au test des

sr = 0.05,
x
0.07 25
12

0.07,

(Y

= 0.05

. . 13 Il faut penlluter les Indlces 1 et 2 car


La rgion critique est F> 2.18. On accepte l'hypothse
(TI

> ---24

0.09

(T:!.

Test des esprances de Student


Supposons dsormais
(J]

On a : et

(T2

(T.

d'o:

el:
cr tant inconnu on utilise la loi de Student. Par dfinition de la variable de Student :

Il

]Si + 112S~

(T2(11[

+ "2 -

2)

Ce qui se simplifie en liminant (J

Dans l'hypothse Ho,

1111

1H2

et la rgion critique est de la forme:

ITI > k.

342

14_Les tests statistiques

On aura vu au passage que seule l'hypothse Ho d'galit des moyennes et des variances permet d'obtenir des rgions critiques, car on limine prcisment les valeurs communes de ces moyennes et variances. De plus l'ordre: test de variances, puis test de moyennes, semble indispensable, car le test de Studenl suppose explicitement rrl rr2'

14.4.1.2

Comparaison de moyennes en cas de variances ingales

Lorsque les effectifs des deux chantillons sont levs (suprieurs chacun 20), la formule prcdente reste encore approximativement valable. Pour de petits chantllons, l'approximation d'Aspin-Welch est souvent utilise dans les logiciels: elle consiste remplacer le degr de libert III + Il! - 2, par une valeur infrieure 111 obtenue par les formules suivantes:

nI = ----::--------::III Il::! -

avec c =

--~----

111 -

Il::! -

14.4.1.3

Cas d'chantillons non gaussiens


rr-

Le test de variance F n'est plus valable car nS.. :. ne suit pas une loi de X2, mais on a le rsultat suivant qui permel de tester 1111 =
111::!.

Pour Ill' 11']. assez grand (quelques dizaines d'observations) on peut quand mme tester les moyennes 1111 et 1112 en appliquant la formule de SLudent que (TI soit diffrent ou non de (TlOn dit que le test de Student est robuste ) car il rsiste bien un changement de la loi de XI el Xl'

14.4.2
14.4.2.1

Tests non paramtriques de comparaison de deux chantillons indpendants


Test de Smirnov

Ce test est analogue au lest de Kolmogorov et repose sur le rsultat suivant.


1I(

SOt F;;~(x) et F:i;(x) les fonctions de rpartition empiriques de deux chantillons de taille et 112 issues d'une mme loi, de fonction de rpartition F(x) ; alors:

F~,(x) 1 < ) --+ K(y)

14_Les tests statistiques

343

D'o le test: soit tester l'hypothse HoF(x) = G(x), contre HIF(x) ::f::. G(x), en disposant de deux chantillons de [aille 111 et 11:. de fonctions de rpartition empiriques F~:Jx) et G;:~(x), on forme la diffrence des deux et on en prend le sup et on rejette Ho si sup 1 F;\Jt) G'i:/x)1 est trop grand.

14.4.2.2

Test de Wilcoxon-Mann-Whitney

Soit (x), x:., ... , XII) et (Yb y:!, ... , JI/I) les deux chantillons. Ce test repose sur l'ide que s l'on mlange les deux sries de valeurs et qu'on ordonne le tout par valeurs croissantes on doit obtenir un mlange homogne. Pour cela les deux suites tant rordonnes, on compte le nombre total de couples (Xi, Yi) o Xi a un rang grand que Yi (ou bien tels que Xi> Yi si X et Y sont quantitatives).
71111 ;

Soit U ce nombre (statistique de Mann~ Whitney). Il est facile de voir que U vare de 0 si U = 0 on a la situation suivante (mlange en deux phases) :

de mme si U

mu:

YI' y::?, .. ,.l'1II'

XI'X:!' " " X II

D'autre part si les deux distributions sont issues de la mme population:


E(U)

11111

et

V(U) =

---1-2-Il

llm(ll

111

1)

et asymptotiquement U est gaussien, l'approximation tant excellente ds que suprieurs ou gaux 8. Dans tous les cas on peut calculer la loi exacte de U.
. ' . Le test consIstera d one a rejeter Ho : F(x)

et m sont

G(x) si 1 U - mil

>

k.

Un autre mode de calcul plus rapide dans certain cas consiste fI calculer la somme des rangs des individus de l'un des deux groupes (le premer par exemple). Soit
W, .,
~\'

cette somme appele statistique de Wi1coxon. Il est facile de montrer que


n(n

= mu +

+ 1)
2

U sous l' hypothse nulle :


, n(u

E(Wx ) = - - - 2 - mn(n

1)

V(Wx) =

+ 111 +
12

1)

La rgion critique est alors dfinie si


Wx
1 -

Il

et
1

111

> 8 par:
nm(n

ll(n

+ 111 +
12

1)

>

+m +
12

1)

ll/2

344

14_Les tests statistiques

_ Exemple: On veut comparer les performances de deux groupes d'lves des tests d' habi let manuelle.
On choisit alatoirement 8 indvidus du premier groupe et 10 du deuxime. Les performances en minutes sont les suivantes: Groupel: Groupe 2: 22 25 31 13 14 20 1924282728 Il 23 16 21 18

17

26

On rordonne les 18 observations par ordre croissant. Les rsultats du premier groupe sont souligns: Observations: Il 13 14 16 17 18 Rangs : 1

12.
7

20 21 22 23 24 25 26 27 28 28 8

J!

9 10 11 12 13 14 15 16 17 18

La somme des rangs des individus du premier groupe est:

w,\, =
Si Ho tait vraie:

10

12

15

16

17

18 = 98

E(Wx ) =
Comme

8(8 + 10 + 1) 2 = 76 98

8 X 10(8

+
12

10

1)

126.7 = (l

76 . = 1.96, on peut rejeter Ho avec 11.25 rapidit des lves du groupe 2.

Cl

= 0.10 et conclure une plus grande


l1li

Remarque:
XI

= 24.13
27.36

et et

Xl = 19

ST

s~

= 22

Le test de Fisher-Snedecor de comparaison des variances donne: 27.36 X 8

f=---=
22 X 10 9

1.28

ce qui montre que cr) n'est pas significativement diffrent de cr} (FO.05 (7 ~ 9) Le test de Student de diffrence des moyennes donne:

3.29).

--;===============================" 16

24.13 - 19

J:-;

~ Ua + ~)(la x 22 + 8 x 27.36)

2.06

ce qui est suprieur au seuil 0.10 qui vaut 1.745. Le test de Student conduit donc la mme conclusion que le tesl de Wi1coxon. Cependant ici, rien ne justifiant l'hypothse de distributions gaussiennes et vu la petite taille des chantillons, seul le test de Wi1coxon est d'usage lgitime.

141l11i1Les tests statistiques

345

14.4.3

Test non paramtrique de comparaison de plusieurs chantillons dcrits par une variable qualitative: le test du X2

Les donnes se prsentent sous la forme du tableau 14.2 :

TABLEAU 14.2

Modalit

1
chanllllon 1 chantillon 2
Illl Tl2l

rvlodalit 2
1112

Modalit

Total

r
IIlr
112r
11J.

1122

1/2.

chantillon k Total

lJtJ

1//..2

IlAr 11.r

H/.::.
Il

11.1

Il.:.

ni}

est le nombre des individus de l'chantillon possdant la modalit j de la variable:


Il .

2: n ij
)=1
/.::

effectif de l'chantillon i ;

ll.j :2>lij = nombre total des individus possdantj;


=l

Il

2:Ll1ij "n...:;;:.;

l,

"Il "
"':;;:';.)

Il s'agt de tester Ho: les chantillons proviennent de la mme population }) contre HI :


les chantillons sont significativement diffrents .

Dans l'hypothse Ho on peut parler de probabilits PI' P:., ... , Pr de possder les modalits l, 2, ... , 1: Il s'agit alors de comparer les effectifs constats lIij aux effectifs esprs 11 i , Pl' qui ne doivent pas en diffrer beaucoup; on forme alors:

Dans l'hypothse H(h dij est une ralisation d'une variable Dij suivant un X2 dont nous allons chercher le nombre de degrs de libert.

dB porte sur kr termes,


Donc Dij est un X~r-k'

mais ces kr termes sont lis par II. relations qui indiquent que les

sommes de lignes sont constantes

2:11 ij = Lll i. Pl
j
j

11 .

346

on n'a besoin que de r - 1 relations car D'o une nouvelle mesure:

2: Pj =
j=l

1).

alors
D

Il, n .)2 ( n -......!..:.....


1)

Il

Il i.

".j

(,t _
l

Il

est un : X~r-k-(r-I)

Xlk-lJ(r-1)

si Ho est vraie.

On peut remarquer que si l'on utilise la frquence


dl =

112:2: (f;1 - ./;.f/i


j ./;.

fj

Le test consistera donc rejeter Hn si d constat est trop grand, comme pour un test habituel du X2

14.4.4

Test de comparaison de deux pourcentages (grands chantillons)

Dans deux chantillons de grandes tailles III et 1l2' on relve les pourcentages fi et 12 d'individus prsentant un certain caractre. Soit PI et P2 les probabilits correspondantes: il s'agit de savoir sil, etj2 sont significativement diffrents ou non, donc de tester:

Ho: PI = P'2 = P {HI :PI if::. P2


Si Ho est vraie'!1 etI2 sont des ralisations indpendantes de deux variables FI et F2 suivant les lois:

-)
donc: On rejettera Ho, si, avec
Cl

et

LO(O ; p(l _ p l
0.05 par exemple:

~1+
III

1)
112

I./i

121 >

1.96~p(1

pl ~

1
112

1
112

Lorsque p n'est pas connu on le remplace par son estimation


liliiii

fi

Tl If)

+ Il l f1

111+ 1l 2

Exemple:

sur 96 pices venant d'un fournisseur A, 12 sont dfectueuses; sur 55 pices venant d'un fournisseur B, ]5 sont dfectueuses.

14_Les tests statistiques

347

Les pourcentuges de pices dfectueuses sont-ils significativement diffrents?

.fi = 0.13

96 + 55
-2.28

12

+ 15

= 0.18

~P(1 - P)(~ +~)


III 111

On peut donc rejeter l'hypothse Hn : PI

Pl et conclure que P2

>

PI'

Le mme test aurait pu tre ralis de manire quivalente en utilisant le test du Xl de comparaison d'chantillons. Le calcul est d'ailleurs particulirement simple dans le cas du tableau quatre cases (voir chapitre 6 6.5.2.2) : Dfectueux Fournisseur A Fournisseur B 27 Non dfectueux

96
55

124
= 5.20

151

d- =

15

15 X 27 X 124 X 96 X 55

2 x 40

Avec un degr de Libert la valeur critique du Xl pour ex = 0.05 est 3.84; on rejette donc Ho. On aura remarqu que 5.20 = (2.28f car (la dmonstration est laisse au soin du lecteur) on a exactement:

t
,- =

~p(l - P)(~ + .2..)


11) 112.

fi - 1'-1

)1

1IIIIIIII

14.4.5

Comparaison des movennes de deux chantillons gaussiens indpendants p dimensions de mme matrice de variance

Considrons deux chantillons de III et III observatons issus respectivement de deux lois N/JLI ; :2:) et Np(fL2 ; };). On cherche alors tester:

On nolera g)o g:!, V b V 2, les centres de gravit et matrices de variance des deux chantillons, et on posera W
(

= 11 1VI + n.,V..,111+ 11 2

la matrice de variance intragroupe

---.....;-~
11\+112-

11 1

}1.,

West un estImateur sans

bIaIS

de 2: .

348

14_Les tests statistiques

14.4.5.1
Il)V)

Test de Hotelling
112V2

Np(O ;k( ~ + ~)) si Ho est vraie.


\1l! Il:.

est une matrice de Wishart Wp (ll\ +

112 -

k) et

gl

g2

une loi

On en dduit (chapitre 4, paragr. 4.5) :

si Ho est vraie d'o le test


En pratique on utilisera la relation entre Ti, et F qui donne:

On vrifiera que pour p = 1 on retrouve le carr de la variable de Student du test dcrit au paragraphe 14.5.1 de ce chapitre.

14.4.5.2

Distance de Mahalanobis

Le test prcdent est plus couramment prsent sous la torme suivante.


(JLI 1-l:.)'::E-1(JLI Soit 6.~ Le test revient donc poser: JL2) le carr de la distance de Ivlahalanobis entre I-ll et f.L2'

La distance de Mahalanobis estime Dp est teUe que:


ni

+
Il)

Il, 1 -

Cg,

112

obtenue en remplaant ~ par son estimation sans bias. Remarquons que ceci ne revient pas estimer sans biais k- I ct que:

E(D~)
Lorsque 6.~
0,
Il

1/ 1

+.

n "2

1I1+1l2-P-1

.~ u""2 + P
1/']. -

Il)

HIll:.

+. 11 2) >

!...l"

:2

/'l, +

D;' suit un T~(Il,


112

2) d'o le rsultat:

Tl 1 Il:! (Il [ Il"2 - P - l) ., -~~----'---~----D~ (11 1 + Il 2) p( Il 1 + Il:. - 2) 1

= F(p;

ni

lb
-

P - 1)

Cette expression est couramment applique en analyse discriminante (voir chapitre 18).

14_Les tests statistiques

349

14.4.6

Comparaison de moyennes d'chantillons apparis

Un mme chantillon d'individus est soumis deux mesures successives d'une mme variab1e.

14.4.6./

Le cas gaussien

.. Exemples: 15 copies sont soumises une double cOlTection ;


pa.<;jsage du mme test d'aptitude deux instants diffrents (problme de l'apprentissage). On veut tester l'hypothse que les deux sries de valeurs sont semblables. Soit XI la variable correspondant la premire srie et X2 l'autre. En fait on se contente de tester l'hypothse E(X)) = E(X2.) en posant le modle suivant:
XI X 2 LG(11l1
11l~,

cr)

(ce qui sous-entend que XI et X2 sont sparment gaussiens). Le test de Ho : ml = 1112 contre HI : nt J =f=. 1112 consiste former les diffrences Xii et faire un test de Student sur la moyenne des di car cr est en gnral inconnu:
1'1-1
Xi::!

= di

On rejettera Ho si 111 > k.

..
XI

N.B. : La diffrence avec le test de Student d'galit de deux moyennes tudi au paragraphe 14.1.1 provient du fait que les variables Xl et X2 ne peuvent ici tre supposes indpendantes: la variance de leur diffrence ne peut tre estime par la somme des variances.
.. Exemple : Considrons deux sries de mesures effectues sur les mmes individus deux instants diffrents
Individu

Xz

D =X, -X2

1
2

86
92

66 76
63

20

16
12 22

3 4 5 6
7

8 9 10
Les moyennes ont-elles vari? On trouve d

75 84 66 75 97 67
99

62 74 70 86 69 81
92

-8
5 11 -2

68

18 -24

=7

s*

14.56

7 ------c= = 1 5')

14.56/{O

.-

350

14 _ Les tests statistiques

On ne peut donc rejeter l'hypothse que les deux moyennes sont gales car la valeur critique d'un test bilatral 5 % vaut 2.269 pour un Tg. _ Le test prcdent suppose la normalit des deux variables. S1 ce n'est pas le cas, ou si cette hypothse ne peut tre prouve, il peut tre plus prudent, mais avec une puissance moindre, d'effectuer un test non paramtrique.

14.4.6.2

Test des signes

On compte le nombre K de diffrences positives. Sous l'hypothse nulle d'absence de diffrence entre moyennes, il y a une chance sur deux qu'une diffrence soit positive ou ngative; donc K suit une loi binomiale @(10 ; 0.5). Dans l'exemple il y a 7 diffrences positives. Or P(K < 8) = 0.9453. Avec un test bilatral 5 %, la conclusion reste alors la mme.

14.4.6.3

Le test de Wilcoxon pour donnes apparies

IJ~Bt bien plus puissant que le le.~de~sign(!s et doit lui tre prfr. Il teste en ralit hypothse alternative de distribution dcale.

On procde comme suit: on classe par ordre de valeurs absolues croissantes les diffrences:

Rang 1 2 3
4

-24 22 20
18
16

5
6

12
11

7 8 9 10

-8
5 -2

On calcule ensuite la somme des rangs des diffrences positives soit ici :

w.!

= 2

+3+4 +5 +6 +7+9 =

36

Sous l'hypothse nulle, on trouve aisment l'esprance et la variance de W+


2i ~ En effet W+ = 2.,; RjZi o {Zi _ 1 S,i. Xli - X
i""l

Zi -

o5100n

> 0 en ne tenant pas compte des

eXMaequo. Les Rj sont les rangs de toutes les diffrences et sont donc une permutation des entiers de 1 Il. Les Zi sont des variables de Bernoulli indpendantes:
E(Z,) = 1

1 1 V(Z.) = 2 1 4
11

W+ =

2: RiZ
j=[

141/1111Les tests statistiques

351

conditionnellement aux rangs:

~ ~i
J
-

!-' I=J

= ~ 12(12 +
') ') 1 n(n
4

1)

11(11

+
4

1)

2:rr V(Z;)
i=J

Il

1)(211 6

1)

11(11

1 )(2n

1)

24

Les rangs ayant disparus, l'esprance et la variance conditionnelle sont l'esprance et la variance totale. On peut montrer que W + peut tre approxim par une loi normale partir de
11

= 10.

On comparera donc la valeur trouve 36 une loi normale d'esprance 27.5 et de variance 96.25, ce qui donne une valeur centre rduite de 0.87. On ne rejette pas l'hypothse nulle.

14.4.7

Comparaison de variances d'chantillons apparis


Fisher~Snedecor

Les variables n'tant pas indpendantes, le test de On utilisera la proprit suivante:

ne peut tre appliqu.

Tester l'galit des variances revient donc tester si le coefficient de corrlation linaire entre la somme et la diffrence des deux variables est nul. Dans l'exemple prcdent on trouve r = 0.224 ce qui ne permet pas de rejeter l'hypothse d'galit des variances car le seuil 5 % bilatral pour 10 observations est 0.63 (cf. table A.9). Les cart-types corrigs taient respectivement 12.45 et 9.95

14.4.8

le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantillon

On a vu en J 4.4.4 comment comparer des pourcentages sur deux chantillons indpendants. Qu'en est-il lorsqu'il s'agit des mmes individus? Par exemple, on interroge deux reprises, aprs une action, 600 clients d'une socit pour connatre leur taux de satisfaction. On commettrait une grave erreur en appliquant les fonnules des chantillons indpendants: il faut ici connatre pour chaque individu son tat aux deux enqutes, que l'on peut rsumer par le tableau de contingence 2 X 2 croisant les effectifs des deux variables. Prenons l'exemple suivant:

~
Satisfaits Non satisfaits

Satisfaits
200

Non satisfaits
50 270

80

La proportion de satisfaits est passe de 41.7 % 46.7 %. S'il s'agissait de deux chantlllons indpendants de 600 individus, cette diffrence ne serait pas juge significative.

352

14_les tests statistiqu

Mais pour tester la significativit de cette diffrence, il faut en ralit compare les effectifs des individus ayant chang d'avis.
En effet, avec des notations classiques, l'hypothse Ho est Pl. = PI.- Comme PI. = Pli etp.1 = Pli + P::'I Ho revient tester Pr2 = P'21

~
Satisfaits Non satisfaits

Satisfaits
Pli

Non satisfaits
Pl2

Pl.
P 2

P:!l P.I

P22

P.2

On effectue alors un classique test du khi-deux: sous l'hypothse nulle PI'! par (1112 + 1121)/2. La statistique de test est donc:
( 111") 1112

= Pli est

+ 1121)2 +
2
2

11

thl

11 12+ 1l 2J

Un calcul facile montre qu'elle est gale :


(Il
11 12

+ 1121

On comparera cette quantit un

Xy,

ou sa racine carre une variable

normale centre rduite.

80 ~
tive de la satisfaction.

80

- 50 = 2. 63 . 0 n cone l ' une augmentatIOn SlgOl ilca' "f ue a + 50

14.5

L'ANALYSE DE VARIANCE

L'analyse de variance recouvre un ensemble de technique de tests et d'estimation destins apprcier l'effet de variables qualitatives sur une variable numrique et revient dans le cas simple comparer plusieurs moyennes d'chantillons gaussiens. On utilisera ici un vocabulaire particulier: les variables qmtatives susceptibles d'influer sur la distribution de la variable numrique observe sont appeles facteurs de variabilit et leurs modalits niveaux . Lorsqu'il y a plusieurs facteurs, une combinaison de niveaux est un traitement }) (voir chapitre 21). Le domaine tant trs vaste on se contentera ici d'une brve prsentation du modle effets fixes un et deux facteurs (des complments seront donns au chapitre 17 sur le modle linaire

14_Les tests statistiques

353

14.5.1
14.5. 1. 1

Analyse de variance un facteur


Les

donnes et le modle
111' Il:!~ , Ilk

On dispose de k chantillons de taiUes respectives un niveau diftrent d'un facteur A. On pose n

correspondant chacun

2: l1i et on dresse le tableau 14.3.


i=1

On suppose que le facteur A influe uniquement sur les moyennes des distributions et non sur leur variance. II s'agit donc d'un test de confusion des k moyennes X"X2"'"

TABLEAU

14.3

Facteur

Al
ri 1

A2
ri :1

Ai
......................... .......................

Ak
........ ~ 4 ................ "

X
XIII

.,

.\2
x~~

Xi
' ,,
~

x! 1 .,

JI "

JI

Xk
X"i k
;k

." ............. """"""

..................

... ...................
Xi

. ...................

Moyennes

x[

Xl

LG(nzj; cr),

Si on considre chaque chant110n comme issu d'une variable alatoire Xi suivant une loi Je problme est donc de tester:

{Z:
On peut galement poser:

ml =

m2

= ... = ml
mj
o

nti::j::.

xl
ou encore facteur.

+ E{

E{ LG(Q ; cr)

xl =

f.L

Ci;

+ El o f.L reprsente une valeur moyenne et Cl i l'effet du niveau i du

Si Ho est rejete le problme se posera donc d'estimer lIli (ou f.L et les Ci).

14.5.1.2

Le test

1 Si X est la moyenne totale X

2: 2: X{ et en remarquant que:

kil,

11 i=1 j=1

il vient facilement:

formule qui n'est autre que celle de la variance totale dcompose en moyenne des variances et variance des moyennes.

354
1

14_Les tests

!:ilalC1StlQUf:I

Si on pose:

S-

"l

l '"' = -.J"12: (X~.


.;;;..J

11 i

S~ = n

2: J1,(X i
1

et:

on a donc

= S~

+ S~ formule d'analyse de variance


1
= -

>~"

s~ reprsente la variance due au facteur,

S'k la varance rsiduelle.


/l,

l Si on crit S~ = -

2: Hi Sr avec ST
~

'1

2:(X{

Xjf! en introduisant les dispersions


-

11 ;"" 1

Il i j=1

~. I1S~. '1 chaque echnntillon, on trouve que - " est une vanable de x- a Il

k degres de hberte car _ 1_1


~

' "

tl

Sf

est une variable

" et-" cr-

11 S R

,,~

S1

;;;1

L.J

cr:"

Dans l 'hypothse Ho et dans celle-ci seulement, les Xi sont des variables de mme loi, nS'! . ' "1 llS~ " dans ce cas SUIt un X~-1 et - 1 un xr-J car est alors la variance d'un Il-chantillon d'une LG(m, cr) et s1 est analogue la variance du k-chantillon des moyennes par les Il;,

a-

Xi pondres

L'quation d'analyse de variance n'est autre que la formule du thorme de Cochran, ce qui entrane que S~ et S~ sont des variables alatoires indpendantes, si Ho est vraie; on a en effet:

X~-I
Donc si Ho est vraie:

Xf-I

+ X~-k

s11k
S~/11
A

= F(k -

l'Il - k) '

S~/ li. - 1"S' '1 est supeneur a I l cntlque d' une van' . ~ a va eur ' . . '11 1 SR 11 k able de Fisher-Snedecor on conclut une infuence significative du facteur A.
, e d, ou 1 test: on f"orme 1 rapport e

Le carr moyen rsiduel est alors un estimateur sans biais de cr::.


_ Exemple: Reprenons l'exemple tudi aux chapitres 5 et 6 : les variations du taux de taxe d'habitation de 100 villes franaises et tudions 5' il existe des diffrences entre zones gographiques. La premire tape avait t de comparer les diagrammes en bote qui montraient des diffrences essentiellement entre le Nord et l'lle-de-France et les autres zones.

14_ Les tests statistiques

355

Le tableau suivant donne les moyennes el variances corriges par zone:


Gographique Centre Est Ile-de-France Nord Ouest: Sud-Est Sud-Ouest
Tota.l

Effecr.if

Hoyenne 18.1154 17.662 1l.76i16 25.9511 18.8964 .7694 20.511 17.7707

Variance 3.63619 4.38986 15.0492 50.4071 .59955 .63498 20.6971 30.5765

13 10 26 9 14 18 10
100

Le tableau d'analyse de la variance est alors:


Analyse de variance Source Inter-groupes Intra-groupes l'otal
(Con:.)

Somme des carrs 1706.58 1320. 3027.07

Odl
6

Carr moyen 284.43 14.1988

Pr.oba. 0.0000

20.03

93 99

On rejette donc l'hypothse d'galit des 7 moyennes car la valeur de la statistique de test _ F est trs leve et la probabilit qu'un F 6 : 9:1 dpasse 20 est pratiquement nulle.

14.5.1.3

L'est;mation des effets

Il est clair que les 111i sont estimables par les moyennes .x i mais que les (Yi ne le sont pas: il y a indtermination puisque mi = f.L + ai peut s'obtenir d'une infinit de manires. On pose gnralement la contrainte suivante d'effet moyen nul:

2: n
j=1

i(Y;

= 0 d'o:

,l=x

/4.5.1.4

Comparaisons multiples de moyennes

Le rejet de Ho ne signifie pas que tous les mi sont diffrent..; entre eux, et on cherche souvent tester l'galit 0 des diffrences /Hi - 1Ilj (appeles contrastes). Diverses mthodes existent. Un rsultat d Scheff montre que pour tout contraste J'vnement:

m; -

1/1 j -

Sir

~ 1 +.!c::o; x; /li
(Y

Jij

::0; 1/1; -

III J

S:

Jlj

~J +
IIi

J
Ilj

a lieu avec une probabilit]

donne par :
S2 )

P( F/;_I " I I - k :k :- - : ; , l

t - cr

356

14 _ Les tests

!>Lal:rStll:]Up,

O &2

est le carr moyen rsiduel. On rejette Ho s'il existe au moins un contraste Sin-T'\1h~ . ~. vement diffrent de O.

On peul donc tester simullanment tous les contrastes de la faon suivante : on . . . tout cl' abord : S = ~(k - 1) Fl~Ck - 1 ~
'"fi . et on ven le ensUite
SI
Il -

f.lI ... Ult::,.:.:.::.:;:

k)

'1Xi

.t j

-:;1 > S~~l .SI OUi' . mi r cr - + - , .


Il; Ilj

...J-

nlj _

On prendra garde toutefois que les comparaisons par paires ne sont pas transitives. On pourrait ainsi accepter
ml
1112' 1112 m4'

mais pas

/Ill

= 1114!

fi est souvent plus simple de reprsenter graphiquement les intervalles de dduits de la mthode de Scheff.
Moyennes et intervalles 95% de Scheffe

30
c

~ 25
:0

=ti
Q.l Q.l "C
X

ct!

!
"

20

x 19 15
:::J

! !

~
l)

t
ir.i
0
<li :l

!
ir.i
:::J

1-

ct!

10 5
ru

f
<li
(.)

ir.i

"C

Lt

C rtl

"C

ID

- :::1 en

ir.i

!Il

CIl

:::1

FIGURE

14.5

14.5.1.5

Test de comparaison de k variances

L'hypothse d'galit des variances pour chaque nveau joue un rle important en analyse de variance mais n'est que rarement teste: en effet les tests disponibles sont peu fiables et il vaut mieux se contenter de procdures empiriques. Citons cependant le test de Bartlett : Soient Sr. alors la quantit:

sr:. ., -, sr les variances corriges des k chantillons. si


""1(n1 - 1) Sr. 2 ) ~ 1 k
(n
k

<Tl

= cr:! = ... crk

k) ln ( ;=1
Il
2

_.

2:Clli - 1) In(S}:2)
i=1

suit approximativement une 10 du X k - 1 degrs de libert.

tests statistiques

357

Analyse de variance deux facteurs


Le modle
On notera pet q les nombres de niveaux de deux facteurs A et B. pour chaque couple

i,.i de niveaux

(traitement) on aura /lij observations de la variable X.

On dit que le modle est complet si Ilij

>

0 pour tout traitement, rptition si nu

>

l,

quilibr si nij = 1:
On limitera cette tude au cas quilibr. Les donnes recueillies sont donc, pour un traitement (i,j), .lijl; avec k = 1,2, .. . ,/: On supposera que .lij/; soit une loi LG(mij ; cr) donc que Xij/; On crit alors:

= lIlij + Eij/.. o EUk LG(O ; cr) .

f.L est l'effet moyen ;


ai

l'effet principal du niveau ide 11 ; l'effet principal du niveau j de B ;

f3j

'Yij l'effet d'interacton.


La prsence d'un terme d'interaction quivaut la non-additivit des effets principaux. On posera :

X...
xij.

= -.2:
1
r

fi

pql ;;;1 j;;1 1;=1

2:

If

2:.lijl;

= -: 2:Xijl;
1 k=1

Xi .. = ----:
ql

j=l /;;;1
l' r

22

fi

2: .l jj/;

X.j.
On a alors:
.lijk -

= ----: 2:

2: .l ij/;

pl i=1 /;=1

X...

= (Xi .. - x.J + (x.j. - x.. J + (xij. - x.j,) - (Xi .. + x.. J + (.lij/; - xu.)

les diftrents termes de cette somme correspondant respectivement aux effets principaux, l'interaction et une fluctuation alatoire.

14.5.2.2

L Jquation dJanalyse de variance et le test

On vrifie que pour le modle quilibr on a :


2:2:2:CX u; /
i j
/;

x.. J 2 = s1 + 51 + 5XB + S~

358

14_Les tests statistiques

avec:

qr2:0:i.. -

s~ S~IJ

= pr2:Cx.j.
j i

x.. Y
x\ .. + x.. ,)!

r2:2:Crij. - x.j
i

donc que les sommes des carrs s'ajoutent: il y a orthogonalit pour le modle quilibr.

Remarque: Les modles orthogonaux sont tels que : nu

= .....!.:..-i.
n

11 . Il .

Comme en analyse de variance un facteur, si l'hypothse Ho mu = 0 't:/ Uest vraie, les diffrentes sommes de carrs suivent cr.! prs des lois du X2 indpendantes. On peut donc tester l'existence des effets principaux, et de l'interaction en comparant S~; S~, SII S~. On prsente usuel1ement les rsultats sous la forme du tableau 14.4 :

TABLEAU

14.4

Source de variation

Somme de carrs
S~

Degr de libert (dd1)


p-l

Carr moyen
S~/(P
S~/(q -

A
B

1)
1)

s1/p Sk/pq(r SVq -

1
1)

S~

q-I

S~/pq(r
S~lJ/(p -

1 1)
1)

Interaction AB Rsiduelle R Totale

S~n
S~
S2

(p

1)(q - 1) pq(r
[)

'AIl
(p -

1)(q - 1)

1)(q - 1)
1)

SYi/pq(r -

Slrlpq(r

pqr- 1

14.5.2.3

L'estimation des effets

En posant: on peut estimer les ai'

2: a = 2:!3j = 2."Yij
i

2.'Yij = 0
j

!3

j,

'Yij on trouve alors:


A _

ai =

Xi..

!3j

x.j. - X...
- Xi ..

'Yij =

+ X...

14_Les tests statistiques

359

14.5.2.4

Le cas du plan sans rptition

Le modle complet avec interaction ne peut tre test et estim que si et seulement si il y a rptitions car le degr de libert de S'k est pq(r - 1) donc r doit tre strictement suprieur 1.

Si r = 1 on doit se contenter du modle purement additif sans interaction:


!-Lij

= i + r3j

L'quatlon

d~analyse

de variance s'crit alors:

Il

avec:

S~

:=-.:

C/2:Cti.
i<=l
il

x.Y
x.,)2

S~ = P:2) x.}
)=1

s~ =

2:22(xij - XL
i

+:X.Y

On compare donc S~ et S~ au terme d'interaction pris pour terme rsiduel ce qui empche de tester l'interaction.

14.6

TESTS ET PROCDURES D'AJUSTEMENT

Ces tests ont pour but de vrifier qu'un chantillon provient ou non d'une variable alatoire de distribution connue Fo(.r:). SOiL F(x) la fonction de rpartition de la variable chantillonne, il s'agit donc de tester Ho : F(x) = FoCt) contre HI : F(x) =1= FoCx). Avant de prsenter les tests sLatistiques les plus courants (test du X2 , de Kolmogorov, de Cramer-Von Mises) il convient de prsenter brivement les procdures empiriques usuelles qui sont une tape indispensable et permettent de s'orienter vers une distribution adapte aux donnes.

14.6.1
14.6. 1. 1

Les mthodes empiriques


La forme de l'histogramme

Celle-ci peut conduire liminer certains modles, en particulier si les proprits de symtrie ne sont pas vrifies. Une fOffi1e symtrique conduit souvent poser l'hypothse de normalit mais il faut se souvenir que la loi de Laplace-Gauss n'est pas la seule avoir une courbe de densit en cloche: c'est galement le cas des lois de Cauchy el de Student entre autres. Une forme fortement dissymtrique peut suggrer l'usage de lois log-normales, gamma, Weibull ou bta de type deux qui ont des courbes de densit assez ressemblantes au moins pour certaines valeurs des paramtres.

360

Le choix entre diffrentes distributions de forme semblable doit s'effectuer alors en Lenan compte du phnomne tudi: ainsi en nabilit on se limitera aux lois exponentielles ou Weibull qui ont une justification physique alors que la loi log~nonnale n'en possde pas ce cas.

14.6.1.2

Vrification sommaire de certaines proprits mathmatiques

On vrifiera sur l'chantillon si certaines relations concernant les paramtres d'un modle sont vraies. Ainsi pour une loi de Poisson on sail que E(X) = V(X) ; on s'assurera que sur un chantillon . Une telle constatation est seulement un indice du caractre poissonnien d'une distribution mais n'en est nullement une preuve. On ne peut d'ailleurs prouver la vracit d'un modle par des moyens statistiques. Un modle est choisi pour sa commodit et sa facult de reprsenter un phnomne.

x diffre peu de

P.QUL uTle variable de Gausson sait que le coefficient d'aplatissement de cette loi est gal 3 et que son coefficient d'asymtrie est nul. On vrifiera sur l'chantillon que les coefficients empiriques correspondants s'cartent peu des valeurs thoriques: on dispose pour cela de tables donnant les valeurs critiques de ces coefficients pour diffrentes luilles d'chantillon (tables A.15 et A.16), voir galement plus loin J'abaque pour le test de normalit.

14.6.1.3

Ajustements graphiques

Pour la plupart des lois de probabilit une transfonnation fonctionnelle simple permet de reprsenter la courbe de rpartition par une droite. La fonction de rpartition empirique d'un chantillon de taille Il diffre peu, si Il st grand, de la fonction thorique F(x). On vritera alors simplement r adquation des donnes au modle en comparant la fonction de rpartition empirique une drote sur un papier chelles fonctionnelles.

" Loi exponentielle


Si la dure de vie X d'un composant est telle que:
P(X

>

x)

exp(-x)

on a alors

InCl - F(x)) = -..-r

:Pour un chantillon de taille 11 on reportera donc pour chaque valeur du temps de fonctionnement x le pourcentage de survivants la date x sur une chelle logarithmique. En pratique on reporte, si les Xi sont ordonnes par va1eurs croissantes, les pOnts de coordonnes :
Xi;

ln ( 1 -

-'-1-

i -

1)

pour

l:::S;i:::S;1l

Les points dOvent alors tre aligns approximativement le long d'une droite dont la pente fournit une estimation graphique de .

141111111Les tests statstiques

361

Loi de Weibull

Ici P(X > x) = exp( -

xr~), d'o:

ln(-ln P(X > x) et on reporte les points de coordonnes:

ln

+ ~ lnx

La pente de la droite fournit une estimation graphique de une estimation de ln .

i3

et son ordonne l'origine

Loi de Laplace-Gauss
Ici la fonction de rpartition n'ayant pas d'expression mathmatique simple on utilise la ., , propnete U

X 111 e mamere . = --- dal " sUivante: (J'


IIi

cr constituent un chantillon d'une variable normale centre-rduite U. Si le nombre des observations est grand, la foncton de rpartition empirique (de l'chantillon) doit peu diffrer de la fonction de rpartition thorique telle qu' ene est issue des tables. Appelons Fi les valeurs de la fonction de rpartition empirique ( Fi

b' . , . b 1 S Iles 0 servallons Xi provIennent dune vana le normale LG(m: cr) alors es

(Xi = - - 111) -

effectif <

Xi) .

A ces valeurs empiriques Fi associons les valeurs correspondantes li')' de la variable normale centre rduite obtenues par la table: alors si la distribution est rellement gaussienne et si
11

est grand,

ut

doit peu diffrer de - - - et il doit donc exister une relation (J'

linaire entre et Xi (le graphe ut, Xi doit tre peu prs une droite coupant l'axe des abscisses en 111 et de pente l/(J'). Cette droite est appele la drote de Henry. ou "QQ plot" pour quantile-quantile, en anglais. Les donnes ayant t ordonnes par valeurs croissantes, on reportera comme ordonne i 3}8 de chaque valeur Xi et non i/n pour des rasons trop compliques pour tre dve-

11+

loppes ici.

Exemple
Reprenons les donnes tudies au chapitre 5 : les variations du taux de la taxe d'habitation de 100 villes franaises. L'histogramme et le la bote moustaches indiquent une rpartition plutt symtrique; est-elle gaussienne pour autant?

362

14_Les tests

SratlstiCTIII

La droiLe de Henry montre des carts importants concernant les queues de nH::h'lli'\"t;~_ on peut mettre en doute la nonnalit de la distribution, mais il ne s'agit pas d'un vritab test o on matrise les risques d'erreur:

99.9 99
(/J C)

95

. ..
"

<ll

rn

80 50 20
5

<ll

0..

:::J 0

1
0

t!I"'''

0.1
10
FIGURE

20

30

40

Taux de taxe d'habitation

14.6

14.6.2

les tests statistiques gnraux

Nous prsenterons ici les deux tests les plus classiques, celui du X"! et celui de Kolmogorov-Smirnov, ainsi que celui de Cramer-von Mises.

14.6.2.1

Le test du X2

Soit une variable alatoire X discrte ou discrtise, c'est--dire divise en k classes de probabilits PI. P"!, ... , Pk' Soit un chantillon de cette variable fournissant les effectifs alatoires Nb N'l' ... , N" dans chacune de ces classes.
On a E(Ni ) = npi'

Considrons alors la statistique D2 dfinie comme suit:

Il est clair que cette statistique est une mesure (on pourrait dire une distance) de l'cart alatoire entre les effectifs raliss et les effectifs et intuitivement on sent que D 2 ne peut tre trop grand. D 1 dpend du nombre de termes de la somme k mais on remarque
Il

que tous ces tennes ne sont pas indpendants puisque ~Ni =


i=l

11 ;

il suffit d'en connatre en

fait k - 1.

363

Donc en fait

dpend de k - l, nombre de degrs de libert de D'1,

D'aprs Je rsultal tabli au chapitre 4 propos de la loi multinomiale on sait que:

Si 11 ......;!> 00, D 2 est asymptotiqllemell1 distribu comme une "ariable de que sait la loi de X.

et ceci quelle

D'ou le test du

x-: on rejettera Ho SI d- constate = 2: (n i


"). ,") ,II

llpJ2

est trop

c'est--dire

i""l

npi

suprieur une valeur qui n'a qu'une probabilit

IX

d'tre dpasse par une variable X2

Cas des estimations


Il arrive bien souvent que seule la forme de la distribution soit spcifie. Poisson, ,"-'"Laplace-Gauss, mais qu'on ignore certains paramtres que l'on estime sur l'chantillon. Soit 1 ) le nombre d'estimations indpendantes ainsi ralises. Le degr de libert du X'1 devient alors k i l . Il convient ici de prendre certaines prcautions: les estimations en question doivent tre des estimations du maximum de vraisemblances effectues au moyen des k classes de la distribution, faute de quoi la distribution limite de n:' n'est plus un X2, mas en tout tat de cause, comprise entre les valeurs d'un XI-l et d'un XI-,-, : si k est grand, ce phnomne n'est pas trop important, mais si k est petit il peut aboutir garder inconsidrment Ho en se fondant sur la distribution de 1-1-

Effectifs par classes


La loi de D'1 est asymptotique et l'on admet que D 2 ~ X~-I si "Pi est suprieur 5 pour toute classe (certains auteurs donnent comme condition 3, ou mme l pour une seule classe en queue de distribution). Dans le cas contraire on procdera des regroupements.

Cas des variables continues


Si on a le choix du dcoupage en classes, on peut hsiter entre des classes quiprobables et des classes d'gales amplitudes, mais ces dernires doivent tre dtermines Ci priori. Cependant pour des variables continues, le test de Kolmogorov-Smrnov est prfrable, s'il n'y a pas d'estimation effectuer. Pour des complments, consulter Kendall et Stuart, volume 2, chapitre 30, Tests offit.

Proprits du test
On peut dmontrer que le test du X2 prsent ici est asymptotiquement quivalent au test du rapport des vraisemblances maximales appliqu aux hypothses:

lHI :Pi '* Pm 3i

rHo :Pi

= PlO Vi

364

14 _ Les tests

staltlstqUles

14.6.2.2

Le test d"'ajustement de Kolmogorov

Il s'agit d'un test non paramtrique d'ajustement il une distribution entirement spcifie de fonction de rpartition F(x). Ce texte repose sur les rsultats de Glivenko, Kolmogorov cits en thorie de l' chantillonnage (chapitre 12). Si F;:: reprsente la fonction de rpartition empirique d'un lt-chantil1on d'une variable alatoire de distribution F(x) , on sait que DT! = sup 1 F~'(x) - F(x) 1 est asymptotiquement distribu comme suit: P({;zD,J < y) ~:L
1;=-'"

l)kexp(-2k2y1) = K(y).

La fonction K(y) a t tubule et fournit donc un test de :

. . .... : . . . { H o : . F.(X.) HI F(x)

= *

F()(x) Fo(x)

La rgion critique tant dfinie par DI! > den). Au seuil Cl. = 0.05 et si 1.6276
D'l>
11

> 80, la rgion critique est

DII

>

~
'Hl

1.3581

pour

Q'.

= 0.01

Si

Il

< 80 on se reportera alors la table A.14.

14.6.2.3

Le test d"'ajustement de Cramer-von Mises

La statistique:

est une variable alatoire dont la distribution indpendante de F(x) sert tester Ho : F(x) = Fo(x) contre HI : F(x) Fo(x) car /1W~ est une mesure de l'cart existant entre une rpartition thorique et une rpartition empirique. Sa distribution a t tabule (voir recueil de tables, table A.13).

On dmontre que:

nw;,

-1 +
1212

2: [2i 211 1 -i=


/1

F(x;)

]2
< X/I)'

si les

Xi

sont les valeurs ordonnes de r chantillon

(Xl

< X1'

. "

. 1 - FO(Xi) I_ll i=l 21l alatoire I1W~ a une probabilit ct de dpasser. Au seuil a 0.05 on rejette Ho si llW~

~ . 1 On rejette Ho 51 '") + 2.J

]2 est 5upeneur,a une va1eur que lvanabl e ,. a '

> 0.46136 pour Il grand.

14_Les tests statistiques

365

Bien que les lois des statistiques Dn et I1W~ ne soient pas connues, lorsque certains paramtres sont estims on utilisera avec profit les rsultats empiriques (tableau 14.5) obtenus par simulation (Biometrika Tables, volume 2) :
TABLEAU

14.5 Test d'exponentialit

Test de normalit

Ho: LG(m,

CT)

Ho : l(x)

1 = Oex p

(-x) ff-

m est estim par X


If

est estim par

~_l_ 22 (x 11-1

i -

X)2

8 est estim par

On rejette Ho : - au seuil
CY.

On rejette Ho :

si (,f;;
ou (1

= 0.05 0.85/-{;; - O.OI)D"


0.126

>

0.895

- au seuil Cl. = 0.05 si (D II - 0.2/n)({i ou (1

+
>

0.26 -/- 0.5/-{;;)

>

l.094

+ 0.5/n)llw; >
ct

0.16/ Il )nw;

0.224

- au seuil

= 0.01

si (-{;;
ou (1

+ 0.85/,f;; - O.OI)D'J >

1.035

- au seuil IX = 0.01 si (Dn - 0.2/n)(-{;; ou (1

+ 0.26
-/- 0.5/...[;;) > 1.308
0.337

0.5/Il)nw~

>

0.178

+ 0.16/n)nw~ >

14.6.3
14.6.3.1
G

Exemples d'application en fiabilit et en phnomnes d'attente


Test du caractre exponentiel d'une loi de survie

Exprience classique
On dispose d'un chantillon de
11

matriels identiques et on note les dures de vie en heures

Exemple numrique:
X;:>

fi

=
X..j

=
par

169

x]

122

Xs

= 58

Le paramtre
F(x)

x est estim

x = - 2:x i
5 ;=1

= 98, la fonction de rpartition estime est

1 - exp - 98 d'o le tableau: 8


0.079 58 0.447 122 0.711

( x)

Xi

133
0.743

169 0.821

F(xi)

366
La statistique de Kolmogorov vaut:

14_ Les tests statistiques

D" =

sup{1 F(x;) - :'1; 1 F(x;)

~ II}

car le maximum est ncessairement atteint en un des points de sauts de la fonction de rpartition empirique. On trouve Dil
a = 0.05).

0.311 soit DI! - - ;

0.2)(_'111 + 0.26 + 0.5) r -{ii

0.84.

L'hypothse Ho d'une distribution exponentielle peut donc tre retenue (avec La statistique de Cramer-von Mises vaut:

F(X;))'

= 0,09133

et la quantit 1 + - n

( 0.16),

IlW~

0.0943 conduit elle aussi accepter Ho.

" Exprience de dure limite avec renouvellement du matriel dfaillant


II est souvent pratiquement impossible de mener bien l'exprience prcdente des que 11 est assez lev car le temps d'tude devient prohibitif. On prfre de beaucoup imposer une dure limite T l'exprience en renouvelant au besoin au fur et mesure les appareils tombs en panne de manire obtenir plus d'informations. Les instants des pannes obissent alors, s la dure de vie est exponentielle un processus de Poisson: en effet si JI = 1 l'appareil en panne tant remplac immdiatement, les instants des pannes successives suivent un processus de Poisson car les intervalles entre pannes successives sont indpendants et de loi "YI ; pour n appareils, le processus total est une superposition de Il processus de Poisson indpendants, ce qui fournit encore un processus de Poisson. Soit fI, t 2, , t k les instants des pannes pendant T; d'aprs le chapitre 11, la distribution conditionnelle des dates de panne, sachant k, est une loi uniforme sur [0, T] ; les instants des pannes t l , t::. . " tl.. tant ordonns, les tJT forment un chantillon ordonn d'une IO uniforme sur [0, 1] si la dure de vie est exponentielle. Le test du caractre exponentiel de la distribution revient alors tester l'hypothse que les t;fT suivent une loi uniforme sur [0, 1], ce qui peut se faire soit par le test de Kolmogorov, soit par celui de Cramer-von Mises.

_ Exemples : 100 appareils sont constamment en service et sur une priode de 200 heures; 5 pannes ont t releves aux instants: t l 51, t 2 = 78, 13 = 110, t.+ 135, t5 = 180. I11III

14aLes tests statistiques

367

Test de Kolmogorov
On cherche le plus grand cart en valeur absolue entre la fonction F(x) = x et les valeurs de la fonction de rpartition empirique (fig. 14.7).

51 78 110 135 1601 200 200 200 200 200


FIGURE

14.7

L'cart est le plus grand pour la premire valeur et vaut D

= ~ = 0.255.
200

En se reportant il la table de la distribution du test de Kolmogorov on voit qu'on peut accepter l' hypothse Hu que la dure de vie obit une loi exponentielle pour tout seuil ct infrieur il 0.20, puisque ct = 0.20, la valeur critique est 0.447.

Test de Cramer-von Mises


I1W- := Il

.,

121l

i= 1

fiJ2 2: [2i 2n 1 - -- T
JI

puisque pour une loi uniforme sur [0, 1]

F(x)

=x :
+ 10 ( 5
1] 0)2 ( 7 200 + 10

IlOl~
'1

1 60

( 1 51)2 ( 3 78 \2 10 - 200 + 10 - 200) 180)2 200

135)2 200

(~ _
19

nOl~ = 0.05192
= 0.95;
P(I1Ol~

D'aprs la table A.13, on peut accepter Ho pour tout seuil a infrieur 0.85 :
P(nOl;'

< 0.447)

< 0.056)

= 0.15

14.6.3.2

Test du caractre poissonnien des arrives une file d'attente

Pendant 100 intervalles de 10 min on a compt le nombre X d'ouvriers se prsentant un magasin pour emprunter des outils, ce qui donne le tableau 14.6 (Kaufmann et Faure, Initiation cl la recherche oprationnelle, Dunod).

368

14_Les tests statistiques

On veut vrifier le caractre poissonnien de la loi de X : On utilisera ici un test du X2, car la distribution est discrte (rappelons que les tests de Kolmogorov et de Cramer-Von Mises ne s'appliquent que pour des distributions continues).
TABLEAU

14.6
(11 j
-

Xi

llj

100pi

100Pi)!

100pj

5 6 7 8 9 ID
Il

0 018) 0.33

i)5
3 5 6 9 10 1J 12 8 9 7 5
4

12

13
14 15 16 17 18 19 20 21 22 23 24 25
~25

0.74 5.22 1.45 2.52 3.93 5.58 7.26 8.72 9.73 10.12 9.87 9.07 7.86 6.46 5.04 3.75

0.009

0.220 0.060 0.219 0.009 0.007 0.077 0.460 0.126 0.165 0.045 0.000 0.017

2066) 1.80

[]6

1.17 7.37 0.73 1.01

0.255

d 2 = 1.59

On estime le paramtre ~ de la loi de Poisson suppose, par la moyenne empirique qui vaut 15.61. Pour calculer la valeur de D 2 on opre des regroupements aux extrmits pour les classes d'effectifs trop faibles, ce qui laisse 14 classes. Le paramtre ~ ayant t estim non pas sur les classes rsultantes mais sur les valeurs initiales de l'chantillon, la valeur critique pour D 1 est comprise entre celle d'un Xf! et celle d'un XI3' La valeur du d 2 calcul est bien en de de tout seuil de probabilit habituel pour un test: on peut accepter l'hypothse d'une distribution poissonnienne.

Remarque: un esprit souponneux trouverait peut tre cette valeur de dl trop faible, puisque d'aprs les tables il y a 995 chances sur 1 000 pour que XI:! soit suprieur 3. L'ajustement est-il trop beau pour tre vrai? Nous lasserons le lecteur juge ....

14_Les tests statistiques

369

14.6.4

Tests de normalit

L'ajustement d'une distribution normale des donnes relles justifie un traitement particulier en raison de l'importance de la loi normale. Il est tout faiL dconseill d'utiliser le lest du khi-deux en raison de son manque de puissance et du caractre subjectif du dcoupage en classes. On peut utiliser les variantes des tests de Kolmogorov et Cramer-Von Mises indiques prcdemment, mais ces tests omnibus n'utilisent pas de proprites spcifiques de la loi de Gauss et sont moins puissants que les suivants qui sont d'ailleurs recommands par la norme AFNOR NF X-06-050. Le plus simple utiliser est le test conjoint d'asymtrie et d'aplatissement qui se prsente sous forme d'abaque (c}: annexe). Il suffit de vrifier si le point dont r abscisse est la valeur absolue du coefficient d'asymtrie (skewness) et l'ordonne le coefficient d'aplatissement (kurtosis) se situe l'intrieur, donc vers la gauche de la courbe correspondant la taille d'chantillon.
6.0

b2

5.5

5.0

4.5

4.0

3.5

3-D

2.5

2.0

FIGURE 14.8

370

14.. Les tests

!>laLlSIIQUI~C;

Pour l'exemple des 100 valeurs de la taxe d'habilation on trouve un coefficient d'asymtrie 0.34 et un coefticient d'aplatissement de 4.47 ce qui conduit rejeter l'hypothse de normalit. Le test le plus recommand est celui de Shapiro-Wilk bas sur la comparaison de

une combinaison linaire Sailli; des tendues successives

~\'1

X'I

Les coefficients de la combinaison dpendent de Il et sont donnes dans des tables, que la rgion critique. Les calculs sont programms dans la plupart des logiciels statistiques. Dans l'exemple prcdent les statistiques de Kolmogorov et de Cramer-Von Mises valent respectivement 0.105 et 0.195 et conduisent au rejet de l'hypothse de normalit. Rappelons pour conclure que d'une part ne pas rejeLer une hypothse ne prouve pas sa vracit et que plusieurs distributions peuvent s'ajuster aux mmes donnes, et d'autre part que lorsque que la taille de l'chantillon augmente il devient de plus en plus difficile d'accepter un modle standard de distribution: en effet les lois de probabilit d'usage courant sont des modles simplificateurs peu de paramtres et ne peuvent pas toujours rendre compte de la complexit d'un grand ensemble de donnes.

14.7

QUELQUES LIMITES DES TESTS

Au terme de ce long chapitre il convient de faire les remarques suivantes. Les tests sont un outil essentiel du processus de dcision en faveur ou en dfaveur d'une hypothse scientifique. Cela a pu conduire des excs : un rsultat ne pouvait tre publi dans certaines revues que si un test l'avait dclar statistiquement significatif au risque 5 %. Un point essentiel concerne la taille des chantillons: l'infrence statistique classique a t dveloppe pour traiter des petits}) chantillons de l'ordre de quelques dizaines ou centaines d'observations au plus. En prsence de trs grandes bases de donnes le paradoxe est que tout devient significatif: par exemple, pour un million d'individus, l'hypothse d'indpendance entre deux variables sera rejete au risque 5 % si le coefficient de corrlation linaire est suprieur en valeur absolue 0.002, ce qui est sans intrt pratique. On peut considrer que l'hypothse nulle a t mal choisie, mais le problme persiste: l'hypothse nulle devant tre fixe avant la collecte, ou en tous cas avant l'analyse des donnes, on aboutira son rejet ds qu'elle est trop prcise car tout cart mme minime devient significatif. Le problme se pose dans les mmes termes pour les tests d'ajustement des modles: si les donnes sont des donnes relles et non simules, on aura tendance rejeter le modle. Il ne faut pas s'en tonner puisqu'un modle est une simp1ii1cation de la ralit: comment imaginer que l'on puisse reprsenter des m11ions d'observations avec seulement 2 ou 3 paramtres ? Ce n'est pas d'ailleurs pour cela qu'il faut ncessairement abandonner le modle, qui peut avoir d'autres vertus ... L'analyse des grandes bases de donnes amne ainsi repenser la notion de test et conduit des recherches nouvelles sur la validation (voir chapitre 19). Un autre problme se pose quand on effectue un trs grand nombre de tests sur les mmes donnes, par exemple en gntique pour savoir si certains caractres sont prsents. Il d'un cas semblable aux comparaisons multiples (voir paragraphe 14.5.1.4) mais de ampleur. Le risque de rejeter tort une des hypothses nulles crot rapidement avec le nombre de tests. Il faut alors recourir la thorie du contrle du taux de fausses dcouvertes (Benjamini et Hochberg, 1995).

thodes de .Monte- aria et de


rchantillonnage (Jack-I<nife,

bootstrap)
Dans de nombreux cas, il n'est pas possible d'obtenir des expressions exactes pour les distributions de statistiques de test ou cl' estimateurs, car les calculs sont trop complexes. Les mthodes de simulation el de rchantillonnage qui ont pu se dvelopper avec les progrs de l'informatique pelTI1ettent de substiruer une tude thorique impossible, une dmarche exprimentale o les lois exactes sont approches par des rpartitions empiriques. La simulation alatoire (dite de Monte-Carlo par rfrence aux jeux de hasard) consiste reproduire avec un ordinateur de nombreux chantillons issus de lois connues et effectuer pour chacun de ces chantllons les calculs ncessaires, qui sont ensute synthtiss.

15.1

GNRATION DE VARIABLES ALATOIRES

la base des mthodes de Monte-Carlo se trouve la ncessit de simuler des chantillons artificiels de variables alatoires. Toutes les mthodes reposent sur la gnration de variables uniformes.

15.1.1

Gnration de variables uniformes sur [0 ; 1]

Bien qu'il existe des procds physiques de ralisation de variables unifolTI1es (roue de loterie par exemple) ils ne sont gure compatibles avec l'informatique et la ncessit de disposer trs rapidement de grands chantillons. On recourt donc des algorithmes de gnration de valeurs comprises entre 0 et 1 : un algorithme tant par nature dterministe, on parle alors de nombres pseudo-alatoires. Un bon algorithme doit pouvoir raliser des suites trs grandes de nombres qui ont en apparence toutes les proprits d'un Il-chantillon de variables indpendantes et identiquement distribues. Il est donc important de tester la qualit d'un gnrateur: on utilise pour cela des tests classiques d'ajustement et d'indpendance. Les mthodes les plus employes sont bases sur des suites rcurrentes (qui fournissent donc ncessairement des suites priodiques). La mthode multiplicative congru entieHe de Lehmer est la plus connue: ri + 1 ari modulo m, c'est--dire que ri 1 est le reste de ari divis par m. En pratique on prend possible.
111

le plus grand possible afin d'avoir la priode la plus grande

372

15I11III Mthodes de Monce-Carlo et de rchantillonnage (Jack-knife.

DOclr"h.....s

On peut montrer que si Cl est de forme 8t 3 et si ro est un nombre entier positif' quelconque la priode de la suite engendre est 111/4. compris entre et 1 sont alors considrs comme pS(~ud.oallalloes. 1 c'est--dire comme un chantillon de la loi uniforme sur [0, 1]. Les nombres
_l_'-

111

Sur ordinateur on choisira gnralement III = 2f1 - 1 o p est le nombre de bits d'un machine (le premier bit est inutilisable car rserv au signe). De plus la division par 2p aise faire sur ordinateur car elle correspond une troncature. Un choix classique est
Cl

= 7 5 = 16807, ou

li

= 2 16

+3

= 65539 avec

III

= 231

15.1.2
/5.1.2.1

Mthodes gnrales de tirage d'un chantillon artificiel de n valeurs d'une variable alatoire X continue
Inversion de la fonctiolJ de rpartition

La mthode suivante s'applique lorsque F- 1 a une forme analytique simple. Soit F(x) la fonction de rpartition de X. La variable Y = P(X) est uniformment distribue sur [0, 1]. En effet: Donc si l'on tire 11 nombres au hasard uniformment rpartis entre 0 et l : rI_ r~, ... , rI! l'chantllon cherch (x" X2," ., x ll ) sera dtermin par Xi = p-l(ri) ; cette mthode est dite de l'anamorphose}) (fig. 15.1).

F(x)

x
FIGURE

15.1

On dit que l'on a simul la variable X.

15.1.2.2

Mthode du rejet de von Neumann

CetLe mthode est applicable lorsque la densit de X est support born et reste finie. On supposera que 0 ::; X::5 1. Soit m un majorant de f(x). On tire un nombre U uniformment rparti entre 0 et 1 et ensuite un nombre V uniformment rparti entre 0 et m (fig. 15.2).

1S_Mchodes de Monte-Carlo et de- rchantllonnage (Jack-knife. bootstrap)

373

-------------------r---------------:

v
f(u}

FIGURE

15.2
Il

Si V < f( U) on conserve U qui est une ralisation de X et on pose

= x sinon on rejette

U et on recommence.
En effet la probabilit conditionnelle qu'une valeur U soit sachant que U = .\: vaut PCV <j(x)) = j(x)/m, la probabilit inconditionnelle est l/m (rapport de la surface sous la courbe de densit la surface du rectangle), donc d'aprs la formule de Bayes: f(x) dx
P(x

<

<

+ dx/U est garde) = -/- =


lm

111

j(x) dx

Cette mthode est recommande pour simuler les lois bta de type re la loi bta de type II par la transformation Y = X/ 1 - X.

r dont on peut ddui-

La mthode du rejet peut conduire dans certains cas rejeter un trop grand nombre de valeurs. U ne amlioration notable de la mthode du rejet consiste utiliser une autre fonction de densit g facilement simuJable, telle gue cg(x) 2: f(x). On alors un couple (y ; tt) de

, . ependantes de Y cl e densIte g et de . fea l"IsatlOns Ind'

Il

'1': unliorme, S)

li

f(y) < --,

cg Cv)

y est accepte

comme ralisation de X de densit f(x), Sinon on rejette la valeur y et on recommence, Si X est

support born, on prendra par exemple pour Y une loi triangulaire.

FIGURE

15.3

374

15_Mthodes de Monte-Carlo et de rchantillonnage

(Jack~knife,

bootstrap)

Si s est la surface comprise entre les deux courbes, on montre que le taux de valeurs acceptes l vaut-. s+l Lorsque la distribution simuler est trop complexe, ou que sa densit n'est connue qu' un facteur multiplicatif prs comme dans le cas de distributions (1 posteriori en statistique baysienne, on utilise actuellement des mthodes dtes MCMC (Monte-Carlo Markov Chalns) qui consistent simuler une chane de Markov qui converge vers la distribution simuler. Les MCMC dpassent le cadre de cet ouvrage et nous renvoyons le lecteur intress l'ouvrage de C. Roberl (2001).

15.1.3
15.1.3.1

Mthodes spcifiques
Variable de Bernoulli X de paramtre p

On tire un nombre au hasard entre 0 et l : 1:

Si r < p, X I ; si r > p, X = o.
partir de la variable de Bernoulli on peut simuler une variable binomiale @(n ; p) en utilisant le fait qu'une binomiale est une somme de Il variables de Bernoulli indpendantes.

15.1.3.2

Loi 'Y p avec p entier

La fonction de rpartition d'une variable X suivant une loi "YI est F(x) = 1 - exp( -x). La mthode de l'anamorphose nous donne, si r est un nombre alatoire uniformment distribu 1 - exp( -x) soit x -ln(1 r). Comme 1 - r est aussi unifonnment entre 0 et 1 : r distribu sur ID, 1] il suftit pour simuler X de faire:
x

= -ln r

Une variable X suivant une loi "YI' est une somme de p variables "YI indpendantes, d'o la ln ri ln r2 ... - ln r" si p est entier soit: formule de simulation: x =

= -ln(nr;)
1=1

15.1.3.3

Lo; de Poisson gjJ(A)

La mthode consiste simuler un processus de Poisson de cadence 1 sur une priode gale - puisque le nombre d'vnements survenant sur cette priode suit une loi de Poisson !?}l(-) (fig. 15.3).
"il

E2
FIGURE 15.4

Les intervalles successifs OEI ; EIE2' ... EIIEII+1 suivent indpendamment des lois "Y,. On engendre comme en 15.1.3.2 des variables 'YI et on ajoute leurs valeurs jusqu'

1S_Mthodes de Monte~Carlo

et de rchantillonnage (Jack-knife, bootstrap)

375

dpasser . tel que : calcul:

la ralisation ln ri

Il

de la variable de Poisson 0'>(.) est alors le plus grand entier

Il

;=11

2:: -

<

. ou ce qui est quivalent mais plus conomique du point de vue

II ri > exp( - .)
i=1

11

15.1.3.4
o

Variable de Laplace-Gauss

La mthode suivante repose sur le thorme central-limite

X~, ~ LG{Q; 1) . Ce thorme lant valable en particulier pour des variables uniforaI'J/l mes, la somme de Il variables unifom1es est donc approximativement une loi de Laplace-Gauss d'esprance n/2 et de variance 11/12 car la loi continue uniforme sur [O~ 1] a pour esprance l/2 et pour variance 1/12.
En pratique ce rsultat est acquis ds que
Il

= 12 d'o la mthode:

Pour obtenir une ralisation d'une variable LG{6 : 1) ajouter 12 nombres au hasard tirs entre 0 et 1. Soit
rI< 1'2' . , 1'12

ces nombres et soit X une variable LG(11l ; CT) ~ on a alors:

x =

III

+ cr(.~ri
1=1

- 6)

Mthode de Box et Mller


Cette mthode exacte dcoule du thorme suivant:

Si U et V sont deux variables uniformes sur [0, 1] indpendantes, alors X et Y dfinies par:
X
y

(-21n U)I/2COS 271"V (-21n U)I/2 sin 2'iTV


y

sont deux variables normales centres-rduites indpendantes.


En effet en notant p2
X~ et uniforme sur

X:!.

y 2 et 0

= Arc tg -. p2 et e suivent indpendamment des lois


X

1.0, 2'iT]. L'algorithme de Box-Muller revient simuler l'angle e par 2'ITV et le rayon p par (-2 ln U)1/2 puisque xy2 suit une loi exponentielle (voir chapitre 4,
paragr. 4.3.1). D'o pour deux nombres alatoires ri et r::!, deux ralisations de la loi LGW ~ 1) indpendantes.
o

Mthode polaire de Marsaglia

C'est une variante de la prcdente utilisant une technique de rejet qui vite le calcul des sinus et cosinus.

376

15_Mthodes de Monce-Carlo et de rchancillonnage (Jack-knife, OOC)1:';tl-:'",\

On engendre deux nombres alatoires r, et r2 puis LIt = 21'[ - 1 et Il'1 21"2 - 1 (UI et Il., sont unifonnment rpartis sur l'intervalle [-1 ; + 1]). On rejette lit et Il} si + ll~ > l de garder un couple uniformment rparti dans le cercle de rayon unit (fig. 15.5).

ur

FIGURE

1S.S

On montre alors que p1

= VT + V~ est une variable uniforme sur [0,

1] indpendante du

Ut ,VI . couple ( - , -= ou - et - sont 1 COSinUS et l SinUS de l' ang 1 a1" e e' e eat01re ppp p rparti entre 0 et 2'li ; d'o la formule:

V,)

U
2

e umiormement
'f,' '"

et La simulation d'un vecteur alatoire gaussien dont les composantes ne sont pas indpendantes peut s'effectuer en recourant une ACP : si l'on connat la matrice de variance covariance !, on en cherche les vecteurs propres qui vont fournir des combinaisons linaires gaussiennes et indpendantes que l'on simule aisment. On peut galement utiliser la transformation de Mahalanobis. 11 suffit ensuite de faire faire la transformation inverse (voir chapitre 4).

15.2 15.2.1

APPLICATIONS Simulation de fonctions de variables alatoires

Soit Y une variable s'exprimant comme une fonction f(X I , Xl, ... Xp ) de variables de lois connues. Il sera en gnral difticile de trouver la loi (densit ou fonction de rpartition) de Y mme dans des cas simples. Si les Xi sont indpendantes, il est facile d'obtenir un chantillon artificiel de Y: il suffit de gnrer indpendamment une valeur de chaque variable, de calculer f et de recommencer. On peut ainsi rsoudre le problme du calcul d'incertitudes en physique ou chimie o J'on connat l'incertitude sur chaque variable sous la forme Llx qui

1s_Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife, bootstrap)

377

n'est en fait que deux fois l'cart-type de X si l'on se rfre la loi normale. L'incertitude
y sera estime par la moiti de l'cart-type de Y.

Exemple: y =

X~X2 o XI suit une loi normale N(3 ; 1), X'2 une loi triangulaire et X3 une
3

loi gamma de paramtre 3. XI, X::. X 3 sont des variables indpendantes.


0,4
0,3

0,5
0,4 0.3 0,2

0,3

0,25
0,2 0,15 0,1

0,2
0,1 0

0,1 -2 0
2
Xj

0.05
2 x.2 3 4

6
X3

8 10 12

En simulant 1000 valeurs de Yon trouve:

40
Moyenne:: 2,4915 Mdiane l,66n1 Variance 8,71593 cart-type = 2,95227 Minimum = -0,0406886 Maximum = 48,2368 tendue =48,2n5 Asymtrie = 5,79394 Aplatissement = 65,2381

30
20

10

7 Y

17

Avec 1000 ralisations, les rsultats sont suffisamment prcis: Intervalle de confiance 95, 0 % pour la moyenne: [2,30852 lntervalle de confiance 95, 0 % pour l'cart-type: [2,82831

2,67448] 3,08768]_

15.2.2

Calcul d'une intgrale par la mthode de Monte Carlo

o et

Toute intgrale peut se ramener par un changement de variable une intgrale entre l. Or 1 =

(1 g(1) dt est l'esprance de g( U) o U est une variable uniforme sur [0, Il. Jo

378

15/111111Mthodes de

Monte~Carlo

et de rchantillonnage (Jack-knife. bootstrap)

l A partir d'un chantillon de la loi uniforme U, on estmera 1 par 1 = A

2: g(Ui) moyenne
1

Il

11

des valeurs de la variable g( U). Ona:

E()

1 et

V() =

~ V(g(U 11
1 ==

= d-IJ[g(U) - g(v)J:! du dv
L.11

Le procd peut tre amlior en remarquant que:

li

'g{t) -p(t) dt pU)

o p(t) est la densit d'une variable T dfinie sur [0, 1] : un choix judicieux de p(t) appele fonction d'importance permet de diminuer considrablement la variance de l'estimation. En effell = E - - d'ou:

[9CT)].
peT)

o les points li ne sont plus choisis uniformment entre 0 et 1 mais selon la loi de densit p. On a alors:

V() =

~ II[(g(1)) - (g(1I)]2 dt du
2n
p(t) peu)

La variance est alors nulle si p est proportionnel 9 (ce qui suppose 1 connu ... ). En pratique on prendra une fonction d'importance dont l'allure est voisine de celle de g. Ce type de calcul est surtout utile pour l'valuation numrique d'intgrales multiples.

1S.2.3

Distributions d'chantillonnage de statistiques complexes

La simulation permet galement de trouver la distribution approche de statistiques complexes, et mme de statistiques simples quand la population a une distribution peu maniable.

Il suffit de rpter N fois la simulation d'un Il-chantillon de X pour obtenir N valeurs de la statistique d'intrt T: si N est assez grand, on aura une bonne prcision.
_ Exemple: Si U est une variable alatoire uniforme sur [0: 9] le milieu de l'tendue d'un Il-chantillon est un estimateur de fJ /2 que l'on notera T. Quelle est la distribution et la variance de T pour 12 = 5 ?

En prenant 11 = 1, on simule N = 1000 chantillons de 5 valeurs d'une loi uniforme, on calcule chaque fois T, d'o sa distribution empirique. Une simulation donne 1 = 0,5003752
s = 0, 1106459

1S_Mthodes de

Monte~Carlo

et de rchantillonnage (Ja.ck-knife, bootstrap)

379

0,10

0,25

0,40 Tl

0,55

0,70

0,85

Remarque: ce n'est pas l'estimateur sans biais de variance minimale qui est
Il + ] - - sup(X1;"'; XIl) et dont 1 d'lstn'b' est lSUlvante : a utlOn a ' 21l

15.2.4

Donnes manquantes et imputation multiple

Il est frquent d'avoir des valeurs manquantes dans des tableaux de donnes (donnes omises, refus de rponse, erreurs etc.), Avant de savoir comment traiter le problme, il faut s'interroger sur le mcanisme qui a produit une valeur manquante pour une variable Y Pour simplifier, nous nous placerons dans le cas o une seule variable numrique prsente une valeur manquante, Le mcanisme est dit non-ignorable ) si la probabilit que Y soit manquant dpend de la vraie valeur de Y (exemple: la probabi1it de ne pus donner son revenu est d'autant plus grande que le revenu est lev), Des modles spcifiques sont alors ncessaires pour prendre en compte ce mcanisme,

380

15_Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife. bootstrap)

Dans le cas contraire on dira que la donne est manquante alatoirement (<< missing at

random ). Deux options principales s'offrent au praticien:


ignorer la donne manquante en supprimant l'individu de l'analyse, mais on voit vite que s'il faut supprimer tous les individus dans ce cas, on risque d'appauvrir fortement }' chantillon ; remplacer la valeur manquante par une valeur plausible: c'est l'imputation. Il existe de nombreuses mthodes d'imputation: remplacer la valeur manquante par la moyenne des valeurs non-manquantes (mais on ne tient pas compte des autres variables) ; effectuer une rgression multiple o Y est explique par les autres variables sur les donnes compltes. Ces mthodes dites d'imputation simple souffrent d'un dfaut majeur: elles sont dterministes en ce sens que deux individus qui ont les mmes valeurs des autres variables auront la mme valeur impute de Y, ce qui n'est pas raliste et condui t une diminution artiticielle de la variance. Il vaut mieux tirer au hasard une ralisation de Y, considre comme une variable alatoire, dans la loi conditionnelle de Y/X,. X:z, ... XI" d'o l'utilisation des techniques de simulation. La solution la plus labore rendue possible par les moyens de calcul actuels est l'imputa .. tion multiple; on effectue plusieurs tirages, ce qui conduit plusieurs tableaux de donnes que l'on analyse sparment. Les rsultats sont ensuite regroups pour tudier la variabilit attribuable aux donnes manquantes. Le problme est en ralit assez complexe et ncessite une approche baysienne : si l'on utilise un modle de rgression pour estimer la valeur manquante Y = 130 + 13 IX 1 + ... I3pX" + E, il ne suffit pas de tirer des valeurs dans la distribution du rsidu E, mais il faut tenir compte du fait que les coefficients I3j du modle sont estims, donc alatoires. On doit donc tirer aussi des valeurs des I3j dans leur distribution a posteriori qui elle mme dpend des valeurs manquantes. Nous renvoyons le lecteur intress l'excellent petit livre de Paul D. Allison (2001).

15.3

MTHODES DE RCHANTllLONNAGE

Les mthodes de simulation exposes prcdemment permettent d'obtenir des distributions d'chantillonnage d'estimateurs dans le cas classique o l'on dispose d'un modle paramtrique J(x ; 6). En l'absence de modle raliste, ce qui est souvent le cas en pratique. comment simuler? En d'autres termes comment tirer des ralisations d'une distribmion inconnue? Ce problme paradoxal se rsout en Lrant dans une distribution proche de la distribution inconnue et la meilleure en l'absence d'information, n'est autre que la distribution empirique. C'est Je principe des mthodes de rchantillonnage o on va tirer au hasard des observations dans l'chantillon dont on dispose. Dans le bootstrap on effectue des tirages avec remise, alors que le jack-knife procde par tirages sans remise.

15.3.1

Le bootstrap

Soit une variable X de loi F inconnue; on dispose d'un chantillon (Xh X2 .. , x,J et on veut tudier par exemple la distribution d'un estimateur T d'un certain paramtre e, calculer su variance, en donner un intervalle de confiance.

1S_Mthodes de MonteCarlo et de rchantillonnage (Jackknjfe. bootstrap)

381

L'ide de cette mthode due B. Efron repose sur le principe lmentaire suivant: Si Il est grand F,~' est proche de F, on aura donc une bonne approximation de la loi de T en utilisant F,~t: la place de F. On est donc amen tirer des chantillons de n valeurs dans la loi F,t ce qui revient rchantillonner dans l'chantillon x" X:h . XII ; autrement dit effectuer des tirages avec remise de 11 valeurs parmi les n valeurs observes: les valeurs observes Xl' X2' . , XII sont donc rptes selon les ralisations d'un vecteur multinomia1 KI' K 2 , KI! d'effectif Il et de probabilits Pi gales l/n.
'!

Lorsque 11 n'est pas trs lev on peut numrer tous les chantillons possibles quiprobables (il yen a 11/1) sinon on se contente d'en tirer un nombre B suffisament grand l'aide d'une technique de tirage dans une population finie. Si le nombre de rplications B tend vers l'intini, la moyenne de toutes les estimations bootstrap converge vers l'estimateur du maximum de vraisemblance empirique (c'est-a-dire utilisant la loi Fin et permet ainsi d'estimer sa variance. En pratique on se contentera de quelques celHaines de tirages au plus. Le calcul d'intervalles de contiance peut se faire par : - La mthode des percentiles qui consiste simplement reprer les quantiles souhaits dans la distribution des B valeurs. C'est la mthode la plus simple. L'approximation normale: on calcule la moyenne et l'cart-type des B ralisations et on utilise un intervalle 1,96 cart-types. 11 faut bien sur vrifier la normalit approximative de la distribution des B valeurs. - D'autres mthodes plus complexes ncessitant une estimation de la variance pour chaque chantillon rpliqu (voir Davison & Hinkley, 1997).

_ Exemple : bien que ce ne soit pas un chantlIon alatoire, reprenons les donnes du chapitre 5 sur les valeurs du taux de taxe d'habitation de tOO communes franaises. On souImite obtenir un intervalle de confiance pour la mdiane qui vaut 17,625 et on effectue pour cela 1000 retirages.
On trouve la distribution suivante:

40
~

30

Moyenne 17,7872 Mdiane 17.625 cart-type:: 0.630658 Minimum 15.87 Maximum = 19.39

~ 20

co
u

Cl

& 10
17 18 19 20

:;

mdianes

L'intervalle de confiance des percentiles est [16,70 18,92] en prenant respectivement la

25<: et ta 97SC valeur ordonne.


L'intervalle avec approximation normale [16,55 19,02]. _

382

151111111Mthodes de

Monte~Carlo

et de rchantillonnage Uack-knife. bootstrap)

Le bootstrap est donc une mthode trs gnrale qui permet de rpondre des problmes jusque l quasi impossibles rsoudre comme l'tude de la variabilit de rsultats d'analyses factorielles (valeurs propres, vecteurs propres etc.) ou l'estimation de variance dans des sondages complexes. Il faut cependant tre conscient que si la taille 11 de r chantillon de dpart est faible, il y aura en gnral sous-estimation de la variabilit: les intervalles de confiance auront tendance tre trop petits (couverture insuffisante). En effet le rchantillonnage ne permet pas par dfinition d'engendrer des valeurs autres que celles dj observes, ce qui peut tre gnant pour des variables numriques, mais l'est moins pour des variables quaHtatives o en gnral, toutes les modalits sont observes, au mOns marginalement. Cela tant, le bootstrap est une mthode d'tude de la variabilit intrinsque un chantillon.

15.3.2

Le Jack-knife

Cette technique a t propose par Quenouille pour diminuer le biais d'un estimateur et reprise par Tukey ~ elle est moins performante que le bootstrap.

15.3.2.1

Dfinition
11.

Soit T un estimateur calcul sur un chantillon de taille

On nOle T-i l'estimateur calcul sur le (11 - 1) chantillon obtenu en enlevant l'observation i et on appelle pseudo-valeur Tt :

L' estimateur Jack~klltfe est alors la moyenne des pseudo-valeurs:

TJ

2:: Tt 11 i= 1

II

1
ce qui donne 7j = T - (n - 1)

2:: (7j -

1/

T).

11 i= 1

La variance de l'estimateur Jack~kllife est alors donne par:

15.3.2.2

Rduction du biais

Supposons que E(T) En effet:

+ -, alors E(TJ)
n
E(T) - (n

6.
-

E(TJ )

= 6

+~
11

1)(E(T_ i )

E(T

(n -

1)[6
11 -

+ -('-'8

n-l

6-

~]
11

1 =6+--a+--a
a
11 11

1S_Mthodes de Monte*Carlo et de rchantillonnage (Jack-knife. bootStrap)

383

titre d'exercice on peut vrifier que la mthode du Jackkll~re applique la variance S2 donne l'estimateur S*1, et que app1que x on retrouve X. Le calcul du Jackkn(fe est surtout utile pour des statistiques biaises dont le biais est trs difficile calculer (coefficient de corrlation par exemple).

15.3.2.3

Intervalle de confiance

J. Tukey a mis la conjecture suivante:

SJ
qui permettrait d'obtenir des intervalles de confiance indpendamment de toute hypothse sur la loi de X et en se servant uniquement de l' infonnation apporte par les donnes. Cependant cette conjecture est manifestement fausse dans certains cas: la mdiane en pnrticulier car les T_ i ne peuvent prendre que deux valeurs diffrentes (si Il est pair). Il vaut mieux prendre comme degr de libert ie nombre de pseudo-valeurs rellement distinctes diminu d'une unit, ce qui condut des rsultats souvent acceptables.

La rgression simple

Considrons un couple de variables alatoires numriques (X, Y). Si X et Y ne sont pas indpendantes, la connaissance de la valeur prise par X change notre incertitude concernant la ralisation de l' : elle la diminue en gnral, car la distribution conditionnelle de Y, sachant que X = x, a une variance qui est en moyenne infrieure la variance de Y: EIV(YIX)] :::; Vey) d'aprs le thorme de la variance totale (il est toutefois possible que VeylX = x) > Vey) pour certaines valeurs de X). Lorsque l'on peut admettre que le phnomne alatoire reprsent par X peut servir prdire celui reprsent par l' (causalit, concomitance, etc.), on est conduit rechercher une formule de prvision de Y par X du type Y= f(X), sans biais E[Y Y] = 0, ainsi qu' valuer l'ordre de grandeur de l'erreur de prvision que r on mesure par la variance de E y Y. On cherchera bien sr minimiser cette variance. Nous tudierons le cas thorique en recherchant la formule de prvision idale (au sens des moindres carrs), plus spcialement si cette formule est linaire avec un cart-type conditionnel constant cr(EIX = x) = cr (homoscdastict), puis le cas usuel o les variables ne sont connues qu' travers les valeurs d'un chantillon.

X sera dit variable explicative ou prdicteur; y sera dit variable explique ou critre.
Certaines proprits seront seulement nonces, le lecteur tant renvoy aux dmonstrations faites dans le chapitre sur la rgression multiple.

16.1 16.1.1

LE MODLE THORIQUE DE LA RGRESSION SIMPLE l'approximation conditionnelle

tant donn deux variables alatoires Y et X, la recherche d'une fonction f telle que !(X) soit aussi proche que possible de Yen moyenne quadratique a dj t aborde au chapitre 3, paragraphe 3.3.2. On sait quef(X) = E(YIX) ralise le minimum de E[(Y - !(X)fl car E(YIX) est ta projection orthogonale de Y sur l'espace L~ des variables du typef(X) (fig. 16.1). espace contenant L\ droite des constantes.

388

16.La rgression

FIGURE

16.1

La qualit de l'approximation de Ypar E(YIX) est mesure par le rapport de corrlation:


, TlNx

V(E(yjX))

Varance explique Vanance totale

Vey)

= cos-a

.,

La fonction qui, une valeur x de X, associe E(YjX = x) s'appelle fonction de rgresSIon de Yen X, son graphe est la courbe de rgression de Yen X. On peut alors poser Y = E(YjX)
E

+ E, o E est un rsidu nlatoire pas toujours ngligeab1e.


0 car E(Y)

a pour proprit d'tre d'esprance nulle: E(E)

= E(E(YjX).

De plus, E est non corrl linairement avec X et avec E(Y j X), car E est orthogonal L~. La variance de
E

ou variance rsiduelle est alors V(E)

(1 - Tlr'/x) Vey) .

16.1.2

Cas o la rgression est linaire

Ce cas, le plus important dans la pratique, est celui o E(YIX) CY + 13X. (Ceci se produit en particu1ier si X et Y suivent une loi normale deux dimensions). On a donc:
1

y =

QI.

f3X

+ El
QI.

En prenant l'esprance des deux membres de la relation E(YjX)


E(Y) ==
0:

f3X, il vient:

I3E(X)

La droite de rgression passe donc par le point de coordonnes (E(X), E(Y)). On a:

y - E(Y)

I3(X - E(X)

+E
+
E[E(X E(X))]

en multipliant par X - E(X) de chaque ct et en prenant l'esprance:


E[(Y E(Y))(X - E(X))]

I3E[(X - E(X))2]

soil cov (X, Y) = f3V(X) il reste:

+ cov (E, X) car E(E) = O.


cov(X, Y)
V(X)

Mais, comme E est non corrl avec X,

16_La rgression simple

389

L'quation de la droite de rgression est donc:


E(YjX) - E(Y)

= cov(X,
(Ty

V(X)

Y) (X

E(X)

d'o:

y = E(Y)

p-(X - E(X)) crx

Comme E est non corrl avec X, on peut crire, en prenant la varance des deux membres:
Vey)
(Ty = p- -:; V(X) +

V(E)

cri

VeY) = p2V(y)

V(E)

Comme on a vu que V(E) = (1 - TlI'/x)V(Y), on retrouve le fait que si la rgression est , ",.linaire :
p- = 1ljx

.,

.,

Rappelons que dans ce cas, il est inutile de chercher une transformation de X, autre que linaire puisque E(YjX) est la mei11eure approximation possible de Y parf(X).

16.2

AJUSTEMENT SUR DES DONNES

On dispose de 11 couples (Xi' Yi) ; i = 1, ... , Il constituant un n-chantillon d'observations indpendantes de (X, Y). On suppose vraie l'hypothse:
E(l'jX)

= Ct +

~X
E.

Le problme est donc d'estimer Ct, J3 ainsi que la variance cr:! du rsidu

La mthode qui va tre dveloppe s'applique encore si la variable X n'est pas alatoire, mais contrle par l'exprimentateur (c'est le cas par exemple quand on mesure Y diffrence de potentiel aux bornes d'une rsistance pour diffrentes valeurs de l'intensit du courant: l'intensit n'est pas alatoire, mais Y l'est, par suite des erreurs de mesure entre au Ires ). ou impose par 1a nature des choses (l'est une grandeur mesure diffrentes dates, x" ... , XI! ; X est donc le temps). Il suffit alors de supposer que pour chaque observation, on a Yi = Ct + ~Xi + Ei o les Ei sont des ralisations indpendantes d'une variable E d'esprance nulle et de variance constante cr:!, quel que soit Xi' On parle alors de modle linaire plutt que de rgression linaire. C'est parce que les proprits de la mthode des moindres carrs ne dpendent que des lois conditionnelles X fix que l'on peut traiter indiffremment la rgression linaire et le modle linaire par les mmes techniques. On prendra garde cependant de ne parler de corrlation entre Y et X que lorsque X est alatoire. De nombreux modles non linaires se ramnent facilement au modle linaire par des transformations simples.

390

16 _ La rgression simple

Ainsi le modle y = ax':', trs utilis en conomtrie (lasticit constante de )' par rapport il x ; 13 coefficient d'lasticit), devient un modle linaire en passant aux logarithmes: y' = ln y, x' = ln x et alors l = ln 0'. + I3x'. Il en va de mme pour le cas du modle croissance exponentielle: y = suffit de poser y' = ln y pour avoir y' = ln Cl + 13x.
Cl

exp({jx) ; il

Le modle logistique souvent pos pour rendre compte des variations d'un taux de rponse y exp(O'. + I3x) . , . (compris entre 0 et 1) en fonction d'une excitation x : y = 1 + exp(O'. + f3x) se Imeanse en posant y'

= ln 1 _

Y On a alors y'

= 0'. + f3x.

Cependant le modle y = 0'. + exp(l3x) n'est pas linarisable, tandis que le modle y = Cl + f3x + '"Yx"2 est linaire, mais est deux variables explicatives si on pose x 2 = Z et y = a + 13x + 'YZ (voir rgression multiple).

16~2. 1

Estimation de 0:, (3, rr 2 par la mthode des moindres carrs

La mthode des moindres carrs due il Gauss reprend sur l'chantillon la proprit que E(Y/X) = 0'. + !3X est la meilleure approximation de Y par X en moyenne quadratique. On cherche donc il ajuster au nuage des points (Xi' Yi) une droite d'quation y* = li + bx de telle sorte que

2: (Yi - Y:Y:! soit minimal (fig. 16.2).


;;1

fi

x
FIGURE 16.2

On tudie ensuite les proprits de li et b en tant qu'estimations de l'estimation cr:! de cr:! que l'on en dduit. La mthode lmentaire de dtermination de a et b est la suivante:

0'.

et f3 ainsi que

2:(Yi - y?'f =

fi

2:(y; -

il -

bXif-

= F(CI,b)

16_La rgression simple

391

Ce minimum est atteint pour


Il

oF

aa

= - = 0, ce qui donne les deux quations:


a
bXi)

iJF ab

~ (Yi
Il

= 0 :::}
=0

y = a

+ b"i

LXi(Yi i=l
11

il -

!JXi)

dont la solution est:

= ;"..;=...::1_ _ _ _ _ _

~ (Yi - Y)(Xi - x)

r'5:
Sx

d'oll:

y* =

y + r -'- (x
SI'

x)

Sx

La droite des moindres carrs passe donc par le centre de gravit du nuage et sa pente est cr l'analogue empirique de la pente de la droite de rgression p....2:. cr., Puisque les Yi et, dans le cas de la rgression, les Xi, sont des ralisations de variables alatoires, il ne faut pas perdre de vue que x, )i, T, sx' Sy' a, b, sont des ralisations de variables alatoires.
THORME 1

a, b et y* sont des estimations sans biais de


b est une ralisation de la variable alatoire B :

(,

f3 et de E(YjX = x)

+ I3x.

L (Xi
B
i=l
Il

Il

X)(ij - Y)

2: (X,. ;=1

X)2

Pour montrer que E(B) = 13, nous a1lons montrer en fait que E(x')(B) :::::; 13 o Elr,}(B) dsigne l'esprance conditionnelle de B connaissant les valeurs Xi = Xi des variables Xi' Comme l'esprance de l'esprance conditionnelle est l'esprance de B on aura E(B) = 13 afortiori :
~(Xj
1=1
11

x)E(x')(Yi

Y)

Or E("')(Yi )

= ( + I3xi par hypothse de rgression

linaire, et aussi alors:

392

16.La rgression simple

Il

L(x; - X)2
Donc:
Elx')(B)

= A _i=_1_ __ IJ
Il

2:(Xi - x)2
i=1

on a donc: Comme a

d'ou

y-

bi,

Cl

est une ralisation de A = Y - BX, et, par le mme procd:


E')(A) = E(r,)(y) - xE(X')(B)

Ct

+ I3x - xl3
donc

1E(A) = Ctl

puisque E(YIX

= x)

Ct

+ I3x,

= a

+ bx est une estimation sans biais de Ct + I3x.

On peut montrer de plus que B n'est pas corrl avec Y: on a tout d'abord la simplification suivante:
2:(Xj - X)Yi

b=_i_ _ _ _ __

2: (x;
car: La covariance conditionnelle de B et Y Xi fixs est donc:

=0

_
cav(B; Y)

= cov

(:?(Xi -

x)Y; _)
") ;

2: Cri i
j

=
;

") 2:(x;
i

cov(Y; : Y)

x)-

2:(x; - x)-

-Or cov(Y; ; Y) = COV(Yi ;

~ L1)) = 11

- , car Yi et
Il

1) sont indpendants si

"* j

; il vient:

car 2:(x; - x) = O. B et Y sont non corrls conditionnellement aux 1 marginalement.

Xi'

ils le sont donc

Cependant, le fait d'tre sans biais n'est qu'une qualit mineure pour des estimateurs. Le thorme suivant (pour une dmonstration, voir le chapitre sur la rgression mulliple) prouve la qualit des estimations obtenues, ceci sans rfrence aucune loi de probabilit.

16_La rgression simple

393

THORME

(GAuss-MARKOV)
C

A et B soll! panni les estimateurs sans biais de variance minimale.


Montrons que la variance conditionnelle de B est:

et fj fO/lction linaire des Yi' ceux de

L(XI - x)2rr 2

En effet:

puisque Xj Iix, Yi = u Comme A =

fjXj

+ E. Donc

V(Y;/X j

Y - BX on a V(A)

= \fOl

= .\) = + x2 V(B) Xi

V(E)

a-2.

fixs, d'o:

ej = Yi

Pour exprimer = V(E), il est naturel de penser utiliser la variance des rsidus Y c'est--dire la quantit que l'on a minimise : ~(Yi y;I'f.

t,

On montre alors (cf rgression multiple) le thorme:


THORME

LeVi 82=

Yif~
est LIlle estimation sans biais de rr 2.

_i_ _ _ _

n-2

16.2.2
Soit

Proprits des carts rsiduels


1

e,

)' .

y/ r cart rsiduel.

THORME

Les ej SOllt de moyenne 1lulle.

_ Dmonstration
Comme y;':
2;. ej
1

= Ji + b(x, -

x), on a 2;.ej =
1

~(Yi
r

y;I')

2;:(Yi 1

y) -

b2;(x j
1

x) donc
_

= 0, ce qui prouve que les ej ne sont pas des ralisations indpendantes d'une variable

alatoire.

394
1 La variance empirique des ei est donc gale Il

16.La rgression simple

2: eT et esl note s;/x et est appele variance


'

rsiduelle. On a alors le rsultat suivant:

En effet:

16.2.3

Cas o le rsidu t suit une loi normale

Tous les rsultats tablis prcdemment supposaient uniquement E(YlX) Si on admet maintenant que
CI)

= Ct + f3X.

suit une loi LG(O ; <T), on a tout d'abord:

LG(Ct + fjx ; <T). b) B, A, Y* suivent, les Xi tixs, des lois de Laplace-Gauss car ils sont des combinaisons linaires de lois de Laplace-Gauss:

Y/X =

X E

c) A, B,

'1

sont les estimateurs de variance minimale de

Ct,

fj, <T2

l''l) A" (Il - L (Td) - - . , - - =


(T-

2:CYi
l'

y;"f
(T-

.,

v/r 'al" . ') . ependante -".,-' est une re IsatlOn d''une vanabl e X~-2 10d' <T-

., ns-

de Y, de B et de A.

Remarque: A et B ne sont pas indpendants.


Les points c) et d) seront dmontrs dans le chapitre concernant la rgression multiple. L'usage des lois de A et B suppose
(T

connu, ce qui n'est pas vrai en gnral.

16_La rgression simple

395

(8
Puisque - - - - - ' - - - - cr
(8 E

- nS;;" LG (0 1) et -~,_. cr-

x;;-:! sont . d' tn epen dantes on a :

...,fn - 2 suit un ~l-J

ce qui permet de donner des intervalles de confiance pour La relation prcdente s'exprime usuellement par:
(B -

13.

On trouve de mme:

(A - ex)

Application: Loi de r quand p En remplaant B par R ~r et s.'-1x


x

= 0, cas de la rgression entre variables alatoires. =

Quand p

0, on a

13 = 0 (hypothse dite de non-rgression).

s.,.~ 1 -

R:! il vient facilement:

~ ~1I
1 - R-

2 suit un T"-2

16.3

TESTS DANS LE MODLE LINAIRE

16.3.1

Analyse de variance de la rgression

Effectuons la dcomposition classique:

e est suppos LG(O ; cr).


On voit aisment que ~(y/ - Y)(Yi - y;r.)
1

= O.

2:(Yi - y)2

= 2:(Yi
i

y;':f + 2:(yt

y)2

Donc:

Somme des carrs Somme des carrs totale rsiduelle

Somme des carrs explique

396

16_La rgression simple

On sait que:

Si l'hypothse Ho : seulement:

13 = 0 (hypothse de non-rgression linaire) est vraie et dans ce cas

Puisque

13 = 0,

on en dduit alors que

2: '., i

(y* - }if
(J

suit un X? car on sait que

----~,- - - suit un

a-

Xf comme carr d'une variable LG(O ; 1).

Le thorme de Cochran s'applique et ~(Yi " et alors:

Y;"f et ~(Y;" -

y):2 sont donc indpendants

2:(Y/ - Yi
_i_ _ _ _

(n

2) suit un F( l ; Il

2)

si j3 = 0

~(yt - Yif
i

Le test du caractre significatif de la rgression est alors immdiat. Ce test est d'ailleurs identique celui du coefficient de corrlation linaire : Ho: P = 0 { Hl: P::f= 0 qui, lui, n'a de sens que si X et Y sont alatoires. En effet, le rapport prcdent n'est autre que l

Rl

(Il - 2) car:

Et comme J'on sait que (r:z- 2f' = F (1 ; Il lest portant sur R.

2) le test prcdent est donc quivalent au

16.3.2

Test d'une quation de rgression spcifie


et ou

Il s'agit de lester simultanment les deux coefilcients de rgression. Comme A et B ne sont pas indpendants, il serait incorrect de tester successivement cr puis 13.

16_La rgression simple

397

Nous donnerons ici uniquement le rsultat qui est un cas particulier de celui obtenu en rgression multiple. Un tel test est souvent utile pour savoir si une droite des moindres cafrs diffre significativement de la premire bissectrice.

Si Ho est vrae, la quantit

~[Il(a - ctof + 2nx(a 2cr-

ct())(b - (3()) + (b - (3o)l2:xl]


i

est une ralisation d'une variable F(2 : Il grande.

2). On rejettera Ho si la quantit trouve est trop

16.3.3

Test de linarit de la rgression

Ce test, qui semble fondamental, a pour but de savoir si l'hypothse E(YjX) = ct + (3X est fonde. Il devrait donc prcder toute tude de rgression linaire. En fait, ce test ncessite d'avoir des observations rptes de l' pour chaque valeur de X, ce qui est souvent difficlle sauf dans le cas d'une exprimentation o X est un facteur contrl. En effet, on cherche savor si la courbe des moyennes conditionnelles est une droite, en d'autres termes si les J'j, moyennes des llj observations de l' lorsque X = Xi' sont peu prs lies linairement aux Xj' Pour cela, on compare le coefficient de corrlation linaire ,2 au rapport de corrlation l

- >.n-C). - -yf n-...J J.J

empirique:

el

car, dans l'hypothse de rgression linaire 1lTx

p:!.

On montre alors que si l'hypothse Ho : 1lTx


(el r 2)/k - 2

plOU

E(Y/X)
-

cv.

+ f3X est vraie alors:

(1 - e 2)/11

F(k

2; Il

k)

o le est le nombre de valeurs distinctes de X. On rejettera Ho si le rapport est trop grand. Dans ces conditions, on pourra aussi tester les hypothses Ho: 1lf'lx = 0 contre HI : 1lT'/x 0 atin de savoir si une formule de rgression autre que linaire peut tre essaye.

En effet, si l1I'IX

= 0 est vraie, on sait que (1

e 2/k ')

1
k

e~)/Il -

= F(k -

1~

Il -

k).

16.3.4

Contrle des hypothses du modle linaire

Les proprits de la mthode des moindres carrs dpendent essentiellement du fait que le rsidu E a une variance constante quel que soi t x, et qu'il n' y a pas d' autocorrlation entre les diverses ralisations de E. Il convient donc toujours de s'assurer de la validit de ces deux hypothses, ce que l'on fait usuellement en tudiant de manire empirique (des tests rigoureux sont dlicats tablir) les valeurs des carts rsiduels el' e2' ... , e'l qui ne doivent pas laisser apparatre de tendan" ce quand on les confronte graphiquement aux Xi par exemple, ou de dpendance en tudiant la liaison ei' ei+l' Dans le cas contraire, les estimateurs b, Cl, ne sont plus de variance minimale (ils restent toutefois sans biais). On se reportera au chapitre suivant pour l'tude dtaille des rsidus.

398

16_La rgression simple

Le test de Durbin-Watson
Ce test est couramment utilis en conomtrie pour s'assurer de la non corrlation des rsidus. On suppose ici que les observations sont ordonnes par le temps et on teste l'hypothse Ho: non corrlation des Ei contre HI : El processus auto-rgressif d'ordre 1 c'est--dire Ej = PEj-l + Lli avec p > 0 (le cas p < 0 est en gnral sans intrt). On prend pour statistique de test:
Il

d =

2: (ei /1

ei-If

;...1=...;2'--_ _ __

l:er
I=}

qui doit tre voisin de 2 si H() est vraie. On vrifie sans peine que 0 :s; ri $ 4. p peut tre estim par 1 de d ont t tabules (voir annexe table A.17).

d/2. Les valeurs critiques

Un cas simple dthtroscdasticit


Il est frquent d'avoir V (E/X = x)
le prdicteur. Les estimateurs des moindres carrs sont sans biais mais ne sont plus de variance minimale. En crivant la vraisemblance des Yi on a :

= cr 2.t2

l'cart-type du rsidu crot linairement avec

L(y" )'2"", )'11) =


')_)"/2 cr ( _Ii

/III" Xl
11

exp(-~ , (Yi ')cr1""

Les estimateurs du maxmum de vraisemb1ance sont alors les estimateurs de variance minimale et on volt sans peine que le problme est quivalent une rgression usuelle sur des donnes transformes. En posant

yI =
Xi

x: =

- et E;
Xi

E ' = - on a i elfet : y! = en
Xi

13

Ei axi + - =
Xi

13

+ cv:; + E~

avec V (ED = cr2 , Il suffit donc d'ajuster une droite au nuage

(~ ~ .\; ~). Xi

La constante du modle transfonn est la pente de la droite de rgression du modle originel et vice-venw, On obtiendra alors, bien sr, une analyse de variance de la rgression moins flatteuse mais des estimations plus prcises des coefficients de rgression.

16.4 16.4.1

APPLICATIONS Exemple (tableau 16.1)

Les donnes suivantes, communiques par M. Tenenhaus, professeur HEC, concernent un chantillon de 24 offres de vente d~appartements situs dans le 5c et le 6C arrondissements de Paris, en 1975.

16_La rgression simple

399

TABLEAU

16.1

y Prix en milliers de Francs


X Surface en mtres carrs

130 28
~

280 50 250 35 78 30
1

800 ]96 350 86 375 105


..i
1

268 55 300 65 200 52 190 155 32 270 80 ,

500
110

320 60 200 40 85
1

250 48 325 70 495 100


l

Prix
Surface

378 90 85 , 28

245 52 295 60

Prix
Surface

:
1

1
1

20

La forme du nuage de points autorise un ajustement linaire (fig. 16.3). On pose donc le modle Y ex + I3X + E et on supposera E E LG(O : cr).

FIGURE

16.3

Des calculs lmentaires conduisent aux 5 rsultats suivants, qui contiennent toute l'information utile:

x=

70,0833 m2
Sy

y=

309,333 103 F
r

.lx

= 44,6915 m2

= 182,9505 103 F
li

0,9733

On en ddut tout d'abord les estimations

et b de ex et

L'quation de la droite d'ajustement est donc y* =

f3 : Cl = 30,0921 3,9844x + 30,0921.

et b

= 3,9844.

Notons ici que les estimateurs des moindres carrs sont invariants par changement d'chelle des variables au sens suivant: Si y est multipli par une constante k (passage du franc l'euro par exemple), la pente b et l'ordonne l'origine a sont multiplies par la mme constante k.

400

16.La rgression simple

Si X est multipli par une constante k (par exemple surface exprime en pieds carrs au lieu de m2)~ la pente est divise par k, l'ordonne l'origine ne change pas.
Dans tous les cas, le coefficient de corrlation ne change pas, pas plus que les statistiques de test. La variance rsidueJle s;lx s'obtient directement par la formule si/.r = (l soit:
S~/x = 1762,1816

,.2)S;,

d'o

srlx
d'o

= 41,98

On en dduit:

A')

(T-

= - - S'VI.I' 11 - 2 -

11

..,

1922,38

rr

= 43,84.

Les estimations des variances de A et B sont donc:


=

cr

1 -r ) ( Il + ~ = (16,6455)2 = 277,0724 ilS;


-

L'hypothse de normalit de

permet de donner des intervalles de confiance pour ces


..,

' X~-2; 1 ta bl e a cr2 de la distribution de X 22 degrs de libert fournit les bornes 1) et 36,8 pour un intervalle de probabilit risques symtriques de niveau 0.95 (fig. 16.4).

.. " ') Ils"lx '1"' . d Iverses estlmatlons ; mnSI, pour cr-, ~ est une rea IsatlOn d' une vaflabl e

11
FIGURE

36.8

16.4

L'intervalle de confiance est donc donn par:


24s~/:c ') 24s;/x ---- < cr- < ----

36.8 Il 1149,25 < cr:! < 3844,76 33,90 < cr < 62,01

soit avec 1 -

ct

= 0,95.

16_La rgression simple

401

Le test de signification de la rgression peul tre effectu par l'analyse de variance prsente dans le tableau 16.2 :
TABLEAU

16.2

Source de variation Explique par la rgression Rsiduelle Totale

Somme des carrs


76L 009 42292

Degr de libert

Carr moyen 761 009 1 922,4

1
23

22

803 301

761 009 La valeur f constate 1 922,4 = 396 est videmment trs signiticative. On pourrait aussi, ce qui est strictement quivalent, tester Ho : fl = 0 contre HI : 13 de libert : comparant b / h une variable de Student 22 = Il - 2
t=-=

0 en

b l!

199 '

ce qui excde tout seuil usuel. On peut donc accepter Ho. On aura remarqu que 19,9 = (396)1/:1,
Les deux tests prcdents sont aussi quivalents au test du coefficient de corrlation linaire Ho : p = 0 contre Hl: p =f:. O.

16.4.2

Prvision d'une valeur ultrieure

Supposons maintenant que l'on dsire prvoir l'aide du modle la valeur de Y pour une valeur non observe Xo de X. La prvision naturelle est y(~!' = li + bxo. Afin d'encadrer cette valeur, cherchons ce que l'on appelle un intervalle de prvision. On a vu que V(;!: est distribu selon une loi: LG (

+ I3xo; (J" ~l + (x0 _ .


11
i

- ' <)' )

2:(x/ -

If

On sait d'autre part que la loi de Y/X =.t() (en abrg Yo) est une 10 LG(a + I3xo; cr) par hypothse du modle de rgression linaire. Y() et y(;l: sont deux variables indpendantes, car Yo ne dpend que de la valeur future Xo tandis que Y(t ne dpend que des valeurs dj observes (xj, X1' ' , " XJI) si l'on suppose les ralisations de E indpendantes.

" Yo - y~. suit alors une loi LG ( 0; cr ~ 1

i + - + (xCl .
Il

2: (Xi - xf

- "r)1 ) et donc:

Ya - y(t -cr--~-rl=::::::':======= suit une loi de Student TII -'2


~
+-+-~-11

(xo - xf

2: (x; - If

402

16_La rgression simple

En remplaant Xo par sa valeur et YI;!: par a + bx(), on peut donc obtenir un intervalle probable pour Y{). Cet intervalle sera d'autant plus grand que Xo sera loign de x. Ainsi, pour notre exemple, on trouve dans la table que P(I Til-li En prenant Xo

< 2,074) = 0,95.

laD, on a y~:

= 428,53. = 43,84~1 +
0,06

+~+
11

(xo - x)2

2:(x, - if

+ 0,03 = 45,15

d'o:
1

Yn - 428, 53 1 4 45,15 < 2,07

l'intervalle de prvision 95 % est donc 334,89 malgr un coefficient de corrlation trs lev.

< Yo < 522,17, ce qui est assez imprcis

La variance de l'erreur de prvision dpend de deux termes: la variabilit intrinsque de la variable Yo qui est gale u l et la variabilit de l'imprcision des estimations de CL et !3 dans la formule de rgression qui dpend pour l'essentiel de la taille de l'chantillon et peut donc tre rduite contrairement la premire source de variabilit. La figure 16.5 montre la droite des moindres carrs encadre par les deux types de contour

95 % (ce sont des arcs d'hyperboles).

800

600
x

d:

400

200

40
16.5

80
Surface

120

160

200

FIGURE

Rgression du prix sur la surface.

Les limites les plus troites correspondent l'intervalle de confiance de la valeur moyenne E(Y/X = x):
V'" -

..,. +

fu

~1
Il

+ -(x -- x)2- -

2: (x; - if
i

16_La rgression simple

403

Les limites les plus loignes correspondent l'intervalle de prdiction pour une valeur unique:

y*

1 trr ~ 1 + _ +
Il

(. .\:

.t

_)2

2:(Xj - X)2

t est la valeur de la variable de Student telle que P( 1 Til-li> r) = 5 %.

16.5

UNE MTHODE DE RGRESSION ROBUSTE

La mthode des moindres carrs est sensible la prsence de donnes aberrantes situes loin de la droite de rg:resslOn. Ainsi sur l'exemple suivant, on a y*

14,55

+ 0,59X avec r

0,978

i 1

2
3 4 5 6

Y 11,797 24,719 45,505 47,752 64,606 71,348

x 4,1379 17,241 37,241 55,172 88,275 95,862

20

40

60

BD

100

Si l'on modifie le dernier point en le remplaant par y = 97,191 L'quation devient y* = 38,41
100
80 60
40 20 0

14,482

+ 0,28 x et le coefficient de corrlation tombe ,. =

0,29.

0
20 40

60

80

100

On peut remdier ce problme de deux faons : - en liminant les points aberrant~ ; - en utilisant un autre critre que les moindres carrs. La premire solution peut tre risque et n'a de valeur que s'il s'agit effectivement de donnes errones ou appartenant une autre population, ce qui n'est pas toujours simple dterminer.

404

161111111La rgression simple

La deuxime approche a l'avantage d'tre automatique et de fournir un modle robuste convenant la majorit des donnes, en perdant toutefois les proprits d'optimalit des estimateurs des moindres carrs, mais ces proprits ne sont valables que sous certaines conditions. De nombreuses techniques robustes ont t proposes; l'une des plus anciennes (elle a t propos en 1757, soit 50 ans avant la mthode des moindres carrs) est la rgression dite LI o on minimise la somme des valeurs absolues:

22IY;': ;=1

Il

li -

bXil

mais son utilisation a longtemps t nglige car contrairement aux moindres carrs, il n'existe pas de formule donnant les coefficients et leurs erreurs standard. Des algorithmes spcitiques sont ncessaires. Dans l'exemple prcdent cette mthode fournit l'quation y* = 19,66 + 0,51x et le graphique suivant montre que la solution LI (en pointill), avec la donne perturbe reste plus proche de la solution initiale (en gras) que celle des moindres carrs (en tiret large). Une particularit de la rgression LI est que la droite optimale passe toujours par deux des points de l'chantillon (ici les points 4 et 5) mais on ne peut savoir l'avance lesquels. On pourra consulter B irkes et Dodge (1993) pour de plus amples dveloppements.
100 80

...

60
40 20
rtII

0 0 20 40 60 80 100

16.6

RGRESSION NON PARAMTRIQUE

Lorsque la forme de la courbe de rgression est compltement inconnue, on peut utiliser une estimation non paramtrique de la courbe f(x) = E(Ylx = x) d'une manire semblable l'estimation non-paramtrique de la densit ((f 13.9). En se donnant un intervalle [x - 1112 ; x + lz/2] centr sur x et de longueur h, le rgressogramme consiste compter le nombre de points appartenant l'intervalle et calculer la moyenne des y correspondants. De manire analogue l'estimateur de la fentre mobile, on peut crire cette estimation:

E (Ylx

= x) = ,--'

K[_Xlz - , -_Xi]V'
=....:....1---===------.::::::-

K[x - Xi]
lz

avec

K(u)

SI

- - ::; Il ::;-

i= 1

16_La rgression simple

405

On obtient l'estimateur de Nadaraya-Watson en utilisant un noyau K continu, d'o une estimation continue de la fonclion de rgression. Son caractre plus ou moins lisse dpend de h que l'on peut optimiser au moyen d'une mthode de validation croise: on cherche la valeur h qui minimise la somme des carrs des carts en omettant chaque fois dans la formule de Nadaraya-Watson la valeur Xi quand on fait l'estimation en ce point. L'estmation non paramtrique de la rgression fournit seulement des valeurs point par point. Cela peut paratre gnant si l'on cherche un modle explicite, mais si l'on ne cherche pas extrapoler en dehors du domaine observ de la variable explicative. on a toujours une prvision. Sur des donnes de B. W. Silverman reliant l'acclration Y subie par le crne d'un motocycliste en fonction du temps X aprs l'impact, on voit clairement l'intrt de la mthode, car il n'y a pas de modle simple pour la courbe de rgression (calculs effectus avec XploRe
Estimateur de Nadaraya.Watson h

=2.8

50-

>-50 ~.

.....

. ... . ..." .. ."


"
~

.....

50

.>-

o
-50

"

-100 -

1 .' .. "."

-100

10

20

30

40

50

10

20

30

40

50

X
FIGURE

16.6

La rgression multiple et le modle lina.ire gnral

Ce chapitre gnralise le prcdent. L'accent y est mis sur les interprtations gomtriques. La complexit du sujet ne provient cependant pas tant de la difficult des calculs, mais plutt de la diversit des approches possbles que nous rsumerons ici par la distinction entre modle linaire et rgression multiple. L'apparente simplicit d'utilisation des programmes de calcul, qui servent aussi bien pour la rgression que pour le modle linaire, car les formules de rsolution sont en pratique les mmes, masque en ralit de profondes diffrences quant au modle utilis. La pratique de la rgression multiple est assez dlicate comme l'illustreront les paragraphes

17.3 et 17.4.

17.1 17.1.1
17. 1. 1.1

RGRESSION ET MODLE LINAIRE Rgression entre variables alatoires


Aspect empirique : la recherche d'un ajustement linaire

On a mesur sur Il individus p + 1 variables reprsentes par des vecteurs de Xl' X:!, .. " x p : y est la variable expliquer ou critre, les Xj les variables explicatives ou prdicteurs.

1Ft y,

Les varables explicatives seront gnralement supposes tre linairement indpendantes. ce qui ne veut pas dire qu'elles sont statistiquement indpendantes (en particulier, elles peuvent tre corrles). Il faut donc proscrire absolument la terminologie utilise dans certains ouvrages o y est dite variable dpendante et les Xi variables indpendantes. On cherche alors reconstruire y au moyen des X,i par une formule linaire. On pose y* = bol possible de y.

+ b)x) + b2x2 + ... + b"XII et on

dsire que y* soit le plus proche

Si l'espace des variables lR"est muni comme d'habitude de la mtrique D, on que lIy - Y*IF~ soit minimal: c'est le critre des moindres carrs.

y* est alors la projection D-orthogonale de y sur le sous~espace W (de dimension (p en gnral) engendr par les variables 1, Xl' x 2' ... , XI' (fig. 17.1),

1)

408

17.La rgression multiple et le modle linaire gnral

FIGURE 17.1

Soit X la matrice

11

lignes dont les colonnes sont 1, xI> ... , Xp

X=

(on exigera Il

>

p)

X'II'

On sait que l'oprateur de projection X(X'DX)-IX'D. Donc:

D~orlhogonal

sur W a pour expression

En posant b =

on a : y* = Xb par hypothse, donc:

En particulier, si D
1

~ 1:
Il

= (X'X)-lX'y

et

b est appel vecteur des coefficients de rgression.

17.1.1.2

Modle probabiliste: rhypothse de rgression linaire multiple


Xj,

Si l'on veut justifier autrement que par sa simplicit l'ajustement linaire de y par les on peut utiliser le modle probabiliste suivant:

On suppose que y, XI' x::!, ... , x p constituent un 11 chantillon d'observations indpendantes de p + 1 variables alatoires ~J, <PI' <Pl , <Pp'

17_La rgression multiple et le modle linaire gnerai

409

On sait que la recherche de la meilleure approximation de donne par l'esprance conditionnelle E[ ~I / 'P l' 'P:!, ... , 'Pp]'

ll' par une fonction des

'Pj est

On pose alors l' hypothse de rgression linaire multiple:

E[ll' / 'P l' 'P:!, ... , 'Pp] = f3() +


p

2: f3 'Pj
j j= 1

l'

qui conduit au modle 11'

f3()

2: f3/Pj + E o E est une variable alatoire d'esprance


j=1

nulle non corrle avec les 'Pj' On note estimer le mieux possible.

cr:! la variance de E. En rgle gnrale, les coefficients f3o, f3b ... , f3p et cr:! sont inconnus; il s'agit donc de les
E

Entre les ralisations Yi' Xii' . . . , x ip ' ei de lV, 'PI, ... , 'Pp' dduite de l'hypothse de rgression linaire multiple:

il existe la relation suivante,

Yi

f3()

1'=1

2: f3j x ij + e

JI

i = 1,2, ... ,11

ce qui s'crit matriciellement 1y =

Xp + el avec:
el

p = ~I
f3"

[~Ol

e2

e=

e"

Sous des hypothses assez gnrales, on montrera au paragraphe 17.2 que le vecteur b obtenu par la mthode des moindres carrs est la meilleure estimation du vecteur p et que l'on peut dduire simplement de Ily - y*ll:! la meilleure estimation sans biais de cr 2 qui sera:
rr-

~")

= Ily-Y*112
n-p-l

17.1.2
17.1.2.1

Le modle linaire gnral


Aspect empirique

Supposons que pour chaque ligne de X on ait Il. reptitions indpendantes de }'. On a donc un nuage de k vecteurs YI' Yl, ... , Yk dans [RI! (fig. 17.2). On obtient ce genre de situations lorsque l'on fixe par exemple certaines valeurs des conditions exprimentales (temprature, pression, etc.) et qu'on mesure plusieurs

410

17.La rgression multiple et le modle linaire gnral

fois de suite un phnomne pour les mmes combinaisons de valeurs des conditions exprimentales. Le modle linaire consiste alors postuler que le centre de gravit du nuage des

YI ; Y2, . ; YI;. se trouve dans W: g =

XI3.

Le problme est alors le suivant: comment, l'aide d'une seule observation y, approximer le mieux possible g ? En effet, en ralit on ne connat la plupart du temps qu'un seul point du nuage. L'approximation g* de g obtenue grce y peut s'exprimer comme la projection orthogonale de y sur W, selon une certaine mtrique 1\11. 11 faut alors choisr cette mtrique M de telle sorte que g* soit le plus proche possible de g. Autrement dit, si l'on rptait l'opration de projection avec YI' Y2' ... ; Yk' les k approximations g'l', g~, ... ; g'};. devraient tre le plus concentres possible autour de g avec g')' = X(X'l\tIX)-1 X'MYi (fig. 17.3).

FIGURE

17.2

FIGURE

17.3

" faut trouver la mtrique M telle que l'inertie du nuage des la mtrique M rendant rinertie des

g;"

soit minimale.

Si V est la matrice de variance-covariance du nuage des Yi' on dmontre alors que minimale est la mtrique V-l .

gt

Ce rsultat constitue le thorme de Gauss-Markov gnralis{l). Comme gt est de la forme Xb i , ceci entrane alors que le nuage des hi est le moins dispers possible dans 1R1'+ 1, car la matrice de variance des b i est gale (X'X) fois cel1e des g1!. Avec une seule observation y, on dduit:

g* = X(X'V- 1 X)-l X'V-1y b = (X'V- I X)-l X'V- 1y

I_Pour une dmonstration complte on consultera l'ouvr-age de Cailliez et Pags, Introduction l'analyse des don-

nes, p. 323 327.

1l_La rgression multiple et le modle linaire gnral

411

17.1.2.2

Modle probabiliste

Ce modle n'est que la gnralisation du cas prcdent pour une infinit de rptitions. On suppose que y est une ralisation d'un vecteur alatoire d'esprance X~ et de matrice variance ~. Ceci revient poser le modle y X(3 + e o e est une ralisation d'un vecteur alatoire centr de matrice de variance ~. Le problme est alors d'estimer au mieux (3. Suivant la notation de C. R. Rao, nous noterons en abrg un tel modle par le triplet
(y ; X~ ; "k).

On montre alors que le vecteur b = (X'"k-1X)-IX'"k-1y est, sous des hypothses assez larges, l'estimation de variance minimale de (3 . b est appel estimation des moindres carrs gnraliss, par opposition (X'X)-IX'y estimation des moindres carrs ordinares (mco).

i 7. 1.3

Synthse

Dans les deux cas, rgression linaire et modle linaire, on a t amen poser le mme modle: y = X~ + e. Cependant, les hypothses sont diffrentes: dans le modle linaire X est un tableau de donnes certai nes, alors qu'en rgression X est alatoire. Le vecteur des rsidus e a une matrice variance quelconque "k dans le modle linaire, alors qu'en rgression le vecteur e a pour matrice variance cr::!I car l'hypothse d'chanti1lonnage suppose les observations indpendantes. Les objectifs sont galement diffrenls ; en rgression, on veut ajuster au mieux y ; dans le modle linaire, on cherche estimer l'effet moyen des variables explicatives. Si l'on considre dans le modle de rgression linaire multiple les variables explicatives comme des constantes, ce qui revient travailler conditionnellement aux <.pi' il est clair que ceci revent au mme que de poser le modle linaire (y ; X~ ; a 2I,J si tous les individus ont le mme poids. En fait, [a plupart des proprits de la rgression multiple s'obtiennent conditionnellement aux variables explicatives comme en rgression simple, ce qui nous autorisera ne plus parler que du modle (y ; X(3 ; cr:2I). Par ailleurs, l'utilisation complte du modle linaire suppose connue la matrice"k. Or, en pratique, on ignore ~ et, faute de mieux, on fait couramment l'hypothse simplificatrice que 2! est diagonale (non corrlation des erreurs) et que tous les termes sont gaux (homoscdasticit), c'est--dire que "k = cr::!I", quitte vrifier a posteriori sur les rsultats la validit de ces deux hypothses. Ceci explique la confusion entre modle linaire et rgression multiple; dans ce qui suit, nous ne ferons plus la distinction, car nous nous rfrerons dsonnais l'unique modle simpJificateur (y; X~ : a 2 ]), en supposant que les poids des observations Pi = 1/11 sont gaux entre eux. Remarquons pour finir que le terme de linaire s'applique en fait au vecteur ~ et non aux variables explicatives; ainsi, la rgression polynomiale li' = 130 + J3I'P + !3::!<.p2 + ... f3 p 'P P est un cas particulier du modle gnral o l'on prend p variables explicatives 'P, 4'2, ... , r.pp.

412

17.la rgression multiple et le modle linaire gnral

17.2

ESTIMATIONS ET TESTS DES PARAMTRES DU MODLE (y ; XJJ ; (J"21)

17.2.1
17.2.1.1

Estimation de

f3 et de

(12

Proprits gnrales

Soit b la solution des moindres carrs: b


THORME

= (X'X)-IX'y.

L
E(y)

b est ml estimateur sans biais de

Il.

_ Dmonstration: E(b) = (X'X)-IX'E(y) car X est constante et est un oprateur linaire.

= Xil par hypothse du modle linaire gnral (E, donc e est d'esprance nulle). Donc: E(b) = (X'X)-l X'XIl = Il

THORME

L
-

1 (DE GAuss-MARKOV) b est de tous les estimateurs salls biais de Il de la Jonne Dy, celui de variance minimale dans le sens qui sera prcis plus loin

_ Dmonstration:
La matrice variance de b est en effet 1 V(b)
V(b)

= rr 2 (X'X)-1/ car:
et
Vey) = V(e) = rr21/1'

= VX'X)-IX'y) = (X'X)-IX'V(y)X(X'X)-l
Il sans biais.

Soit By un autre estimateur linaire de

Soit (X'X)-IX'y - By la diffrence de ces deux estimateurs. Comme ils sont sans biais on a (X'X)-tx'Xj3 = DXp. On a donc DX Comme BX

= 11'+/ car cette relation doit tre vrifie pour tout Il.
+ C.
IJ1+I'

Posons D = (X'X)-IX'

on en dduit: CX = O.

Cherchons la matrice de variances-covariances de By :


V(By)

BV(y)B'

= [(X'X)-l X' + C] cr 2I/1[(X'X)-1 X' + Cl' = rr2 [(X'X)-1 XIX (X'X)-I + CX(X'X)-I + (X'X)-l X'C' + CC']
soit, puisque:
CX = 0
V(By)

= cr2[(X'X)-1 + CC'] = V(b) + rr:!CC'

On en dduit que pour chaque composante de b, b i est un estimateur meilleur que (BY)i et que d'autre part V(By) - V(b) est semi-dtinie positive. (En effet, les termes diagonaux de CC' sont;:::: 0). _

17_La rgression multiple et le modle linaire gnral

413

Ce thorme est un cas particulier du thorme gnral nonc en 17.1.2.1.


THORME

a - = -"------'''--

~,

Ily -y*W

lIy -

Xbll 2

n-p-

n-p-l

est

Ul/

estimateur sans biais de

_ Dmonstration: Considrons (voir fig. 17.4) le triangle rectangle dont les sommets sont les extrmits des vecteurs y, Xb et X(3.

FIGURE

17.4

Soit A le projecteur sur W(A = X(X'X)-IX') et 1

A le projecteur sur W..L.

Puisque y - Xb est orthogonal W, on voit aisment que y - Xb est gal (1 - A)e car e se dcompose sur Wet W..L en Xb - X~ et y - Xb respectivement. Donc y - Xb e/(1 - A)'(I A)e et comme 1 - A est un projecteur:

(1 - A)'
et on obtient alors :

1- A el (1
i,)

(1

A)2 A)e
j

Ily A).

XbU:~ =

L Cl.ijeie
o
Clij

est le terme courant de (1


i,)

Donc E[lJy - XblJ1J =

2: (Yij E(ej e).


cij est le symbole de Kronecker.
1

Comme les ei sont non corrls E(eie) = cija:? o Donc E[lly - Xb112] = a

2: (Yii
i=l

Il

a trace (1 -

A).

On sait que la trace d'un projecteur est gale son rang (car ses valeurs propres sont 0 ou 1), c'est--dire la dimension de l'espace d'arrive qui est ici W.1, Comme dim W p + 1, on a dim W..L = Il P - l :
E[lly XbWJ = a 2 (n - p - 1)

414

1l_La rgression multiple et le modle linaire gnral

17.2.1.2

Proprits supplmentaires si e est gaussien


E

Introduisons alors l'hypothse ei

LG(Q ; a) vi.

La densit du vecteur alatoire y s'crit :

L(y, (3, a)
car

yest alors un vecteur gaussien multidimensionnel; yE Nil (Xa. a~III)'


Les estimateurs de m(u11l1l111 de vraisemblance de (3 et
~

THORME

cr sont .'

=b

(X'X)-I X/y

et

- Il Y 11

Xh 11 2 (qui est biais)

La dmonstration est laisse au soin du lecteur. Conformment il ce qui a t dvelopp dans la partie consacre l'estimation nous allons rechercher des statstiques exhaustives pour les paramtres inconnus et atin d'tudier l'optimalit des estimateurs associs, carla proprit du maximum de vraisemblance ne nous renseigne pas sur l'efficacit des estimateurs.

La densit de y peut s'crire:

L(y, (3, a) =
Soit a(3, (
2 )

_1 ~ - exp - - ? (y'y - 2(3'X'y .., a ''(" 211'yI _a-

(1

le vecteur ligne p

+ 2 composantes:

f3~, j3~, 13;, f3~) (_~, a- a- cr- ..., crLaet :


1
T(y)

[G]
(a(ll, a-)T(y) + C(Il. cr-))
.., .,

On a:

L(y,

Il, cr) = _ ~

(cr-,,211'Yl

exp

o: Le domaine de dfinition de y ne dpendant pas de l'application dfinie par T

Il ni de crl , et le rang de X

tant p + L

= [y/y]
X'y

est bijectve. D'aprs le thorme de Darmois gnralis,

T(y) constitue une statistique exhaustive.

h et cF qui sont fonction de T sont donc les estimateurs sans biais de variance minimale de ~ et cr:!.

17111111La rgression multiple et le modle linaire gnral

415

De plus b transform linaire d'un vecteur gaussien est lui-mme gaussien.

17.2.1.3

Lois des cts du triangle rectangle y, y*,

XI3

(fig. 17.5)

FIGURE

17.5

Ce triangle est rectangle en y* ; le thorme de Pythagore s'crit donc:

Or y - Xb = (1 A)e et Xb - X~ = Ae. On il donc IIeU 2 = e'Ae + e'(I - A)e. e est un vecteur gaussien o les ej suivent indpendamment des lois LG(Q ~ cr). Donc:
.t..J eT
~

"l/"1
(J-

X~

")

Le thorme de Pythagore se transforme alors en thorme de Cochran et on trouve que:


IlXp - Xb11 2 ., -'-'----,--'-'- SUIt un Xpl- 1
cr-

IIy - XbI1 2 SUit un X'i,-p- 1 .. ., -----,=----..;...


cr-

Il

et ces deux variables sont indpendantes comme formes quadratiques de rang p P - 1 (rangs de projecteurs) de Il variables normales centres-rduites. On peut ainsi obtenir des intervalles de confiance pour cr,

+ 1 et

17.2.1.4
1) 2)

Le modle (y ; Xf3

; ~)

Par les mmes procds on peut montrer que: b = (X'~-IX)-lX'~-ly est l'estimateur de variance minimale de p parmi les estimateurs fonctions linaires de y (thorme de Gauss-Markov gnralis). Si l'hypothse de normalit est vrife, b est l'estimateur du maximum de vrasemblance et est de variance minimale.

416

17.La rgression multiple et le modle linaire gnrall

17.2.2
17.2.2.1

Tests dans le modle linaire


Le coefficient de corrlation multiple R et l'analyse de varance de la rgression

R est le coeff1cient de corrlation entre la srie y" Yl, ... , )'1/ et la srie YI':, yi=, ... , y; En d'autres termes, c'est la valeur maximale du coefficient de corrlation linaire simple entre les coordonnes de y et les coordonnes de tout vecteur de la forme Xb (voir chapitre 6).'

Comme tout coefficient de corrlation linaire, son carr s'interprte en termes de variance explique: Variance explique par la rgression Variance des y Si R 2 L Yi

= Yi" tli J'ajustement est parfait.


11

R2 est appel coefficient de dtermination.

Gomtriquement R est le cosinus de 1'angle form par y - y et y* - y dans !R o y est le vecteur dont toutes les composantes sont gales y. Yest la projection de y sur la droite des constantes qui appartient W (fig. 17.6). Voir chapitre 6 ( 6.2).

FIGURE

17.6

D'aprs le thorme des trois perpendiculaires, des constantes.

est aussi la projection de y* sur la droite

Le coefticient R2 est uti1is pour tester la qualit de i' ajustement de y par y* (analyse de variance de la rgression). Il est facile d'crire la dcomposition classique:
- /,(v, 1l'1- 1

1"

-"l

)')-

::= -

1" ~'J 1" >\_ - ' J ~(v' ni -1 - y:)- + - ...Li(v:- - v)1 Il i _1


V'lriancc rsiduelle Variance explique par la rgression

Variance
totale

17_La rgression multiple et le modle linaire gnral

417

I.(y; - ytf
On sat que un suit
=

2:( v0-/

:1:

xi, si 131 = 131 = ... = 13"


Si

(130

Vp

une loi X;-p-l et on peut montrer que --~-- est quelconque).

131 = 132

... = 131' =

0, alors -= 2:(Yi
(J"-

y)2 suit un X~-I comme variance d'un

chantillon de variables nonnales de mmes lois.

R:' Comme - - - = - - - - - on trouve que si 1 - R~ 2:(Yi quelconque) :

131

f3:!

... =

131'

= () (mais

130

On retrouve comme cas particulier la loi du coefficient de corrlation usuel si p = 1. Le test du R2 est le mme que celui de la nullit de q coefticients de rgression lorsque q p (voir paragr. 17.2.2.3). L'hypothse de non-rgression 131 = 132 ... = 131' = 0 correspond la nullit de coefficient de corrlaLion multiple thorique rJi dans le cadre de la rgression entre variables alatoires. Sous cette hypothse nulle la 10 de rJi est celle cl' une variable bta de type l de paramtre p Il P- 1 p ')(n p - l}p - el on en dduit que E(R2) = - - et VeR:!) = -, . 2 2 Il - 1 (w - l)(Tl - 1) Si l'hypothse de non-rgression n'est pas satisfaite ({IR:! 0), la 10 de R"l ne prend pas une forme aussi simple et R2 est alors un estimateur biais de r!lt"l. On montre en effet que E(R2) =
{ft2

~(l Tl - 1
(n
Il

2 m) + o(~) d'o la dfinition du R 2

"-

ajust j?2 :

R-=-----:...

~,

1) R2 - P

P- 1

o le biais en lin est limin mais qui peut conduire des valeurs ngatives si PJ{! est voisin de O. cu '1" U n ca1 1 e ementalre montre que
(J"A .,

= -Il- ( 1
Il -

17.2.2.2

Test du caractre significatif dlJun des coefficients de rgression

Il s'agit de tester

f3j = 0 contre

13.1

* O.
= 0'2 [(X'X)j~II
o

Soit hj le coefficient de rgression empirique. On sail que V(bj )


l(X}X)j~/] est le terme (j,]) de la matrice (X'X)-I.

418

17.La rgression multiple et le modle linaire

Comme

2: ----'--:-'-'--- suit un X~-I'-" il vient immdiatement que:


i

suit un t de Student Il

P - 1 degrs de libert, ce qui pennet de tester l'hypothse

(3]

= (), car hj suit une loi LG(3j, O'~X'X)ii']).


On peut aussi crire:

lIy - xbll:! [(X'X):: ']


Il -

P - 1

.JJ

Le dnominateur de l'expression prcdente est appel erreur standard ou cart-type du coefficient de rgression et dsign par la lettre s}" (Il s'agit en fat de la racine carre de l'estimation sans biais de la variance de bj)' On prendra garde au fait que les statistiques de test des coefticients de rgression ne sont pas indpendantes car les hj ne sont pas indpendants. On peut par exemp1e trouver un R2 significatif sans qu'aucun coefficient de rgression pris isolment soit significativement diffrent de zro (c'est souvent le cas lorsque les prdicteurs sonL fortement corrls entre eux, voir exemple plus 10n).

17.2.2.3

Test de q coefficients de rgression, test d'une sous-hypothse linaire

Les deux tests prcdents ne sont en fait que des cas particuliers du test plus gnral sUvant qui permet, entre autres choses, de tester la nullit de q coefficients de rgression, crire 131 = f3H)' 132 = une matrice de rang q.

l3:w, .. " I3 q = I3 qu n'est qu'un cas particulier de H(3 = 0, o H est

Le test de Ho : H(3 = 0 contre Hl : H(3 0 s'effectue alors de la manire suivante: on pose y* la solution des moindres carrs y* = X(X'X)-IX'y et y~j1a solution des moindres carrs sous la contrainte H(3 = 9 (on projette sur le sous-espace de HI vrifiant cette contrainte). On montre alors que si Ho est vraie:

"*

ce qui permet de tester Ho. Ce test a pour cas particulier le test simultan de tous les coefficients de rgression

Ho : (3 = 130 contre HI : (3

*-

130'

17- La rgression multiple et le modle linaire gnral

419

Comme

IIXIi - Xbll 2 et Ily - XbW sont indpendantes, on en dduit que:

IIXIl - XbW 1Z - - - - = F(p + Ily - Xhll 2 P + 1

l,Il

P - 1)

En remplaant 13 par Po on peut donc tester l'hypothse nulle. On rejettera Ho si la quantit IIXllo - y*1I 2 11 1 .!!---=--::..---~---=--- est trop grande. lIy - Y*U:~ P + 1 Remarque: Ce dernier test suppose galement une valeur a priori pour 130- Ce n'est pas le test le plus couramment utilis (qui suppose 130 inconnu).

17.2.3

Intervalle de prvision pour une valeur future

Cherchons encadrer la valeur prvue y:r pour un individu supplmentaire pour lequel les variables explicatives prennent les valeurs Xllh .t':!(), - .. , .t'l'O'

Posons:

xo =

alors y,i' = x;) b est une variable alatoire suivant une loi LG(x[)llo; cr~xMX'X)-'xo) d'aprs les rsultats usuels sur les combinaisons linaires de variables gaussiennes. Comme au chapitre prcdent, par studentisation, puisque cr doit tre estim, il vient:

ce qui permet d'encudrer la

vraie valeur Yo'

L'intervalle de confiance pour E( Y/X

= xo) s'obtient en enlevant le 1 sous le radical.

17.3

l'ANALYSE DES RSULTATS

Les principaux problmes abords ici concernent la stabilit des rsultats d'une rgression. On distinguera les questions relatives l'influence d'observations particulires et celles relatives l'intluence des variables sur les estimations (multico1narit). L'analyse des rsidus est galement un moyen de vrifier les hypothses de base du modle.

17.3.1

L'tude des rsidus et des observations influentes

L'tude des rsidus Yi Yi" est fondamentale plus d'un titre: elle permet tout d'abord de reprer des observatons ventuellement aberrantes ou des observations qui jouent un rle

420

17.La rgression multiple et le modle linaire

important dans la dtermination de la rgression. Ensuite l'tude des rsidus est bien la seule faon de vrifier empiriquement le bien-fond des hypothses du modle: lin homoscdasticit, etc. : les graphes des rsidus en fonction des variables explicatives doivent laisser apparatre aucune tendance. Il est facile d'obtenir la matrice de variance des rsidus puisque y = y - Xb y - Xb est orthogonal Xb d'o Vey) = Vey - Xb) + V(Xb) soit:

+ Xb

u 2II/ = Vey
d'o:

Xb)

+ u 2X(X'X)-IX'

ce qui rappelle que les rsidus sont en gnral corrls entre eux. En dsignant par hi le tmt! terme diagonal du projecteur X(X'X)-IX' on a : avec d'o l'estimation de la variance du rsidu:

2: It
/1

= P

j;

On appelle rsidu studentis la quantit:

Yi -

y;"

rr~
Lorsque
12

est grand les rsidus studentiss doivent rester compris entre - 2 et 2.

Un fort rsidu peut indiquer une valeur aberrante. Cependant une valeur peut tre aberrante sans que son rsidu sot important (voir fig. 17.7).

FIGURE

17.7

Il faut alors tudier l'influence de chaque observation sur les rsultats. On peut tout d'abord tudier l'influence d'une observation sur sa propre prdiction. On appelle rsidu prdit l'cart Yi Y?:"'i) o )'1"-1) est la prvision obtenue avec l'chantillon de (11 - 1) observatjons excluant la i!rru.:.

17_La rgression multiple et le modle linaire gnral

421

On peut vrifier que Je rsidu prdit vaut )'i - Yi* ; il convient donc d'tre prudent avec 1 - hi des observations dont le hi serait grand. La quantit suivante note Press est une mesure du pouvoir prdictif du modle:

On peut enfin tudier l'influence d'une observation sur les estimatons hj des coefficients de rgression et calculer par exemple une distance entre b et b(_i) o b(-i) est l'estimation de ~ obtenue sans la il!lIle observation. La distance de Cook est r une des plus utilises :
(b - b<_i))'(X'X)(b - b(-i))
(p

+
1

1)a- 2

On montre que:

D=--r"--1 p + J 1 l - hi

hi

Ily* - y(l'-illl:!
(p

1)6 2

ou y~:'1)

= Xb(_i)'

Une distance Di suprieure l indique en gnral une intluence anormale (c}: CookWeisberg, 1982).

17.3.2

la stabilit des coefficients de rgression

L'cart-type s) du coefficient hj est dj un indicateur du caractre plus ou moins stable de l'estimation d'un coefficient. Il est clair que si !Jj est du mme ordre de grandeur que !Jj , ce derner est mal dtermin. La source principale d'instabilit dans l'estimation de f3 est la muIticolinarit : on dsigne par cette expression la situation o les variables explicatives sont trs corrles entre elles. Comme V(b) (X'X)-I rr::!, si les prdicteurs sont trs corrls entre eux X'X est mal conditionne (dterminant proche de 0) et son inverse aura des temles levs. Dans ce cas les paramtres du modle seront estims avec imprcision et les prdictions pourront tre entachs d'erreurs considrables mme si R 2 a une valeur leve. Il esl donc important de mesurer l'effet de la colinarit entre les prdicteurs, cela s'effectue au moyen des facteurs d'intlation de la variance et des valeurs propres de la matrice de corrlation. Il sera commode pour la suite de supposer que toutes les variables sont centres et rduites sans (ce qui ne change pas le R2 ni les valeurs prvues) et que l'on effectue donc une constante: (X'X) est donc une matrice de taille p et b un vecteur p composantes. On a donc (X'X) = nR o R est la matrice de corrlation entre les prdicteurs.

422

17IIIIIIII La rgression multiple et le modle linaire

17.3.2.1

Le facteur d'nflation de la varance (VIF)


V(b)

On a donc:

Or CR -I)jj' l terme diagonal de R-l n'est autre que l _

RJ est le carr du CQ(!tbcielnt<

de corrlation multiple de xl avec les p - 1 autres variables explicatives. Si les p varables explicatives taient orthogonales la rgression multiple reVlenOrallt:
fT:'

p rgressions simples; V(b) serait gal -.


II

Le terme 1

est appel facteur d'inflation de la variance

tandis que 1

appel tolrance ). La moyenne des p facteurs d'inflation est utilise parfois indice global de multicoHnarit.

17.3.2.2

Le rle des valeurs propres de R

Posons R UAU' o A eslla matrce diagonale des valeurs propres et U la matrice des vecteurs propres de R. On a donc R- 1 On en dduit: On voit donc que V(bj ) dpend des inverses de valeurs propres de R : lorsqu'il y a forte colinarit entre les prdicteurs les dernires valeurs propres sont proches de zro d'o l'instabilit des bj"

UA-lU'.

17.4

SLECTION DE VARIABLES

Plutt que de chercher expliquer y par toutes les p variables exp1catives, on peut chercher seulement un ensemble de q variables parmi les p qui donne une reconstitution presque aussi satisfaisante de y. Les objectfs d'une telle dmarche sont multiples: conomiser le nombre de prdicteurs, obtenir des formules stables et d'un bon pouvoir prdictif en liminant des variables redondantes qui augmentent le facteur d'inflation de la variance, obtenir un modle plus facile interprter.

17.4.1

les critres de choix

Ils dpendent bien sr des usages que l'on fait de lu : reconstitution des Yi' prvision de valeurs futures, ou estimation prcise des paramtres d'un modle. Le critre du est bien adapt au premier objectif et est celui qui est le plus utilis dans les programmes de rgression pas pas. Il n'est cependant pas l'abri des critiques: il varie de faon monotone avec le nombre des variables: il ne peut qu'augmemer si l'on rajoute un

17_La rgression multiple et le modle linaire gnral

423

prdicteur mme peu corrl avec y puisque la dimension de Waugmente. On ne peut donc l'utiliser pour choisir la taille d'un sous-ensemble de prdicteurs. Si l'objectif est de minimiser l'erreur de prvision le R 1 n'est pas adapt et on prferera des critres tels que le ou le Press.
a::>' ne varie pas de faon monotone avec le nombre de variables car'
- , rr- = Il

Jl-k-l

( 1 - R" -)s~

Par contre If2 varie de faon monotone avec le R2 ajust R'1. Il est donc plus intressant de prendre ifl que R1 comme critre de qualit, ce qui permet de comparer des formules de rQ:ression comprenant des nombres diffrents de variables et de choisir celle qui minimise &.2(ou maximise ?l). On peut galement utiliser les crHres, informationnels AIC et BIC, voir chapitre 19.

17.4.2
17.4.2.1

les techniques de slection


Recherche exhaustive

Lorsque p n'est pas trop grand on peut tudier toutes les formules possibles: il y a Cr~ formules k variables et donc 21' - 1 rgressions. A p fix on choisira celle qui fournit le R1 maximum, et si p n'est pas fix celle qui fournit le frl minimum, ou le minimum d'autres critres (voir chapitre 19, 19.4).

17.4.2.2

Les mthodes de pas pas

EUes sont utilises lorsque p est lev et qu'il n'est pas possible de procder une recherche exhaustive. Elles procdent par limination successive ou ajout successif de variables. La mthode descendante consiste liminer la variable la moins significative parmi les p : en gnral celle qui provoque la diminution la plus faible des R2 (elest celle qui a le t de Student le moins signiticatif). On recalcule alors la rgression et on recommence jusqu' limination de p - l variables ou en fonction d'un test d'arrt. La mthode ascendante procde en sens inverse: on part de la meilleure rgression une variable et on ajoute celle qui fait progresser le plus le Rl. La mthode dite stepwise est un perfectionnement de l'algorithme prcdent qui consiste effectuer en plus chaque pas des tests de signification du type Student ou F pour ne pas introduire une variable non significative et pour liminer ventuellement des variables dj introduites qui ne seraient plus informatives compte tenu de la dernire variable slectionne. L'algorithme s'arrte quand on ne peut plus ajouter ni retrancher de variables. Ces mthodes ne donnent pas forcment les meilleures rgressions k variables ni les mmes rsultats St l'on les emploie en concurrence, mais elles sont trs pratiques d'emploi, la mthode stepwise semblant la meilleure. Elles ne mettent cependant pas l'abri de r limination intempestive de variables rellement significatives, ce qui risque de biaiser les rsultats. Il faut ce propos rappeler que si l'on sait (par un modle

424

I7.La rgression multiple et le modle linaire

~t:!np,""I .... '.",",j'j

physique par exemple) qu"une variable doit figurer dans un modle, ce n'est pas qu'un test statistique la dclare non signiticative qu'il faut la rejeter (erreur de nplltv.,cio~."; espce).

17.5

TRAITEMENT DE LA MULTICOLINARIT

Lorsque les variables explicatives sont fortement corrles entre elles, les variances des coefficients de rgression deviennent trs leves: les estimations sont donc imprcises. En effet le dterminant de la matrice XIX est alors proche de 0, d'o des valeurs instables pour V(b) = (j2(X'X)-I. Ceci se produit entre autres si le nombre d'observations est faible devant le nombre de variables. Un cas extrme autrefois banni des manuels, est celui o le nombre de variables est suprieur au nombre d'observations: X'X n'est alors pas inversible. Les mthodes de slection de variables sont une des rponses possibles au problme de la 1l1ulticolinarit, mais elles peuvent conduire l'limination de variables significativement lies y. Il est alors difiicile de proposer l'utilisateur un modle qui ne tient pas compte de variables pourtant influentes et ne pennet pas de quantifier l'effet de leurs variatons sur la rponse y. Les trois mthodes que nous prsentons maintenant permettent de rsoudre ce problme et mme de traiter le cas o p > 11. Ceci se fait au prix de la perte de certaines proprits comme l'absence de biais des estmateurs et l'invariance par changement d'chelle: sur un plan technique on procdera une standardisation pralable des variables par centrage-rduction. D'aprs le thorme de Gauss-Markov, la mthode des moindres carrs fournit les estimateurs de variance minimale des f3j parmi les estimateurs sans biais. On ne pourra donc diminuer la variance des estimateurs qu'en utilisant des estimateurs biaiss. Comme l'erreur quadratique est gale la variance plus le carr du biais, il est possible dans certaines conditions d'obtenir des estmations plus prcises des coefficients avec un lger biais.

17.5.1
.

Rgression sur composantes principales


(11'kP
k

D'aprs la formule tablie au paragraphe 17.3.2.2 on diminuera V(bj ) en ne retenant que certmns termes de la somme des -}-. Ceci revient la pratique suivante: on remplace les p variables explicatives par leurs p composantes principales qui engendrent le mme espace W, et on effectue la rgression sur les composantes principales ce qui revient p rgressions simples:

Quand il y avec y*

fi /,-1

exacte colinarit p

0 on obtient alors une solution des quations normales

2:

(Xje).

j=1

17- La rgression multiple et le modle linaire gnral

425

Si l'on ne retient que k composantes principales en liminant celles de faibles variances on aura une solution approche en projetant y sur un sous-espace de W.

Il suftit alors d'exprimer les cJ en fonction des variables initiales pour obtenir une fonnule de rgression.
On notera que les composantes principales de forte variance ne sont pas ncessairement

les plus explicatives et qu'il vaut mieux les ordonner en fonction de leurs corrlations avec y. Par ailleurs les composantes principales de variance proche de zro fournissent les relations
linaires approches existant entre les prdicteurs.

17.5.2

la rgression ridge

Hoerf et Kennard en 1970 ont propos de prendre comme estimateur:

bl? = (X'X + kl)-l X/y


o k es[ une constante positive que r on ajoute aux termes diagonaux de X'X el qui permet d'inverser la matrice sans difficult numrique. Dimnution de l'erreur quadratique. Il existe des valeurs de k te11es que l'erreur quadratique de l'estimation de !3 est infrieure celle des moindres carrs au sens o :

2: n l.k
k=

l'

En effet l'erreur quadratique est gale la variance augmente du carr du biais: dans certaines circonstances un lger bias peut tre plus que compens par une faible variance d' o une erreur quadratique infrieure la variance de l'estimateur sans biais de variance minimale. La dmonstration se fait aisment pour la rgression simple (Ll Birkes et Dodge 1993) : Considrons le modle Y
0:'.

r3x

+ . o les Xi sont centrs: dans ces conditions les esti-

mateurs des moindres carrs sont &. Soit

et

r3 = "'5'

2:X i.V i

.::>. ..;...IX;

r3R = c~ un estimateur rtrci avec 0 < c < 1.

L'erreur quadratique de l'estimateur rtrci vaut:

En annulant la drive par rapport c, on trouve que le mnimum est atteint pour d'o ----:- ce qui revient une ..':'nr""""c""r.n ridge avec une con-

(J2

stante k e:ale k = -:::. ... r3.!

426

17.La rgression multiple et le modle linaire

videmment [3, cr et donc la valeur optimale de k. sont inconnus, mais le rsultat est Prouv il existe bien un estimateur rtrci d'erreur quadratique infrieure la variance de l'estllmatetii des moindres carrs . ., Rgression coefficients borns. Dans le cas de la rgression multiple, on l'estimateur ridge comme solution du problme suivant consistant trouver des cents de rgression borns : minlly
VUllCIII""',"',

-~'~UI- .. "".

XbW

sous

II b ll:!.$

il s'agit donc de rgulariser la solution pour viter des coefficents instables. Xb 11 2 + kil b 11 2) Le problme de minimisation sous contrainte est quivalent : min ( lIy avec un multiplicateur de Lagrange k. En annulant la drive par rapport h, on a : 2X'Xb - 2X'y + 2kb = 0 soit (X'X + kI)b = X'y d'o le rsultat. Rgression baysienne. Le point de vue baysien donne galement une justification clairante de la rgression ridge : On se donne une distribution a priori gaussienne sur ~ N(O ; '1,21) et on suppose que la loi des Y III est une gaussienne N(XIl ; cr::!I). Un calcul simple montre que la loi a posteriori de illY est une gaussienne dont la densit est telle que ( une constante prs) :

ln(f(ll/y =
La valeur la plus probable
~r

1 (y 2

x~)'(y

- XP)

cr::!
Cl

Cl

posteriori, qui est ici aussi l'esprance

posteriori, est alors:

~ = (X'X + a:I)-IX/y. D'o la signification de k comme un rapport de variances.


La valeur de k restant inconnue, une pratique courante consiste tudier les variations des coefficients de rgression selon k et choisir une valeur donnant des coefficients stables : k = 0 n'tant autre que la solution des moindres carrs. au vu d'un graphique appel Trace Ridge . Compte tenu du caractre subjectif de cette mthode, il est prfrable de choisir k par validation croise: on divise les donnes en s sous-ensembles disjoints, chaque sous ensemble est prdit l'aide du regroupement des s - 1 autres et on cherche la valeur de k qui rnimnse la somme des carrs des erreurs.

17.5.3

La rgression PLS

Propose par H. et S. Wold, tudie par M. Tenenhaus, la rgression PLS est proche de la rgression sur composantes principales en ce qu'elle effectue une projection sur des combinaisons linaires des prdicteurs non corrles entre elles, mais avec la diffrence essentielle que les composantes PLS sont optimises pour tre prdictives de Y, alors que les composantes principales ne font qu'extraire le maximum de variance des prdicteurs sans tenir compte de Y.

a_La rgression multiple et le modle linaire gnral

427

Le critre de dtermination des composantes PLS est le critre de Tucker, bas sur la covariance :

posons t i

WII Xl

+ H'L2 X ::!. + ... + WlI'X"

avec

2: 'd
j""l

JI

Maxmiser la covariance aboutit un compromis entre maximiser la corrlation entre t l et y (rgression des moindres carrs ordinaires) et maximiser la variance de t I (ACP des prdicteurs) puisque:

et que V( y) est fix. La solution est lmentaire: les ll'Ij sont proportionnels aux covariances cov( y ; Xj) : les coefficients sont donc du mme signe que les corrlations simples entre y et les Xj ; il ne peul donc y avor de signes surprenants. La rgression PLS avec une composante s'crit alors sous la forme y = clt) + YI On obtent ensuite la deuxime composante PLS t 2 en itrant le procd : on effectue la rgression de YI sur les rsidus des rgressions des Xj avec t l puis on crit y = CI t l + C2 t ,:l + Y2 elc. Le nombre de composantes PLS est en gnral choisi par validation croise. On montre aisment que la premire composante PLS est toujours plus corrle avec Y que la premire composante principale: En effet soit
CI

la premire composante principale:


r(y; c1)rr(c1)a{y)

cov(y ~ tl) = r(y; t 1)rr(t 1)rr(y) 2::: cov(y; CI) donc r{y ; tl)rr(t 1) 2::: r(y ; c1)a{cl) comme
CI

est la premire composante principale, sa variance est maximale: d'o

La proprit reste vraie pour plus d'une composante, c'est dire que la rgression PLS avec k composantes est toujours meilleure que la rgression sur les k premires composantes principales mais la dmonstration est difficile (De Jong, 1993). Un des grands avantages de la rgression PLS rside dans la simplicit de son algorithme qui ne ncessite ni inversion, n. diagonalisation de matrices, mais seulement une succession de rgressions simples, autrement dit des calculs de produits scalaires. On peut donc traiter de trs grands ensembles de donnes. L'exprience montre que la rgression PLS donne en pratique d'excellentes prvisions, mme dans le cas d'un petit nombre d'observations et d'un grand nombre de variables.

428

ll_La rgression multiple et le modle linaire

La rgression dite PLS2 est une alternative l'analyse canonique lorsque l'on cherche expliquer simultanment plusieurs rponses Y. Le critre de Tucker s'crit alors:

Il eSl facile de montrer que la premire composante PLS des X est vecteur propre de (voir chapitre 8)

17.6

UN EXEMPLE

On se propose d'tudier la relalion existant entre le prix et les variables suivantes : cylindre, puissance, longueur, largeur, poids et vitesse de pointe de 18 voilllfes figurant dans le tableau 17.1 :

TABLEAU

17.1
LAR 161 177 168 161 164 169 169 163 1.73 157 162 172 169 170 166 165 173 161 1105 1080 1160 1010 1320 815 1060 1]60 1370 1080 1129 1095 1120 955 165 160 154
0

OES 1 :2 3
4.

NOH .i\LFASUD-TI -13 5 0 AUDI-IOO-L SIJvlCA-13 07 -GLS CI'I'ROEN-GS-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1.66 PRINCESS-1800-HL DATSUN-200L rrAUNUS-2 0 00 -GL
R.J.~'JCHO

CYL 1350 1588 1294 1585 1796 565 664 1166 1570 1798

PUIS 79 85

LON 393

POIDS 870 1110 1050

VI'l'ESSE

FINITION
B

PRIX 30570 39990 29600

65

468
L12 4

TB
N 1-1

68
59 98 82 79 55 128 55 109 82 115

412 439 429 ,149

28250
34900 35480 32300 32000 47700 26540 L12 3 95 33990 43980 35010 39450 27900 32700 22100

5
6

TB B
B

7 8
9

424
452 399 428 445 469 438 431 440 IJ59 404

180 1110 175 158 160 167


N
TB

10
Il

12
13 14

15
16 17 18

l1AZDA-9295 OPEL-REKORD-L LADF. -13 00

1998 1993 1442 1769 1979 1294

TB
B TB
rv1

98 80 83 100 68

144
165 173

140

1'1

17.6.1

Rsultats de la rgression complte

Les calculs ont t effectus avec le logiciel SAS.

17. La rgression multiple et le modle Iinare gnral

429

17.6.1.1

Analyse de variance de la rgression

On trouve (lableau 17.2) :


TABLEAU J 7.2

DDL REGRESSION RESIDUELLE


6

smn-lE DE CARRES
520591932.37 213563857.91 .28

CARRE MOYEN
86765322.06 19114896.17

F
il. 1169

PROB> F
0.0156

11

17

Comme Fs ,;~, (6 ; 11) = 3.09 on rejette J'hypothse H() : 13,


R2

132 = ...

136

o.

0.7091 4406.2

et

0.5504

17.6.1.2

Estimation des paramtres (tableau 17.3)


TABLEAU

17.3

COEFFICIENT

T SI ECART-'I'YPE

HO
0
PROB>
1 TI

V.l\JUABLE
CONS'l'Jl.l'J'l'E CYIJINDREE

ESTIHE

COEFF.

D 'INFLJl..TION

PUISSANCE LONGUEUR Ll>3.GEUR


POIDS

VITESSE

-8239.36 -3.505 282.168 -15.037 208.693 12.574 -111,114

42718.423 5.55
17t1.882

-O. -0.63 1.613


-0.116

129.747 412.047 24.622 222.256

0.506 0.511 -0.500

0.850 0.540 0.134 0.909 0.622 0.619 0.627

o
3.
11. .

7.204 4.197 9.957 6.375

On constate qu'au seuil 10 % aucun des coefficients n'est significativement diffrent de 0 et que certains sont ngatifs alors que les corrlations entre le prix et les prdicteurs pris isolment sont signitcatvement positifs. Ce phnomne est d la forte dpendance entre les prdicteurs (voir galement les valeurs du facteur d'inflation de la variance). Ci-aprs tableau 17.4 la matrice de corrlation entre les 7 variables:
TABLEAU

17.4
LAR
POIDS
0.78895 0.76529 0.86809 0.71687 1.00000 0.47760 0.75329

CYL CYL PUIS LON L,l.R POIDS VI'I'ESSE PRIX


1.00000 0.79663 0.70146 0.62976 0.78895 0.66493
0.63858

LON
O. 1. 00000

Vrl'ESSE
O.

PRIX
O. 858 0.79870 0.64376 0.54665 0.75329 0.58176 1.00000

0.70146
0.6L1136

0.64136 0.52083 0.76529 0.84438 0.79870

1. 00000

0.84927 0.86809 0.47593 0.64376

O. 0.52083 0.84937 1.00000 0.71687 0.47295 0.54665

0.8443
O.t1

0.47295 0.47760 1.00000 0.58176

430

17. La rgression multiple et le modle linaire

17.6.' .3

tude des rsidus et de rinfluence des observations

Le tableau 17.5 contient les informations essentielles.


TABL.EAU

17.5
E-TYPE PREDICT 2914.0 3572.5
2~186.0

PRIX PRIX
1
3
11

Es'rU:1E 9616.1 36259.7 31411. 26445. 37043.0 34972.8 33749.1 26580.0 44445.6 24650.2

LIlvIITE INP 95 % 17989.0 237 .4. 20276.0 15547.2 26241.5 23590.6 23147.9 15135.4. 31805.1 12868.0 26529.5 24163.4 32698.2 25382.3 24538.2 20828.8 25914.1 18952.0 DISTJi.l'llCE DE COOK 0.009 0.573 0.017 0.012 0.014 0.002 0.005 0.230 0.600 0.0116 0.204 O. 0.019 0.Q07 0.070 0.139 0.106 0.533

5 6 7 8 9 10 11 12 13 14 15 16 17 18

ALFASUD.l\UDI 100 SH1CA-13 CITROENFIAT-132 L.l'...NCIA-B PEUGEO'rRENfI.ULTRENAULTTOYOT.;-C fI.LFE'I'TAPRINCESS DATSUN-2 TAUNUS-2 HAl'JCHO 11Jl..ZDA-92 OPEL-REK LfI.DA-130

30570.0 9990.0 29600.0 28250.0 34900.0 35480.0 32300.0 32000.0 47700.0 26540.0

42395.0
33990.0 43980.0 35010.0 39450.0 27900.0 32700.0 22100.0

38270.5
34830. '14872.4. 36343.5 35638.1 32233.tl 37103.5 30389.8

3259.2 2160.8 2707.1 1945.4 2760.8 3683.5 3039.9 3006.8 2018.2 3343.6 2320.9 53.22726.5 2535.7 2755.1 RESIDU STUDENT. 0.2886 .4463 -0.49785 O. L1769 -.558071 0.1459 -.366544 1. 5783 1.3459 0.5925 1.2806 -.214564 -.310978 -.356029 1.0415 -1.2519 -1.222 -2.4108

4 t1350.4 38024.5 57086.0 36432.5 50011.5 45497.4 57046.6 47304.7 46737.9 43638.0 48292.9 41827.6

RESIDU 1
2

E-'I'YPE DU RESID 3305.1 2579.2 3637.9 3783.0 3840.0 3476.6 3953.5 3434.1 2418.0 3189.6 3220.8 3916.9 2869.7 3745.4 3660.1 3L.l.61. <1 3603.5 3438.7

3 4 5
6

7 8 9 11 12
13 14 15 16 '7 18

ALFASUDAUDI-I00 SI!-1CA-13 CITROENFlfI.T-132 LANCIA-B PEUGEOTREN.i\UL'rREN.i\ULTTOYOTA-C ALFETTAPRINCESS DATSUN-2 TAUNUS-2 RANCHO 1-1J.-.ZDA-92 OPEL-REK L"'_DA-130

953.8913 3730.3 -1811.1 1804.2 -2143 507.1657 -1449.1 5420.0 3254.4 1889.8 /1124.5 -840.42 -892.42 -1333.5 3811.9 -4333.4 -,1403.5 -8289.8
Pre,\'s :::::

0.4374 0.6574 0.3183 0.2629 0.2405 0.3775 0.1949 0.3926 0.6988 0.4760 0.4657 0.2098 0.5758 0.2774 0.3100 0.3829 0.3312 0.3910

731 726 946

et

~pre.\'s
Il

6380.21

Tl_La rgression multiple et le modle linaire gnral

431

Seul le vhicule nO 18 (le moins cher) prsente un rsidu studentis anormalement grand,
.. p + mais semble aVOir une mfluence normale ( le /zi moyen vaut 0.39 = -/-1-

1)

Pur contre, le vhicule na 9 (le plus puissant et le plus cher) semble contribuer fortement il la dtermination des paramtres.

17.6.2

Recherche d'un modle restreint

Avec 6 prdicteurs, il y avait 63 modles possibles. Nous donnons ici les meilleurs modles il l, 2, 3, 4, 5, 6 variables (tableau J7 .6) :

TABLEAU

17.6
R:!
"

k
l
2

t10dle Puis Puis. Poids Cyl. Puis. Poids Cyl. Puis. Larg. Poids Cyl. Puis. Larg. Poids Vitesse
Complet

3 4 5
6

0.638 0.686 0.699 0.702 0.709


0.709

4076.0 3916.4 3974.4 4103.7 4221. :2 4406.2

On constate que le meilleur modle au sens de est celui deux variables (Puissance et Poids) qui fournira les prvisions les plus prcises. Les meilleurs modles tant embots les diverses techniques de slection pas pas donnent ici les mmes rsultats et conduisent au mme choix. Nous reproduisons ci-dessous des sorties de la procdure SteplI'ise du logicel SAS.
SLENTRY et SLSTAY sont les seuils de signification des tests F d'admission et d'limination des variables.

La quantit Type II SS reprsente la perte de somme des carrs explique encourue en liminant la variable correspondante (tableau 17.7). Le tableau 17.8 montre une amlioration trs nette des prvisions en n'utilisant que deux variables au lieu de 6.

TABLEAU

17.7

STBP\>JISE REGRESSION PROCEDURE FOR DEPENDENT Vil.RIABLE PRIX NO'1'E: STEP 1 SLENTH.Y AND SLS'I'A y H.lWE EBEN SET VARIABLE PUIS ENTERED

.15 FOR 'l'HE STEP'i.vISE TECHNIQUE. 0.63792233


C(P)

E SQUARE OF

-0.30837792
NEll.N SQUARE
F

SUN OF SQUARES

tJROB

REGRESSION ERROR TOTAL

468334369.05604458 26582142 .221733 734155790.27777768


STO ERROR

468334369.05604458 16613838.82635832

.19

.0001

16 17 B VALUE

TYPE I I SS

PROB

>F

INTERCEP'l'

12363.65292

1 '18.51607106 468334369.05604458 28.19 0.0001

PUIS
BOUNDS ON CONDI'I'ION N'UMBER STEP 2 VARIABLE POIDS ENTERED

257.58978819

1.

R SQUARE
OF

0.68662695

C(

-0 .15009700

SUM OF SQUARES

MEAN SQUARE
252045576.89550306 15337642. 514<1

PROB

>F

REGRESSION ERROR TOTAL

2 15 17
B V.ll,.LUE

504091153.79100612 230064636.48677157 734155790.27777768


STD ERROR

16. <13

0.0002

TYPE II SS

PROB

INrrERCEPT

1775.60120140 172.96722456 16.45116100 2.413555, 9.654219 72.4199984G 10.77448763 8749217 874222 .70 2.33 0.0305 35756784.'7349615d

PUIS
POIDS BOUNDS ON CONDITION NUNBER

o .l 176
i

NO OTHER VARI.ll,.BLES MET THE 0.1500 SIGNIFICj\NCE LEVEr., FOR EN'l'RY IN'ro THE NOOEL.

TABLEAU 17.8

OBS
1
2

ACTUAL
30570.0 39990.0 29600.0 :28250.0 3<1900.0 35480.0 32300.0 32000.0 47700.0 26540.0
t12395.0

PREDICT VALUE
29752.5 34738.6 30811.1 27280.2 369 .9 33726.2 34523.4 27904. 45630.9 24696. 38067.3
350t12.3
~H204.

LONER 95 PEEDICT
20216.1 26136.2 21981. 3 18325.9 28171.0 25139.5 25565.3 18637.2 36023.3 15275.0 8559.2 26191.4 3'1599.8 27676.7 25431.9 25549.9 28742.6 20470.3

UPPER 95 %

PREDICT
39289.0
<133 L11. 396l10.9 3623 l1.6

RESIDUAL
817.4780 5251.4 -1211..1 969.752
-200Ll.9

s'rD ERR RESIDU.i\L


3264.5 3792.9 676.1 3609. 372 .2 3800.8 607.2 3430.9 3218.3 3337.1 3282.7 3665.0 3119.9 3682.9 3715.6 3796.1 3715. 3703.4

S'rUDEN'r RESIDU.i\L
O. 50,1 .3845 .329448 0.2687 .538066 O.461l1 .6163 1.1937
O.6 L 129

COOK' D
0.009 .042 0.005 0.004 0.010 0.0011 0.023 0.1411
O.

5
6

45638.9 42312.
43 1Bl.4
L

1753.8 -2223.4 4095.5 2069.1 1843. 4327.7 -1052.3


-2~H.

7 9 10 11 12
13

37171.7 55238.5 34118. 47575. 43893.1 53810.0 4 10.5 <129'10. 4274 .9 46252.6 38026.

66

0.5524 .3183 -.287114 -.069854 -.4028 t15 1.4166 .6453 -1.2913 -].9302

0.038 0.2{lS 0.0011 0.001 0.007 0.074


O.

33990.0 43980.0 5010.0 39450.0 900.0 32'700,0 22100.0

92

14

15 16 7 18

36493.6 3111 86.3 34145. 37497.6 2924 .2

-ld83.6 5263.7 -624


.9

-'1797.6 -7148.

0.062 0.1117

434

17_ La rgression multiple et le modle linaire gnral

La statistique Press vaut maintenant 308496438 (elle est donc rduite dans un rapport de 2.4) et

~press = 4139.9. -11

Si l'on souhaite une formule contenant les 6 prdicteurs, on a le choix entre la rgression ridge, la rgression sur composantes principales et la rgression PLS.

.. Rgression ridge
Le tableau 17.9 et la figure 17.8 donnent l'volution des coefticients de rgression en fonction du paramtre k La valeur k = 0.25 semble convenir et donne un RMSE de 4706.
TABLEAU

17.9

Coefficients de Rgression

.. -_ ...... ""--- ...... '" ......... _--_ ............ _- ................... _-_ .. _.........

cylindre

longueur largeur poids puissance vitesse _---- .. -.... _- _............ -- .... -- .......................--.. _.......... _- .......... ----- .................. _--_ ... _--_ ...... -"' .... _-_ .... ............... -............. ""'_ .. _----",
~

-15.0377 208.694 12.5747 -3.50518 282.169 -111.114 108.987 -2.18019 2.76652 15.2924 197.405 -26.2437 12.64111 78.4137 -1.30002 14.811 163.095 3.09658 67.2553 14.0478 18.2783 -0.693863 142.962 18.3139 -0.255881} 21.7857 63.497 13.3264 129.251 27.6233 24.1123 62.9383 0.0724271 12.6918 119.112 33.8481 25.727 63.8295 0.325527 12.1402 111.21 38.2416 65.3631 26.8833 11.6592 0.524946 104.817 41.4531 27.7286 67.1422 11.2366 43.8555 0.681805 99.501 28.3541 68.9656 10.8621 0.814737 45.6797 94.9847 28.819 70.7303 10.5273 0.921532 91.0816 -- .......... _---_ .......... _- ............ _.. --_ .. _- ... .. -....... _-_ .. .... -.... -............. ----- ...... _-_ ........ _--_ .... _-_ .........-................. .... _----_ ... -.. --...... _.. -.. ..... _......... -..... _--- .... .;47.0767 .. .... ------ ..... --_
", ".

0.0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

",--._

300

200
'E
ID

~ 0
0

Ti

100

-100 0 0.1 0.2 0.3


0.4

0.5

FIGURE

17.8

17- La rgression multiple et le modle linaire gnral

435

Rgression sur composantes principales


La rgression sur composantes principales fournit les rsultats suvants ordonns selon le nombre de composantes principales conserves :
aim
RHSE
430.1.68
4401.:!-5 4451.25

Int21:'cept
-43286.46 -34893.0 11 .74369
~.

PUIS
49.978
62 . .

LON

LAR 175.B04 :':4.103 -39.880 -167.635


Hl.

POIDS

VITESSE
71.383 102.

46.0278 34.5556

7.5893

9 J1823

6.1\980
n.5931 18.6615 26.3105 1J 5747

-5360.0::;
-5829.58 -9856.87 -8239.

4.31052

75. 131.959

.148'1
70.7514 -42.913 -15.0377

.222
61.667 Il.:; 1.6 -111.1ltl

11296. ,1:': 9/1.23


'1406.23

-J. -11. () 153 3


-3.50518

181.544
28:::.169

208.

La solution en dimension 6 est celle des moindres carrs ordinaires. La meilleure fonnule est sans conteste celle obtenue avec une seule composante principale qui donne un RMSE de 4301.68, infrieur il celui de la rgression ridge. Le spectre des valeurs propres de la matrice de corrlation est:
V.t..LEUR NUHERO PHOPEE POURCENT. POURCENT.

CUI!ULE

Lj.4209
O.

73.68
14.27

73.68
87.

0.3731
0.2139 0.0928 0.0433

6.22 3.57
1. 55

94 17
97.73

.28
100.00

0.7:l

Les coefficients de corrlation entre la variable prix et les 6 composantes principales sont:
CORREL.;'!' .IONS VI"Rli\BL8- f ACT EUR

PHIX

-0.77

0.09

-0.3

-0.23

-0.16

-0.10

On remarque que l'ordre des corrlations n'est pas celui des valeurs propres

Rgression PLS
La rgression PLS avec une seule composante (c'est ce qu'indique la validation croise) extrait 73.6 % de la variance de y et 60.8 % de la variance des X. On obtient la formule sUvante :
PRIX = -39940.366

.562CYL

58.807PUIS

43.687LON

154.34LAR

+ B.252pOIDS + 71.892VITESSE
Le RMSE est cette fois de 4239, infrieur celui de la rgression sur composantes principales comme le prvoyait la thorie. La rgression PLS fournit donc la meilleure formule conservant les 6 variables.

436

17_La rgression multiple et le modle linaire

17.7
17.7.1

PRDICTEURS QUALITATIFS le principe de quantification optimale

Supposons que parmi les prdicteurs on ait Cf variables qualitatives mb Ill::., ... , ml] ries respectivement. On cherchera alors les transformer en q variubles numriques 111,. /Il::., .. , ml] valeurs au plus de sorte que la rgression fournisse le R2 le plus lev. On sait que la variable numrique obtenue par quantification d'une variable qualitative une combinaison linaire des variables indicatrices des catgories. Il suffit donc de cer chaque variable qualitative par l'ensemble des variables indicatrices de ses catgories ceci revient utiliser comme matrice X de variables explicatives la matrice suivante:

o X(J est le tableau des variables quantitatives et les Xi i associs aux q variables qualitatives.

= 1,2, ... , q les tableaux GlS1onlctiJFs<'H,iE


"IU.ClllL~U-,

Les coefficients de rgression associs aux variables indicatrices seront donc les cations recherches.

Cependant une difficult surgit au momenl de rsoudre l'quation norn1ale X'Xb X/y si q 2:: 1. En effet, il est facile de s'apercevoir que dans ce cas les colonnes de X ne sont pas linairement indpendantes: pour tout tableau disjonctifX b la somme des colonnes est gale au vecteur 1. II existe donc q relations linaires entre les colonnes de X. Dans ce cas, l'quation normale a une infinit de solutions qui correspondent des pseudo-inverses diffrentes de X'X; toutes ces solutions fournissent d'ai11eurs le mme vecteur y* car la projection de y sur HI est unique, mais les coeftlcients hj ne sont pas uniques. Pour obtenir une estimation unique b il faut donc imposer q contraintes linaires sur les codages des variables qualitatives. Les plus simples sont en particulier:
a)

b)

Pour chaque variable qualitative une des modalits aura un coefficient bj nul. Ceci revient en fait il supprimer une colonne dans chaque mbleau Xi' ce qui rend la matrice X de plein rang. Pour chaque variable qualitative la somme des coefficients de b relatifs cette variable est nulle. On peut vrifier que ceci revient supprimer une des colonnes de chaque tableau disjonctif et remplacer les colonnes restantes par leur diffrence avec la colonne supprime.

17.7.2

Retour sur l'analyse de la variance

Lorsque toutes les variables explicatives sont qualitatives la rgression multiple correspond l'analyse de la variance dcIite au chapitre 14 en ce sens que l'estimation des effets des niveaux n'est autre que l'estimation des coefficienls de rgression et que les tests des effets des facteurs sont les tests F de nullit des sous-groupes de coefficients de rgression correspondant aux indicatrices d'une variable qualitative.

17_La rgression multiple et le modle linaire gnral

437

On vritiera sans peine que le modle d'analyse de variance il un facleur correspond la rgression suivante:
_ 1 \'

)'2

0 0
=

0 0

J.1
Cil

el e:.

+
0 0
Cip

YI!

Cl!

On impose ici la contrainte ~ 11 jCi; = 0 pour pouvoir identil1er les paramtres.


J

L'analyse de variance il deux facteurs avec interaction correspond il effectuer la rgression de y sur un tableau X de variables explicatives compos de :
p q pq
~~~

Xl et X 2 sont les tableaux. des indicatrices des niveaux des deux facteurs A et B et X l2 le tableau des indicatrices d'interaction correspondant aux pq combinaisons des niveaux de A et de B.
O

On retrouve alors le modle:

On peut donc utiliser, moyennant les prcautions dues au rang de X, un programme de rgression multiple pour effectuer de l'analyse de variance mme avec des modles complexes (plusieurs facteurs avec inleractions, plans non quilibrs).

17.7.3

Exemple: prix d'une voiture (suite)

On a ajout aux deux prdicteurs puissance et poids la finition (variable qualitative il trois modalits TB, B, M). Afin d'obtenir une solution on a choisi la contrainte consistant il donner le coefficient 0 la catgorie TB. On trouve alors la relation:

Prix*

= 23383.6 +
+[ -

86.96 Puis + 8.01 Poids

1~~~~: ~l
o

:
TB

Seuls les diffrences entre valeurs associes aux catgories ont ici un sens.

438

17aLa rgression multiple et le modle lina.ire gn

Le R2 est alors de 0.90 et vaut 2320.0. Le tableau 17.10 montre les rsultats de ce modle 4 variables explicatives :
TABLEAU

17.10

Yi

Yi'
30976.30 39663.33 27648.39 25904.76 34510.48 39162.20 33298.60 30010.28 45084.43 24635.99 41350.06 33559.50 44354.30 34310.28 39380.66 29313.20 34804.52 26887.63

1 2 3 4 5 7 8
9

10
Il

30570.00 39990.00 29600.00 8250.00 34900.00 35480.00 32300.00 32000.00 47700.00 26540.00
L12395.00

12 13 14 15 16 17 18

33990.00 43980.00 35010.00 39450.00 27900.00 32700.00 22100.00

nalyse iscriminante
et rgression logistique

Le but des mthodes de discrimination consiste prdire une variable qualitative k catgories l'aide de p prdicteurs, gnralement numriques. On peut considrer l'analyse discriminante comme une extension du problme de la rgression au cas o la variable expliquer est qualitative; on verra d'ailleurs que dans le cas de deux catgories, on peut se ramener exactement une rgression linaire multiple. Les donnes consstent en explicatives.
a)
11

observations rparties en k dasses et dcrites par p variables

On distingue deux aspects en analyse discriminante: descriptif: chercher quelles sont les combinaisons linaires de variables qui permettent de sparer le mieux possible les le catgories et donner une reprsentation graphique (ainsi qu'en analyse factorielle), qui rende compte au mieux de cette sparation; b) dcisionnel: un nouvel individu se prsente pour lequel on connat les valeurs des prdicteurs. Il s'agt alors de dcider dans quelle catgorie il faut l'affecter. C'est un problme de dassement (et non de classification, voir chapitre Il)*.

Ces deux aspects correspondent grosso modo la distinction entre mthodes gomtriques et mthodes probabilistes faite dans ce chapitre. Parmi les innombrables applications de l'analyse discriminante citons quelques domanes : aide li la dcision en mdecine: partir de mesures de laboraloire, on cherche une fonction permettant de prdire au meux le type d'affection d'un malade, ou son volution probable afin d'orienter le traitement: jirulIlce : prvision du comportement de demandeurs de crdit. Le terme discrimination est utilis dans ce chapitre en un sens assez large: nous y incluons la rgression logistique afin de mieux la comparer Panalyse discriminante linaire. Le lecteur dsireux d'en savoir plus sur l'utilisation de logiciels se reportera avec profit II Nakache et Confais (2003) .

.. Remar"que . en anglais" classification a les dew< acceptions.

440

lB_Analyse discrminante et rgression

18.1

MTHODES GOMTRIQUES

Ces mthodes, essentiellement descriptives, ne reposent que sur des notions de dis et ne font pas intervenir d'hypothses probabilistes. On supposera vu que les donnes consistent en n observations de p variables numriq appartenant k classes.

18.1.1

Variances interclasse et intraclasse

Les 11 individus ei de l'chantillon constituent un nuage E, de IRP partag en k ~UllS-lnll:-IOP'I1": El, E1 , .. " Ek de centres de gravt g" g1 ... , gb de matrices de variances VI> V 2 ... , (fig. 18.1).

FIGURE 18.1

Soit g le centre de gravit et V la matrice de variance de E tout entier. Si les Il individus ei sont affects des poids PI. P2' ... , P,I' les poids q" q2' .. "' Cfk de chaque sous-nuage sont alors:
qj

ci EE,

2:

Pi

Ona:

g=

2:
j=!

qjgj

et

Appelons matrice de varance interclasse, la matrice de variance B des k centres de gravit affects des poids Cf} :

B =

2: q/gj
i;;;1

g)(gj

g)'

;,>;,'::Hlllrtlll/",!,lld'l"''''

discriminante et rgression logistique

441

r matrice de variance intrac1asse W la moyenne des matrices Vj


k

W = ~ qjVj
j=1

En rgle gnrale, West inversible tandis que B ne l'est pas, car les k centres de gravit sont 1 de IR;" (si p k - 1 ce qui est gnralement le cas), un sous-espace de dimension Il. alors que la matrice B est de taille p. On
il

alors la relation suivante:

qui se dmontre aisment et constitue une gnralisation de la relation classique: variance .totale moyenne des variances + variance des moyennes. Nous supposerons dsormas que g = 0, c'est--dire que les variables explicatives sont centres. Si l'on considre que le tableau de donnes tudier se met sous la forme: 2

o
:2

k 0

:2

A
11

...

o X est la matrice des p variables explicatives et A le tableau disjonctif associ la variable qualitative, les Il. centres de gravit g" g2, . . ., gk sont les lignes de la matrice (A'DA)-l (A'DX). A'DA est la matrce diagonale des poids qj des sous-nuages:

ql

AIDA

= DI} =
[

0]
Cf?""

CJk

La matrice de variance interclasse s'crit alors, si g = 0 :

A'DA)-IA'DXrA'DAA'DA)-IA'DX)
= X'DA(A'DA)-IA'DX = (X'DA)D,;1 (A'DX)

442

lBaAnalyse discrminante et rgression

Dans le cas o Pi = lin les expressions prcdentes se simplitient et en mtroclui:saI1lt effectifs }lI, 11:. .. , Ilk des k sous-nuages, on a :
1 B = - 2: n.g.g'; g.
11.
J

'.l

= Il.;' i ; W 2:e
J ~

1 -2:nV.
Jl. J
.1

Nous supposerons dsormais tre dans ce cas.

18.1.2
18. 1.2.1

L'analyse factorielle discriminante (AfD)


Les axes et variables discriminantes

L'AFD consiste rechercher de nouvelles variables (les variables discriminantes) respondant des directions de [RI' qui sparent Je mieux possible en projection les k nrr\ll .. ~..;"" d'observations. L'axe 1 de la tigure 18.2 possde un bon pouvoir discriminant tandis que l'axe 2 (qui l'axe principal usuel) ne permet pas de sparer en projection les deux groupes.

/X\ ~xe1
Axe 1

~~e2

FIGURE

18.2

Supposons IRi" muni d'une mtrique M. On notera comme au chapitre 7, a l'axe discriminant, u le facteur associ u = Ma, la variable discriminante sera Xu. En projection sur J'axe a, les k centres de gravit doivent tre aussi spars que possible, tandis que chaque sous-nuage doit se projeter de manire groupe autour de la projection de son centre de gravit. En d'autres termes, l'inerte du nuage des gj projets sur a doit tre maximale. La matrice d'inertie du nuage des g est lVIBlVl, l'inertie du nuage projet sur a est a'IVIBMa si a est M-norm 1.

n faut aussi qu'en projection sur a, chaque sous-nuage reste bien group, donc que a'lVIVj Ma soit faible pour j = 1, 2 ... , k.
On cherchera donc minimiser la moyenne

2: qja'lVIVj Ma soit a'MWMa.


}=I

Or la relation V n + W entrane que lVIVlVl a'MBlVla + a'IVIWMa.

= lVIBlVl + lVIWIVl, donc que: a'MVMa ::=

On prendra alors comme critre, la maximisation du rapport de "inertie interclasse "inertie totale.

1B.Analyse discrimnante et rgression logistique

443

Soit:
a'MBlVla max---ua' J\!I V!VI a

On sait, que ce maximum est atteint si a est vecteur propre de (lVIVlVI)-1 MBM associ sa plus grande valeur propre k, :
lVI-1V-1BlVla = .[a

A l'axe discriminant a est alors associ le facteur discriminant u, tel que u On a alors:

Ma.

Les facteurs discriminants, donc les variables discriminantes Xu, sont indpendants de la mtrique !VI. On choisira par commodit lVl V- I qui donne BV-Ia .a et V-IBu = kU.

On a toujours 0 :::; k! :::; 1 car k, est la quantit maximiser. . 1 = l correspond au cas suivant:

En projection sur a les dispersions intraclasses sont nulles. Les k nuages sont donc chacun dans un hyperplan orthogonal a (fig. 18.3). Il Y a videmment discrimination parfaite si les centres de gravit se projettent en des points diffrents. I = 0 correspond au cus o le meilleur axe ne permet pas de sparer les centres de gravit gj. c'est le cas o ils sont confondus. Les nuages sont donc concentriques et aucune sparation linaire n'est possible (fig. 18.4). Il se peut cependant qu'il existe une possibilit de discrimination non linaire: la distance au centre permet ici de sparer les groupes, mais il s'agt d'une fonction quadratique des variables. La valeur propre est une mesure pessimiste du pouvoir discriminant d'un axe. La figure 18.5 montre qu'on peut discriminer parfaitement car les groupes sont bien spars malgr k < 1. Le nombre des valeurs propres non nulles, donc d'axes discriminants, est gal k 1 dans le cas habituel o Il > P > le el o les variables ne sont pas lies par des relations linaires.
x x

GrO Upe1 x

BY
Xx

g1 =g2
x

x
FIGURE

18.3

FIGURE

18.4

Groupe 2

J)
FIGURE

18.5

444

1BaAnalyse discrimnante et rgression

18.1.2.2

Une analyse en composantes principales (ACP) particulire

D'aprs les quations prcdentes l'analyse factorielle discriminante l'ACP du nuage des k centres de gravi t avec la mtrique V -1 . On en dduit que les variables discriminantes sont non corrles 2 2. S'il existe un second axe discriminant, il est possible de reprsenter le nuage des observations en projection sur le plan dfini par ces deux axes: ce plan est alors celui permet le mieux de visualiser la sparation des observations en classes. Ainsi qu'en ACP, on pourra interprter les variables discriminantes au moyen d'ur des corrlations. Nous verrons plus loin que l'analyse factorielle discriminante quivaut aussi l'ACP gi avec pour mtrique W-I.

18.1.2.3

Une analyse canonique particulire

L'analyse discriminante est l'analyse canonique des tableaux A et X.


En effet, l'quation de l'analyse canonique de A et X donnant les variables canoniques associes X s'crit:

ce qui est identique V-IBu = u d'aprs le paragraphe 1. C'est une nouvelle preuve que les variables discriminantes sont non corrles deux deux. Si "on dsigne par Aa la premire variable canonique associe A solution de l'autre quation de l'analyse canonique:

norme de telle sorte que sa projection sur le sous-espace de ~n engendr par les p variables. explicatives soit identique Xu, on peut prsenter l'analyse discdminante comme la recherche du codage de la variable qualitative qui la rend le plus proche de l'espace engendr par les colonnes de X. Si les p variables explicatives sont cenlTes, alors la variable code l'est aussi et u est le vecteur des coefficients de rgression de Aa sur X. La premire valeur propre
. 1

est alors le carr du coefficient de corrlation multiple.

L'analyse discriminante est donc bien une gnralisation de la rgression multiple au cas o la variable expliquer est qualitative. La fi.gure 18.6 dans ~'l montre l'identit entre les deux conceptions de l'analyse discriminante : analyse canonique d'une part et maximisation de la variance interclasse par rapport la variance totale d'autre part.

Wx est l'espace engendr par les colonnes de X ; WA est l'espace engendr par les indicatrices de la variable expliquer.

lB_Analyse discriminante et rgression logistique

445

Si l'on projette D-orthogonalement la variable discriminant ~ sur W;\ en Aa, le thorme

de pythagore s'crit:

FIGURE

18.6

Variance totale de ~ = variance interclasse

+ variance intrac1asse.

variance interclasse .., La maximisation du rapport. n'est autre que la maximisation de cosvariance totale o est l'angle fonn par Aa et , ce qui est bien le critre de l'analyse canonique.

On appelle d'ailleurs cette mthode analyse discriminante canonique chez les auteurs anglophones.

18.1.2.4

Analyse de variance et mtrique W- 1

Si il n'y avait qu'une seule variable explicative on mesurerait l'efficacit de son pouvoir sparateur sur la vllriable de groupe au moyen d'une analyse de variance ordinaire un facteur. variance interlk 1 La statistique F valant alors . variance intra/n - k Comme il y a p variables on peut rechercher la combinaison linaire dfinie par des coefficients u donnant la valeur maximale pour la statistique de test ce qui revient maximiser:

u'Bu u'Wu
La solution est donne par l'quation:

W-1Bu = J..LU

avec

J..L

maximal
.

Les vecteurs propres de W-1B sont les mmes que ceux de V-lB avec J..L En effeL, Bu = Vu est quivalent :

l -

.'

Bu

= .(W + B)u

soit

(1 - )Bu = .Wu

446

1B.Analyse discriminante et rgression

d'o: Si 0 :::;
:::;

1 on a en revanche 0 :::; 1.1 :::;


I 1

00

et =

1+1.1

L'utilisation de V- ou de W- comme mtrique est donc indiffrent. La mtrique est appele mtrique de Mahalanobis . La convention usuelle dans la plupart des logiciels est d'avoir des variables discrimimmtes dont la variance intrac1asse vaut 1. On doit donc avoir u'Wu = 1. Ce qui revient u'Bu
- - = 1.1 et u'Vu 1-

18.1.2.5

Un exemple classique: les iris de Fisher

Ce fameux exemple sert de jeu d'essai. Les donnes concernent tros espces d'iris versicolor, virginica) reprsentes chacune par 50 individus dcrits par 4 variables (longueur largeur des ptales et spales). Il y a donc uniquement deux axes discriminants ce qui permet une reprsentation plane. On trouve:
J =
2

0.969872 0.222027

l-ll

32.1919 0.2854

3.49.-----~~~----------------~----------------------------~

1.87

C\l

0.24

~+_--------~_4----~~~~~~~----------------+_--~~--~

-1.38

-3.00L---------------------~--~~--------------------------~

-9,17

-4.42

0.34

5.09

9.85

axe 1
FiGURE 18.7 :

Plan discriminant des iris de Fisher

18_Ana1yse discriminante et rgression logistique

447

La figure 18.7 montre, avec les ellipses de tolrance 0.95 (voir 13.6.2), une bonne sparation. L'axe n02 n'est gure discriminant, mais il est bien utile pour faire un graphique et l'carler au vu d'un test statistique serait maladroit.

18.1.3

Rgles gomtriques d'affectation


Il

Ayant trouv la meilleure reprsentation de la sparation en k clusses des peut alors chercher affecter une observation e l'un des groupes.

individus. on

La rgle naturelle consiste calculer les distances de l'observation classer chacun des k centres de gravit et affecter selon la distance la plus faible. Encore faut-il dfinir la mtrique utiliser.

18.1.3.1

Rgle de Mahalanobis-Fisher

Elle consiste utiliser la mtrique ,",V-l (ou V- 1 ce qui quivalent) :

En dveloppant cette quantit on trouve:

Comme e'W-1e ne dpend pas du groupe i, la rgle consiste donc chercher le minimum de g'jW-lg i - 2e'W- l g i ou le maximum de e'W-1g j - (g'jW-l gj )/2. On voit que cette rgle est linaire par rapport aux coordonnes de e. Il faut donc calculer pour chaque individu k fonctions linaires de ses coordonnes et en chercher la valeur maximale. Illustrons ceLLe rgle avec les iris de Fisher: les trois fonctions de classement sont donnes par le tableau suivant.

Variable Constant SepalLength SepalVJidth Pel:alLength Petalij;lidth

Set osa
-85.20986 2.35tJ42 2.35879 -1.64306 1. 73984

Versicolor
-71.75400 1.56982 0.70725 0.52115 0.64342

Virginica
-103.26971 1.24458 0.36853 1.27665 2.10791

Si l'on applique ces rgles aux l50 observations dont on dispose, le tableau suivant (appel matrice de confusion) donne les rsultats de classement: on lrouve que les 50 setosa sont

448

lB_Analyse dscrminante et rgression

partllitement classs et que seuls deux versicolor sont attribus ft r espce viroinica, o qu'un seul virginica est mal class. Ces rsultats semblent mais sont biaiss sens qu'ils surestiment les performances (voir le paragraphe 18.7.2)

De Espece Setosa Versicolor Virginica

Setosa
50
0
0

Versicolor
0

Virginica
0 2

48 1

49

Remarquons que )' application de la rgle gomtrique peut se faire indiffremment l' espace ~/l ou dans l'espace factoriel ~A - J. En particulier si k 3, les frontires d'affectation aux groupes sont des hyperplans 0 gonaux au plan des trois centres de gravit. On peut lire directement les OiSlanCeSi Mahalanobis gl, g2, g3 en utilisant le graphique des deux variables canoniques n'c,-..., ...... nantes normalises 1 (au sens de la variance intraclasse).

18.1.3.2

Insuffisance des rgles gomtriques

L'utilisation de la rgle prcdente conduit des affectations incorrectes lorsque les dispersions des groupes sont trs diffrentes entre elles: rien ne justifie alors l'usage de la mme mtrique pour les diffrents groupes. En effet, si l'on considre la tigure ] 8.8, bien que e soit plus proche de g, que de g2 au sens habituel il est plus naturel d'affecter e la deuxime classe qu' la premire dont le pouvoir d'attraction est moindre.

FIGURE

18.8

Diverses solutions utilisant des mtriques locales Mi telles que:


{(l-(e; gi) = (e - g;)'J\tl i (e - g;)

ont t proposes, la plupart prenant J\tl i proportionnel Vi 1.

discriminante et rgression logistique

449

La question de l'optimalit d'une rgle de dcision gomtrique ne peut cependant tre sans rfrence un modle probabiliste. En effet le problme est de savoir comment rgle se comportera pour de nouvelles observations ce qui impose de faire des hypodistributionnelles sur la rpartition dans l'espace de ces nouvelles observations. On atteint donc ici les limites des mthodes descriptives. Nous verrons plus loin dans quelles conditions elles conduisent des rgles optimales.

FONCTION DE FISHER ET DISTANCE DE MAHALANOBIS POUR DEUX GROUPES


18.2.1 La fonction de Fisher (1936)

II n'y a donc qu'une seule variable discriminante puisque le - 1 = 1.


L'axe discriminant est alors ncessairement la droite reliant les deux centres de gravit g, et gl :

a = (gl

g2)

La variable discriminante d n'obtient en projetant sur a selon la mtrique V-I ou W-I qui tient compte de ]' orientation des nuages par rapport la droite des centres (fig. 18.9).

FIGURE 18.9

Le facteur discriminant u vaut donc:

u = V-1(gt

g2)

ou

qui lui est proportionnel, (voir plus loin)


W-1(gl - g::) est la fonction de Fisher

Pour des raisons d'estimation on prend habituellement non pas W- I mais:


Il I

+n 2 -2 _1 W Il 1 + III

450

1B_Analyse discriminante et rgression logistiqu

On peuL retrouver la dmarche de Fisher par le raisonnement suivant: Cherchons la combinaison linaire des variables explicatives telles que le carr de la tistque du test T cl' galit des moyennes des deux groupes prenne une valeur maximale:
o y = Xu

en posant..!.

.:..

Il, Il,

Il:!,

Il., -

:2

cecI revIent a maXImIser

.,

(u'(g,
A

g:2)2

utIu

u est e ml un

d~f~ .

coefficient multiplicateur prs et doit tre proportionnel

t- I Cg 1 -

g:2)'

18.2.2

Application de l'analyse canonique

On peut trouver l'unique valeur propre de V-lB en remarquant que pour deux groupes'
B

On a donc B

g~)

et symtriquement:

donc en moyennant:

On vritie que u = V-'{gl

g2)

est vecteur propre de V-lB:

avec:

1S_Analyse discriminante et rgression logistique

451

et :

f.L est donc proportionnel au Di, de Mahalanobis estim entre les deux groupes (voir chapitre 14 paragr. 14.4.5.2).

On a exactement:
f.L

ni ., = n(1l Il.,-2) D/'

On trouve alors:

W-I (g, -

g~)

(1 +

Il

IZ(11 -

2)

D~ )V-I (gl 1

- g.,)
-

L'usage de la convention de normalisation u'Wu

1 prsente l'avantage suivant:

Les coordonnes des deux centres de gravit sur l'axe discriminant ont une diffrence gale la distance de Mahalanobis Dl" En effet gj u et gl u sont ces coordonnes o u est le facteur canonique normalis. Celui-ci est proportionnel W-l(gl - g2), la constante de proportionnalit CY tant telle que u'Wu = l soit:

En ngligeant la correction par - - (ou en utilisant ~ la place de W) il vient laI

11

n-2

On a donc:
g2)'ul

= Icyl (gl

- g2)'W- 1 (gl - g;!) = DI'


fi

D2

= DI'

18.2.3

quivalence avec une rgression multiple inhabituelle

L'analyse canonique se rduit ici une rgression multiple puisque aprs avoir centr, l'espace engendr par les deux indicatrices de la variable des groupes est de dimension 1. Il suffit donc de dtinir une variable centre y ne prenant que les deux valeurs a et b sur les groupes 1 et 2 respectivement (ll,a + ll;!b = 0). On obtiendra alors un vecteur des coeftcients de rgression proportionnel la fonction de Fisher pour un choix quelconque de a. Le choix a = - , b = - - condUIt alors b
III

11

11

= (X'X)-lX'y = V-reg,

g2).

Il '2.

452

lB_Analyse discriminante et rgression

On a:

R2 = - - - - ' - - - ----+Dp
llllll

lI(n - 2)

.,

On prendra garde au fait que les hypothses habituelles de la rgression ne sont vrities bien au contraire: ici y est non alatoire et X J'est. Il ne faudra donc pas utiliser statistiques usuelles fournies par un programme de rgression, en particulier les erreurs dard des coefficients et les niveaux de signification. Le fait que la fonction de Fisher puisse tre obtenue par une rgression multiple peu doxe a suscit des controverses et incomprhensions non fondes au profit de la rgre~sslon.i~0i logistique (voir 18.6.3 pour une discussion approfondie).

18.2.4

Fonctions de classement et fonction de Fisher

En appliquant la rgie du paragraphe l8.1.3.1 au cas de deux groupes on d'affecter au groupe 1 si :

solt:

Comme W~I(gl g2) est la fonction de Fisher, la rgle consiste donc affecter au groupe 1 s la valeur de la foncton discriminante est suprieure au seuil:

Lorsque les deux groupes sont de mme effectif gl fonction C'W-I(gl - g2) est positive.

g2

0 ; on affecte au groupe 1 s la

18.2.5

Exemple infarctus

Les donnes du tableau 18.1 (communiques par I-P, Nakache) concernent 101 victimes d'infarctus du myocarde (51 dcderont, 50 survivront) sur lesquels ont t mesures leur admission dans un servce de cardiologie 7 variables (frquence cardiaque, index cardiaque, index systolique, pression diastolique, pression artrielle pulmonaire, pression ventriculaire, rsistance pulmonaire), Le tableau 18.2 donne les statistiques lmentaires par groupe.

1B.Analyse discriminante et rgresson logistique

453

TABLEAU
FRCAR INCAR INSYS

18.1
PAPUL 19.5
PVEN'l'

PRDI.'-'.

REPUL 912 1657 782 1418 1664

PRONO SURVIE DECES DECES

90 90 120 82

1.71 1. 68
1.LlO

9.0 18.7
. ";

31.0

1. 79
.58 1.13

2l.

14
:21

80
80

19.7 14.1
21.7 14.9 27.7 22.8

94 80 78 100 90

.011
1. 2.16 2.28 2.79 2.70 2.61 2.84
3.1.:1

18 23

29.0 17.5 28.0 23.5

16
15
16 15 8

31.0
]1. '1

27 .0 21.0 20.5 23.0 25.0


23.0 15.0 17.0 .0 19.0 19.0 14.0

16.0 .0 8.0 10.0 18.5 9.0 10.0 16.5 .5 4.0

SURVIE
DECES DECES

1059
1412

SURVIE
SURVIE SUHVIE

759
807
7i

SURVIE
SURVIE SURVIE SURVIE

8.0
9.5 .0 ] .0 11.0 11. 0 3.0

86
80 61
q')

681
4.60 '179

96

86
125 80

82 110 80
118 95 80

2.47 1. 88 1. 70 3.37 2.01 3.15 1. 66 1. 50 1. 03 .89 1. 45

32.6 tn.3 31.8 26.8 19.6 19.8 26.9 25.0 8. L1 15.1

11

SURVIE
SURVIE SURVIE SUnifIE SURVIE SURVIE

lS
12 12 18 15 13 23 13 19
5

513
615 809 659 665 796 508
14911

10.5
6.0 6.0 6.0 6.5 12.0 10.0 20.0 15.0 10.0 10.0 10.0 11. 0 10.0 20.0 13.0 10.0 10.0 16.0 6.0 10.0 6.0 12 .0 8.0 15.5 10.0
1Ll.0

28.0
.0

SUEVIE
SURVIE DECES DECES DECES DECES DECES DECES DECES SURVIE

20.0 31.0
l .0

18.7
8.7 19.9 8.

907
2097 1143

19
13 18 25 18

85
105 122 81 118 87

1. 30
1. 84 2.79 .77 2.31 1. 20 1. 2.15 0.91 2.54 2.08 1. 93 0.95 2.38

65
8tl

15.1 .5 22 .9 :'21.9 19.6 13 . 18.3

27.0 27.0 23.0 18.0 22.0 36.0


27.0 .0 41. 0 18.0

1269 1108 957 1032


1220

SURVIE
SUHVIE DECES DECES SURVIE DECES SURVIE

22
34

15
27 30
24

935 2733 1210


1377

25.6
8.8 33.9 23.1

103

75
90
90

90

21. 4 10.6
36.6 10.4 8.9 23.8

65
95 95 86

0.99
0.85 :;; . 2.02 1. 44 3.06 1. 31 1.:2 9
1. 47 1. 21

20 11 20 16 20 1.9

37.0 33.5 31.0 28.0 18.0

29/j5 976 1077 746


2021 739 2222 207l 1093 871 14172 392
2443

SURVIE
SURVIE DECES SURVIE DECES DECES SUHVIE SURVIE DECES SURVIE DECES DECES

24.0
22.0 27.5 22.0 28.0 22.0 .5 15.0 40.0 31.0

82 70
92 94

24.6 20.6
33.3 13 .9 .3

16 19

o
26
24 15 19

79

67
75

21. 9
16.1

18.0
2'1.0

11. 0 6.0 15.0 10.0 16.0 4.0

1922 980 1587

SUHVIE
DECES

454

1B_Analyse disc.riminante et rgression

TABLEAU

18.1

(suite et fin)
PAPUL
24.0 16.0 27. 42.0 22.0 27.0 19.0 PVENT 7.0 7.0 11.0 13.0 5.0 3.0 .0 3.0 6.0 9.0 16.0 REPUL 797 390 1774 1816 880 1096 1583
Ll06

INCAR 80 61 110 116 75 110 95 75 80 102 86


2. t1l 3.28 1. 24

INSYS 30.9 54.0 11.3 15.9 26. .4 8.8 26.9 30.9 33.1 15.7 19.4 13. '7 17.6 '11.0 27. 14.8 13.8 35.6 28.8 23.1 9.9 15.9 25.2 23.5 16.1 19. 16.7 11.8 16.1 12.7 27 . 22.2 15.9 13.9 27.4 13 .9

PRDIA
19 22 3 16 18.0 15.0

85
2.00 1. 97 0.96 :2 56 2.32 2.65 1. 60 1. 67 O. 1.76 .. 28 :2.96 1. 37 1. 38 .85 2.51 2.31 1.18 1. 83 2.55 2.17 1. 42 1. 59 1.47 1.23 .45 0.85 2.37 2.40 .91 1. 2.36 1. 56 1. 34 1. 65 2. .03 1.21 1. 34 1.17 l. 74 .31 0.95 1. 92 0.83 0.60 1.

SURVIE DECES DECES DECES

B.O
8.0 13 .0 2 11.0 18.0 .0 23.0 12.0 24.0 25.0 20.0 25.0 16.0 8.0

13 .0
10.0 19.0 31. 0 .0 32.0 33. 7.0 35.0 46.0 31.0 32.0 .0 12.0 36.0 30.0 30.5 24.0

SURVIE SURVIE
SURVIE

8.5
13.0 2.0 .0 6.5 11. 0 11. 0

60
100 80 108

345 574 1550 1102 3122 1500 4.15

SUHVIE
DECES

SURVIE
DECES

SURVIE
STJHVIE

946 2686
1797 898 765 416 2441 1311 957 885 1465 1031 1769 2146 132'1 3106 743 1033 1131 1813 1153 1487 H93 1600 1608 620 1Ll55 1015 2393 1333 1710 1684 1000 2602 5067 1610

100 80 87 100 120 115 101

SURVIE DECES DECES

7.0
20.0 1.0 8.0 8.0 9.0 3.0 10.0 4.0 10.0 11. 0 8.5 11. 0 10.0 4.0 .0 16.0 8.0 '1.0 16.0 7.0 10.0 7.0 3.0 6.0 10.5 6.0 12.0 7.0 3.0

SURVIE!
DECES

SURVIE
DECES DECES

25.0
25.0 .2 19.0

SURVIE
SURVIE DECES

92
87 80 88 104 90 67

20.0
13.0 23.0

26.0
20.5 32.5 33.0 24.0 33.0 22.0 31.0 27.0 43.0 34.0 29.0 25.0 33.0 41. 0 23.5 22.0 17.0 35.0 29.0 28.0 .0 24.0 27.0 38.0 31. 0

SUHVIE
DECES DECES

27 .0
17.0 26.0 15.0 26.0

SUHVIS
DECES

87
108 120 08 86 112 80 95

SURVIE SURVIE
DECES DECES SURVIE DECES DECES DECES

18.0 28.0

]:1.0
2 L1.0 16.0 20.0 .0 17.0 17.0 11. 0 29.0 24.0

17 .0
17.4 22 .7 33.6 12. 26.3 10.6 18.1 9.9 7.0 .3 .4 5.2
13. B

90
90 94 51 110
9G

DECES
SURVIE DECES DECES DECES DECES DECES DECES DECES

132 135 105 99 112

23.0
15.0 18.0 23.0 33.0 .0

B.O
10.0
8.0

DECES
DECES DECES

tB_Analyse discriminante et rgression logistique

455

TABLEAU

18.2

PHONO = DECES VARIABLE FECAE INCAR INSYS PEDIA

HEAN
95.90196078 1.39470588 14.99607843 21.9607843 29.09803922 10.64705882 1797.27450980

51 51 51 51 51 51

PA!:1UL PVENT REPUL

.34429985 739.87296419

PRONO = SURVIE
FECAR INCAR INSYS
PHDIA

PA!?UL PVENT REPUL

50 50 50 50 50 50 50

88.34000000 2.30580000 26.75200000 16.50400000 22.84000000 8.33000000 8tH.38000000

13.811095,21 0.56055035 8.08319597 5.1530L1388 6. '16532352 4.05398519 303.68256050

La distance de Mahalanobis au carr vaut:


D~

= 4.942

d'o

D7

= 2.223

Sous les hypothses de multinonnalit du chapitre 14 paragraphe 14.4.5.2, cette valeur correspond un F = 16.476 :
----.,;.--D2 p(n 2) p

-1

=F

Il

La valeur critique 1 % pour un F(7; 93) tant de 2.84, le D2 est signtcatif d'une diffrence nette entre les deux groupes. On trouve R2

= = 0.5576 et j.L

1.2604.

La variable discrimnante s'obtient alors par la combinaison linaire des 7 variables centres sur la moyenne des deux groupes (tableau 18.3).

TABLEAU

18.3
-0.026'145290 :2.768181397 -0.075037835 0.009115031 -0.074211897 -0.021086258 0.00008.:1078

FRCAR

PRDIA PJl..PUL PVENT HEPUL

456

lB_Analyse discrmnante et rgression

ou si l'on ne centre pas en ajoutant la constante 1.22816 la combinaison linaire des donnes brutes.

nr.;'I"'''''''~._'"

Les coefficients de corrlation linaires de la variable discriminante avec les 7 va ri (les deux groupes confondus) sont indiqus sur le tableau 18.4.
TABLEAU

18.4

FRCPtR INChH

-0.3097

O.
0.8976
-0.6321 -0.5751 -0.3592

INSYS PRDIA
PAPUL

PVEN'I'
REPUL

-0.8676

Les moyennes des deux groupes sur la variable discriminante sont: Dcs Survie On retrouve D7 = + 1. l 005 + 1. 1225 -1.1005 1.1225

= 2.2230.

En appliquant les gomtriques de classement le tableau 18.5 donne pour l'exemple des infarctus les deux fonctions suivantes
TABLEAU J 8.5

DECES
CONS'I'.l\NT FRC",R

SURVIE
-89.9703,1555

-91.57481116 1.53609883
-52.09,144392 5.44165359 -0.64815662

1.47730875
- iJ 5 . 9 '1 0 5 4 613

INCAR
INSYS
PRDIA

PAPUL
PVENT

0.70738671
0.85037707

O.
0.00657667

REPUL

0.00638975

La fonction de Fisher s'obtient par diffrence entre les deux fonctions de classement (survie - dcs). En divisant ensuite les coefticients par la distance de Mahalanobis, on retrouve les coefficients du tableau 18.3.

18.3

lES SVM OU SPARATEURS VASTE MARGE

Lorqul n'y a que deux groupes, rtablissement d'une linaire est quivalente la dtermination d'un hyperplan sparateur, ou frontire plane~ et rciproquement. A la fonction de Fisher 18.10a) est associ l' hyperplan mdiateur (figure 18. Wb ) de gl et g2 (au sens de la mtrique V-I ou "V- 1).

1B_Analyse discriminante et rgression logistique

457

00.0...------------------,
50.0

GO.Q~-------------,

50.0 40.0
....J

3D (]

Cl..

20.0
10.0
OO~----------------------~

0.0

1.0

2.0

30

4.0

0.0 ' - - - - " - - - - - - - - - - - - - - ' 0.0 1.0 2.0 3.0 4.0


INCAR

I~JCAA

FIGURE J 8.1 Oa

Axe discriminant

FIGURE

18. lOb

Frontire

Si l'on note que la fonction de Fisher ne fait que dfinir une combinaison lnaire sans le seuil de classement revient dplacer l'hyperplan paralllement terme constant lui-mme. On peut chercher directement une frontire, linaire ou non, condition de dfinir un critre convenable.

18.3.1

l'hyperplan optimal

La recherche directe d'un hyperplan optimal a fait l'objet de nombreux travaux depuis le perceptron de Rosenblatt (1958). On doit V. Vapnik (1986) d'avoir dfini un critre timalit bas sur la marge , ou largeur d'une zone de part et d'autre de la frontire, et de ravoir des frontires non-linaires grce un changement d'espace. L'objectif tant de classer. on peut chercher minimiser le nombre d'observations mal classes, ou points du mauvais ct de la frontire. Ce critre ne suffit cependant pas dterminer de manire unique un hyperplan sparateur: pour des donnes linairement sparables, il y a une infinit de solutions comme le montre la figure 18.11.

FIGURE

18.1 1

18.3.1.1

Le cas sparable

Soit C la plus petite distance d'un point la frontire. Vapnik a propos que l'hyperplan optimal soit celui qui maximise cette distance, ce qui revient il avoir le plus grand no man's land de part et d'autre de la frontire. La marge qui est la largeur du couloir vaut donc 2C. En dimension 2, on voit sur la figure 18.12 qu'il suftit de trouver les 3 points Xl' X2' x) (appels points support) pour dtinr la frontire: on trace la parallle tl X2, X3 passant par XI' puis la droite au milieu.

458

18111111!i1Anllyse discriminante et rgression

IU)illiT;IIJUE!

'.
.

.......... x2.

"'~....

c lll.....
.....

~.
...~.~
....

Il

."
p

.........

Il XI......

..~~,

FIGURE 18.12

La solution mathmatique est la suivante: L'hyperplan sparateur a pour quation

2:xi rlj + rlo = x/ll + rlo = 0 o les coefficient\)


i=1

rl sont dfinis un facteur multiplicatif prs.


La distance d'un point XI l'hyperplan vaut:

1 Il + rlol X;
111311
Notons Yi = l ou Yi = -} les appartenances aux deux groupes. Pour que les points soient tous du bon ct et une distance suprieure C, il faut pour tout i :

111111 Yi (x;13
et on doit maximiser C sous ces
Les
Il

+ rlo)

2=

contraintes.

rl tant dfinis une constante prs, on choisit

111111

= C. Maximiser C revient mini-

miser 111111, d'o le programme quadratique suivant: minp,pu 111111 {


2

Yi(X;1l

+ rlo)

2=

Ce problme admet une solution unique, dont les proprits sont les suivantes. Soient ai les multiplicateurs de Lagrange associes aux contraintes. En drivant le lagrangien
Il

Il Il Il:! 11

2 2:lY/[Yi (x~1l
/=1
Il

+ rlo) -

L] (le facteur 2 est introduit par commodit), on

trouve (3

2: aYixi et 2: n,Yi
1=1 j;1

0 ainsi que les conditions de Kuhn et Tucker

1B.Analyse discriminante et rgression logistque

459

Si

(Xi

> 0 alors yj(x:~ +

~o)
('if

1 et le point est sur la marge

Si yj(x:~

~o)

>

1 alors

= 0

La rgle de classement est base sur le signe de


f(x)

= ~o +

~
sUppOI1

{XiYiX;X

L'hyperplan optimal ne dpend que des points support o ai est non nul, stus sur la marge. donc les plus difticiles classer, ce qui le diffrencie de l'hyperplan de Fisher: il peut tre plus robuste, car il ne dpend pas des points situs loin de la frontire. On verra au chapitre suivant une proprit supplmentaire concernant la gnralisation fl de futures donnes.

/8.3.1.2

Le cas non-sparable

Dans ce cas certains points seront du mauvais ct de la frontre (figure 18.13), et on va chercher minimiser l'importance de l'erreur de classement. On introduit alors les variables d'cart * et . Pour un point mal class ~* est la distance la marge de sa classe, et on pose * C.

........................
.~....
l1li ....

......~.
'

.... ,l1li

II II

..........

/f...

FIGURE ) 8.

13

On modifie alors les contraintes par Yi(X;~ + f3()'> ;::: 1 - ~i et on introduit une nouvelle contrainte pour borner l'erreur de classement 2:j < este. Le problme d'optimisation se transfomle en :

et donne une solution du mme type que prcdemment:

support

Le paramtre 'Y peut tre rgl par l'utilisateur, mais cela est dlicat. On prconise une optimisation par validation croise, ou avec un autre chantillon.

460

1BIIIIiIAnalyse discriminante et rgression logistique

18.3.2

Changement d'espace

Des donnes non sparables linairement dans leur espace d'origine E. peuvent le devenir aprs un changement d'espace (I>(E), en gnral de dimension plus leve. A une frontire linaire dans (NE), correspond une frontire non-linaire dans E.

U exemple (figure 18.14) suivant est classique avec deux groupes spares par une parabole: en passant de l'espace [R:\ dfini par (1, Xl> X2) l'espace ~6 dfini par (1, XI> X:h XI:'.' X2::'!' XIX:)), on obtient une sparation linaire dans le sous-espace Xl' Xl:!

f~ +~~
1 ..

............... .

FIGURE

18.14

L'hyperplan optimal dans (IJ(E) s'crit f(x)

= 130 +
support

Son quation ne fait intervenir que les produits scalaires entre points transforms. Comme dans le chapitre 7 avec la kemel-ACP, un choix astucieux du produit scalaire P(Xj) ; (lJ(xj ) > = K(x i ; x) vite de calculer explicitemem (I) et permet d'effectuer tous les calculs dans E. Le classiteur crit alors f(x) que sur les points SUppOltS. La capacit prdictive des SVM est leve. Nous verrons plus loin que le risque de biais de surapprentssage qui parat lev, est matris par la maximisation de la marge, condition de ne pas chercher ncessairement une sparation parfaite dans (NE).

2: iYi (p(xj)I(!>(x)) + 130 et la somme n'est effectuer


i=1

/1

K(x, y) = x, y> +

Les exemples suivanls (figure 18.15) sonl obtenus avec le noyau polynomial de degr 3 C)3 et montrent sa flexibilit (logiciel LIB-SVM):

Il

.. . Il. " .-... ,.


JI

-. li:

..

."

. ., ,.' :....
,,:
-..

....
:

III,,~

a.S

...

Il

.,'

..
FIGURE

18.1 5

18aAnalyse discrimnante et rgression logistique

461

18.4

DISCRIMINATION SUR VARIABLES QUALITATIVES

Les mthodes prcdentes ne s'appliquent pas drectementlorsque les prdicteurs ne sont pas numriques, ce qui est pourtant un cas assez courant.

18.4.1

Discriminante sur variables indicatrices

Une solution consiste transformer (quantifier) les prdicteurs en variables numriques discrtes en attribuant des valeurs (notes ou scores partiels) leurs modalits. On cherchera des valeurs optimales ) en un certain sens li aux performances attendues de la discrimination. On a vu au chapitre 9 paragraphe 9.4.1 et au chapitre 17 paragraphe 17.7.1 que cette transformation revient remplacer les variables qualitatives par les indicatrices des catgories. Ains un problme de discrimination sur p variables qualitatives 1111' , In" catgories revient une analyse discriminante de y sur le tableau disjonctif des IHI + ... + ntl) indicatrices des prdicteurs (X1Ix:J .. IXJI)' . Cette matrice n'tant pas de plein rang, V et W ne sont pas inversibles et il y a donc une intnit de solutions quivalentes. On peut alors faire comme pour le modle linaire gnral et liminer une indicatrice pour chaque prdicteur, ce qui quivaut lui donner un coefficient nul. Dans le cas d'une discrimination entre deux classes, la fonction de Fisher calcule sur ces + ... + J/lp -p) indicatrices fournit par ses coefi1cients la quantitication recherche. Cette quantitication rend maximale la distance de Mahalanobis entre les centres de gravit des deux groupes.
(ml

18.4.2

Discrimination sur composantes d'une ACM

On sait que l'ensemble des composantes de l'ACM de X = (X,lx:J .. IXp ) engendre le mme espace que X. S'inspirant de lu rgression sur composantes principales (17.5. J) la mthode Disqual (Saporta, 1975) consiste effectuer l'analyse discriminante sur une slection d'axes. En rduisant la dimension de l'espace des prdicteurs et en liminant des dimensions inutiles, on assure une plus grande robustesse des rsultats. Dtaillons les formules dans le cas de deux groupes, qui on le sait est quivalent une rgression aprs recodage de y. Notons 'Il les composantes de l'ACM el -j les valeurs propres. A l'aide de tests et aussi de l'expertise du statsticien, on liminera les composantes de faible inertie ainsi que celles ne spanmt pas suftisamment les deux groupes: il suftit d'effectuer un test de comparaison de moyennes sur chaque axe. Soit q le nombre de composantes conserves. Comme les composantes sont orthogonales, i1 est plus simple d'inverser V, qui est diagonale, que W. La fonction de Fisher tant dtinie un coefl1cient multiplicatif prs, c'est sans importance. La variable ({ score }) s qui donne la valeur de la fonction de Fisher pour chaque observation s'crit alors s =

2: u
l''''I

fi

zi avec u

g2)

=
(

-;:J _ -;:J ) .." 1\ .... ::' . \ ..

462

7B_Analyse discriminante et rgression logistique

Grce aux formules de transition de r ACM (paragraphe 10.1.3.3), il n'est pas ncessaire d'avoir calculer pour chaque observation ses coordonnes sur les axes factoriels: il suffit d'effectuer la combinaison linaire avec les mmes coefticients llj des coordonnes de ses catgories. En effet un facteur multiplicatif prs, on a zj = Xaj o a j est le vecteur des coordonnes des ml + ... + I1lp modalils sur l'axe n j, d'o:
Q

s =

2: lIJ Xa
J= 1

x.2: IlJ

a)

\~J;...''''_!-.-_-'
grille de !'com

Le score s'exprime alors directement comme combinaison linaire des indicatrices des modalits: pour chaque individu, il suftit d'additionner les scores partiels des modalits qu'il prend. La fonnule ne comporte pas de tenne constant: en pratique ce terme qui correspond au seuil de dcision pOUf classer dans un groupe sera dtennin au vu des erreUfS de classement

18 .. 4.3

Un exemple de credit scoring

(1)

Les donnes analyses, provenant du logiciel SPAD, sont relatives 468 clients d'une banque. On veut prdire la qualit du client (<< bon ou mauvais ) partr de 6 caractristiques qualitatives (voir les rsultats pour le dtail) totalisant 21 modalits. Il y a donc 15 axes. L'ACM avec la qualit client en variable supplmentaire montre un bon pouvoir prdictif: valeurs-test leves pour la variable supplmentaire sur les deux premiers axes.
TABLEAU

18.6

VALEURS PROPRES NUNERO VALEUR POURCENTAGE PEOPRE 0.3401 0.2466 0.2108 0.1948 0.1843 0.1758 0.1700 0.1597 0.1495 0.1375 0.1182 0.1137 0.1092 0.1022 0.0775 13.60 9.87 8.43 7.79 7.37 7.03 6.80 6.39 5.98 5.50 POURCENTAGE
cm1ULE

1 2 3 4 5 7

8
9 10 11 12 13

5.13

4.55
/1.37 4.09 3.10

14

13.60 23.47 31.90 39.69 47.06 54.10 60.90 67.28 73.26 78.76 83.89 88.4'1 92.81 96.90 100.00

********************************** ****************-**-******* ************************ *****,,********** ***** ********************* * ***************** ******************* ****************** ******+********** ***********,,**** **"*****,,**** ************ ****"*** ** ********** *****

Dans la figure 18.16 les tailles des points sont proportionnelles aux effectifs des modalits: on identifie facilement les modalits proches des catgories de client, mais d'autres axes vont se rvler ncessaires.
1II1II Le lecteur intress par les applications au domaine financier se reportera utilemenl Bardos (200 1) etTuftry (2005),

1S_Analyse discriminante et rgression logistique

463

Facteur 2

o veuf

2.25

1.50

0.75

non domicile salaire

plus de 50 ans Ocadre

00
moins de 23 ans

mOns de 2KF encours

profession autre anc. 1 an ou moins

0
mauvais Flient
anc. plus 12 ans 0
~

o ............... ......\Oi7U;;;~ri
clibatare anc. de 4 6 a